• 제목/요약/키워드: 데이터 생성

검색결과 7,159건 처리시간 0.043초

주파수 영역을 활용한 GAN (GAN using Frequency Domain)

  • 이채은;정성훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.567-569
    • /
    • 2023
  • GAN은 이미지 생성모델로서 이미지 공간에서 좋은 결과를 보여왔다. 우리는 이러한 GAN의 능력을 더욱 향상하기 위하여 본 연구에서 주파수 영역에서 이미지를 학습하고 생성하는 새로운 방법을 제안한다. 이를 위하여 먼저 학습데이터를 2D FFT로 주파수 영역으로 변환한 후 변환된 학습데이터를 GAN이 학습하게 한다. 학습 후에 GAN은 새로운 이미지를 생성하며 생성된 이미지를 2D IFFT하여 이미지 공간으로 변환한다. 이렇게 주파수 영역에서 이미지를 생성하는 방법은 이미지 공간에서 생성하는 방법보다 다양한 장점이 있다. 생성된 이미지의 품질을 평가하기 위하여 4개 데이터 셋에 4개의 평가지표를 사용하여 평가한 결과 주파수 영역에서 생성한 이미지가 IS, P&R, D&C 측면에서 더 좋은 것으로 평가되었다.

데이터웨어하우스를 위한 XMDR 기반의 데이터 정제시스템 설계 (Design of data cleansing system based on XMDR for Datawarehouse)

  • 송홍율;첸드 아유시;정계동;최영근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.180-182
    • /
    • 2010
  • 데이터웨어하우스는 기업의 정책을 결정하는데 사용하고 있다. 그러나, 새로운 시스템이 추가되면 데이터 통합 측면에서 시스템간의 여러 가지 이질적인 특성으로 인해 많은 비용과 시간이 필요로 하게 된다. 따라서, 이러한 이질적인 특성을 해결하기 위해 데이터 구조의 이질성 및 데이터 표현의 이질성은 XMDR(eXtended Master Data Registry)를 이용하여 추상화된 쿼리를 생성하고, XMDR에 맞게 쿼리를 분리함으로써 이질성을 해결한다. 특히 본 논문에서는 XMDR을 이용하여 분산 시스템 통합시 로컬시스템의 영향을 최소화하고, 데이터웨어하우스의 정보를 실시간으로 생성하기 위해 분산된 환경에서 데이터 통합을 위한 표준화된 정보를 제공한다. 또한, 기존 시스템의 변경 없이 데이터를 통합하여 비용과 시간을 절감하고, 실시간 데이터 추출 및 정제 작업을 통해 일관성있는 실시간 정보를 생성하여 정보의 품질을 향상시킬수 있도록 한다.

가상 데이터 생성을 통한 딥러닝 기반 문자인식 시스템 제안 (Proposal for Deep Learning based Character Recognition System by Virtual Data Generation)

  • 이승주;박구만
    • 방송공학회논문지
    • /
    • 제25권2호
    • /
    • pp.275-278
    • /
    • 2020
  • 본 논문에서는 가상 데이터 생성을 통한 딥러닝 기반 문자인식 시스템을 제안한다. 지도학습에서 가장 큰 비중을 차지하는 학습 데이터를 확보하기 위하여 가상 데이터를 생성하였다. 또한 가상 데이터를 생성 후 증강 파라미터를 이용하여, 실제 다양한 데이터에 대응하기 위해서 데이터 일반화를 하였다. 최종적으로 학습 데이터 구성은 증강 파라미터와 폰트 인자에 다양한 값을 대입하여 데이터를 생성하였다. 문자인식 성능을 측정하기 위한 테스트 데이터는 실제 촬영된 이미지 데이터에서 문자영역을 크롭하여 구성하였다. 테스트 데이터는 실제환경에서 발생할 수 있는 이미지 왜곡을 고려하여 데이터 증강하였다. 딥러닝 알고리즘은 실시간 검출에 용이한 YOLO v3를 사용하였으며, 추론결과는 후처리를 통하여 최종 검출결과를 출력한다.

다중 도메인 답변 생성 모델을 위한 인간의 기억 시스템을 모방하는 지속 학습 기법 (Continual Learning with Mimicking Human Memory System For Multi-domain Response Generator)

  • 이준범;박형준;송현제;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-220
    • /
    • 2021
  • 다중 도메인에 대해 답변 생성 모델이 동작 가능하도록 하는 가장 쉬운 방법은 모든 도메인의 데이터를 순서와 상관없이 한번에 학습하는 것이다. 하지만 이경우, 발화에 상관 없이 지나치게 일반적인 답변을 생성하는 문제가 발생한다. 이에 반해, 도메인을 분리하여 도메인을 순차적으로 학습할 경우 일반적인 답변 생성 문제를 해결할 수 있다. 하지만 이경우 새로운 도메인의 데이터를 학습할 때, 기존에 학습한 도메인에 대한 성능이 저하되는 파괴적 망각 현상이 발생한다. 파괴적 망각 현상을 해결하기 위하여 다양한 지속학습기법이 제안되었으며, 그 중 메모리 리플레이 방법은 새로운 도메인 학습시 기존 도메인의 데이터를 함께 학습하는 방법으로 파괴적 망각 현상을 해결하고자 하였다. 본 논문에서는, 사람의 기억 시스템에 대한 모형인 앳킨슨-쉬프린 기억 모형에서 착안하여 사람이 기억을 저장하는것과 유사한 방법으로 메모리 리플레이 방법의 메모리 관리방법을 제안하였고, 해당 메모리 관리법을 활용하는 메모리 리플레이 방법을 통해 답변 생성 모델의 파괴적 망각 현상을 줄이고자 하였다. 다중 도메인 답변 생성에 대한 데이터셋인 MultiWoZ-2.0를 사용하여 제안 모델을 학습 및 평가하였고, 제안 모델이 다중 도메인 답변 생성 모델의 파괴적 망각 현상을 감소시킴을 확인하였다.

  • PDF

100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋 (100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models)

  • 비립;강예지;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-154
    • /
    • 2023
  • 본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

  • PDF

클러스터링 기법을 이용한 침입 탐지 시스템의 경보 데이터 상관관계 분석 (Alert Correlation Analysis based on Clustering Technique for IDS)

  • 신문선;문호성;류근호;장종수
    • 정보처리학회논문지C
    • /
    • 제10C권6호
    • /
    • pp.665-674
    • /
    • 2003
  • 이 논문에서는 침입 탐지 시스템의 탐지 효율을 높이기 위해 데이터 마이닝의 클러스터링 기법을 이용하여 경보 데이터를 그룹화하고 그 결과를 이용하여 경보 데이터의 상관 관계를 분석하는 방법을 제안하였다. 즉 클러스터링 기법을 이용하여 경보데이터를 사용자가 원하는 개수의 그룹으로 분류하고, 생성된 경보 데이터 클러스터 모델을 이용하여 새로운 경보 데이터을 분류할 수 있도록 하였다. 또한, 결과 클러스터의 생성 원인이 되는 이전의 경보의 분포 데이터를 저장 관리하여 클러스터 간의 시퀀스를 생성하였고, 생성된 각각의 클러스터 시퀀스를 통합하여 클러스터들의 시퀀스를 추출하여 발생한 경보 이후의 향후 발생 가능한 경보 타입을 예측하기 위한방법을 제공하였다. 이는 과거에 탐지된 공격의 형태 뿐만 아니라 새로운 혹은 변형된 경보의 분류나 분석에도 이용 가능하다. 또한 생성된 클러스터간의 생성 원인의 분석에 의한 클러스터 간의 순차적인 관계의 추출을 통해 사용자가 공격의 순차적 구조나 탐지된 각 공격 이면에 감추어진 전략을 이해하는데 도움을 주며 현재의 경보 이후에 발생 가능한 경보들을 얘측할 수 있다.

효율적인 침입탐지를 위한 네트워크 정보와 시스템 콜 정보융합 방법개발 (Data Fusion of Network and System Call Data For Efficient Intrusion Detection)

  • 문규원;김은주;류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.208-210
    • /
    • 2004
  • 최근 인터넷, 인트라넷과 같은 통신 기술 발전에 따라 거의 모든 시스템이 서로 연결되었고, 사용자들은 손쉽게 정보를 공유할 수 있게 되었다. 따라서 시스템 침입을 통한 데이터의 변형과 인증 받지 않은 접근과 같은 컴퓨터 범죄가 급속도로 증가하고 있다. 그러므로 이러한 컴퓨터 범죄를 막기 위한 침입 탐지 기술 개발은 매우 중요하다. 전통적인 침입 탐지 모델은 단지 네트워크 패킷 데이터만을 사용하고 있으며. 침입탐지 시스템의 성능을 높이기 위해 서로 다른 분류 알고리즘을 결합하는 방법을 사용해왔다. 그러나 이러한 모델은 일반적으로 성능향상에 있어서 제한적이다. 본 논문에서는 침입탐지 시스템의 성능을 개선하기 위해 네트워크 데이터와 시스템 콜 데이터를 융합하는 방법을 제안하였으며. 데이터 융합 모델로서 Multi-Layer Perceptron (MLP)를 사용하였다. 그리고 DARPA 에서 생성한 네트워크 데이터와 본 논문에서 가상으로 생성한 시스템 콜 데이터를 함께 결합하여 모델을 생성 한 뒤 실험을 수행하였다. 본 논문에서의 실험결과로. 단순히 네트워크 데이터만을 사용한 모델에 비해 시스템 콜 데이터를 함께 결합한 모델이 훨씬 더 놓은 인식률을 보인다는 것을 확인할 수 있다

  • PDF

의료기기에서 생성되는 사운드 생체신호 분석을 위한 빅데이터 플랫폼 설계 (Design of Big Data Platform for Sound Bio-Signal Analysis from Medical Devices)

  • 고광만;김성진;신정훈;윤희선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.932-933
    • /
    • 2014
  • 최근에는 의료 빅데이터 분야에서 의료기기, 의료전문가로부터 생성 또는 감지되는 사운드 생체신호(심장박동, 호흡, 맥박, 진맥) 데이터의 특징을 디지털 데이터로 추출하여 패턴 데이터로 변환한 후, 이를 빅데이터 분석 플랫폼 기반으로 분석하여 진료, 처방, 예방 등에 유용한 정보를 생성하는 모델 구축 연구가 활성화되고 있다. 본 논문에서는 사운드 생체신호 특징을 디지털 데이터로 추출하여 (주)리아컴즈 NeoQubit 빅데이터 플렛폼을 기반으로 패턴 데이터를 분석하고 예측할 수 있는 모델을 제시한다.

컴퓨터 비전 정확도 향상을 위한 시뮬레이션 기반 가상 데이터 생성기법 (Virtual Data Generation Method based on Simulation to Improve Accuracy of Computer Vision)

  • 강지수;최창범;장한얼
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.390-392
    • /
    • 2022
  • 기계학습 분야에서 모델을 학습시키려면 많은 양의 데이터가 필요하다. 최근에는 컴퓨터 비전 분야에서 데이터가 적은 환경에서 모델을 학습하는 다양한 방법들이 소개되고 있다. 하지만 대부분의 방법을 사용하기 위해서는 어느 정도 최소한의 학습 데이터가 필요하기 때문에 극심하게 데이터가 부족한 환경에서는 사용하기 어렵다. 본 논문에서는 컴퓨터 비전 분야에서 기계학습을 사용할 때 극심하게 데이터가 부족한 환경에서 시뮬레이션 도구를 활용한 인조 데이터 생성 방법을 제안한다. 실험 결과를 통해 시뮬레이션 도구를 활용하여 생성한 인조 데이터로 학습한 모델이 실제 데이터만을 학습한 모델을 대체할 수 있음을 확인하였고, F-1 점수와 정확도가 향상함을 실험적으로 확인하였다.

이동 객체의 궤적 처리를 위한 색인 구조 및 궤적 데이터 생성 알고리즘 (Index Structure and Trajectory Data Generation Algorithm to Process the Trajectory of Moving Object)

  • 채철주;김용기
    • 한국융합학회논문지
    • /
    • 제10권4호
    • /
    • pp.33-38
    • /
    • 2019
  • 최근 다양한 LBS(location-based service) 서비스를 지원하기 위해 실제 공간 네트워크를 고려한 연구가 활발하게 진행 중이다. 이를 위해, 도로 네트워크에서 데이터 처리를 위한 실험 데이터가 다수 존재한다. 그러나 이러한 이동 객체의 궤적을 처리하기 위한 데이터는 이용하기에 적합하지 않다. 따라서 본 논문에서는 도로 네트워크 환경에서 궤적 데이터를 처리할 수 있는 색인 구조와 궤적 데이터 생성 알고리즘을 제안한다. 또한, 제안하는 구조와 알고리즘의 우수성을 입증하기 위해, 샌프란시스코 맵으로부터 만들어진 데이터를 이용하여 제안하는 알고리즘을 통해 에지 기반의 궤적 데이터를 생성됨을 보인다.