• Title/Summary/Keyword: 데이터 생성

Search Result 7,054, Processing Time 0.034 seconds

Automatic question generation based on image captioning data & visual QA data (Image captioning 데이터와 Visual QA 데이터를 활용한 질문 자동 생성)

  • Lee, Gyoung Ho;Choi, Yong Seok;Lee, Kong Joo
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.176-180
    • /
    • 2016
  • 대화형 시스템이 사람의 경청 기술을 모방할 수 있다면 대화 상대방과 더 효과적으로 상호작용 할 수 있을 것이다. 본 논문에서는 시스템이 경청 기술을 모방할 수 있도록 사용자의 발화를 기반으로 질문을 생성하는 것에 대해 연구하였다. 그리고 이러한 연구를 위해 필요한 데이터를 Image captioning과 Visual QA 데이터를 기반으로 생성하고 활용하는 방안에 대해 제안한다. 또한 이러한 데이터를 Attention 메커니즘을 적용한 Sequence to sequence 모델에 적용하여 질문을 생성하고, 생성된 질문의 질문 유형을 분석하였다. 마지막으로 사람이 작성한 질문과 모델의 질문 생성 결과 비교를 BLEU 점수를 이용하여 수행하였다.

  • PDF

Personality Consistent Dialogue Generation in No-Persona-Aware System (페르소나 대화모델에서 일관된 발화 생성을 위한 연구)

  • Moon, Hyeonseok;Lee, Chanhee;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.572-577
    • /
    • 2020
  • 일관된 발화를 생성함에 있어 인격데이터(persona)의 도입을 이용한 연구가 활발히 진행되고 있지만, 한국어 데이터셋의 부재와 데이터셋 생성의 어려움이 문제점으로 지적된다. 본 연구에서는 인격데이터를 포함하지 않고 일관된 발화를 생성할 수 있는 방법으로 다중 대화 시스템에서 사전 학습된 자연어 추론(NLI) 모델을 도입하는 방법을 제안한다. 자연어 추론 모델을 이용한 관계 분석을 통해 과거 대화 내용 중 발화 생성에 이용할 대화를 선택하고, 자가 참조 모델(self-attention)과 다중 어텐션(multi-head attention) 모델을 활용하여 과거 대화 내용을 반영한 발화를 생성한다. 일관성 있는 발화 생성을 위해 기존 NLI데이터셋으로 수행할 수 있는 새로운 학습모델 nMLM을 제안하고, 이 방법이 일관성 있는 발화를 만드는데 기여할 수 있는 방법에 대해 연구한다.

  • PDF

Learning model management platform based on hash function considering for integration from different timeseries data (서로 다른 시계열 데이터들간 통합 활용을 고려한 해시 함수 기반 학습 모델 관리 플랫폼)

  • Yu, Miseon;Moon, Jaewon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.45-48
    • /
    • 2022
  • IoT 기술의 발전 및 확산으로 다양한 도메인에서 서로 다른 특성의 시계열 데이터가 수집되고 있다. 이에 따라 단일 목적으로 수집된 시계열 데이터만 아니라, 다른 목적으로 수집된 시계열 데이터들 또한 통합하여 분석활용하려는 수요 또한 높아지고 있다. 본 논문은 파편화된 시계열 데이터들을 선택하여 통합한 후 딥러닝 모델을 생성하고 활용할 수 있는 해시함수 기반 학습 모델 관리 플랫폼을 설계하고 구현하였다. 특정되지 않은 데이터들을 기반하여 모델을 학습하고 활용할 경우 생성 모델이 개별적으로 어떤 데이터로 어떻게 생성되었는지 기술되어야 향후 활용에 용이하다. 특히 시계열 데이터의 경우 학습 데이터의 시간 정보에 의존적일 수밖에 없으므로 해당 정보의 관리도 필요하다. 본 논문에서는 이러한 문제를 해결하기 위해 해시 함수를 이용해서 생성된 모델을 계층적으로 저장하여 원하는 모델을 쉽게 검색하고 활용할 수 있도록 하였다.

  • PDF

DART: Data Augmentation using Retrieval Technique (DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구)

  • Seungjun Lee;Jaehyung Seo;Jungseob Lee;Myunghoon Kang;Hyeonseok Moon;Chanjun Park;Dahyun Jung;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

Incremental Decision Tree Classifier Using Global Discretization For Large Dataset (전역적 범주화를 이용한 대용량 데이터를 위한 순차적 결정 트리 분류기)

  • 한경식;이수원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.352-354
    • /
    • 2002
  • 최근 들어, 대용량의 데이터를 처리할 수 있는 결정 트리 생성 방법에 많은 관심이 집중되고 있다. 그러나, 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 예제가 추가되면 이 예제를 반영한 결정 트리를 생성하기 위해 처음부터 다시 재생성해야 한다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있다. BOAT는 대용량 데이터를 지원하는 순차적 알고리즘이 지만 분할 포인트가 노드에서 유지하는 신뢰구간을 넘어서는 경우와 분할 변수가 변경되면 그에 영향을 받는 부분은 다시 생성해야 한다는 문제점을 안고 있고, 이에 반해 ITI는 분할 포인트 변경과 분할 변수 변경을 효율적으로 처리하지만 대용량 데이터를 처리하지 못해 오늘날의 순차적인 트리 생성 기법으로 적합하지 못하다. 본 논문은 ITI의 기본적인 트리 재구조화 알고리즘을 기반으로 하여 대용량 데이터를 처리하지 못하는 ITI의 한계점을 극복하기 위해 전역적 범주화 기법을 이용한 접근방법을 제안한다.

  • PDF

A method for creating the Scene closed-caption metadata based on RNN-LSTM (RNN-LSTM 기반 장면 자막 메타데이터 생성 방법)

  • Kwak, Chang-Uk;Kim, Sun-Joong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.153-155
    • /
    • 2018
  • 정확한 영상 검색을 지원하기 위해 다양한 데이터와 방법들을 통한 메타데이터 생성 연구들이 이루어지고 있다. 자막 데이터를 기존의 키워드 기반의 메타데이터 생성 방법을 이용했을 경우, 구어체, 불완전 문장의 특징을 가진 특징을 반영하는데 어려움이 있었다. 또한, 단순히 키워드 매칭에 의존하기 때문에 문장에 중의적 단어가 포함되어 있을 경우에 검색 정확도가 떨어진다는 한계점이 있다. 따라서, 본 논문에서는 이러한 문제를 해결하기 위해 문장 전체를 특정 단위로 표현한 메타데이터를 생성한다. 이를 위해 비지도 학습인 RNN-LSTM 기반 네트워크를 이용하여 자막을 인코딩하고 장면 지식으로 생성하는 방법을 제안한다. 실험에서는 본 시스템을 통해 임의의 자막을 입력하고 유사도 기반의 결과 비교를 통해 자막 메타데이터의 정성적 평가를 수행하였다.

  • PDF

Entity Embeddings for Enhancing Feasible and Diverse Population Synthesis in a Deep Generative Models (심층 생성모델 기반 합성인구 생성 성능 향상을 위한 개체 임베딩 분석연구)

  • Donghyun Kwon;Taeho Oh;Seungmo Yoo;Heechan Kang
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.22 no.6
    • /
    • pp.17-31
    • /
    • 2023
  • An activity-based model requires detailed population information to model individual travel behavior in a disaggregated manner. The recent innovative approach developed deep generative models with novel regularization terms that improves fidelity and diversity for population synthesis. Since the method relies on measuring the distance between distribution boundaries of the sample data and the generated sample, it is crucial to obtain well-defined continuous representation from the discretized dataset. Therefore, we propose an improved entity embedding models to enhance the performance of the regularization terms, which indirectly supports the synthesis in terms of feasible and diverse populations. Our results show a 28.87% improvement in the F1 score compared to the baseline method.

An Alloy Specification Based Automated Test Data Generation Technique (Alloy 명세 기반 자동 테스트 데이터 생성 기법)

  • Chung, In-Sang
    • The KIPS Transactions:PartD
    • /
    • v.14D no.2
    • /
    • pp.191-202
    • /
    • 2007
  • In general, test data generation techniques require the specification of an entire program path for automated test data generation. This paper presents a new way for generating test data automatically een without specifying a program path completely. For the ends, this paper presents a technique for transforming a program under test into Alloy which is the first order relational logic and then producing test data via Alloy analyzer. The proposed method reduces the burden of selecting a program path and also makes it easy to generate test data according to various test adequacy criteria. This paper illustrates the proposed method through simple, but illustrative examples.

Automated Test Data Generation for Testing Programs with Flag Variables Based on SAT (SAT를 기반으로 하는 플래그 변수가 있는 프로그램 테스팅을 위한 테스트 데이터 자동 생성)

  • Chung, In-Sang
    • The KIPS Transactions:PartD
    • /
    • v.16D no.3
    • /
    • pp.371-380
    • /
    • 2009
  • Recently, lots of research on automated test data generation has been actively done. However, techniques for automated test data generation presented so far have been proved ineffective for programs with flag variables. It can present problems when considering embedded systems such as engine controllers that make extensive use of flag variables to record state information concerning devices. This paper introduces a technique for generating test data effectively for programs with flag variables. The presented technique transforms the test data generation problem into a SAT(SATisfiability) problem and makes advantage of SAT solvers for automated test data generation(ATDG). For the ends, we transform a program under test into Alloy which is the first-order relational logic and then produce test data via Alloy analyzer.

Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm (연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견)

  • Kim, Dong-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF