Search | Korea Science

DART: Data Augmentation using Retrieval Technique (DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구)

Seungjun Lee;Jaehyung Seo;Jungseob Lee;Myunghoon Kang;Hyeonseok Moon;Chanjun Park;Dahyun Jung;Jaewook Lee;Kinam Park;Heuiseok Lim
- Annual Conference on Human and Language Technology
- /
- 2022.10a
- /
- pp.313-319
- /
- 2022
최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.
PDF

Domain adaptation of Korean coreference resolution using continual learning (Continual learning을 이용한 한국어 상호참조해결의 도메인 적응)

Yohan Choi;Kyengbin Jo;Changki Lee;Jihee Ryu;Joonho Lim
- Annual Conference on Human and Language Technology
- /
- 2022.10a
- /
- pp.320-323
- /
- 2022
상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.
PDF

Korean Machine Reading Comprehension using Continual Learning (Continual Learning을 이용한 한국어 기계독해)

Shin, JoongMin;Cho, Sanghyun;Choi, Jaehoon;Kwon, Hyuk-Chul
- Annual Conference on Human and Language Technology
- /
- 2021.10a
- /
- pp.609-611
- /
- 2021
기계 독해는 주어진 지문 내에서 질문에 대한 답을 기계가 찾아 답하는 문제이다. 딥러닝에서는 여러 데이터셋을 학습시킬 때에 이전에 학습했던 데이터의 weight값이 점차 사라지고 사라진 데이터에 대해 테스트 하였을때 성능이 떨어진 결과를 보인다. 이를 과거에 학습시킨 데이터의 정보를 계속 가진 채로 새로운 데이터를 학습할 수 있는 Continual learning을 통해 해결할 수 있고, 본 논문에서는 이 방법을 MRC에 적용시켜 학습시킨 후 한국어 자연어처리 Task인 Korquad 1.0의 MRC dev set을 통해 성능을 측정하였다. 세 개의 데이터셋중에서 랜덤하게 5만개를 추출하여 10stage를 학습시킨 50K 모델에서 추가로 Continual Learning의 Learning without Forgetting를 사용하여 학습시킨 50K-LWF 모델이 F1 92.57, EM 80.14의 성능을 보였고, BERT 베이스라인 모델의 성능 F1 91.68, EM 79.92에 비교하였을 때 F1, EM 각 0.89, 0.22의 향상이 있었다.
PDF

A Design of Huffman Coding Based on Entropy Decoder for Motion JPEG (Motion JPEG용 허프만코딩 기반의 엔트로피 디코더 설계)

Kim, Kyung-Hyun;Sohn, Seung-Il;Lee, Min-Soo
- Proceedings of the Korean Institute of Information and Commucation Sciences Conference
- /
- 2008.05a
- /
- pp.89-92
- /
- 2008
정보화 사회가 진행되어감에 따라 카메라 센서, 디지털 카메라, 휴대폰, 영상 관련디지털 기기들이 증가하고 이로 인하여 영상정보 서비스 기술의 중요성이 크게 부각되었다. 특히 멀티미디어 응용서비스 기술에서는 영상 정보가 필수적인데, 그 영상 정보의 양이 너무 방대하여 압축 부호화를 하여 사용되고 있다. 본 논문에서는 정지영상압축 방법 중 JPEG표준에서 제시한 4가지 동작 모드 중 베이스라인을 기반으로 하는 JPEG 알고리즘을 연구하여 허프만코팅 기반의 엔트로피 디코더의 불규칙적인 데이터 입출력타이밍의 효과적인 제어를 통해 Motion JPEG에서 동작 가능한 디코더를 C언어를 통해 시뮬레이션하고 최적화된 결과를 VHDL로 구현하였다.
PDF

Development of Out-of-Core Equation Solver with Virtual Memory Database for Large-Scale Structural Analysis (가상 메모리 데이타베이스를 이용한 대규모 구조해석용 코어 외 방정식 해석기법의 개발)

이성우;송윤환;이동근
- Computational Structural Engineering
- /
- v.4 no.2
- /
- pp.103-110
- /
- 1991
To solve the large problems with limited core memory of computer, a disk management scheme called virtual memory database has been developed. Utilizing this technique along with memory moving scheme, an efficient in-and out-of-core column solver for the sparse symmetric matrix commonly arising in the finite element analysis is developed. Compared with other methods the algorithm is simple, therefore the coding and computational efficiencies are greatly enhanced. Analysis example shows that the proposed method efficiently solve the large structural problem on the small-memory micro-computer.
PDF

객체 지향형 Feature 표현 기법에 의한 공정 계획 시스템

김인태;서효원;김호룡
- Proceedings of the Korean Society of Precision Engineering Conference
- /
- 1993.04b
- /
- pp.375-379
- /
- 1993
공정계획(process planning)이란 제품에 대한 설계정보 및 제한된 가용자원에 대한 정보를 바탕으로 비용, 생산량을 고려하여 원자재를 원하는 형태로 변형시키기 위한 방법의 체계적인 결정과정이라 할 수 있으며, 생산계획(production planning: scheduling)이나 작업계획(operation planning)과 연계하여 설계와 생산을 연결하는 교량 역할을 수행한다. 이러한 공정계획 작업을 컴퓨터에 의해 자동화하기 위한 컴퓨터 원용 공정계획(computer aided process planning : CAPP)은 변환적 방식(variant approach)에서 시작되어 창생적 방식(generative approach)으로 발전되어 왔으며 인공지능 기법을 응용 한 지식기반 CAPP(knowledge based CAPP) 방식에 이르기 까지 CAM-1's CAPP, APPAS, GARE, SIPS, XCUT등 수많은 연구가 행해 졌다. 본 연구에서는 자동차 부품 업체인 K사의 공정계획 사례를 바탕으로 범용성이 있는 개방형 공정계획 시스템의 개발을 목표로 한다. 본 시스템에서 i) 설계정보는 객체지향에 의해 표현된 형상특징을 사용하고 ii) 공정계획은 국부적 공정계 획과 전체적 공정계획 과정(golbal planning)으로 구별하였고 iii) 공정계획을 위한 정보는 지식 베이스(knowledge base : KB) 와 데이타 베이스(data base : DB)로 구분하였다. 또한 iv) 정보의 모듈화를 통하여 임의의 제조라인에 적합하도록 개방형을 추구하였다.

A Design of Entropy Encoder for JPEG using VHDL (VHDL을 이용한 JPEG용 엔트로피 인코더 설계)

Kwon, Oh-Sung;Kim, Kyung-Hyun;Lee, Min-Soo;Sohn, Seung-Il
- Proceedings of the Korean Institute of Information and Commucation Sciences Conference
- /
- 2007.10a
- /
- pp.781-784
- /
- 2007
정보화 사회가 진행되어감에 따라 카메라 센서, 디지털 카메라, 휴대폰, 영상 관련디지털 기기들이 증가하고 이로 인하여 영상정보 서비스 기술의 중요성이 크게 부각되었다. 특히 멀티미디어 응용서비스 기술에서는 영상 정보가 필수적인데, 그 영상 정보의 양이 너무 방대하여 압축 부호화를 하여 사용되고 있다. 본 논문에서는 정지영상압축 방법 중 JPEG표준에서 제시한 4가지 동작 모드 중 베이스라인을 기반으로 하는 JPEG압축 알고리즘을 연구하여 허프만 인코더의 메모리 사이즈를 줄인 엔트로피 인코더를 C언어를 통해 시뮬레이션하고 최적화된 결과를 VHDL로 구현하여 향후 디코더나 Motion JPEG연구에 응용 가능하도록 연구 및 분석, 평가 하였다. 설계결과 11-bit 한 입력 데이터가 처리되는데 5-clock이 소요 되었고 Xilinx xc3s1000 환경에서 21,962개의 게이트 수와 74.212MHz의 동작 속도를 나타내었다.
PDF

Personalized Keyword Extraction using Dialogue History (과거 대화 정보를 사용한 개인화된 대화 키워드 추출)

Go, Jun-Ho;Son, Jeong-Woo;Song, Hyun-Je;Park, Se-Young
- Proceedings of the Korean Information Science Society Conference
- /
- 2012.06b
- /
- pp.267-269
- /
- 2012
본 논문에서는 대화에서 그래프 기반 키워드를 추출하는 방법을 제안한다. 대화의 특성상 길이가 짧고, 생략이 많아 키워드 간의 연결 정도를 판단하기 힘들다. 이를 보완하기 위해 본 논문에서는 과거의 개인 대화 정보를 활용한다. 과거 대화 정보는 시간의 흐름이 반영된 현재 대화가 이뤄지기 전 말하고 듣는 것을 지칭하며, 이를 활용함으로써 개인화된 키워드를 발견할 수 있게 도와준다. 키워드 추출에 있어 현재 대화에서만을 고려하는 기존 연구와 달리, 제안한 방법은 앞서 구축된 과거 정보를 활용하여 그래프를 확장한 후 키워드를 추출한다. 실험을 통해 제안하는 방법이 베이스라인보다 현재 문장을 잘 반영할 수 있는 키워드를 추출함을 보인다.

R²FID: Joint Reranker in Fusion-In-Decoder for Open Domain Question Answering over Tables (R²FID: Joint Reranker기반 Fusion-In-Decoder를 이용한 오픈 도메인 테이블 질의 응답)

Sung-Min Lee;Eunhwan Park;Seung-Hoon Na;Daeryong Seo;Donghyeon Jeon;Inho Kang
- Annual Conference on Human and Language Technology
- /
- 2022.10a
- /
- pp.100-104
- /
- 2022
오픈 도메인 질의 응답(Open Domain Question Answering)은 주어진 질문에 대한 단서가 주어지지 않은 환경에서 정답을 도출해 내는 어려운 문제이다. 최근 테이블 데이터와 같은 구조화된 데이터에서의 질의응답 시스템에 대한 중요도가 점차 높아지면서, 본 논문에서는 위키피디아에 등장하는 테이블들을 대상으로 한국어 테이블 오픈 도메인 질의 응답 시스템을 구성하기로 한다. 또한, 테이블 검색의 한계를 보완하기 위해 Joint Reranker 기반 Fusion-In-Decoder를 제안하고 적용하여 질의응답 Task에서 베이스라인에 대비하여 EM 3.36, F1-Score 3.25 향상을 이루어냈다.
PDF

Rertieval-Augmented Generation for Korean Open-domain Question Answering (RAG를 이용한 한국어 오픈 도메인 질의 응답)

Daewook Kang;Seung-Hoon Na;Tae-Hyeong Kim;Hwi-Jung Ryu;Du-Seong Chang
- Annual Conference on Human and Language Technology
- /
- 2022.10a
- /
- pp.105-108
- /
- 2022
오픈 도메인 질의 응답은 사전학습 언어모델의 파라미터에 저장되는 정보만을 사용하여 답하는 질의 응답 방식과 달리 대량의 문서 등에서 질의에 대한 정답을 찾는 문제이다. 최근 등장한 Dense Retrieval은 BERT 등의 모델을 사용해 질의와 문서들의 벡터 연산으로 질의와 문서간의 유사도를 판별하여 문서를 검색한다. 이러한 Dense Retrieval을 활용하는 방안 중 RAG는 Dense Retrieval을 이용한 외부 지식과 인코더-디코더 모델에 내재된 지식을 결합하여 성능을 향상시킨다. 본 논문에서는 RAG를 한국어 오픈 도메인 질의 응답 데이터에 적용하여 베이스라인에 비해 일부 향상된 성능을 보임을 확인하였다.
PDF

Search Result 238, Processing Time 0.029 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)