• Title/Summary/Keyword: 도메인 적응 방법

Search Result 54, Processing Time 0.033 seconds

A Study of Semantic Role Labeling using Domain Adaptation Technique for Question (도메인 적응 기술 기반 질문 문장에 대한 의미역 인식 연구)

  • Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.246-249
    • /
    • 2015
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 10% 정도 성능 하락이 발생한다. 본 논문은 기존 도메인 적응 기술을 이용하여 도메인이 다르고, 문장의 형태도 다를 경우에 도메인 적응 알고리즘을 적용하여, 질의응답 시스템에서 필요한 질문 문장 의미역 인식을 위해, 소규모의 질문 문장에 대한 학습 데이터 구축만으로도 한국어 질문 문장에 대해 성능을 향상시키기 위한 방법을 제안한다. 한국어 의미역 인식 기술에 prior 모델을 제안한다. 제안하는 방법은 실험결과 소스 도메인 데이터만 사용한 실험보다 9.42, 소스와 타겟 도메인 데이터를 단순 합하여 학습한 경우보다 2.64의 성능향상을 보였다.

  • PDF

Utilizing Mixup Regularization to improve Adversarial Domain Adaptation (Mixup 정규화를 활용하여 적대적 도메인 적응 향상)

  • Kalina Bayarchimeg;Youngbok Cho
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.17-18
    • /
    • 2023
  • 비지도형 도메인 적응(UDA)에 대한 최근 연구는 도메인 적응에 대한 설명 및 전이 가능한 특징을 풀어 내기 위해 적대적 학습에 의존한다. 그러나 기존 방법에는 대상 도메인의 클래스 인식(class-aware) 정보를 고려하지 않고는 잠재 공간의 구별 가능성을 완전히 보장할 수 없다는 것과 소스 및 대상 도메인의 샘플만으로는 잠재 공간에서 도메인 불변(domain- invariant) 특성을 추출하기에 부족하다는 두 가지 문제가 있다고 알려져 있다. 본 논문에서는 기존 알려진 UDA의 도메인 적응시 발생되는 문제를 해결하기 위해 Adversarial Discriminative Domain Adaptation(ADDA)에서 mixup을 활용해 신경망의 로버스트네스를 향상시키는 것을 확인하였다.

  • PDF

Domain Adaptation Method for LHMM-based English Part-of-Speech Tagger (LHMM기반 영어 형태소 품사 태거의 도메인 적응 방법)

  • Kwon, Oh-Woog;Kim, Young-Gil
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.10
    • /
    • pp.1000-1004
    • /
    • 2010
  • A large number of current language processing systems use a part-of-speech tagger for preprocessing. Most language processing systems required a tagger with the highest possible accuracy. Specially, the use of domain-specific advantages has become a hot issue in machine translation community to improve the translation quality. This paper addresses a method for customizing an HMM or LHMM based English tagger from general domain to specific domain. The proposed method is to semi-automatically customize the output and transition probabilities of HMM or LHMM using domain-specific raw corpus. Through the experiments customizing to Patent domain, our LHMM tagger adapted by the proposed method shows the word tagging accuracy of 98.87% and the sentence tagging accuracy of 78.5%. Also, compared with the general tagger, our tagger improved the word tagging accuracy of 2.24% (ERR: 66.4%) and the sentence tagging accuracy of 41.0% (ERR: 65.6%).

Question Generation of Machine Reading Comprehension for Data Augmentation and Domain Adaptation (추가 데이터 및 도메인 적응을 위한 기계독해 질의 생성)

  • Lee, Hyeon-gu;Jang, Youngjin;Kim, Jintae;Wang, JiHyun;Shin, Donghoon;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.415-418
    • /
    • 2019
  • 기계독해 모델에 새로운 도메인을 적용하기 위해서는 도메인에 맞는 데이터가 필요하다. 그러나 추가 데이터 구축은 많은 비용이 발생한다. 사람이 직접 구축한 데이터 없이 적용하기 위해서는 자동 추가 데이터 확보, 도메인 적응의 문제를 해결해야한다. 추가 데이터 확보의 경우 번역, 질의 생성의 방법으로 연구가 진행되었다. 그러나 도메인 적응을 위해서는 새로운 정답 유형에 대한 질의가 필요하며 이를 위해서는 정답 후보 추출, 추출된 정답 후보로 질의를 생성해야한다. 본 논문에서는 이러한 문제를 해결하기 위해 듀얼 포인터 네트워크 기반 정답 후보 추출 모델로 정답 후보를 추출하고, 포인터 제너레이터 기반 질의 생성 모델로 새로운 데이터를 생성하는 방법을 제안한다. 실험 결과 추가 데이터 확보의 경우 KorQuAD, 경제, 금융 도메인의 데이터에서 모두 성능 향상을 보였으며, 도메인 적응 실험에서도 새로운 도메인의 문맥만을 이용해 데이터를 생성했을 때 기존 도메인과 다른 도메인에서 모두 기계독해 성능 향상을 보였다.

  • PDF

Deep Learning based Domain Adaptation: A Survey (딥러닝 기반의 도메인 적응 기술: 서베이)

  • Na, Jaemin;Hwang, Wonjun
    • Journal of Broadcast Engineering
    • /
    • v.27 no.4
    • /
    • pp.511-518
    • /
    • 2022
  • Supervised learning based on deep learning has made a leap forward in various application fields. However, many supervised learning methods work under the common assumption that training and test data are extracted from the same distribution. If it deviates from this constraint, the deep learning network trained in the training domain is highly likely to deteriorate rapidly in the test domain due to the distribution difference between domains. Domain adaptation is a methodology of transfer learning that trains a deep learning network to make successful inferences in a label-poor test domain (i.e., target domain) based on learned knowledge of a labeled-rich training domain (i.e., source domain). In particular, the unsupervised domain adaptation technique deals with the domain adaptation problem by assuming that only image data without labels in the target domain can be accessed. In this paper, we explore the unsupervised domain adaptation techniques.

Adaptive DCT-Spatial Domain Image Up-Sampling (DCT 도메인과 공간 도메인의 적응적 이미지 업샘플링)

  • Kim, Jaehun;Kim, Kibaek;Jeong, Jechang
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.394-397
    • /
    • 2012
  • 멀티미디어 장치와 사용자의 욕구가 다양해짐에 따라 이를 충족시키기 위하여 이미지 크기는 장치에서 지원하는 해상도나 사용자의 욕구에 맞게 조정되어야 한다. 이미지 업샘플링 방법은 크게 공간 도메인과 주파수 도메인에서 수행될 수 있다. 일반적으로 공간 도메인에서의 업샘플링 방법은 주파수 도메인의 업샘플링에 비해 상대적으로 주관적인 화질 측면에서 좋은 성능을 나타내지만 객관적인 성능이 낮다. 반대로 주파수 도메인에서의 업샘플링 방법은 객관적인 화질이 좋고 주관적인 화질 측면에서 상대적으로 성능이 낮게 나타난다. 본 논문에서는 공간 도메인과 주파수 도메인에서의 업샘플링 방법을 블록의 특성에 따라 적응적으로 업샘플링 방법을 선택하는 알고리듬을 제안한다. 제안하는 방법은 객관적 성능 뿐 아니라 주관적 성능까지도 향상 시킬 수 있다. 실험 결과를 통해 제안하는 알고리듬이 기존의 알고리듬에 비해 PSNR 측면에서 0.87dB~1.15dB 증가하고, 주관적 화질도 향상됨을 알 수 있다.

  • PDF

Unsupervised Domain Adaptive Re-identification based on Cluster Consistency (클러스터 일관성을 기반으로 한 비지도 도메인 적응 사람 재인식)

  • Oh, Sang-Yup;Cho, Nam-Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.11a
    • /
    • pp.109-112
    • /
    • 2020
  • 사람 재인식을 수행하기 위해서 많은 연구들이 진행되어 좋은 결과들을 보였다 그러나 이 결과들은 라벨이 있는 도메인에서의 지도 학습으로 얻은 결과들이었다. 라벨이 없는 도메인에서의 사람 재인식의 성능은 아직 많이 부족한 상태이다. 사람 재인식을 수행하고자 하는 목표 도메인에 반해 주어진 소스 도메인에서는 라벨이 풍부하다. 지금까지의 논문에서는 소스 도메인에서의 사람 이미지를 목표 도메인의 이미지처럼 만들어서 소스 도메인에서 높은 성능을 보이는 사람 재인식기를 목표 도메인에서도 잘 동작하도록 학습하는 방법들이 주를 이루었다. 하지만 이 방법에서는 소스 도메인의 사람 이미지를 목표 도메인의 이미지와 비슷하게 만들기만하고 사람의 신원에 대한 일관성을 유지시키지는 못하였다. 본 논문에서는 비지도 도메인 적응 사람 재인식을 수행하기 위해 클러스터 일관성(cluster consistency)을 유지하는 기법을 제안한다. 제안한 방법은 사람의 신원에 대한 일관성을 유지시켜서 사람 재인식의 성능을 높인다.

  • PDF

Korean Semantic Role Labeling Using Domain Adaptation Technique (도메인 적응 기술을 이용한 한국어 의미역 인식)

  • Lim, Soojong;Bae, Yongjin;Kim, Hyunki;Ra, Dongyul
    • Journal of KIISE
    • /
    • v.42 no.4
    • /
    • pp.475-482
    • /
    • 2015
  • Developing a high-performance Semantic Role Labeling (SRL) system for a domain requires manually annotated training data of large size in the same domain. However, such SRL training data of sufficient size is available only for a few domains. Performances of Korean SRL are degraded by almost 15% or more, when it is directly applied to another domain with relatively small training data. This paper proposes two techniques to minimize performance degradation in the domain transfer. First, a domain adaptation algorithm for Korean SRL is proposed which is based on the prior model that is one of domain adaptation paradigms. Secondly, we proposed to use simplified features related to morphological and syntactic tags, when using small-sized target domain data to suppress the problem of data sparseness. Other domain adaptation techniques were experimentally compared to our techniques in this paper, where news and Wikipedia were used as the sources and target domains, respectively. It was observed that the highest performance is achieved when our two techniques were applied together. In our system's performance, F1 score of 64.3% was considered to be 2.4~3.1% higher than the methods from other research.

Korean Semantic Role Labeling Using Domain Adaptation Technique (도메인 적응 기술을 이용한 한국어 의미역 인식)

  • Lim, Soojong;Bae, Yongjin;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.56-60
    • /
    • 2014
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 본 논문은 이러한 다른 도메인에 적용시 발생하는 성능 하락 현상을 극복하기 위해서 기존의 소스 도메인 학습 데이터를 활용하여, 소규모의 타겟 도메인 학습 데이터 구축만으로도 성능 하락을 최소화하기 위해 한국어 의미역 인식 기술에 prior 모델을 제안하며 기존의 도메인 적응 알고리즘과 비교 실험하였다. 추가적으로 학습 데이터에 사용되는 자질 중에서, 형태소 태그와 구문 태그의 자질 값을 기존보다 단순하게 적용하여 성능의 변화를 실험하였다.

  • PDF

Adaptive Random Testing through Iterative Partitioning with Enlarged Input Domain (입력 도메인 확장을 이용한 반복 분할 기반의 적응적 랜덤 테스팅 기법)

  • Shin, Seung-Hun;Park, Seung-Kyu
    • The KIPS Transactions:PartD
    • /
    • v.15D no.4
    • /
    • pp.531-540
    • /
    • 2008
  • An Adaptive Random Testing(ART) is one of test case generation algorithms, which was designed to get better performance in terms of fault-detection capability than that of Random Testing(RT) algorithm by locating test cases in evenly spreaded area. Two ART algorithms, such as Distance-based ART(D-ART) and Restricted Random Testing(RRT), had been indicated that they have significant drawbacks in computations, i.e., consuming quadratic order of runtime. To reduce the amount of computations of D-ART and RRT, iterative partitioning of input domain strategy was proposed. They achieved, to some extent, the moderate computation cost with relatively high performance of fault detection. Those algorithms, however, have yet the patterns of non-uniform distribution in test cases, which obstructs the scalability. In this paper we analyze the distribution of test cases in an iterative partitioning strategy, and propose a new method of input domain enlargement which makes the test cases get much evenly distributed. The simulation results show that the proposed one has about 3 percent of improvement in terms of mean relative F-measure for 2-dimension input domain, and shows 10 percent improvement for 3-dimension space.