• Title/Summary/Keyword: 도메인 적응

Search Result 106, Processing Time 0.052 seconds

Domain-Adaptive Pre-training for Korean Document Summarization (도메인 적응 사전 훈련 (Domain-Adaptive Pre-training, DAPT) 한국어 문서 요약)

  • Hyungkuk Jang;Hyuncheol, Jang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.843-845
    • /
    • 2024
  • 도메인 적응 사전 훈련(Domain-Adaptive Pre-training, DAPT)을 활용한 한국어 문서 요약 연구에서는 특정 도메인의 문서에 대한 이해도와 요약 성능을 향상시키기 위해 DAPT 기법을 적용했다. 이 연구는 사전 훈련된 언어 모델이 일반적인 언어 이해 능력을 넘어 특정 도메인에 최적화된 성능을 발휘할 수 있도록 도메인 특화 데이터셋을 사용하여 추가적인 사전 훈련을 진행한다. 구체적으로, 의료, 법률, 기술 등 다양한 도메인에서 수집한 한국어 텍스트 데이터를 이용하여 모델을 미세 조정하며, 이를 통해 얻은 모델은 도메인에 특화된 용어와 문맥을 효과적으로 처리할 수 있음을 보여준다. 성능 평가에서는 기존 사전 훈련 모델과 DAPT를 적용한 모델을 비교하여 DAPT의 효과를 검증했다. 연구 결과, DAPT를 적용한 모델은 도메인 특화 문서 요약 작업에서 성능 향상을 보였으며, 이는 실제 도메인별 활용에서도 유용할 것으로 기대된다.

Extending Korean PropBank for Korean Semantic Role Labeling and Applying Domain Adaptation Technique (한국어 의미역 결정을 위한 Korean PropBank 확장 및 도메인 적응 기술 적용)

  • Bae, JangSeong;Oh, JunHo;Hwang, HyunSun;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.44-47
    • /
    • 2014
  • 한국어 의미역 결정(Semantic Role Labeling)은 주로 기계 학습에 의해 이루어지며 많은 말뭉치 자원을 필요로 한다. 그러나 한국어 의미역 결정 시스템에서 사용되는 Korean PropBank는 의미역 부착 말뭉치와 동사 격틀이 영어 PropBank의 1/8 수준에 불과하다. 따라서 본 논문에서는 한국어 의미역 결정 시스템을 위해 의미역 부착 말뭉치와 동사 격틀을 확장하여 Korean PropBank를 확장 시키고자 한다. 의미역 부착 말뭉치를 만드는 일은 많은 자원과 시간이 소비되는 작업이다. 본 논문에서는 도메인 적응 기술을 적용해보고 기존의 학습 데이터를 활용하여, 적은 양의 새로운 학습 말뭉치만을 가지고 성능 하락을 최소화 할 수 있는지 실험을 통해 알아보고자 한다.

  • PDF

Adaptive DCT-Spatial Domain Image Up-Sampling (DCT 도메인과 공간 도메인의 적응적 이미지 업샘플링)

  • Kim, Jaehun;Kim, Kibaek;Jeong, Jechang
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.394-397
    • /
    • 2012
  • 멀티미디어 장치와 사용자의 욕구가 다양해짐에 따라 이를 충족시키기 위하여 이미지 크기는 장치에서 지원하는 해상도나 사용자의 욕구에 맞게 조정되어야 한다. 이미지 업샘플링 방법은 크게 공간 도메인과 주파수 도메인에서 수행될 수 있다. 일반적으로 공간 도메인에서의 업샘플링 방법은 주파수 도메인의 업샘플링에 비해 상대적으로 주관적인 화질 측면에서 좋은 성능을 나타내지만 객관적인 성능이 낮다. 반대로 주파수 도메인에서의 업샘플링 방법은 객관적인 화질이 좋고 주관적인 화질 측면에서 상대적으로 성능이 낮게 나타난다. 본 논문에서는 공간 도메인과 주파수 도메인에서의 업샘플링 방법을 블록의 특성에 따라 적응적으로 업샘플링 방법을 선택하는 알고리듬을 제안한다. 제안하는 방법은 객관적 성능 뿐 아니라 주관적 성능까지도 향상 시킬 수 있다. 실험 결과를 통해 제안하는 알고리듬이 기존의 알고리듬에 비해 PSNR 측면에서 0.87dB~1.15dB 증가하고, 주관적 화질도 향상됨을 알 수 있다.

  • PDF

Design of An Adaptive Agent-Based Electronic Commerce Framework (적응적 에이전트 기반 전자상거래 프레임워크 설계)

  • 김만수;정목동
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.121-123
    • /
    • 2001
  • 오늘날의 1세대 구매 에이전트는 상품의 전체 특징 변수(attribute)에 대해서보다는 주로 판매자들이 제시한 가격만 비교해서 구매 행위를 대행해 주고 있으며, 간혹 가격 이외의 변수에 대해 비교를 해주는 에이전트의 경우에도 협상(negotiation) 과정에서 전체 변수를 적절히 고려해주는 협상 모델은 찾아보기 힘들다. 따라서, 전자 상거래의 협상 모델(negotiation model)을 가격 변수뿐만 아니라 상품의 전체 변수로 확장시켜 주는 것이 절실히 요구되고 있다. 또한 수많은 전자상거래 업체가 나타남에 여러 도메인간 에이전트 이동 기술과 도메인의 상품 특성에 따른 협상을 진행하는 적응적 에이전트의 필요성이 요구된다. 본 논문에서는 유틸리티(utility)이론과 간결한 휴리스틱스(simple heuristics)에 바탕을 두어서 가격, 상품의 특성, 보장 기간, 서비스 정책 등에 대해서 협상을 벌이는 다중변수 에이전트 협상 프레임워크인 Pmart를 제시하고 이를 확장하여 다중 도메인에서 에이전트의 이동성을 보장하고, 각 도메인의 협상 특수 지식을 XML로 제공받아 적응성을 가지는 적응적 구매 에이전트를 제안한다.

  • PDF

Adaptive Random Testing through Iterative Partitioning with Enlarged Input Domain (입력 도메인 확장을 이용한 반복 분할 기반의 적응적 랜덤 테스팅 기법)

  • Shin, Seung-Hun;Park, Seung-Kyu
    • The KIPS Transactions:PartD
    • /
    • v.15D no.4
    • /
    • pp.531-540
    • /
    • 2008
  • An Adaptive Random Testing(ART) is one of test case generation algorithms, which was designed to get better performance in terms of fault-detection capability than that of Random Testing(RT) algorithm by locating test cases in evenly spreaded area. Two ART algorithms, such as Distance-based ART(D-ART) and Restricted Random Testing(RRT), had been indicated that they have significant drawbacks in computations, i.e., consuming quadratic order of runtime. To reduce the amount of computations of D-ART and RRT, iterative partitioning of input domain strategy was proposed. They achieved, to some extent, the moderate computation cost with relatively high performance of fault detection. Those algorithms, however, have yet the patterns of non-uniform distribution in test cases, which obstructs the scalability. In this paper we analyze the distribution of test cases in an iterative partitioning strategy, and propose a new method of input domain enlargement which makes the test cases get much evenly distributed. The simulation results show that the proposed one has about 3 percent of improvement in terms of mean relative F-measure for 2-dimension input domain, and shows 10 percent improvement for 3-dimension space.

Extending Korean PropBank for Korean Semantic Role Labeling and Applying Domain Adaptation Technique (한국어 의미역 결정을 위한 Korean PropBank 확장 및 도메인 적응 기술 적용)

  • Bae, Jangseong;Lee, Changki
    • Korean Journal of Cognitive Science
    • /
    • v.26 no.4
    • /
    • pp.377-392
    • /
    • 2015
  • Korean semantic role labeling (SRL) is usually performed by a machine learning and requires a lot of corpus. However, the Korean PropBank used in Korean SRL system is less than PropBank. It leads to a low performance. Therefore, we expand the annotated corpus and verb frames for Korean SRL system to expand the Korean PropBank corpus. Most of the SRL system have a domain-dependent performance so, the performance may decrease if domain was changed. In this paper, we use the domain adaptation technique to reduce decreasing performance with the existing corpus and the small size of new domain corpus. We apply the domain adaptation technique to Structural SVM and Deep Neural Network. The experimental result show the effectiveness of the domain adaptation technique.

Domain adaptation of Korean coreference resolution using continual learning (Continual learning을 이용한 한국어 상호참조해결의 도메인 적응)

  • Yohan Choi;Kyengbin Jo;Changki Lee;Jihee Ryu;Joonho Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF

Learning Dynamic Changes of User Interests in Personalized News Agent (사용자의 동적인 관심변화를 학습하는 개인화된 뉴스 에이전트)

  • 고경희;오경환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.82-84
    • /
    • 2001
  • 정보여과 시스템은 사용자의 관심사를 정확하게 알아내야 하고(specialization), 시간에 따른 변화에 적응할 수 있어야 하며(adaptation), 사용자의 잠재적인 관심사를 발견하기 위해 새로운 도메인을 탐험할 수 있어야 한다(exploration). 본 논문에서는 온라인 뉴스 기사를 여과하여 사용자와 관련이 있는 뉴스 기사를 추천하는 뉴스 에이전트를 설계, 구현하고자 한다. Specialization, adaptation의 두 가지 요구사항을 충족시키기 위해 사용자의 관심사를 도메인별로 분리하고 각 도메인은 long-term과 short-term으로 나눈다. Exploration의 요구사항을 충족시키기 위해서는 카테고리 절차(crossover) 연산을 사용한다. 실험 결과, 사용자에 대한 사전 정보가 전혀 없는 상태에도 불구하고 빠른 적응능력을 보였다. long-term과 short-term의 분리는 사용자의 관심사에 급격한 변화가 일어난 후에도 시스템이 빠르게 적응할 수 있음을 보여주었다. 또한 카테고리 교차 연산을 통해 사용자의 새로운 관심사 탐험을 수행해 낼 수 있음을 보여주었다.

  • PDF

DAKS: A Korean Sentence Classification Framework with Efficient Parameter Learning based on Domain Adaptation (DAKS: 도메인 적응 기반 효율적인 매개변수 학습이 가능한 한국어 문장 분류 프레임워크)

  • Jaemin Kim;Dong-Kyu Chae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.678-680
    • /
    • 2023
  • 본 논문은 정확하면서도 효율적인 한국어 문장 분류 기법에 대해서 논의한다. 최근 자연어처리 분야에서 사전 학습된 언어 모델(Pre-trained Language Models, PLM)은 미세조정(fine-tuning)을 통해 문장 분류 하위 작업(downstream task)에서 성공적인 결과를 보여주고 있다. 하지만, 이러한 미세조정은 하위 작업이 바뀔 때마다 사전 학습된 언어 모델의 전체 매개변수(model parameters)를 학습해야 한다는 단점을 갖고 있다. 본 논문에서는 이러한 문제를 해결할 수 있도록 도메인 적응기(domain adapter)를 활용한 한국어 문장 분류 프레임워크인 DAKS(Domain Adaptation-based Korean Sentence classification framework)를 제안한다. 해당 프레임워크는 학습되는 매개변수의 규모를 크게 줄임으로써 효율적인 성능을 보였다. 또한 문장 분류를 위한 특징(feature)으로써 한국어 사전학습 모델(KLUE-RoBERTa)의 다양한 은닉 계층 별 은닉 상태(hidden states)를 활용하였을 때 결과를 비교 분석하고 가장 적합한 은닉 계층을 제시한다.

Domain Specific Language Models to Measure Sentence Difficulty (문장 난이도 측정을 위한 도메인 특화 언어 모델 연구)

  • Gue-Hyun Wang;Dong-Gyu Oh;Soo-Jin Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.600-602
    • /
    • 2023
  • 사전 학습된 언어 모델은 최근 다양한 도메인 및 응용태스크에 활용되고 있다. 하지만 언어 모델을 활용한 문장 난이도 측정 태스크에 대해서는 연구가 수행된 바 없다. 이에 본 논문에서는 교과서 데이터를 활용해 문장 난이도 데이터 셋을 구축하고, 일반 말뭉치로 훈련된 BERT 모델과 교과서 텍스트를 활용해 적응 학습한 BERT 모델을 문장 난이도 측정 태스크에 대해 미세 조정하여 성능을 비교했다.

  • PDF