• 제목/요약/키워드: Domain adaptation technique

검색결과 20건 처리시간 0.027초

도메인 적응 기술을 이용한 한국어 의미역 인식 (Korean Semantic Role Labeling Using Domain Adaptation Technique)

  • 임수종;배용진;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.56-60
    • /
    • 2014
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 본 논문은 이러한 다른 도메인에 적용시 발생하는 성능 하락 현상을 극복하기 위해서 기존의 소스 도메인 학습 데이터를 활용하여, 소규모의 타겟 도메인 학습 데이터 구축만으로도 성능 하락을 최소화하기 위해 한국어 의미역 인식 기술에 prior 모델을 제안하며 기존의 도메인 적응 알고리즘과 비교 실험하였다. 추가적으로 학습 데이터에 사용되는 자질 중에서, 형태소 태그와 구문 태그의 자질 값을 기존보다 단순하게 적용하여 성능의 변화를 실험하였다.

  • PDF

한국어 의미역 결정을 위한 Korean PropBank 확장 및 도메인 적응 기술 적용 (Extending Korean PropBank for Korean Semantic Role Labeling and Applying Domain Adaptation Technique)

  • 배장성;오준호;황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.44-47
    • /
    • 2014
  • 한국어 의미역 결정(Semantic Role Labeling)은 주로 기계 학습에 의해 이루어지며 많은 말뭉치 자원을 필요로 한다. 그러나 한국어 의미역 결정 시스템에서 사용되는 Korean PropBank는 의미역 부착 말뭉치와 동사 격틀이 영어 PropBank의 1/8 수준에 불과하다. 따라서 본 논문에서는 한국어 의미역 결정 시스템을 위해 의미역 부착 말뭉치와 동사 격틀을 확장하여 Korean PropBank를 확장 시키고자 한다. 의미역 부착 말뭉치를 만드는 일은 많은 자원과 시간이 소비되는 작업이다. 본 논문에서는 도메인 적응 기술을 적용해보고 기존의 학습 데이터를 활용하여, 적은 양의 새로운 학습 말뭉치만을 가지고 성능 하락을 최소화 할 수 있는지 실험을 통해 알아보고자 한다.

  • PDF

A Korean Flight Reservation System Using Continuous Speech Recognition

  • Choi, Jong-Ryong;Kim, Bum-Koog;Chung, Hyun-Yeol;Nakagawa, Seiichi
    • The Journal of the Acoustical Society of Korea
    • /
    • 제15권3E호
    • /
    • pp.60-65
    • /
    • 1996
  • This paper describes on the Korean continuous speech recognition system for flight reservation. It adopts a frame-synchronous One-Pass DP search algorithm driven by syntactic constraints of context free grammar(CFG). For recognition, 48 phoneme-like units(PLU) were defined and used as basic units for acoustic modeling of Korean. This modeling was conducted using a HMM technique, where each model has 4-states 3-continuous output probability distributions and 3-discrete-duration distributions. Language modeling by CFG was also applied to the task domain of flight reservation, which consisted of 346 words and 422 rewriting rules. In the tests, the sentence recognition rate of 62.6% was obtained after speaker adaptation.

  • PDF

도메인 적응 기술 기반 질문 문장에 대한 의미역 인식 연구 (A Study of Semantic Role Labeling using Domain Adaptation Technique for Question)

  • 임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-249
    • /
    • 2015
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 10% 정도 성능 하락이 발생한다. 본 논문은 기존 도메인 적응 기술을 이용하여 도메인이 다르고, 문장의 형태도 다를 경우에 도메인 적응 알고리즘을 적용하여, 질의응답 시스템에서 필요한 질문 문장 의미역 인식을 위해, 소규모의 질문 문장에 대한 학습 데이터 구축만으로도 한국어 질문 문장에 대해 성능을 향상시키기 위한 방법을 제안한다. 한국어 의미역 인식 기술에 prior 모델을 제안한다. 제안하는 방법은 실험결과 소스 도메인 데이터만 사용한 실험보다 9.42, 소스와 타겟 도메인 데이터를 단순 합하여 학습한 경우보다 2.64의 성능향상을 보였다.

  • PDF

An Ensemble Model for Credit Default Discrimination: Incorporating BERT-based NLP and Transformer

  • Sophot Ky;Ju-Hong Lee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.624-626
    • /
    • 2023
  • Credit scoring is a technique used by financial institutions to assess the creditworthiness of potential borrowers. This involves evaluating a borrower's credit history to predict the likelihood of defaulting on a loan. This paper presents an ensemble of two Transformer based models within a framework for discriminating the default risk of loan applications in the field of credit scoring. The first model is FinBERT, a pretrained NLP model to analyze sentiment of financial text. The second model is FT-Transformer, a simple adaptation of the Transformer architecture for the tabular domain. Both models are trained on the same underlying data set, with the only difference being the representation of the data. This multi-modal approach allows us to leverage the unique capabilities of each model and potentially uncover insights that may not be apparent when using a single model alone. We compare our model with two famous ensemble-based models, Random Forest and Extreme Gradient Boosting.

Continual learning을 이용한 한국어 상호참조해결의 도메인 적응 (Domain adaptation of Korean coreference resolution using continual learning)

  • 최요한;조경빈;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF

데이터 전송을 위한 최적 FIR 필터 설계 (Design of Optimal FIR Filters for Data Transmission)

  • 이상욱;이용환
    • 한국통신학회논문지
    • /
    • 제18권8호
    • /
    • pp.1226-1237
    • /
    • 1993
  • 제한된 주파수 대역폭을 이용하여 신호를 전송하기 위해서는 여러종류의 특성을 갖는 필터들이 필요하다. 이 논문에서는 이러한 필터들을 효율적으로 설계하기위한 두가지 방식을 제시하였다. 특히 fractionally-spaced(FS) 구조가 사용될때 더욱 효율적으로 필터를 설계할 수 있다. FS 구조의 특성을 최소자승 오차 방식과 결합하여, 출력오차에 영향을 주지않고, 적절한 주파수 특성을 갖는 SF 필터 설계 방식을 제시하였다. 예로, noise 신호들을 적절히 이용하면, 한개의 SF 필터가, QAM 복조에 필요한 phase splitter, 수신 필터 그리고 등화기 기능까지 갖도록 설계할 수 있다. 두번째로 임의의 주파수 특성이 요구되는 필터의 설계 방식을 제시하였다. weighting factor를 이용한 최소자숭법을 iterative하게 사용하여 최적설계를 얻는다. 이를위해 weighting factor를 효율적으로 update하기 위한 새로운 알고리듬을 이용하였다. 마지막으로, 더욱 복잡한 조건을 갖는 필터를, 이 두가지 방식을 같이 이용하여, 효율적으로 설계할 수 있는것을 보였다.

  • PDF

비정렬 격자계에서 연속 Adjoint 방법을 이용한 헬리콥터 로터 블레이드의 제자리 비행 공력 형상 최적설계 (Aerodynamic Shape Optimization of Helicopter Rotor Blades in Hover Using a Continuous Adjoint Method on Unstructured Meshes)

  • 이상욱;권오준
    • 한국항공우주학회지
    • /
    • 제33권1호
    • /
    • pp.1-10
    • /
    • 2005
  • 비정렬 격자계에서 continuous adjoint 방정식을 사용하여 제자리 비행을 하는 헬리콥터 로터 블레이드에 대한 공력 형상 최적설계 기법을 개발하였다. 효율적인 민감도 계산을 위해 회전좌표계에서 continuous adjoint 민감도 해석 기법을 유도하였다. 설계과정의 반복적인 수치계산의 효율을 높이기 위해서 영역 분할 기법에 기반을 둔 병렬처리 기법을 도입하였다. 끝단 와류의 정확한 포착을 위해서 끝단와류를 따른 격자적응을 수행하였다. 이러한 방법은 Caradonna와 Tung의 실험형상 및 UH60 헬리콥터 로터 블레이드의 공력 최적설계에 적용되었으며, 본 연구에서 사용된 최적설계 기법을 이용하면 일정한 추력을 유지하면서 요구동력을 현저하게 줄일 수 있음을 보였다.

Cross-Correlation법에 의한 피부 혈류속도 측정 (Measurement of the Skin Blood Flow using Cross-Correlation)

  • 이정택;임춘성;류점수;이종수;공성배;김영길
    • 대한의용생체공학회:의공학회지
    • /
    • 제19권4호
    • /
    • pp.379-384
    • /
    • 1998
  • 본 연구에서는 초음파를 이용하여 피부 혈관에서 그 위치에 대한 혈류 신호정보를 얻을 수 있는 펄스파(pulsed wave) 시스템을 이 분야에 응용하기 위한 가능성을 고찰하였다. 20MHz의 변환자로 수신된 신호들은 시간 영역에서 서로 비교하여 편이량을 cross-correlation방법을 사용하여 혈류속도를 구하였다. 피부의 매우 작은 혈관에서 혈류속도 거출시 발생되는 문제점에 대해 in-vitro와 in-vivo 실험을 통해서 이 방법의 효용성을 보이고 그 문제점에 대한 해결 방법을 제시한다. 시간 편이량 측정은 cross-correlation방법에 의해 정규화된 계수에서 최대점을 찾는 것이며 송신주기에 따라 반사된 수신 신호에서부터 cross-correlation방법을 사용하여 속도를 구한다. In-패패 실험을 통해 작은 튜브 내의 깊이에 대한 속도 정보를 주는 속도 profile과 이론적으로 계산된 속도 rpofile을 비교하였으며 토끼 귀 부분의 auriculares caudales에서 소동맥과 소정맥에 대한 혈류속도 profile을 구하였다. 수신 신호에서 진동에 의한 오차는 DFT를 사용하여 보정하였고 클루터 신호는 전체 수신 신호를 평균하여 하나의 기준 수신 신호를 정하여 이것에서 다른 수신 신호 값을 뺌으로써 감소시켰다.

  • PDF

이종 디바이스 환경에 효과적인 신규 딥러닝 기반 프로파일링 부채널 분석 (Novel Deep Learning-Based Profiling Side-Channel Analysis on the Different-Device)

  • 우지은;한동국
    • 정보보호학회논문지
    • /
    • 제32권5호
    • /
    • pp.987-995
    • /
    • 2022
  • 딥러닝 기반 프로파일링 부채널 분석은 사전에 소비전력과 같은 부채널 정보와 중간값과의 관계를 신경망이 학습한 뒤, 학습된 신경망을 이용하여 공격 파형의 비밀키를 찾아내는 기법이다. 최근에는 실제 부채널 분석 환경을 고려하기 위하여 교차 디바이스 환경에서의 분석 방안들이 제안되고 있다. 그러나 이러한 환경은 프로파일링 디바이스와 공격 디바이스의 칩이 다르면 공격 성능이 낮아지는 한계점이 존재한다. 따라서 본 논문에서는 공격자가 프로파일링 디바이스와 다른 칩을 가지는 공격 디바이스를 가지고 있는 환경을 이종 디바이스라고 정의하고, 이러한 환경을 고려한 분석 방안을 제안하고자 한다. 프로파일링 데이터와 공격 데이터에서 발생하는 도메인 차이를 줄이기 위해 비지도 도메인 적응을 사용하였다. 또한, 각 데이터의 특징을 잘 추출하기 위하여 여러 전처리 데이터와 원본 데이터를 학습하는 신경망 구조인 MCNN를 이용하였다. 이종 디바이스 환경을 구성하기 위해 8-bit 기반 프로세서 1개, 32-bit 기반 프로세서 5개를 이용하여 AES-128 전력 파형을 수집하였다. 제안한 방법론을 적용한 신경망과 적용하지 않은 신경망의 공격 성능을 비교했을 때, 제안한 방법론을 적용한 신경망의 최소 분석 파형 수가 최대 25배 이상 낮아졌다.