• 제목/요약/키워드: 언어 전이학습

검색결과 67건 처리시간 0.022초

뉴럴 전이 기반 한국어 의존 파싱 & 의미역 결정 통합 모델 (Neural transition-based joint models for dependency Parsing and semantic role labeling of Korean)

  • 민진우;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.343-346
    • /
    • 2018
  • 기존의 의미역 결정은 먼저 구문 분석을 수행한 후에 해당 구문 분석 결과를 이용해 의미역 결정 테스크에 적용하는 파이프라인 방식으로 진행한다. 이러한 방식의 학습을 두 번 연이어 진행하기 때문에 시간이 오래 걸리고 또한 구문 파싱과 의미 파싱에 대해 서로 영향을 주지 못하는 단점이 존재하였다. 본 논문에서는 의존 파싱과 의미역 파싱을 동시에 진행하도록 전이 액션을 확장한 의존 파싱 & 의미역 결정 통합 모델을 제안하고 실험 결과, Korean Prop Bank 의미역 결정 데이터 셋에서 파이프라인 방식 전이 기반 방식을 사용한 모델보다 논항 인식 및 분류(AIC) 성능에서 F1 기준 0.14% 높은 결과을 보인다.

  • PDF

동적 오라클을 이용한 뉴럴 전이기반 한국어 형태소 분석 및 품사 태깅 (Dynamic Oracle for Neural Transition-based Morpheme Segmentation and POS Tagging of Korean)

  • 민진우;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.413-416
    • /
    • 2018
  • 한국어 형태소 분석은 많은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있기 때문에 형태소를 분류하고 형태소에 알맞은 품사를 결정하는 것은 매우 중요하다. 기존의 형태소 분석은 [B, I]등의 태그를 포함된 품사를 음절 단위로 결정하는 방식으로 주로 연구되었다. 본 논문에서는 의존 파싱 분야에서 널리 활용되는 전이 기반 방식을 이용하여 딥러닝 모델을 통해 형태소 분석을 수행한다. 이에 나아가 학습 단계에서 정답으로부터 추출된 정보를 사용하고 평가 단계에서는 예측으로부터 추출된 정보를 사용함으로써 발생하는 차이점을 극복하기 위한 방법론인 동적 오라클을 적용하였다. 실험 결과, 세종 품사 부착 말뭉치 셋에 적용하여 형태소 F1 97.93%, 어절 정확도 96.70%로 기존의 성능을 더욱 향상시켰다.

  • PDF

오픈 도메인 질의응답을 위한 질문-구절의 밀집 벡터 표현 연구 (A Study on the Dense Vector Representation of Query-Passage for Open Domain Question Answering)

  • 정민지;이새벽;김영준;허철훈;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-121
    • /
    • 2022
  • 질문에 답하기 위해 관련 구절을 검색하는 기술은 오픈 도메인 질의응답의 검색 단계를 위해 필요하다. 전통적인 방법은 정보 검색 기법인 빈도-역문서 빈도(TF-IDF) 기반으로 희소한 벡터 표현을 활용하여 구절을 검색한다. 하지만 희소 벡터 표현은 벡터 길이가 길 뿐만 아니라, 질문에 나오지 않는 단어나 토큰을 검색하지 못한다는 취약점을 가진다. 밀집 벡터 표현 연구는 이러한 취약점을 개선하고 있으며 대부분의 연구가 영어 데이터셋을 학습한 것이다. 따라서, 본 연구는 한국어 데이터셋을 학습한 밀집 벡터 표현을 연구하고 여러 가지 부정 샘플(negative sample) 추출 방법을 도입하여 전이 학습한 모델 성능을 비교 분석한다. 또한, 대화 응답 선택 태스크에서 밀집 검색에 활용한 순위 재지정 상호작용 레이어를 추가한 실험을 진행하고 비교 분석한다. 밀집 벡터 표현 모델을 학습하는 것이 도전적인 과제인만큼 향후에도 다양한 시도가 필요할 것으로 보인다.

  • PDF

Zero-Shot 기반 기계번역 품질 예측 연구 (Study on Zero-shot based Quality Estimation)

  • 어수경;박찬준;서재형;문현석;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.35-43
    • /
    • 2021
  • 최근 다언어모델(Cross-lingual language model)을 활용하여 한 번도 보지 못한 특정 언어의 하위 태스크를 수행하는 제로샷 교차언어 전이(Zero-shot cross-lingual transfer)에 대한 관심이 증가하고 있다. 본 논문은 기계번역 품질 예측(Quality Estimation, QE)을 학습하기 위한 데이터 구축적 측면에서의 한계점을 지적하고, 데이터를 구축하기 어려운 상황에서도 QE를 수행할 수 있도록 제로샷 교차언어 전이를 수행한다. QE에서 제로샷을 다룬 연구는 드물며, 본 논문에서는 교차언어모델을 활용하여 영어-독일어 QE 데이터에 대해 미세조정을 실시한 후 다른 언어쌍으로의 제로샷 전이를 진행했고 이 과정에서 다양한 다언어모델을 활용하여 비교 연구를 수행했다. 또한 다양한 자원 크기로 구성된 언어쌍에 대해 제로샷 실험을 진행하고 실험 결과에 대해 언어별 언어학적 특성 관점으로의 분석을 수행하였다. 실험결과 multilingual BART와 multillingual BERT에서 가장 높은 성능을 보였으며, 특정 언어쌍에 대해 QE 학습을 전혀 진행하지 않은 상황에서도 QE를 수행할 수 있도록 유도하였다.

딥러닝 방식을 이용한 환유 해소 (Metonymy Resolution based on Neural Approach)

  • 황태선;이찬희;양기수;이동엽;구영은;전태희;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.375-379
    • /
    • 2019
  • 언어학에서의 환유법은 표현을 위해 빌려온 대상이 다양한 의미로 해석 가능하기에 매우 어렵고 난해한 분야이다. 환유의 특성 상 주어진 엔티티의 환유 여부를 구분하기 위해서는 앞뒤 단어와의 연관성 뿐만 아니라 문장 전체의 문맥 정보에 대한 고려가 필수적이다. 최근 이러한 문맥 정보를 고려하여 학습된 다양한 모델들이 등장하면서 환유법에 대한 연구를 하기에 좋은 환경이 구축되고 있다. 본 논문에서는 언어학적 자질 정보를 최소화한 딥러닝을 이용한 환유 해소 모델을 제안한다. LSTM 기반의 feature-based 모델과 및 BERT, XLNet, RoBERTa와 같은 fine-tuning 모델들에 대한 실험을 진행하였다. 실험 결과, fine-tuning 모델들이 baseline과 비교하여 뛰어난 성능 향상을 가져왔으며, 특히 XLNet 모델은 두 개의 환유 해소 데이터 SemEval 2007와 ReLocaR에 대해 각각 90.1%과 95.8%의 정확도를 보여주었다.

  • PDF

음소단위 코드북간의 확률적 전이 모델을 이용한 한국어 숫자음 인식에 관한 연구 (Isolated Korean Digits Recognition Using Stochasitc Transition Models With Phoneme-based VQ Codebooks)

  • 최환진;오영환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.149-157
    • /
    • 1993
  • 음성인식을 위해 다양한 방법들이 제안되어 있다. 본 연구에서는 음소단위 각각의 벡터 양자화된 코드북의 색인을 학습하는 HMM을 이용하여 한국어 숫자음을 대상으로 인식 실험을 수행하였다. 실험결과, 기존의 단어단위 HMM과 음소단위로 이루어진 유한상태기계(FSM)구조의 인식기에 비해 높은 인식율을 보였다.

  • PDF

계층형 문장 구조 인코더를 이용한 한국어 의미역 결정 (Hierarchical Learning for Semantic Role Labeling with Syntax Information)

  • 김봉수;김정욱;황태선;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-202
    • /
    • 2021
  • 의미역 결정은 입력된 문장 내 어절간의 의미 관계를 예측하기 위한 자연어처리 태스크이며, 핵심 서술어에 따라 상이한 의미역 집합들이 존재한다. 기존의 연구는 문장 내의 서술어의 개수만큼 입력 문장을 확장해 순차 태깅 문제로 접근한다. 본 연구에서는 확장된 입력 문장에 대해 구문 분석을 수행 후 추출된 문장 구조 정보를 의미역 결정 모델의 자질로 사용한다. 이를 위해 기존에 학습된 구문 분석 모델의 파라미터를 전이하여 논항의 위치를 예측한 후 파이프라인을 통해 의미역 결정 모델을 학습시킨다. ALBERT 사전학습 모델을 통해 입력 토큰의 표현을 얻은 후, 논항의 위치에 대응되는 표현을 따로 추상화하기 위한 계층형 트랜스포머 인코더 레이어 구조를 추가했다. 실험결과 Korean Propbank 데이터에 대해 F1 85.59의 성능을 보였다.

  • PDF

한국어 피동·사동 교육용 시각 콘텐츠에 관한 연구 (A Study on Visual Contents for Korean Passive Verbs and Causative Verbs Education)

  • 손주희;김은정;안희은
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.348-358
    • /
    • 2022
  • 본 연구는 외국인을 위한 한국어 교육에서 피동·사동의 효과적인 교육을 위한 시각적 콘텐츠를 제작하는 것을 목적으로 한다. 피동·사동은 중급 단계의 학습자들에게 꼭 가르쳐야 하는 내용이다. 그러나 그 실현 양상이 복잡하고, 접미사에 의한 피동·사동은 결합 관계를 설명할 수 있는 규칙이 없어 학습자와 한국어 교사 모두에게 어려운 항목으로 인정되고 있다. 이 글에서는 학습 효과를 향상시킬 수 있는 비언어적 정보 활용에 관해 고찰하였다. 언어 교육에서 언어적 비언어적 정보를 함께 제공하면 학습자의 의사소통 능력 향상의 효과를 기대할 수 있다. 특히 시각적 콘텐츠는 기억 증진, 재생, 전이 등에 긍정적인 영향을 줄 수 있는 비언어적 정보이다. 이에 본 연구에서는 시각적 자료로서의 그림카드를 기획하고 제작하고자 하였다. 한국어 피동·사동의 올바른 교육에 초점을 두고 제작한 그림카드는 접미사에 의한 한국어 피동·사동의 교수-학습을 효율적이고 유의미하게 해 줄 것이다.

딥 러닝을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing using Deep Learning)

  • 이창기;김준석;김정희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.87-91
    • /
    • 2014
  • 일반적인 기계학습 기반의 자연어처리 모듈의 개발에서 자질의 설계와 최적의 자질 조합을 구하는 작업은 많은 시간과 노력이 필요하다. 본 논문에서는 딥 러닝 기술을 전이 기반 방식의 한국어 의존 구문 분석에 적용하여 자질 튜닝 작업에 들어가는 많은 시간과 노력을 줄일 수 있음을 보인다. 또한 딥 러닝을 적용하기 위해 필요한 다양한 단어 표현(word embedding) 모델을 적용하여 최적의 단어 표현 모델을 알아내고, 성능 향상을 위해 최근에 개발된 Drop-out 및 Rectified Linear hidden Unit(ReLU) 기술을 적용한다. 실험결과, 기존 한국어 의존 구문 분석 연구들보다 높은 UAS 90.37%의 성능을 보였다.

  • PDF

가상 엔터티 설명문 및 엔터티 정렬에 기반한 엔터티 링킹 전이학습 (Transfer learning of Entity linking based on Pseudo Entity Description and Entity Alignment)

  • 최형준;나승훈;김현호;김선훈;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.223-226
    • /
    • 2020
  • 엔터티 링킹을 위해서는 엔터티 링킹을 수행 할 후보 엔터티의 정보를 얻어내는 것이 필요하다. 하지만, 엔터티 정보를 획득하기 어려운 경우, 엔터티 링킹을 수행 할 수 없다. 이 논문에서는 이를 해결하기 위해 데이터셋으로부터 엔터티의 가상 엔터티 설명문을 작성하고, 이를 통해 엔터티 링킹을 수행함으로써 엔터티 정보가 없는 환경에서도 2.58%p밖에 성능 하락이 일어나지 않음을 보인다.

  • PDF