• 제목/요약/키워드: anaphora resolution

검색결과 35건 처리시간 0.017초

생략복원을 위한 ELECTRA 기반 모델 최적화 연구 (Optimizing ELECTRA-based model for Zero Anaphora Resolution)

  • 박진솔;최맹식;;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.329-334
    • /
    • 2021
  • 한국어에서는 문장 내의 주어나 목적어가 자주 생략된다. 자연어 처리에서 이러한 문장을 그대로 사용하는 것은 정보 부족으로 인한 문제 난이도 상승으로 귀결된다. 생략복원은 텍스트에서 생략된 부분을 이전 문구에서 찾아서 복원해 주는 기술이며, 본 논문은 생략된 주어를 복원하는 방법에 대한 연구이다. 본 논문에서는 기존에 생략복원에 사용되지 않았던 다양한 입력 형태를 시도한다. 또한, 출력 레이어로는 finetuning layer(Linear, Bi-LSTM, MultiHeadAttention)와 생략복원 태스크 형태(BIO tagging, span prediction)의 다양한 조합을 실험한다. 국립국어원 무형 대용어 복원 말뭉치를 기반으로 생략복원이 불필요한 네거티브 샘플을 추가하여 ELECTRA 기반의 딥러닝 생략복원 모델을 학습시키고, 생략복원에 최적화된 조합을 검토한다.

  • PDF

Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원 (Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM)

  • 황민국;김영태;나동열;임수종;김현기
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.131-150
    • /
    • 2015
  • 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 그러나 이러한 명사구 생략 현상으로 인해 양질의 정보추출이 어렵다. 본 논문에서는 백과사전 종류 문서에서 생략된 명사구 즉 무형대용어를 복원하는 시스템의 개발을 다루었다. 우리 시스템이 다루는 문제는 자연어처리의 무형대용어 해결 문제와 거의 유사하나, 우리 문제의 경우 문서의 일부가 아닌 표제어도 복원에 이용할 수 있다는 점이 다르다. 무형대용어 복원을 위해서는 먼저 무형대용어의 탐지 즉 문서 내에서 명사구 생략이 일어난 곳을 찾는 작업을 수행한다. 그 다음 무형대용어의 선행어 탐색 즉 무형대용어의 복원에 사용될 명사구를 문서 내에서 찾는 작업을 수행한다. 문서 내에서 선행어를 발견하지 못하면 표제어를 이용한 복원을 시도해 본다. 우리 방법의 특징은 복원에 사용된 문장성분을 찾기 위해 Structural SVM을 사용하는 것이다. 문서 내에서 생략이 일어난 위치보다 앞에 나온 명사구들에 대해 Structural SVM에 의한 시퀀스 레이블링(sequence labeling) 작업을 시행하여 복원에 이용 가능한 명사구인 선행어를 찾아내어 이를 이용하여 복원 작업을 수행한다. 우리 시스템의 성능은 F1 = 68.58로 측정되었으며 이는 의미정보의 이용 없이 달성한 점을 감안하면 높은 수준으로 평가된다.

한국인 프랑스어 학습자의 프랑스어 담화 이해와 대명사 해석 연구 (Pronoun Resolution in French Discourse by Korean-learners of French)

  • 안의진;송현주;김민주;임재호
    • 인지과학
    • /
    • 제25권4호
    • /
    • pp.417-433
    • /
    • 2014
  • 이 연구는 한국인 프랑스어 학습자들이 프랑스어 담화 내의 대명사를 해석할 때 담화 구조의 영향을 받는지 알아보았다. 한국인 프랑스어 학습자, 프랑스어 원어민 참가자들은 세 문장으로 구성된 46개의 짧은 이야기를 읽고 이야기의 연결이 얼마나 자연스러운지 7점 척도로 평가했다. 이야기들은 마지막 문장의 주어가 이전 문장의 주어와 동일한지 여부와 마지막 문장의 주어가 반복된 명사구 또는 대명사로 지시되었는지에 따라 4가지 경우로 나누어졌다. 프랑스어 원어민 참가자들은 선행연구에서와 같이 마지막 주어가 이전 문장의 주어와 동일할 때, 주어가 변환될 경우에는 대명사보다 반복 명사구로 언급될 때 이야기가 더 자연스럽다고 판단하였다. 반면 한국인 참가자들은 주어 연속 여부에 무관하게 대명사 주어 문장을 반복 명사구 주어 문장보다 부자연스럽다고 판단하였다. 이와 같은 한국인 프랑스어 학습자의 대명사 해석 방식은 영 프랑스어권 아동의 모어 학습과정에서 대명사 해석의 기제 습득과정과 비교하여 논의되었다.

센터링 이론과 대화체에서의 논항 생략 현상 (Centering Theory and Argument Deletion in Spoken Korean)

  • 홍민표
    • 인지과학
    • /
    • 제11권1호
    • /
    • pp.9-24
    • /
    • 2000
  • 본고는 한국어 대화체에서 자주 관찰되는 논항 명사구의 생략현상에 대한 분석을 제시한다. 약 한 시간 분량의 라디오 대담 프로그램을 녹취, 전사하여 획득한 자료를 중심으로, 한국어 대화체에서 논항 명사구의 생략 빈도 및 그 생략 논항의 선행사를 지시대상의 유형을 분류한 통계를 제시한다. 나아가 센터링 이론을 적용하여 이들 생략 논항의 선행사를 결정하는 노력에 있어 청/화자와 일반인을 지칭하는 영형 대명사를 센터링 이론의 적용대상에서 제외시킬 것을 제안하고, 이렇게 제외된 청/화자 지칭 영형 대명사가 보이는 언어적 단서를 추적하여 제시한다. 또한 센터의 순위 및 전이 유형을 결정하는 과정에서 반드시 고려해야할 한국어의 특성에 대해 주제와 주어의 차이. 구문분석의 영향, 그리고 세상지식과의 충돌 등을 중심으로 지적한다.

  • PDF

중심어 주도 단방향 차트 파싱을 이용한 문맥 대용어 해결 (A Resolution of Text Anaphora using Unidirection Chart Parsing in HPSG)

  • 김정해;조준모;이상국;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.386-392
    • /
    • 1996
  • 대용어(anaphor)는 한 문장이나 문장과 문장간에 같은 요소가 되풀이될 때 언어 사용의 경제성(language economy)을 위하여 잉여적 표현을 제거하는 방법으로, 좀 더 간략한 언어 표현으로 대치하여 쓰는 현상이다. 따라서 본 논문에서는 중심어 주도의 단방향 활성 차트 파싱을 이용하여 한국어 문장내에서 야기되는 문맥 대용어의 해결 방안에 대해 제안한다. 이는 자연어를 입력으로 하는 실용목적의 자연어처리 시스템 구축에 있어 필수적으로 요구되는 부분이다. 대용어 해결을 위해 먼저 전산학적인 대용어 정의를 내리고, 대용어와 선행어사이의 의미 분류 및 대용어 해결 과정에 필요한 처리 조건등을 설정하였다 또한 파서내에 대용어 처리를 위해 사전내 자질구조로 ANAPMAJ, ANAPMIN, PERSON, NUM, INDEX자질을 추가하였고, 대용어 해결을 위한 알고리즘을 제안하였으며, 기존에 개발된 HPSG 파서가 처리하는 모든 문장에서 야기된 문맥 대용을 해결하여 파서이후의 응용 시스템에서 이용할 수 있는 내적 표현을 보다 분명하게 형식화하였다.

  • PDF