• Title/Summary/Keyword: 개체모호성해소

Search Result 3, Processing Time 0.017 seconds

Korean Entity Linking based on KorBERT and Popularity (KorBERT와 Popularity 정보에 기반한 한국어 개체연결 )

  • Jeong Heo;Kyung-Man Bae;Soo-Jong Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.502-506
    • /
    • 2022
  • 본 논문에서는 KorBERT와 개체 인기정보(popularity)를 이용한 개체연결 기술을 소개한다. 멘션인식(mention detection)은 KorBERT를 이용한 토큰분류 문제로 학습하여 모델을 구성하였고, 개체 모호성해소(entity disambiguation)는 멘션 컨텍스트와 개체후보 컨텍스트 간의 의미적 연관성에 대한 KorBERT기반 이진분류 문제로 학습하여 모델을 구성하였다. 개체 인기정보는 위키피디아의 hyperlink, inlink, length 정보를 활용하였다. 멘션인식은 ETRI 개체명 인식기를 이용한 모델과 비교하였을 경우, ETRI 평가데이터에서는 F1 0.0312, 국립국어원 평가데이터에서는 F1 0.1106의 성능 개선이 있었다. 개체 모호성해소는 KorBERT 모델과 Popularity 모델을 혼용한 모델(hybrid)에서 가장 우수한 성능을 보였다. ETRI 평가데이터에서는 Hybrid 모델에서의 개체 모호성 해소의 성능이 Acc. 0.8911 이고, 국립국어원 평가데이터에서는 Acc. 0.793 이였다. 최종적으로 멘션인식 모델과 개체 모호성해소 모델을 통합한 개체연결 성능은 ETRI 평가데이터에서는 F1 0.7617 이고, 국립국어원 평가데이터에서는 F1 0.6784 였다.

  • PDF

A Non-morphological Approach for DBpedia URI Spotting within Korean Text (한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소)

  • Kim, Youngsik;Hahm, Younggyun;Kim, Jiseong;Hwang, Dosam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.100-106
    • /
    • 2014
  • URI spotting (탐지) 문제는 텍스트에 있는 단어열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것이다. 이 문제는 두 개의 작은 문제를 순차적으로 해결하는 과제이다. 즉, 첫째는 어느 단어열이 URI에 해당하는 개체인가를 인식하는 것이고, 둘째는 개체 중의성 해소 문제로서 파악된 개체가 복수의 URI에 해당할 수 있는 의미적 모호성이 있을 때 그 URI중 하나를 선택하여 모호성을 해소하는 것이다. 이 논문은 디비피디아 URI를 대상으로 한다. URI 탐지 문제는 개체명 인식 문제와 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 단어열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다. 이 논문에서는 한국어 텍스트를 대상으로 한국어 디비피디아 URI 탐지문제로서 SVM을 이용한 개체경계 인식 방법을 제시하여, 일반적 개체명 인식에서 나타나는 품사태거의 오류파급효과를 없애고자 한다. 또한 개체중의성 해소 문제는 의미모호성이 주변 문장들의 토픽에 따라 달라지므로, LDA를 활용하며 이를 영어 디비피디아 URI탐지에서 쓰인 방법들과 비교한다.

  • PDF

Question Analysis for Constraint-based KBQA (제약기반 KBQA를 위한 질문분석)

  • Heo, Jeong;Lee, Hyung-Jik;Bae, Kyoung-Man;Kim, Hyun-Ki
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.665-668
    • /
    • 2018
  • 본 논문에서는 제약기반 KBQA를 위한 질문분석 기술에 대해서 소개한다. 핵심개체와 속성에 대한 연결 모호성을 해소하기 위해서 세 종류의 제약정보 활용을 제안한다. 세 종류의 제약은 핵심개체에 기반한 제약, 의미정답유형에 기반한 제약, 속성단서에 기반한 제약이다. 제약을 위해서는 질문 내에서 핵심개체와 속성단서를 인식하여야 한다. 본 논문에서는 규칙과 휴리스틱에 기반한 핵심개체와 속성단서 인식 방법에 대해서 소개한다. 핵심개체와 속성단서 인식 실험은 구축된 229개의 질문을 대상으로 수행하였으며, 핵심개체와 속성단서가 모두 정확히 인식된 정확도(accuracy)가 57.21%이고, KBQA 대상질문에서는 71.08%를 보였다.

  • PDF