• 제목/요약/키워드: Resolution of ambiguous word

검색결과 4건 처리시간 0.024초

어절별 중의성 해소 규칙을 이용한 혼합형 한국어 품사 태깅 시스템 (Korean Part-of-Speech Tagging System Using Resolution Rules for Individual Ambiguous Word)

  • 박희근;안영민;서영훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.427-431
    • /
    • 2007
  • 본 논문에서는 어절별 중의성 해소 규칙과 trigram 통계 정보를 이용하는 혼합형 한국어 품사 태깅 시스템에 대하여 기술한다. 어절별 중의성 해소 규칙은 중의성을 가지는 어절들 각각에 대해 정의된 중의성 해소 규칙으로, 현재 중의성을 가지는 어절의 50%에 대해 작성되어 있다. 본 논문의 태깅 시스템은 먼저 보조용언, 숙어, 관용적 표현 등에 해당하는 공통규칙을 적용하고, 그 후에 어절별 중의성 해소 규칙을 적용한다. 마지막으로 중의성이 해소되지 않은 어절은 각 어절을 중심으로 하는 trigram 통계 정보를 이용하여 중의성을 해소한다. 실험 결과는 본 논문에서 제안하는 어절별 중의성 해소 규칙과 trigram 통계 정보를 혼합하여 중의성을 해소 시키는 방법이 높은 정확률과 넓은 처리 범위를 가지고 있다는 것을 보여준다.

CR-M-SpanBERT: Multiple embedding-based DNN coreference resolution using self-attention SpanBERT

  • Joon-young Jung
    • ETRI Journal
    • /
    • 제46권1호
    • /
    • pp.35-47
    • /
    • 2024
  • This study introduces CR-M-SpanBERT, a coreference resolution (CR) model that utilizes multiple embedding-based span bidirectional encoder representations from transformers, for antecedent recognition in natural language (NL) text. Information extraction studies aimed to extract knowledge from NL text autonomously and cost-effectively. However, the extracted information may not represent knowledge accurately owing to the presence of ambiguous entities. Therefore, we propose a CR model that identifies mentions referring to the same entity in NL text. In the case of CR, it is necessary to understand both the syntax and semantics of the NL text simultaneously. Therefore, multiple embeddings are generated for CR, which can include syntactic and semantic information for each word. We evaluate the effectiveness of CR-M-SpanBERT by comparing it to a model that uses SpanBERT as the language model in CR studies. The results demonstrate that our proposed deep neural network model achieves high-recognition accuracy for extracting antecedents from NL text. Additionally, it requires fewer epochs to achieve an average F1 accuracy greater than 75% compared with the conventional SpanBERT approach.

어절별 중의성 해소 정보를 이용한 품사 태깅의 성능 향상 (Improving Part-of-speech Tagging by using Resolution Information for Individual Ambiguous Word)

  • 박희근;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.134-139
    • /
    • 2007
  • 품사 태깅 시스템에서 규칙 정보와 통계 정보는 상호보완적으로 사용되어 품사 태깅의 성능을 향상시킨다. 하지만, 두 가지 정보로는 품사 태깅의 성능을 향상시키기에는 한계가 있다. 이에 본 논문에서는 어절별 중의성 해소 정보를 이용하여 품사 태깅 시스템의 정확률을 향상시키는 방법에 대해서 기술한다. 통계 정보는 21세기 세종계획의 천만 어절 균형 말뭉치와 태그 부착 말뭉치에서 추출한 trigram 형태의 중의성 어절 및 품사 태그열 출현 빈도 정보를 이용하여 구축하였고, 규칙 정보는 보조용언, 숙어, 관용적 표현 등을 이용하여 구축하였다. 어절별 중의성 해소 정보는 세종 천만 어절 균형 말뭉치의 중의성 어절에서 고빈도 상위 50%에 해당하는 어절을 대상으로 해당 어절의 의미정보와 문맥정보를 고려하여 구축되었고, 이것은 통계 정보를 이용한 품사 태깅 전에 적용되어 분석 후보를 줄여준다. 또한, 학습을 통하여 어절별 중의성 해소 정보를 수정 및 보강하여 잘못된 품사 태깅 결과를 보정해준다. 이와 같이 통계 정보와 규칙 정보를 이용한 품사 태깅 시스템에 고빈도 중의성 어절에 대한 어절별 중의성 해소 정보를 이용함으로써 품사 태깅의 성능을 향상시킬 수 있었다.

  • PDF