• 제목/요약/키워드: 개체명 대역어

검색결과 2건 처리시간 0.019초

위키피디아를 이용한 영-한 개체명 대역어 쌍 구축 (Extracting English-Korean Named-Entity Word-pairs using Wikipedia)

  • 김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-105
    • /
    • 2009
  • 본 논문은 공통적으로 이용할 수 있는 웹 환경에서의 한국어 정보로 획득할 수 있는 정보의 양이 영어권 정보의 양보다 상대적으로 적다는 것을 토대로, 웹정보 이용의 불균형을 해소하고자 하는 목적으로부터 출발하였다. 최근에는 지식 정보의 세계화, 국제화에 따라 동일한 정보를 각국 언어로 제공하고자하는 연구가 꾸준히 증가하고 있다. 온라인 백과사전인 위키피디아 역시 현재 다국어로 제공이 되고 있지만 한국어로 작성된 문서는 영어로 작성된 문서의 5% 미만인 것으로 조사되었다. 본 논문에서는 위키피디아 내에서 제공하는 다국어간의 링크 정보와 인포박스 데이터를 활용하여 위키피디아 문서 내에서 개체명을 인식하고, 자동으로 개체명의 영-한 대역어 쌍을 추출하는 것을 목표로 한다. 개체명은 일반 사전에 등재 되지 않은 경우가 많기 때문에, 기계번역에서 사전 데이터 등을 활용하여 개체명을 처리하는 것은 쉽지 않으며 일반적으로 음차표기 방식을 함께 사용하여 해결하고 있다. 본 논문을 통해 위키피디아 데이터를 활용해 만들어진 영-한 개체명 대역어 사전을 구축하기 위해 사용된 기술은 추후 위키피디아 문서를 기계번역하는데 있어 동일한 방법으로 사용이 가능하며, 구축된 사전 데이터는 추후 영-한 자동 음차표기 연구의 사전 데이터로도 활용이 가능하다.

  • PDF

링크확률과 개체명 인식을 이용한 영-한 교차언어 링크 탐색 (English-Korean Cross-lingual Link Discovery Using Link Probability and Named Entity Recognition)

  • 강신재
    • 한국지능시스템학회논문지
    • /
    • 제23권3호
    • /
    • pp.191-195
    • /
    • 2013
  • 본 논문에서는 방대한 웹 자원의 연결성을 더욱 증가시키기 위해 영어 위키피디아 문서로부터 한국어 위키피디아 문서로의 교차언어 링크를 자동으로 탐색하는 방법을 제안한다. 어구의 링크확률을 대략 추정하여 사용하던 기존의 방법에 비해, 본 연구에서는 위키피디아 문서 집합으로부터 추출한 제목 목록과 링크 확률과 같은 다양한 정보들과 개체명 인식 결과를 함께 사용하여 링크가 걸릴 앵커 후보를 선택한다. 앵커 후보를 한국어 대역어로 번역한 후, 대역어에 가장 적합한 한국어 웹문서를 찾아 교차언어 링크로 설정하게 된다. 실험한 결과 MAP 수치로 0.375를 얻었다.