Annual Conference of KIPS (한국정보처리학회:학술대회논문집)
- 2007.05a
- /
- Pages.707-709
- /
- 2007
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
A Study on extraction for Korean-English word pair by using LCS algorithm
LCS알고리즘을 이용한 한-영 대역어 추출 연구
- Park, Eun-Jin (NLP Team, Speech/Language Technology Research Center, ETRI) ;
- Yang, Seong-Il (NLP Team, Speech/Language Technology Research Center, ETRI) ;
- Kim, Young-Kil (NLP Team, Speech/Language Technology Research Center, ETRI)
- 박은진 (한국전자통신연구원 음성/언어연구센터 언어처리연구팀) ;
- 양성일 (한국전자통신연구원 음성/언어연구센터 언어처리연구팀) ;
- 김영길 (한국전자통신연구원 음성/언어연구센터 언어처리연구팀)
- Published : 2007.05.11
Abstract
매일 생성되는 웹 신문에서 독자가 접해보지 못한 단어는 독자의 이해를 돕기 위하여 괄호를 사용한다. 괄호를 사용하여 표기된 웹 신문의 한국어-영어 대역쌍은 특정 기사에는 출현빈도가 낮지만 전체적으로 여러 신문의 기사를 봤을 때, 최소한 한번 이상 출현하게 된다. 즉, 괄호 안의 동일한 영어 용어 두 개 이상의 문장을 최장일치법 알고리즘에 적용하면 한국어 단어 경계를 자동으로 인식할 수 있다. 본 논문에서는 이런 웹 신문의 괄호 표기 특성을 이용하여 한-영 대역어쌍을 추출하는 방법을 제안한다. 웹 신문 기사 43,648 건에서 최대 2,087개의 한-영 대역어를 추출하였다. 3 개의 서로 다른 테스트 그룹으로 실험한 결과 최대 84.2%의 정확도를 보였다.
Keywords