• 제목/요약/키워드: Presumptive Alignment

검색결과 1건 처리시간 0.014초

단어 단위의 추정 정렬을 통한 영-한 대역어의 자동 추출 (An Automatic Extraction of English-Korean Bilingual Terms by Using Word-level Presumptive Alignment)

  • 이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권6호
    • /
    • pp.433-442
    • /
    • 2013
  • 기계번역 시스템 구축에 가장 필수적인 요소는 번역하고자 하는 언어간의 단어쌍을 담고 있는 대역어 사전이다. 대역어 사전은 기계번역뿐만 아니라 서로 다른 언어간의 정보를 교환하는 모든 응용프로그램의 필수적인 지식원(knowledge source)이다. 본 연구에서는 문서 단위로 정렬된 병렬 코퍼스와 기본적인 대역어 사전을 이용하여 영-한 대역어를 자동으로 추출하는 방법에 대해 소개한다. 이 방법은 수집된 병렬 코퍼스의 크기에 영향을 받지 않는 방법이다. 문서 단위로 정렬된 병렬 코퍼스로부터 문장 단위의 정렬을 수행하고 다시 단어 단위의 정렬을 수행한 후, 정렬이 채 되지 않은 부분에 대해 추정 정렬을 수행한다. 추정 정렬에는 문장에서의 위치, 다른 단어와의 관계, 두 언어간의 언어적 정보등 다양한 정보가 사용된다. 이렇게 추정 정렬된 단어쌍으로부터 영-한 대역어를 추출할 수 있다. 약 1,000개로 구성된 병렬 코퍼스로부터 추출한 영-한 대역어는 71.7%의 정확도를 얻을 수 있었다.