• 제목/요약/키워드: ETRI 말뭉치

검색결과 42건 처리시간 0.014초

의미 정보를 이용한 이단계 단문분할 (Two-Level Clausal Segmentation using Sense Information)

  • 박현재;우요섭
    • 한국정보처리학회논문지
    • /
    • 제7권9호
    • /
    • pp.2876-2884
    • /
    • 2000
  • 단문분할은 한 문장에 용언이 복수개 있을 때 용언을 중심으로 문장을 나누는 방법이다. 기존의 방법은 정형화된 문장의 경우 비교적 효율적인 결과를 얻을 수 있으나, 구문적으로 복잡한 문장인 경우는 한계를 보였다. 본 논문에서는 이러한 한계를 극복하기 위해서 구문 정보만이 아니라, 의미 정보를 활용하여 단문을 분할하는 방법을 제안한다. 정형화된 문장의 경우와 달리 일상적인 문장은 무장 구조의 모호성이나 조사의 생략 등이 빈번하므로 의미 수준에서의 단문분할이 필요하다. 의미 영역에서 단문분할을 하면 기존의 구문 의존적인 방법들에서 발생하는 모호성을 상당수 해소할 수 있게 된다. 논문에서는 먼저 하위범주와 사전과 시소러스의 의미 정보를 이용하여 용언과 보어성분 간의 의존구조를 우선적으로 파악하고, 구문적인 정보와 기타 문법적인 지식을 사용하여 기타 성분을 의존구조에 점진적으로 포함시켜가는 이단계 단문분할 알고리즘을 제안한다. 제안된 이단계 단문분할 방법의 유용성을 보이기 위해 ETRI-KONAN의 말뭉치 중 25,000문장을 수작업으로 술어와 보어성분 간의 의존구조를 태깅한 후 본 논문에서 제안한 방법과 비교하는 실험을 수행하였으며, 이때 단문분할의 결과는 91.8%의 정확성을 보였다.

  • PDF

토큰기반 변환중심 한일 기계번역을 위한 변환사전 (Transfer Dictionary for A Token Based Transfer Driven Korean-Japanese Machine Translation)

  • 양승원
    • 한국산업정보학회논문지
    • /
    • 제9권3호
    • /
    • pp.64-70
    • /
    • 2004
  • 한국어와 일본어는 동일한 어족에 속하며 비슷한 문장구조를 가지고 있어 변환중심 기계번역 방법이 효율적이다. 본 논문에서는 토큰 단위의 변환중심 한일 기계번역 시스템을 위한 변환 사전을 생성하는 방법에 관하여 기술하였다. 변환 사전이 잘 구성되면 구문분석 단계에서는 대역어를 선정하기에 적합한 정도까지의 의존트리를 생성하는 간이 파싱 만을 함으로써 필요 없는 노력을 경감시킬 수 있다. 게다가 구문해석 시에 최종의 결과 트리를 만들지 않아도 되므로 문어체 문장은 물론 입력 형태가 비정형적인 대화체 문장에서 더욱 큰 효과를 볼 수 있다. 본 논문의 변환 사전은 한국전자통신 연구원이 수집한 음성 데이터베이스로부터 추출한 말뭉치를 사용해 구성하였다. 구현한 시스템은 여행 계획영역에서 수집된 900여 발화 안의 문장을 대상으로 시험하였는데 제한된 환경에서 $92\%$, 아무런 제약이 없는 환경에서는 $81\%$의 성공률을 보였다.

  • PDF