• 제목/요약/키워드: unknown word guessing

검색결과 2건 처리시간 0.015초

확률 기반 미등록 단어 분리 및 태깅 (Probabilistic Segmentation and Tagging of Unknown Words)

  • 김보겸;이재성
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.430-436
    • /
    • 2016
  • 형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다.

명사 출현 특성을 이용한 효율적인 한국어 명사 추출 방법 (An Efficient Method for Korean Noun Extraction Using Noun Patterns)

  • 이도길;이상주;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권1_2호
    • /
    • pp.173-183
    • /
    • 2003
  • 형태소 분석을 한 후 명사를 추출하는 방법은 모든 어절에 대해 빈번한 사전 참조와 음운 복원을 위한 규칙 적용을 수행하므로 많은 연산을 필요로 하고, 중의성이 있는 어절에 대해 모든 가능한 분석결과를 생성하므로 명사 추출의 관점에서는 비효율적이다. 본 논문에서는 명사 추출의 관점에서 형태소 분석시 불필요한 연산을 줄이기 위해 명사 출현 특성을 고려하는 명사 추출 방법을 제안한다. 명사 출현 특성은 명사의 존재에 대한 긍정적 또는 부정적인 단서를 표현하는 한국어의 특성으로서, 배제 정보와 명사 접미 음절열이 있다. 배제 정보는 명사가 잃는 어절을 미리 배제하여 형태소 분석에 요구되는 탐색 공간을 줄이고. 명사 접미 음절열은 바로 알에 있는 병사를 검사함으로써 단순한 방법으로 명사를 추출하거나 미등록어를 인식하는 데에 사용한다. 또한 본 논문에서는 형태소 분석시 복잡한 음운 현상을 처리하기 위해 많은 음운 규칙을 적용하는 대신 음운 복인 정보를 사용하여 음운 현상을 처리한다. 실험 결과에 의하면 덕 방법은 기존의 형태소 분석 방법에 의한 명사 추출에 비해 정확도는 떨어지지 않으면서 수행 속도 면에서 매우 효율적임을 알 수 있다.