• 제목/요약/키워드: Ngram

검색결과 2건 처리시간 0.017초

어휘 자질 기반 기계 학습을 사용한 한국어 암묵 인용문 인식 (Recognition of Korean Implicit Citation Sentences Using Machine Learning with Lexical Features)

  • 강인수
    • 한국산학기술학회논문지
    • /
    • 제16권8호
    • /
    • pp.5565-5570
    • /
    • 2015
  • 암묵인용문 인식은 학술문헌의 본문 텍스트 내에서 명시적 인용표지가 누락된 인용문장을 자동 인식하는 것으로 인용 기반 논문 검색 및 요약의 핵심 기술이다. 기존 암묵인용문 인식의 최신 연구들은 단어 ngram, 단서어구, 명시인용문과의 거리, 기존 연구자의 성, 기존 방법의 명칭 등 다양한 자질을 활용하여 50% 이상 인식 수준을 보고하고 있다. 그러나 대부분의 기존 연구들은 영어에 대해 수행되었으며 한국어의 경우 최근 긍정/부정 단서어구 패턴을 활용한 규칙 기반 시도에서 42% 성능 수준이 보고되어 있어 추가 성능 향상이 요구되는 상황이다. 이 연구에서는 한국어 어휘 자질을 사용하여 한국어 암묵인용문의 기계학습 기반 인식을 시도하였다. 이를 위해 어절, 형태소, 음절 단위에 기반한 다양한 크기의 어휘 ngram 자질들의 인식 성능을 비교 평가하고 한국어 암묵인용문 인식에 적합한 어휘 자질로 형태소 1gram 및 음절 2gram 단위를 결정하였다. 또한 이들 어휘 자질들을 전후 명시인용문들과의 인접성을 표현한 위치 자질들과 결합하여 한국어 암묵인용문 인식 성능을 50% 이상 수준으로 대폭 향상시켰다.

한국어 단어 자동완성 시스템의 성능 분석 및 새로운 평가 방법 (Performance Analysis of a Korean Word Autocomplete System and New Evaluation Metrics)

  • 이성욱
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제39권6호
    • /
    • pp.656-661
    • /
    • 2015
  • 본 연구의 목적은 스마트폰이나 태블릿 PC와 같이 문자 입력이 수월하지 않은 모바일 기기에서 사용자로 하여금 최소한의 키입력을 통해 최대한 빠르고 정확히 원하는 단어를 얻을 수 있도록 도와주는 단어 자동완성 시스템의 성능을 평가하는 것이다. 우리는 트위터에서 대량의 데이터를 수집하였으며, 수집된 데이터의 사용빈도에 따라 유니그램(unigram) 사전과 바이그램(bigram) 사전을 각각 구축하였다. 구축된 사전을 사용한 단어 자동완성 시스템의 성능을 평가하였으며 기존의 평가방법보다 단어 자동완성 기능의 특성을 잘 반영한 키입력 수익률과 복원율을 새로운 평가 방법으로 제안하였다.