• 제목/요약/키워드: Viable Prefix

검색결과 2건 처리시간 0.02초

한국어 자모 Viable Prefix를 이용한 외래어 표기 교정 기법 (Transliteration Correction Method using Korean Alphabet Viable Prefix)

  • 권순호;권혁철
    • 정보처리학회논문지B
    • /
    • 제18B권2호
    • /
    • pp.87-92
    • /
    • 2011
  • 한국어 문서에서 외래어 표기는 한 단어에 대해 한 개만 존재하는 것이 아니라 여러 개의 다른 표기로 사용되고 있다. 이러한 표기상 불일치는 하나의 단어가 다른 개념으로 인식되어 정보 검색 시스템의 성능 저하의 원인이 된다. 따라서 정보 검색 시스템에서는 다양한 외래어 표기에 대해 같은 개념으로 인식하여 검색할 수 있도록 외래어 표기법에 맞는 외래어 표기로 교정하는 전처리가 필요하다. 본 논문에서는 질의어로 외래어가 입력되면, 이를 근거로 외래어 표기법에 맞는 외래어 표기로 교정해주는 방법을 제안한다. 제안하는 기법은 한국어 자모의 viable prefix를 이용하여 후보 외래어 표기를 생성하는 가상 트리를 작성하고 불필요한 외래어를 가지치기함으로써 검색 정확도를 높이고 속도를 개선한다.

음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템 (Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information)

  • 최성자;강미영;허희근;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-53
    • /
    • 2003
  • 본 논문은 정제된 대용량 말뭉치로부터 얻은 음절 n-gram과 어절 통계를 이용한 한국어 자동 띄어쓰기 시스템을 제안한다. 한 문장 내에서 최적의 띄어쓰기 위치는 Viterbi 알고리즘에 의해 결정된다. 통계 기반 연구에 고유한 문제인 데이터 부족 문제, 학습 말뭉치 의존 문제를 개선하기 위하여 말뭉치를 확장하고 실험을 통해 얻은 매개변수를 사용하고 최장 일치 Viable Prefix를 찾아 어절 목록에 추가한다. 본 연구에 사용된 학습 말뭉치는 33,641,511어절로 구성되어 있으며 구어와 문어를 두루 포함한다.

  • PDF