• Title/Summary/Keyword: 미등록 형태소 추정

검색결과 8건 처리시간 0.023초

Part-Of-Speech Tagging and the Recognition of the Korean Unknown-words Based on Machine Learning (기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅)

  • Choi, Maeng-Sik;Kim, Hark-Soo
    • The KIPS Transactions:PartB
    • /
    • 제18B권1호
    • /
    • pp.45-50
    • /
    • 2011
  • Unknown morpheme errors in Korean morphological analysis are divided into two types: The one is the errors that a morphological analyzer entirely fails to return any morpheme sequences, and the other is the errors that a morphological analyzer returns incorrect combinations of known morphemes. Most previous unknown morpheme estimation techniques have been focused on only the former errors. This paper proposes a unknown morpheme estimation method which can handle both of the unknown morpheme errors. The proposed method detects Eojeols (Korean spacing units) that may include unknown morpheme errors using SVM (Support Vector Machine). Then, using CRFs (Conditional Random Fields), it segments morphemes from the detected Eojeols and annotates the segmented morphemes with new POS tags. In the experiments, the proposed method outperformed the conventional method based on the longest matching of functional words. Based on the experimental results, we knew that the second type errors should be dealt with in order to increase the performance of Korean morphological analysis.

An Efficient Recognition Algorithm of the Korean Unknow-words for Morpheme Analyser (형태소 분석기를 위한 효율적인 미등록 명사 추정 알고리즘)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.233-237
    • /
    • 2014
  • 한국어 자료를 자동으로 처리하기 위해서 다양한 형태소 분석기가 연구되었으나, 대부분의 형태소 분석기는 미리 등록된 명사가 아니면 제대로 분석하지 못하는 문제점을 가지고 있다. 본 논문은 기존의 형태소 분석기를 수정하여 미등록 명사를 인식하도록 하는 방법을 소개한다. 이 방법은 비록 학습 알고리즘을 포함하지 않지만 비교적 구현이 쉽고 속도가 빠르며 형태소 분석기의 정확률 향상에 도움이 되었음을 실험으로 검증하였다. 그리고 이 알고리즘을 응용하여 사람이 반자동으로 미등록 명사를 포함할 가능성이 높은 어절을 수집하는 방법을 제안한다.

  • PDF

Probabilistic Segmentation and Tagging of Unknown Words (확률 기반 미등록 단어 분리 및 태깅)

  • Kim, Bogyum;Lee, Jae Sung
    • Journal of KIISE
    • /
    • 제43권4호
    • /
    • pp.430-436
    • /
    • 2016
  • Processing of unknown words such as proper nouns and newly coined words is important for a morphological analyzer to process documents in various domains. In this study, a segmentation and tagging method for unknown Korean words is proposed for the 3-step probabilistic morphological analysis. For guessing unknown word, it uses rich suffixes that are attached to open class words, such as general nouns and proper nouns. We propose a method to learn the suffix patterns from a morpheme tagged corpus, and calculate their probabilities for unknown open word segmentation and tagging in the probabilistic morphological analysis model. Results of the experiment showed that the performance of unknown word processing is greatly improved in the documents containing many unregistered words.

Improvement of TAKTAG using unknown-word handling (미등록어 추정을 이용한 TAKTAG의 개선)

  • Cha, Jeong-Won;Lee, Won-Il;Lee, Geun-Bae;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.203-206
    • /
    • 1996
  • 본 논문에서는 음소단위의 bigram과 trigram 정보를 이용하여 어절내에서의 위치와 개수에 관계없이 미등록어를 추정하고, 미등록어용 형태소 패턴 사전을 도입하여 마치 등록어처럼 미등록어를 처리할 수 있는 방법을 제안한다. 제안된 미등록어 추정 모텔은 조사나 어미와 같은 기능어에 의한 간접적인 추정방법이 아닌 미등록어 자체의 추정과 접속정보를 이용한 검사를 동시에 하여 정확도를 높였다. 본 미등록어 추정방법은 기존의 한국어 품사태깅모델인 TAKTAG에 적용하여 미등록어가 포함된 어절에 대해서 83.72%의 성능을 보였다.

  • PDF

A Method for Unknown-Word Extraction from Korean Text (한국어 구문 분석기를 이용한 지명 추정 시스템 설계 및 구현)

  • Lee, Hyun-Suk;Ha, You-Sun;Kim, Tae-Hyun;Lee, Mann-Ho;Myaeng, Sung-Hyon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.383-386
    • /
    • 2000
  • 본 논문에서는 학습데이터를 이용하여 텍스트로부터 미등록 고유명사를 추정하는 방법을 제안한다. 고유명사 추정을 위해 먼저 형태소 분석기를 이용하여 품사가 명사인 단어들을 후보단어로 선택한다. 이렇게 선택된 후보단어가 고유명사인지 추정해 보기 위해 학습데이터를 이용하여 구성한 정보집합을 사용한다. 이러한 정보집합으로는 이름집합, 접미사집합, 단서집합, 배제어 집합이 있다. 본 논문에서는 이런 정보를 이용하여 한국어 지명을 추정하는 시스템을 구현하여 실험한 결과 77.2%의 정확도와 84.9%의 재현율을 보였다.

  • PDF

Korean Unknown-noun Recognition using Strings Following Nouns in Words (명사후문자열을 이용한 미등록어 인식)

  • Park, Ki-Tak;Seo, Young-Hoon
    • The Journal of the Korea Contents Association
    • /
    • 제17권4호
    • /
    • pp.576-584
    • /
    • 2017
  • Unknown nouns which are not in a dictionary make problems not only morphological analysis but also almost all natural language processing area. This paper describes a recognition method for Korean unknown nouns using strings following nouns such as postposition, suffix and postposition, suffix and eomi, etc. We collect and sort words including nouns from documents and divide a word including unknown noun into two parts, candidate noun and string following the noun, by finding same prefix morphemes from more than two unknown words. We use information of strings following nouns extracted from Sejong corpus and decide unknown noun finally. We obtain 99.64% precision and 99.46% recall for unknown nouns occurred more than two forms in news of two portal sites.

Robust Part-of-Speech Tagger using Statistical and Rule-based Approach (통계와 규칙을 이용한 강인한 품사 태거)

  • Shim, Jun-Hyuk;Kim, Jun-Seok;Cha, Jong-Won;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.60-75
    • /
    • 1999
  • 품사 태깅은 자연 언어 처리의 가장 기본이 되는 부분으로 상위 자연 언어 처리 부분인 구문 분석, 의미 분석의 전처리로 사용되고, 독립된 응용으로 언어의 정보를 추출하거나 정보 검색 등의 응용에 사용되어 진다. 품사 태깅은 크게 통계에 기반한 방법, 규칙에 기반한 방법, 이 둘을 모두 이용하는 혼합형 방법 등으로 나누어 연구되고 있다. 포항공대 자연언어처리 연구실의 자연 언어 처리 엔진(SKOPE)의 품사 태깅 시스템 POSTAG는 미등록어 추정이 강화된 혼합형 품사 태깅 시스템이다 본 시스템은 형태소 분석기, 통계적 품사 태거, 에러 수정 규칙 후처리기로 구성되어 있다. 이들은 각각 단순히 직렬 연결되어 있는 것이 아니라 형태소 접속 테이블을 기준으로 분석 과정에서 형태소 접속 그래프를 생성하고 처리하면서 상호 밀접한 연관을 가진다. 그리고, 미등록어용 패턴사전에 의해 등록어와 동일한 방법으로 미등록어를 처리함으로써 효율적이고 강건한 품사 태깅을 한다. 한편, POSTAG에서 사용되는 태그세트와 한국전자통신연구원(ETRI)의 표준 태그세트 간에 양방향으로 태그세트 매핑을 함으로써, 표준 태그세트로 태깅된 코퍼스로부터 POSTAC를 위한 대용량 학습자료를 얻고 POSTAG에서 두 가지 태그세트로 품사 태깅 결과 출력이 가능하다. 본 시스템은 MATEC '99'에서 제공된 30000어절에 대하여 표준 태그세트로 출력한 결과 95%의 형태소단위 정확률을 보였으며, 태그세트 매핑을 제외한 POSTAG의 품사 태깅 결과 97%의 정확률을 보였다.

  • PDF

A Method of Function-word Recognition by Relative Frequency (상대빈도를 이용한 문법형태소의 인식 방법)

  • 강승식
    • Korean Journal of Cognitive Science
    • /
    • 제10권2호
    • /
    • pp.11-16
    • /
    • 1999
  • It is expected that some Josa/Eomi's are frequently used and others are not in the Korean documents. In this paper. we confirm it through the experiment and show that such information is very useful for Korean language processing. In case of Josa. most frequent 9 Josa's occupied 70% of total Josa's and 20. 32. 69 Josa's occupied 90%. 95%. and 99% respectively. Similarly, most frequent 10 numbers of Eomi's occupied 70% of total Eomi's and 33. 54. 117 Eomi's occupied 90%. 95%. and 99% respectively. We propose a dictionary construction method for Josa/Eomi dictionary that is classified by the frequency information. Furthermore. Josa/Eomi frequency results are very useful for the identification of unregistered morphemes and the disambiguation of lexical ambiguities.

  • PDF