• Title/Summary/Keyword: 복합명사분해

Search Result 28, Processing Time 0.03 seconds

Overview of Automatic Spacing and Compound Noun Decomposition: 2018 Korean Natural Language Processing Contest (자동띄어쓰기 오류 수정 및 복합명사 분해 개요: 2018 차세정 언어처리 경진대회)

  • Choi, Jin-Hyuk;Ryu, Pum-Mo;Oh, Hyo-Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.193-196
    • /
    • 2018
  • 차세대정보컴퓨팅 개발사업 협의회에서 주최하고 한국어 정보처리 원천기술 연구개발 사업단에서 주관하는 2018 차세정 언어처리 경진대회가 개최되었다. "한국어 자동 띄어쓰기"와 "한국어 복합명사 분해"의 두 태스크로 진행되었고 각각 4팀, 2팀이 참가하였다. 주최 측에서 제공한 데이터만을 활용하는 closed 트랙과 각 참가팀이 추가 데이터를 활용하는 open 트랙으로 구분하여 평가하였다.

  • PDF

The Analysis of Compound Nouns based on Semantic Processing (의미기반 한국어 복합명사 분석)

  • Lee, Yong-Hoon;Ock, Cheol-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.221-224
    • /
    • 2011
  • 본 논문에서는 U-WIN의 어휘 관계 정보를 기반으로 얻은 구성명사간 2-gram 유사도 분석 결과를 이용해 의미기반 복합명사 분석을 수행하는 방법을 제안한다. 음절별 분해 패턴의 제한을 없애기 위해 모든 경우로 후보를 분해하여 규칙에 따라 분석에 사용될 최적의 분해 후보를 찾으며 분석시간, 비교대상을 줄이고 정확도를 높이기 위해 사전의 원어정보를 이용한다. 유사도는 각 개념을 구성하는 관련명사 집합들간의 비교로 구하며 가장 큰 문제인 데이터 부족 문제를 해결하기 위해 7종류의 대상으로부터 추출한 관련명사들을 이용한다.

Segmenting Korean Nominal Compounds with an Unknown Morpheme Using Back-off Statistics (백오프 통계정보를 이용한 미등록어 포함 복합명사의 분해)

  • Park, Jae-Han;Kim, Myoung-Sun;Rho, Dae-Wook;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.65-72
    • /
    • 2004
  • 본 논문에서는 백오프 통계 정보를 이용하여 일반적인 복합명사 뿐만 아니라 외래어 미등록어를 포함한 복합명사도 잘 분해하는 방법을 제안한다. 본 시스템은 입력으로 형태소분석기가 내주는 많은 분석 후보들을 받는다. 단음절 명사를 포함한 분석 후보도 포함되므로 입력 분석 후보의 수는 대단히 많게 된다. 본 모듈의 주요 작업은 이 중에서 가장 좋은 분석후보를 선택하는 것이 된다. 미등록어가 포함된 경우 이에 부합되는 분석 후보를 잘 선택하는 시스템의 개발을 목표로 한다. 이를 위해서 본 시스템에서 사용하는 주요 정보는 단어간 어휘 바이그램 통계정보이다. 또한 외래어 미등록어의 인식 정확성을 높이기 위해 음절 바이그램 정보도 이용한다. 통계정보는 대량의 품사 태깅 말뭉치에서 추출하였다. 데이터 부족 문제를 해소하기 위해서 우리는 백오프(back-off) 평탄화(smoothing) 기법을 이용하였다. 미등록어가 포함된 복합명사의 분석 후보의 수를 줄이기 위한 기술도 연구하였다.

  • PDF

Splitting Algorithms and Recovery Rules for Zero Anaphora Resolution in Korean Complex Sentences (한국어 복합문에서의 제로 대용어 처리를 위한 분해 알고리즘과 복원규칙)

  • Kim, Mi-Jin;Park, Mi-Sung;Koo, Sang-Ok;Kang, Bo-Yeong;Lee, Sang-Jo
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.10
    • /
    • pp.736-746
    • /
    • 2002
  • Zero anaphora occurs frequently in Korean complex sentences, and it makes the interpretation of sentences difficult. This paper proposes splitting algorithms and zero anaphora recovery rules for the purpose of handling zero anaphora, and also presents a resolution methodology. The paper covers quotations, conjunctive sentences and embedded sentences out of the complex sentences shown in the newspaper articles, with an exclusion of embedded sentences of auxiliary verb. We manage the quotations using the equivalent noun phrase deletion rule according to subject person constraint, the nominalized embedded sentences using the equivalent noun phrase deletion rule, the adnominal embedded sentences using the relative noun phrase deletion rule and the conjunctive sentences using the conjunction reduction rule in reverse. The classified table of the endings which relate to a formation of the complex sentences is used for splitting the complex sentences, and the syntactic rules, applied when being omitted, are used in reverse for recovering zero anaphora. The presented rule showed the result of 83.53% in perfect resolution and 11.52% in partial resolution.

Pronunciation Generation Based on Morphophonological Analysis in Korean TTS (한글 TTS시스템에서 형태 음운론적 분석에 기반 한 발음열 생성)

  • Jeong, Kyung-Seok;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.559-562
    • /
    • 2001
  • 한국어 TTS시스템에서 한 가지 모듈로써의 발음열 생성기는 한국어의 특성상 음운적 조건과 형태론적 조건 등에 의해 다양한 방법과 예외처리를 요구하고 한국어의 음운현상에 대한 체계적인 분석과 처리가 필요하다. 그래서 이 논문은 형태 음운론적 분석을 통한 발음열 자동 생성기법을 소개한다. 이 시스템은 형태소 분석을 선행한 후, 특수문자나 숫자 등을 정규화하고 복합명사 분해 사전을 이용한 복합명사 분해와 추가 조건을 통해 ㄴ-첨가 규칙을 전 처리한다. 그리고 음운 변화 현상을 분석하여 선택적으로 규칙을 적용하여 발음열을 생성한다. 제안된 시스템은 기존의 형태소 분석되지 않은 시스템에 비해 더욱 효과적인 음운, 형태소 변화를 가져옴과 함께, 특히 ㄴ-첨가가 적용되는 텍스트는 7$\sim$8%정도의 나은 발음열을 생성찬 수 있었다. 그 결과, 발음열 생성기는 한국어 TTS 시스템의 한국어 처리라는 고질적인 문제 해결에 좋은 방향과 결과를 기여할 수 있다.

  • PDF

The Generation Methods of Composition Noun For Efficient Index Term Extraction (고빈도어를 이용한 복합명사 색인어 추출 방안)

  • Kim, Mi-Jin;Park, Mi-Seong;Jang, Hyeok-Chang;Choi, Jae-Hyeok;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.121-129
    • /
    • 1998
  • 정보검색이나 자동색인 시스템에서는 정확한 색인어의 추출이 시스템의 성능을 좌우하게 된다. 따라서 정확한 색인어의 추출이 매우 중요하다. 본 논문에서는 정보 검색시에 보다 정확한 문서를 찾아줄 수 있도록, 출현 고빈도어를 이용하여 효율적인 색인어 추출을 위한 합성 명사 생성방안을 제시한다. 이를 위하여 문서 내에서 출현 빈도가 높은 명사, 즉 상위 $30%{\sim}40%$의 고빈도 명사에 합성 및 분해 규칙을 적용하여 합성명사 색인어를 추출한다. 또한 본 논문에서 제시한 상위 $30%{\sim}40%$ 고빈도 명사합성에 대한 타당성을 검증하기 위하여 적절한 명사합성 빈도를 구한다. 제안한 방법을 적용한 결과 300어절 이하의 짧은 문서는 출현빈도 상위 30%까지의 명사를 합성했을 경우 저빈도 누락이 작았고 300어절 이상의 문서는 출현빈도 40%까지 합성하면 저빈도 누락이 상당히 줄어듦을 알 수 있었다. 그리하여 전체 색인어의 개수를 줄였고 색인어의 정확률을 높였다.

  • PDF

Segmentation of Korean Compound Nouns Using Semantic Category Analysis of Unregistered Nouns (미등록어의 의미 범주 분석을 이용한 복합명사 분해)

  • Kang Yu-Hwan;Seo Young-Hoon
    • Journal of Information Technology Applications and Management
    • /
    • v.11 no.4
    • /
    • pp.95-102
    • /
    • 2004
  • This paper proposes a method of segmenting compound nouns which include unregistered nouns into a correct combination of unit nouns using characteristics of person's names, loanwords, and location names. Korean person's name is generally composed of 3 syllables, only relatively small number of syllables is used as last names, and the second and the third syllables combination is somewhat restrictive. Also many person's names appear with clue words in compound nouns. Most loanwords have one or more syllables which cannot appear in Korean words, or have sequences of syllables different from usual Korean words. Location names are generally used with clue words designating districts in compound nouns. Use of above characteristics to analyze compound nouns not only makes segmentation more accurate, helps natural language systems use semantic categories of those unregistered nouns. Experimental results show that the precision of our method is approximately 98% on average. The precision of human names and loanwords recognition is about 94% and about 92% respectively.

  • PDF

A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering (스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법)

  • Kang, Seung-Shik
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.7
    • /
    • pp.271-276
    • /
    • 2014
  • Short message service(SMS) in a mobile communication environment is a very convenient method. However, it caused a serious side effect of generating spam messages for advertisement. Those who send spam messages distort or deform SMS sentences to avoid the messages being filtered by automatic filtering system. In order to increase the performance of spam filtering system, we need to recover the distorted sentences into normal sentences. This paper proposes a method of normalizing the various types of distorted sentence and extracting keywords through automatic word spacing and compound noun decomposition.