• Title/Summary/Keyword: 복합명사분해

Search Result 28, Processing Time 0.037 seconds

Korean Compound Noun Decomposition using Noun Bigram Model (명사 brigram 모델을 이용한 한국어 복합명사 분해)

  • Kang, Min-Kyu;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.9-14
    • /
    • 2010
  • 본 논문에서는 명사의 띄어쓰기 bigram과 단일명사 정보를 이용하여 복합명사를 분해하는 방법을 제시한다. 붙여쓰기와 띄어쓰기를 모두 허용하는 복합명사의 특징에 따라 띄어쓰기 bigram으로 후보를 선정할 경우, 분해시간과 후보의 수를 크게 줄일 수 있으며, 긴 음절의 복합명사도 bigram의 chain을 통해 빠르게 후보 조합이 가능하다. 분해 후보가 복수일 경우, 명사 간 bigram 확률을 계산하여 최적의 분해 후보를 선정한다.

  • PDF

Error Correction Method for Korean Compound Noun Decomposition (한국어 복합명사 분해 오류 교정 기법)

  • Kang, Min-Kyu;Kang, Seung-Shik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.254-259
    • /
    • 2010
  • 복합명사의 구성요소로 미등록어, 1음절어, 접사 등이 포함된 경우에 복합명사 분해기의 분해 결과가 분해중의성을 보이게 된다. 특정 복합명사에 대한 분해 결과가 잘못된 것일 경우, 이를 분해 오류로 판단하고, 재처리과정을 통해 교정해야 한다. 본 논문에서는 복합명사의 분해 결과에서 분해 오류에 대하여 각 구성명사의 빈도 정보를 통해서 오류 여부를 판단하고, 적절한 재분해 결과를 제공하여 분해 오류를 교정하는 방법을 제안한다.

  • PDF

Two-Stage Korea Compound Noun Decomposer (2단계 한국어 복합명사 분해기)

  • Park, Chanjun;Ryu, Pum-mo
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.495-497
    • /
    • 2018
  • 복합명사는 둘 이상의 명사가 결합된 명사로, 한국어는 무한한 복합명사 생성이 가능하며 기계번역, 정보검색 등 다양한 분야에서 시스템의 정확도를 향상시키는데 중요한 역할을 한다. 본 논문은 리소스 확장을 이용한 사전 기반 복합명사 분해기[1]의 후속연구로 한국어 복합명사 분해기를 총 2단계에 걸쳐 분해하는 시스템을 제안한다. 먼저 대용량 복합명사 입출력쌍 사전을 구축한 후 1단계 분해를 진행하며, 1단계에서 분해가 실패한 경우 2단계에서 자체 구축한 Unigram사전을 기반으로 복합명사 분해를 진행한다. 실험결과 97.4%의 정확률이 나왔으며 기존의 리소스확장을 이용한 방법론보다 5.6%의 성능향상을 보였다.

  • PDF

A Reverse Segmentation Algorithm of Compound Nouns (복합명사의 역방향 분해 알고리즘)

  • Lee, Hyeon-Min;Park, Hyeok-Ro
    • The KIPS Transactions:PartB
    • /
    • v.8B no.4
    • /
    • pp.357-364
    • /
    • 2001
  • 본 논문에서는 단위명사 사전과 접사 사전을 이용하여 한국어 복합명사를 분해하는 새로운 알고리즘을 제안한다. 한국어 복합명사는 그 구조에 있어서 중심어가 뒤에 나타난다는 점에 착안하여 본 논문에서 제안한 분해 알고리즘은 복합명사를 끝음절에서 첫음절 방향 즉 역방향으로 분해를 시도한다. ETRI의 태깅된 코퍼스로부터 추출한 복합명사 3,230개에 대해 실험한 결과 약 96.6%의 분해 정확도를 얻었다. 미등록어를 포함한 복합명사의 경우는 77.5%의 분해 정확도를 나타냈다. 실험에 사용된 데이터중의 미등록어는 대부분 접사를 포함한 파행어로서, 제안한 복합명사 분해 알고리즘은 접사가 부착된 미등록어 분석에 있어서 보다 높은 분석 정확도를 나타냄을 알 수 있었다.

  • PDF

A Reverse Segmentation Algorithm of Compound Nouns (복합명사의 역방향 분해 알고리즘)

  • 이현민;박혁로
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.56-59
    • /
    • 2000
  • 한국어에서 복합명사는 명사간 결합이 자유롭고, 단위명사로 띄어쓰는 것을 원칙으로 하나 붙여써도 무방하다. 따라서, 정보검색분야, 기계번역분야에서 복합명사의 정확한 분해는 시스템의 성능에 많은 영향을 미치게 된다. 본 논문에서는 ETRI의 태깅된 코퍼스로부터 추출한 복합명사를 역방향 분해 알고리즘을 이용하여 단위명사로 분해한다. 분해되지 않은 3119개의 복합명사에 대해 실험한 결과 약 96.6%의 정확도를 얻었다. 또한, 미등록이나 접사에 대한 처리에도 비교적 정확한 결과를 얻을 수 있었다.

  • PDF

Compound Noun Decomposition by using Bi-LSTM and Linear-chain CRF (양방향 LSTM과 선형체인 CRF를 이용한 복합명사 분해)

  • Lee, Hyun-Young;Kang, Seung-Shik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.719-720
    • /
    • 2018
  • 복합명사 분해 문제를 태그열 부착 문제로 정의하고 음절 임베딩과 딥러닝을 이용하여 복합명사를 분해하는 방법을 제안한다. 임베딩 방식으로는 음절 단위로 복합명사에 출현한 음절들을 벡터 공간에 표현하고 양방향 LSTM과 선형체인(linear-chain) CRF를 이용하여 복합명사 분해 태그를 부착하여 복합명사를 단위명사들로 분해하였다.

Compound Noun Decomposition by using Syllable-based Embedding and Deep Learning (음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해)

  • Lee, Hyun Young;Kang, Seung Shik
    • Smart Media Journal
    • /
    • v.8 no.2
    • /
    • pp.74-79
    • /
    • 2019
  • Traditional compound noun decomposition algorithms often face challenges of decomposing compound nouns into separated nouns when unregistered unit noun is included. It is very difficult for those traditional approach to handle such issues because it is impossible to register all existing unit nouns into the dictionary such as proper nouns, coined words, and foreign words in advance. In this paper, in order to solve this problem, compound noun decomposition problem is defined as tag sequence labeling problem and compound noun decomposition method to use syllable unit embedding and deep learning technique is proposed. To recognize unregistered unit nouns without constructing unit noun dictionary, compound nouns are decomposed into unit nouns by using LSTM and linear-chain CRF expressing each syllable that constitutes a compound noun in the continuous vector space.

A Segmentation Method of Compound Nouns Using Syllable Preference (선호 음절 정보를 이용한 복합명사의 분해 방법)

  • Park Chan-Ee;Ryu Bang;Kim Sang-Bok
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.2
    • /
    • pp.151-159
    • /
    • 2006
  • The ratio of a segmentation algorithm of compound nouns causes an effect a lot in nouns which are not in the dictionary. The structure of Korean compound nouns are mostly derived from the Chinese characters and it includes some preference ratio. So it will be able to use segmentation rule of compound nouns. This paper suggests a segmentation algorithm using some preference ratio of Korean compound nouns which are not in the dictionary. The experiment resulted in getting 88.49% of correct segmentation and showed effective result from the comparative experimentation with other algorithm.

  • PDF

Korean Compound Nouns Decomposition Suitable for Embedded Systems (임베디드 시스템에 적합한 한국어 복합명사 분해)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Namgoong, Young;Yoon, Ho;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.316-320
    • /
    • 2018
  • 복합명사는 둘 이상의 말이 결합된 명사를 말하며 문장에서 하나의 단어로 간주된다, 그러나 맞춤법 및 띄어쓰기 검사나 정보검색의 색인어 추출, 기계번역의 미등록어 추정 등의 분야에서는 복합명사를 구성하는 개별 단어를 확인할 필요가 있다. 이 과정을 복합명사 분해라고 한다. 복합명사를 분해하는 방법으로 크게 규칙 기반 방법, 통계 기반 방법 등이 있으며 본 논문에서는 규칙을 기반으로 최소한의 통계 정보를 이용하는 방법을 제안한다. 본 논문은 4개의 분해 규칙을 적용하여 분해 후보를 생성하고 분해 후보들 중에 우선순위를 정하여 최적 후보를 선택하는 방법을 제안한다. 기본 단어(명사)로 트라이(trie)를 구축하고 구축된 트라이를 이용하여 양방향 최장일치를 적용하고 음절 쌍의 통계정보를 이용해서 모호성을 제거한다. 성능을 평가하기 위해 70,000여 개의 명사 사전과 음절 쌍 통계정보를 구축하였고, 이를 바탕으로 복합명사를 분해하였으며, 분해 정확도는 단어 구성비를 반영하면 96.63%이다. 제안된 복합명사 분해 방법은 최소한의 데이터를 이용하여 복합명사 분해를 수행하였으며 트라이 자료구조를 사용해서 사전의 크기를 줄이고 사전의 검색 속도를 개선하였다. 그 결과로 임베디드 시스템과 같은 소형 기기의 환경에 적합한 복합명사 분해 시스템을 구현할 수 있었다.

  • PDF

A Reverse Segmentation Algorithm of Compound Nouns (복합명사의 역방향 분해 알고리즘)

  • Lee, Hyun-Min;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.56-59
    • /
    • 2000
  • 한국어에서 복합명사는 명사간 결합이 자유롭고, 단위명사로 띄어쓰는 것을 원칙으로 하나 붙여써도 무방하다. 따라서, 정보검색분야, 기계번역분야에서 복합명사의 정확한 분해는 시스템의 성능에 많은 영향을 미치게 된다. 본 논문에서는 ETRI의 태깅된 코퍼스로부터 추출한 복합명사를 역방향 분해 알고리즘을 이용하여 단위명사로 분해한다. 분해되지 않은 3119개의 복합명사에 대해 실험한 결과 약 96.6%의 정확도를 얻었다. 또한, 미등록어나 접사에 대한 처리에도 비교적 정확한 결과를 얻을 수 있었다.

  • PDF