• Title/Summary/Keyword: 단위명사

Search Result 82, Processing Time 0.023 seconds

Implementation of Korean Error Correction System (한국어 오류 교정 시스템의 구현)

  • Choi, Jae-hyuk;Kim, Kweon-yang
    • The Journal of Korean Association of Computer Education
    • /
    • v.3 no.2
    • /
    • pp.115-127
    • /
    • 2000
  • Korean error detectors of word processors have defects such as inconvenience that users choose one of error groups, lower detecting rate of 60%, and slow processing time. In this study, I proposed a resolution method of these defects. For these, I applied bidirectional longest match strategy for morphological analysis to improve processing time. I suggested dictionaries and several algorithms such as seperation of compound noun and assistant declinable words, correction of typing error to improve processing time and to guarantee correction accuracy. I also suggested a distinguishable method for dependent noun/suffix and Josa/Eomi where many ambiguities are generated, and a distinguishable method for Korean "로써/로서" to improve the reliability of the correction system.

  • PDF

Syntax Analysis of Enumeration type and Parallel Type Using Maximum Entropy Model (Maximum Entropy 모델을 이용한 나열 및 병렬형 인식)

  • Lim, Soo-Jong;Lee, Chang-Ki;Hur, Jeong;Jang, Myoung-Gil
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1240-1245
    • /
    • 2006
  • 한국어 문장을 구조 분석할 때에 모호성을 발생시키는 유형 중의 하나가 나열 및 병렬형이다. 문장 구조 복잡도를 증가시키는 나열 및 병렬형을 구조 분석 전에 미리 하나의 단위로 묶어서 처리하는 것이 문장 구조 분석의 정확도를 높이는데 중요하다. 본 연구에서는 형태소 태그를 이용한 기본 규칙으로 문장을 청크 단위로 분할하고 분할된 청크 중에서 나열형을 인식하여 해당되는 청크들을 하나의 나열 청크로 통합하여 청크의 개수를 줄인다. 병렬형에 대해서는 반복되는 병렬 청크의 범위와 생략된 용언을 복원한다. 이러한 인식은 첫 단계로 기호(symbol)를 중심으로 구축된 간단한 규칙으로 인식을 하고 이러한 규칙에 해당되지 않는 형태의 나열 및 병렬형은 Maximum Entropy 모델을 이용하여 적용한다. ME모델은 어휘자질, 형태소 품사 자질, 거리 자질, 의미자질, 구 단위 태그 자질(NP:명사구, VP:동사구, AP:형용사구), BIO 태그(Begin, Inside, Outside) 자질에 대한 ME(Maximum Entropy) 모델을 이용하여 구축되었다.

  • PDF

Comparison Between Optimal Features of Korean and Chinese for Text Classification (한중 자동 문서분류를 위한 최적 자질어 비교)

  • Ren, Mei-Ying;Kang, Sinjae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.25 no.4
    • /
    • pp.386-391
    • /
    • 2015
  • This paper proposed the optimal attributes for text classification based on Korean and Chinese linguistic features. The experiments committed to discover which is the best feature among n-grams which is known as language independent, morphemes that have language dependency and some other feature sets consisted with n-grams and morphemes showed best results. This paper used SVM classifier and Internet news for text classification. As a result, bi-gram was the best feature in Korean text categorization with the highest F1-Measure of 87.07%, and for Chinese document classification, 'uni-gram+noun+verb+adjective+idiom', which is the combined feature set, showed the best performance with the highest F1-Measure of 82.79%.

Another Choice for Parsing : Using Syntactic Morpheme (파싱을 위한 선택 : 구문 형태소의 이용)

  • Hwang, Y.G.;Song, Y.J.;Lee, H.Y.;Lee, Y.S.
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.249-254
    • /
    • 1999
  • 자연어 분석에서 발생하는 가장 큰 문제점은 분석의 각 단계에서 필요 이상의 모호성이 발생하는 것이다. 이러한 모호성은 각각의 분석 단계에서는 반드시 필요한 결과일 수 있지만 다음 단계의 관점에서는 불필요하게 과생성된 자료로 볼 수 있다. 특히 한국어 형태소 분석 단계는 주어진 문장에 대해 최소의 의미를 가지는 형태소로 분석하기 때문에 과생성된 결과를 많이 만들어 내는데, 이들 대부분이 보조용언이나 의존 명사를 포함하는 형태소열에서 발생한다. 품사 태깅된 코퍼스에서 높은 빈도를 나타내는 형태소들을 분석해 보면 주위의 형태소와 강한 결합 관계를 가지는 것을 발견할 수 있다. 이러한 형태소는 대부분 자립성이 없는 기능형태소로서, 개개의 형태소가 가지는 의미의 합으로 표현되기보다는 문장내에서 하나의 구문 단위로 표현될 수 있다. 본 논문에서는 이 형태소 열을 구문 형태소로 정의하고, 필요한 경우 일반 형태소 해석의 결과를 구문 형태소 단위로 결합하고 이를 바탕으로 구문 해석을 하는 방법을 제안한다. 구문 형태소 단위를 이용하여 구문해석을 수행함으로써, 형태소 해석 결과의 축소를 통해 불필요한 구문 해석 곁과를 배제할 수 있다.

  • PDF

Geo-Historical Research on the Unit of the Ship's Size (배의 크기 척도에 관한 역사지리학적 연구)

  • Kim, Sung-June;Hugh, Ihl; Cui, Yun-Feng
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2004.04a
    • /
    • pp.103-109
    • /
    • 2004
  • The term ton is widely used as the unit of the ship's size nowadays. Before people accepted the term ton as the unit of the ship's size, the various terms had been used for indicating the ship's size. For examples, the term ton was used in Western Europe, last in Northern Europe, cantara in Geneva, milliaria in Venice, and carra in Naple. In Asia the rice had been the most important cargo for many centuries. So the term SEOK in Korean or SHI in Chinese was used as the unit of the ship's size. Especially the Chinese used the term LIAO or RYO in Korean for indicating the ship's size. As above seen, the different terms had been used for showing the ship's size from places to places. But with the introduction of Moorsom's Tonnage Measurement in the 19th century and its spread to all over the world, the term ton was become the only unit of ship's size.

  • PDF

Syllable-based Korean POS Tagging Based on Combining a Pre-analyzed Dictionary with Machine Learning (기분석사전과 기계학습 방법을 결합한 음절 단위 한국어 품사 태깅)

  • Lee, Chung-Hee;Lim, Joon-Ho;Lim, Soojong;Kim, Hyun-Ki
    • Journal of KIISE
    • /
    • v.43 no.3
    • /
    • pp.362-369
    • /
    • 2016
  • This study is directed toward the design of a hybrid algorithm for syllable-based Korean POS tagging. Previous syllable-based works on Korean POS tagging have relied on a sequence labeling method and mostly used only a machine learning method. We present a new algorithm integrating a machine learning method and a pre-analyzed dictionary. We used a Sejong tagged corpus for training and evaluation. While the machine learning engine achieved eojeol precision of 0.964, the proposed hybrid engine achieved eojeol precision of 0.990. In a Quiz domain test, the machine learning engine and the proposed hybrid engine obtained 0.961 and 0.972, respectively. This result indicates our method to be effective for Korean POS tagging.

A Model for Post-processing of Speech Recognition Using Syntactic Unit of Morphemes (구문형태소 단위를 이용한 음성 인식의 후처리 모델)

  • 양승원;황이규
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.7 no.3
    • /
    • pp.74-80
    • /
    • 2002
  • There are many researches on post-processing methods for the Korean continuous speech recognition enhancement using natural language processing techniques. It is very difficult to use a formal morphological analyzer for improving the speech recognition because the analysis technique of natural language processing is mainly for formal written languages. In this paper, we propose a speech recognition enhancement model using syntactic unit of morphemes. This approach uses the functional word level longest match which dose not consider spacing words. We describe the post-processing mechanism for the improving speech recognition by using proposed model which uses the relationship of phonological structure information between predicates md auxiliary predicates or bound nouns that are frequently occurred in Korean sentences.

  • PDF

Processing of Inflectional forms for the French-Korean Collocational Database (불-한 연어 데이터베이스 구축을 위한 굴절 정보의 처리)

  • Yoon, Ae-Sun;Jeong, Hwi-Woong;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.267-272
    • /
    • 2001
  • 구(phrase) 단위 또는 문장(sentence) 단위의 연어(collocation) 정보는 자연언어 처리를 위한 단일어 또는 이중어 데이터베이스를 구축할 수 있는 중요한 기초 자료가 될 뿐 아니라, 외국어 학습에서도 어휘 단계를 넘어선 학습 자료를 제공할 수 있다. 불어는 굴절 언어(inflectional language)로서 기본형 대 굴절형의 비율이 약 1:9 정도로 비교적 굴절 비율이 높은 언어다. 또한 불어 표제어 중 95% 이상을 차지하는 불어의 동사, 명사, 형용사 중 상당한 비율이 암기해야 할 목록(list)이라는 특성을 갖기 때문에 검색과 학습에 있어 오류가 지속적으로 일어나는 부분이다. 표제어의 검색의 경우 불어 굴절 현상을 지원하는 전자 사전이 개발되어 있지만 아직까지 연어 정보에서 굴절형을 지원할 수 사전 또는 데이터베이스는 개발되어 있지 않다. 본 연구의 목적은 전자 사전과 형태소 분석기를 이용하여 굴절형 처리를 지원할 수 있는 불-한 연어 데이터베이스를 구축하는데 있다. 이를 위해 부산대학교 언어정보 연구실에서 개발한 불어 형태소 분석기 Infection와 불-한 전자 사전 Franco를 사용하였으며, 지금까지 구축된 불-한 연어 정보는 94,965 개이다. 본 고에서는 두 정보를 이용하여 불어 굴절형 정보를 분석 및 생성하는 방식 및 불-한 연어 데이터베이스 구조를 살펴 본다.

  • PDF

A Out-of-vocabulary Processing Technology for the Spoken Language Understanding Module of a Dialogue Based Private Secretary Software (대화형 개인 비서 시스템의 언어 인식 모듈(SLU)을 위한 미등록어(OOV) 처리 기술)

  • Lee, ChangSu;Ko, YoungJoong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.3-8
    • /
    • 2014
  • 대화형 개인 비서 시스템은 사람의 음성을 통해 인식된 음성 인식 결과를 분석하여 사용자에게 제공할 정보가 무엇인지 파악한 후, 정보가 포함되어 있는 앱(app)을 실행시켜 사용자가 원하는 정보를 제공하는 시스템이다. 이러한 대화형 개인 비서 시스템의 가장 중요한 모듈 중 하나는 음성 대화 인식 모듈(SLU: Spoken Language Understanding)이며, 발화의 "의미 분석"을 수행하는 모듈이다. 본 논문은 음성 인식결과가 잘못되어 의미 분석이 실패하는 것을 방지하기 위하여 음성 인식 결과에서 잘못 인식된 명사, 개체명 단어를 보정 시켜주는 미등록어(OOV:Out-of-vocabulary) 처리 모듈을 제안한다. 제안하는 미등록어 처리 모듈은 미등록어 탐색 모듈과 미등록어 변환 모듈로 구성되며, 미등록어 탐색 모듈을 통해 사용자의 발화에서 미등록어를 분류하고, 미등록어 변환 모듈을 통해 미등록어를 사전에 존재하는 유사한 단어로 변환하는 방법을 제안한다. 제안한 방법을 적용하였을 때의 실험 결과, 전체 미등록어 중 최대 52.5%가 올바르게 수정되었으며, 음성 인식 결과를 그대로 사용했을 경우 "원본 문장"과 문장 단위 67.6%의 일치율을 보인 것에 반해 미등록어 처리 모듈을 적용했을 때 17.4% 개선된 최대 85%의 문장 단위 일치율을 보였다.

  • PDF

korean-Hanja Translation System based on Semantic Processing (의미처리 기반의 한글-한자 변환 시스템)

  • Kim, Hong-Soon;Sin, Joon-Choul;Ok, Cheol-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.398-401
    • /
    • 2011
  • 워드프로세서에서의 한자를 가진 한글 어휘의 한자 변환 작업은 사용자에 의해 음절/단어 단위의 변환으로 많은 시간이 소요되어 효율이 떨어진다. 본 논문에서는 한글 문장의 의미처리를 통해 문맥에 맞는 한자를 자동 변환하는 시스템을 제안한다. 문맥에 맞는 한글-한자 변환을 위해서는 우선 정확한 형태소 분석 및 동형이의어 분별이 선행되어야 한다. 이를 위해 본 논문에서는 은닉마르코프모델 기반의 형태소 및 동형이의어 동시 태깅 시스템을 구현하였다. 제안한 시스템은 형태의미 세종 말뭉치 1,100만여 어절을 이용하여 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 학습사전을 구축하였다. 그리고 품사 및 동형이의어 태깅 후 명사를 표준국어대사전에 등재된 한자로 변환하는 시스템을 구현하였다. 구현된 시스템의 성능 확인을 위해 전체 세종 말뭉치를 문장단위로 비학습 말뭉치를 구성하여 실험하였고, 실험결과 한자를 가진 동형이의어에 대한 한자 변환에서 90.35%의 정확률을 보였다.