• 제목/요약/키워드: Korean morphological analyzer

검색결과 116건 처리시간 0.026초

한국어 형태소 분석기 HAM의 형태소 분석 및 철자 검사 기능 (Morphological Analysis and Spelling Check Function of Korean Morphological Analyzer HAM)

  • 강승식;이하규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-252
    • /
    • 1996
  • 한국어 형태소 분석기의 효율성에 영향을 미치는 요인은 분석 알고리즘의 효율성보다도 어휘 사전 등 형태소 분석과 관련된 여러 가지 요인들이 미치는 영향이 훨씬 더 크다. 따라서 단어의 유형 분류 기법이나 불규칙 용언의 분석 방법을 비롯하여 어휘 사전의 구조 및 크기, 알고리즘의 선택과 구현 등 형태소 분석과 관련된 모든 요소들을 형태소 분석에 적합하도록 구성하여야 한다. 본 논문에서는 어휘형태소 사전과 문법형태소 사전의 크기, 한글 문서에 나타나는 단어의 특성 등 형태소 분석기의 효율 및 성능에 영향을 미치는 요소들을 고찰하였다. 그 결과로 알고리즘의 효율보다는 사전 탐색 시간이 형태소 분석에 미치는 영향이 매우 크다는 것을 알 수 있었다. 이와 같이 형태소 분석기의 성능에 영향을 미치는 요인들을 고려하여 구현된 범용 형태소 분석기 HAM에 대하여 형태소 분석 기능과 철자 검사 기능을 실험하였다. 형태소 분석 성공률에 대한 실험 결과 99.46%의 분석률을 보이고 있으며, 맞춤법 검사 기능으로는 상용화된 철자 검사기와 비슷한 성능을 보이고 있다. HAM의 처리 속도는 pentium 120MHz linux 2.0 환경에서 1 초에 약 1,000 단어를 분석한다.

  • PDF

양이온성 계면활성제를 이용한 수산화인회석 합성 (Synthesis of Hydroxyapatite Using a Cationic Surfactant)

  • 이근영;권기영
    • 공업화학
    • /
    • 제30권5호
    • /
    • pp.639-642
    • /
    • 2019
  • 본 연구에서는 침전법을 이용하여 양이온성 계면활성제인 hexadecyltrimethylammonium chloride (CTAC)를 도입한 수산화인회석을 합성하였다. X-선 회절 분석법과 투과전자현미경, 비표면적 분석기를 이용하여 수산화인회석과 CTAC을 도입한 수산화인회석의 결정성, 형태, 비표면적을 분석하였다. 열처리 후, HAP와 CTAC-HAP는 열처리 전과 비교하여 비표면적이 감소하였다. 또한 열처리는 뾰족한 막대 모양에서 종횡비가 감소한 둥근 모양으로의 CTAC-HAP의 형태변화를 유도하였다. 이러한 형태의 변화는 순수한 HAP에서도 관찰되었다. 그러므로 형태 변화와 열처리 후의 비표면적 감소는 열처리 중 CTAC의 제거로 생성된 기공들이 형태 변화로 인해 유지되지 않는 것으로 판단된다.

강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법 (A Robust Pattern-based Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews)

  • 신준수;김학수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권12호
    • /
    • pp.946-950
    • /
    • 2010
  • 기계 학습 기반의 많은 감정 분류 시스템들은 문장으로부터 언어적 자질을 추출하기 위하여 형태소 분석기를 사용한다. 그러나 온라인 상품평에는 많은 띄어쓰기 오류 및 철자 오류가 포함되어 있어서 일반적으로 형태소 분석기가 좋은 성능을 내기 어려우며, 기반 시스템의 낮은 성능은 감정 분류 시스템의 성능하락을 초래한다. 이러한 문제를 해결하기 위하여 본 논문에서는 어절 패턴과 음운 패턴의 최장 일치 매칭(matching)에 기반한 자질 추출 방법을 제안한다. 두 종류의 패턴은 대용량의 품사 부착 말뭉치로부터 자동으로 구축된다. 어절 패턴은 영사, 동사와 같은 내용어를 포함하는 어절들로 구성되며, 음운 패턴은 동사나 형용사와 같은 용언의 초성과 중성의 쌍으로 구성된다. 음운 패턴에 초성과 중성만을 사용한 이유는 철자 오류에 영향을 덜 받기 때문이다. 제안 방법을 평가하기 위하여 SVM(Support Vector Machine)을 기계 학습기로 사용하는 감정 분류 시스템을 구현하였다. 한국어 상품평에 대한 실험에서 제안 방법을 자질 추출 모듈로 사용하는 감정 분류 시스템이 형태소 분석기를 사용하는 것보다 우수한 성능을 보였다.

자연어 처리 기반 한국어 TTS 시스템 구현 (Implementation of Korean TTS System based on Natural Language Processing)

  • 김병창;이근배
    • 대한음성학회지:말소리
    • /
    • 제46호
    • /
    • pp.51-64
    • /
    • 2003
  • In order to produce high quality synthesized speech, it is very important to get an accurate grapheme-to-phoneme conversion and prosody model from texts using natural language processing. Robust preprocessing for non-Korean characters should also be required. In this paper, we analyzed Korean texts using a morphological analyzer, part-of-speech tagger and syntactic chunker. We present a new grapheme-to-phoneme conversion method for Korean using a hybrid method with a phonetic pattern dictionary and CCV (consonant vowel) LTS (letter to sound) rules, for unlimited vocabulary Korean TTS. We constructed a prosody model using a probabilistic method and decision tree-based method. The probabilistic method atone usually suffers from performance degradation due to inherent data sparseness problems. So we adopted tree-based error correction to overcome these training data limitations.

  • PDF

접속 특성과 말마디 사전을 이용한 형태소 분석 (Morphological Analysis with Adjacency Attributes and Phrase Dictionary)

  • 임권묵;송만석
    • 한국정보처리학회논문지
    • /
    • 제1권1호
    • /
    • pp.129-139
    • /
    • 1994
  • 본 논문은 형태소의 접속 특성과 대형 말뭉치(corpus)로부터 추출된 중의성 말마 디의 인접 정보를 이용해서 한국어 형태소 분석기를 구현한다. 일반적으로 말마디는 형태소의 접속 특성과 결합규칙을 적용함으로써 하나의 결과로 분석될 수 있으나 중 의성 말마디는 가능한 결과들로부터 적절한 하나를 선택하기 위해서 인접말마디 정보 나 문법 정보 또는 문맥 정보 등이 요구된다. 그러나 문법 정보와 문맥정보는 구문 분석과 의미분석 단계를 거쳐야만 가능하기 때문에 여기서는 표층적인 정보로서 인접 말마디 정보를 이용한 중의성 해결을 시도하였다. 형태소의 접속 특성과 중의성 말마 디의 인접 정보를 사전에 수록함으로써 축약어와 불필요한 결과를 제시하는 말마디 그리고 중의성 말마디까지도 형태소 분석이 거의 가능하게 된다. 본 분석기의 효능은 정확하고 풍부한 정보를 사전에 효율적으로 수록함으로써 이룩될 것이며, 이를 위해 형태소 사전과 말마디 사전을 데이타베이스로 설계하고, 필요한 정보 들을 대형 말뭉 치로부터 추출하여 사전에 저장한다.

  • PDF

통제불능 상태를 회피하는 한국어 정보처리 방법론 연구 (A Study on the Methodologies of Korean Language Processing Avoiding Dead-end State)

  • 강승식
    • 음성과학
    • /
    • 제5권1호
    • /
    • pp.89-103
    • /
    • 1999
  • It is relatively easy to develop a prototype of a Korean language processing system, but it is very difficult to make it an operational system. In this paper, we survey the current status and methodological issues of the Korean language processing systems such as morphological analyzer, parser and machine translator. In most cases, Korean language processing system easily comes to a dead-end state where its performance can not be improved any more. The reason is that it adopts a general algorithm covering similar problems as a whole because specific low-level problems are not clearly defined and their algorithms are unclear. So, when we add some restrictions to solve an individual linguistic problem, they are also applied to other linguistic phenomena as a side effect. It causes a critical problem that the improvement of the algorithm is very difficult. This paper proposes a 2-step paradigm, a divide-and-conquer method by the functional modularization, a simplification method, and an exception handling technique to develop an operational system that does not fall into a dead-end state.

  • PDF

POSTTS : 자연어 분석을 통한 코퍼스 기반 한국어 TTS (POSTTS : Corpus Based Korean TTS based on Natural Language Analysis)

  • 하주홍;정옥;김병창;이근배
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.87-90
    • /
    • 2003
  • In order to produce high quality synthesized speech, it is very important to get an accurate grapheme-to-phoneme conversion and prosody model from texts using natural language processing. Robust preprocessing for non-Korean characters should also be required. In this paper, we analyzed Korean texts using a morphological analyzer, part-of-speech tagger and syntactic chunker. We present a new grapheme-to-phoneme conversion method, i.e. a dictionary-based and rule-based hybrid method, for unlimited vocabulary Korean TTS. We constructed a prosody model using a probabilistic method and decision tree-based method.

  • PDF

한국어 형태소 분석기에서 '아/어'로 시작되는 어미의 분석 (The Analysis of Endings Which Begin with 'a/a in Korean Morphological Analyzer)

  • 강승식;김영택
    • 인지과학
    • /
    • 제3권1호
    • /
    • pp.25-39
    • /
    • 1991
  • 한국어 어미 중 '아/어'로 시작되는 어미는 용언의 어간과 결합할 때 '아/어'가 축약되거나 '아/어'의 'ㅇ' 이 탈락되기도 한다.특히'ㅎ'불규칙 용언과 결합할 때는 용언의 어간모음과 화합되어 '-ㅐ-','-ㅒ-'로 바뀌는 경우가 있고,'-하다-'로 끝나는 용언의 어간과 결합하면 '-여-'혹은'-ㅐ-'로 바뀌게 된다.본 논문에서는 한국어 형태소 분석기에서 '아/어'로 시작되는 어미의 변이체를 처리하기 위하여 문법형태소 사전을 어떻게 구성하여야하고, 문법형태소 사전이 주기억 장치에 적제될 때 2진트리를 어떻게 구성할 것인에 대한 방법론을 제시함으로써 '아/어' 로 시작되는 어미의 변이체를 형태소 분석할때 발생하기 쉬운 오류를 방지할수 있도록 한다.

어절패턴 사전을 이용한 새로운 한국어 형태소 분석기 (A New Korean Morphological Analyzer using Eojeol Pattern Dictionary)

  • 홍진표;차정원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.279-284
    • /
    • 2008
  • 본 연구에서는 어절패턴을 이용하는 새로운 방식의 한국어 형태소 분석기 KGuru-MA에 대해서 설명한다. KGuru-MA는 품사 부착 말뭉치에서 개방어를 생략하여 어절 패턴을 반자동으로 학습하여 어절 패턴 사전과 형태소 확률 정보 사전을 구성한 후, 이 사전을 이용하여 형태소를 분석한다. 본 형태소 분석기는 어절패턴을 사용하여 형태소 분석하기 때문에 기존 형태소 분석기에 존재하는 접속검사 과정이 생략된다. 또한, 형태소 분석 과정이 기존의 형태소 분석기에 비해 단순하여 기초 자연언어 처리 시스템이 가지는 강건성을 보장한다. 본 연구는 "21세기 세종기획 3차년도 말뭉치"를 이용한 실험 결과, 기존 형태소 분석기 못지 않은 성능을 보였다.

  • PDF

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF