• Title/Summary/Keyword: 한국어 형태소

Search Result 519, Processing Time 0.022 seconds

A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit (단순화된 어절을 단위로 하는 한국어 품사 태거)

  • Lee, Eui-Hyeon;Kim, Young-Gil;Shin, Jaehun;Kwon, Hong-Seok;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF

A Predictive Morphological Analyzer, A Part-of-Speech Tagger Based on Joint Independence Model, and A Fast Noun Extractor (예측 기반 형태소 분석기와 결합 독립 모형 기반 품사 태거 및 고속 명사 추출기)

  • Lee, Sang-Zoo;Park, Bong-Rae;Kim, Jin-Dong;Ryu, Won-Ho;Lee, Do-Gil;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.145-150
    • /
    • 1999
  • 본 논문에서는 한국어 자연어 정보처리 기술 표준화를 위한 형태소 분석기 및 품사 태거 평가 대회(MATEC99)에 참여한 고려대학교의 형태소 분석기, 품사 태거, 그리고 명사 추출기를 설명하고 평가 결과를 기술한다. 형태소 분석기는 입력된 어절을 우에서 좌로 분석하며 각 상태에 대한 예측 정보를 활용하여 불필요한 분석 후보에 대한 탐색을 수행하지 않도록 한다. 품사 태거로는 띄어쓰기를 고려한 형태소 품사 2-그램 확률과 띄어쓰기를 고려한 형태소 어휘-품사 3-그램 어휘 확률을 이용하는 결합 독립 모형을 사용한다. 고속 명사 추출기는 고속의 FST 사전과 한국어 특성을 반영한 휴리스틱을 이용한다.

  • PDF

A Light Weighted Robust Korean Morphological Analyzer for Korean-to-English Mobile Translator (한영 모바일 번역기를 위한 강건하고 경량화된 한국어 형태소 분석기)

  • Yuh, Sang-Hwa
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.2
    • /
    • pp.191-199
    • /
    • 2009
  • In this paper we present a light weighted robust Korean morphological analyzer for mobile devices such as mobile phones, smart phones, and PDA phones. Such mobile devices are not suitable for natural language interfaces for their low CPU performance and memory restriction. In order to overcome the difficulties we propose 1) an online analysis by using Key Event Handler mechanism, 2) and a robust analysis of the Korean sentences with spacing errors without its correction pre-processing. We adapt the proposed Korean analyzer to a Korean-English mobile translator, which shows 5.8% memory usage reduction and 19.0% enhancement of average response time.

Syllables-based Named Entity Extraction and Automatic Corpus Construction using Bidirectional Dynamic LSTM (Bidirectional Dynamic LSTM을 이용한 음절 단위 개체명 추출 및 자동화된 말뭉치 구축)

  • Oh, Sungsik;Lim, Changdae;Ahn, Keeho;Park, Weijin
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.317-320
    • /
    • 2017
  • 개체명 인식은 자연어 문장에서 장소, 제작물, 사람 등 분류를 통한 의미 부여가 가능한 단어를 파악하는 기술로서 의미 분석을 위한 핵심 기술이다. 현재 많은 개체명 분석 관련 연구들은 형태소 분석 결과에 의존적인 형태를 갖고 있어서, 형태소 분석 결과의 정확성이 개체명 분석 결과의 성능에 영향을 미치고 있다. 본 연구에서는 형태소 분석 과정을 거치지 않는 음절 기반의 개체명 분석 기술을 제안하여 형태소 분석의 정확도가 낮은 통신어, 신조어 분석 성능을 향상하였다. 또한, 자동화된 방법으로 음절 단위 개체명 말뭉치 및 개체명 사전을 구축하는 프로세스를 정의하여 개체명 분석의 정확도 향상 및 인지 범주의 확대를 도모하였다. 본 연구에서 제안한 개체명 인식 기술은 한국어 개체명 표준에 기반한 129가지의 개체명 분류가 가능하며, 이는 자연어 처리 기술이 필요한 산업계에서 상용화하는데 큰 기여를 할 것으로 판단된다.

  • PDF

Noun Extractor based on a multi-purpose Korean morphological engine implemented with COM (COM 기반의 다목적 형태소 분석기를 이용한 명사 추출기)

  • Lee, Joong-Young;Shin, Byuoung-Hoon;Lee, Kong-Joo;Kim, Jee-Eun;Ahn, Sahng-Gyou
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.167-172
    • /
    • 1999
  • 한국어 형태소 분석기는 한국어를 분석하여 여러 다른 응용프로그램에 적용할 수 있는 기본적인 도구이다. 형태소 분석기를 응용하여 맞춤법 검사기나 정보검색, 기계번역, 음성인식 등에 적용할 수 있다. 본 논문에서는 형태소 분석기를 이용하여 여러 응용프로그램에 다목적으로 적용할 수 있도록 COM(Component Object Model)으로 인터페이스를 설계하고, 일례로 명사를 추출하는 응용프로그램을 구현하였다.

  • PDF

A Korean Morphological Analyzer CBKMA and A Index Word Extractor CBKMA/IX (한국어 형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX)

  • Kim, Nam-Churl;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.50-59
    • /
    • 1999
  • 본 논문은 한국어 형태소 분석기 CBKMA와 이 CBKMA를 이용한 색인어 추출기 CBKMA/IX를 소개하고, 각각의 특징들에 대해서 설명한다. CBKMA는 음절 정보를 이용하는 분석 알고리즘과, 효율적인 사전구성을 이용한 형태소 분석기로서, 과다한 분석 후보의 생성을 줄임으로써 처리 속도를 향상시켰다. 수행시 필요로 하는 컴퓨터 자원은 Main Memory 약 4Mb정도로, 작은 규모의 시스템에서도 수행이 가능한 특징을 갖는다. CBKMA/IX는 CBKMA의 형태소 분석 기능을 이용하는 색인어 자동 추출기로서, 처리 속도 향상을 위하여 대분류 수준의 품사 태그만을 이용한다. 또한 CBKMA의 분석 기능에 색인어 추출을 위해 불용어 사전, 사용자 키워드 사전 처리 부분과, 복합명사와 미등록어 분석 부분 및 한자어, 일본어 등에 대한 처리를 강화시켰다. 특히 비소설류 자료의 분석시 좋은 성능을 발휘한다.

  • PDF

Morphological Analysis Driven Processing of Compound Verbal in Korean (형태소 분석 주도의 한국어 복합동사 처리)

  • Lee, Gi-O;Kim, Ki-Cheol;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.119-127
    • /
    • 1994
  • 복합동사의 처리는 기계변역이나 자연어 이해 시스템의 질에 상당한 영향을 주기 때문에 복합동사의 정확한 분석과 처리는 중요하다. 기종의 형태소 분석에서는 복합동사에 대한 처리를 복합 동사를 구성하는 각 용언들에 대한 분석결과를 생성하여 주고 구문분석단계에서 문법규칙을 이용하여 처리함으로써 문법이 커지고 파싱테이블과 심볼테이블이 커져 메모리 효율이 저하되고 형태소 분석에서의 품사 모호성이 구문분석단계에 영향을 주어 구문구조 모호성을 야기하며 복합동사의 정확한 의미를 나타내기 어려운 문제를 가진다. 본 논문은 한국어의 복합동사를 형태소 분석단계에서 처리해 주고 여기에서 처리하기 힘든 복합동사는 사전과 구문분석단계 등의 모듈에서 처리하는 총괄적인 복합동사 처리방법을 제안한다.

  • PDF

A Study on the Construction Pattern of Korean Syntactic Word for Morphological Analysis (형태소 분석을 위한 한국어 어절의 구성 양상 연구)

  • Hwang, Hwa-Sang;Shi, Chung-Kon
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.25-32
    • /
    • 2001
  • 한국어 자연언어처리에서 부딪치는 첫 번째 어려움은 형태소 분석 대상으로서의 어절(통사적 단어)이 형태론적으로 다양한 유형을 갖는다는 데 있다. 따라서 정확하고 효율적인 형태소 분석기를 설계하고 구현하는 데 있어서 우선적으로 요구되는 것은 다양한 유형의 어절을 형태론적으로 분석하여 체계화하는 것이다. 이러한 문제 인식에 따라 본 연구에서는 형태소 결합 관계를 중심으로 체언 어절과 용언 어절의 구성 양상에 대해 살펴보았다.

  • PDF

An HMM Part-of-Speech Tagger for Korean Based on Wordphrase (어절구조를 반영한 은닉 마르코프 모텔을 이용한 한국어 품사태깅)

  • Shin, Jung-Ho;Han, Young-Seok;Park, Young-Chan;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.389-394
    • /
    • 1994
  • 말뭉치에 품사를 부여하는 일은 언어연구의 중요한 기초가 된다. 형태소 해석의 모호한 결과로부터 한 가지 품사를 선정하는 작업을 태깅이라고 한다. 한국어에서 은닉 마르코프 모델 (Hidden Markov Model)을 이용한 태깅은 형태소 관계만 흑은 어절관계만을 이용한 방법이 있어 왔다. 본 논문에서는 어절관계와 형태소관계를 동시에 은닉 마르코프 모델에 반영하여 태깅의 정확도를 높인 모델을 제시한다. 제안된 방법은 품사의 변별력은 뛰어나지만 은닉 마르코프 모델의 노드의 수가 커짐으로써 형태소만을 고려한 방법보다 더 많은 학습데이타를 필요로 한다. 실험적으로 본 논문의 방법이 기존의 방법보다 높은 정확성을 가지고 있음이 검증되었다.

  • PDF

Semi-CRF or Linear-chain CRF? A Comparative Study of Joint Models for Korean Morphological Analysis and POS Tagging (Semi-CRF or Linear-Chain CRF? 한국어 형태소 분할 및 품사 태깅을 위한 결합 모델 비교)

  • Na, Seung-Hoon;Kim, Chang-Hyun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.9-12
    • /
    • 2013
  • 본 논문에서는 한국어 형태소 분할 및 품사 태깅 방법을 위한 결합 모델로 Semi-CRF와 Linear-chain CRF에 대한 초기 비교 실험을 수행한다. Linear-chain방법은 출력 레이블을 형태소 분할 정보와 품사 태그를 조합함으로써 결합을 시도하는 방식이고, Semi-CRF는 출력의 구조가 분할과 태깅 정보를 동시에 포함하도록 표현함으로써, 디코딩 과정에서 분할과 태깅을 동시에 수행하는 방법이다. Sejong품사 부착말뭉치에서 비교결과 Linear-chain방법이 Semi-CRF방법보다 우수한 성능을 보여주었다.

  • PDF