• Title/Summary/Keyword: 문법적 형태소

Search Result 60, Processing Time 0.024 seconds

Design of Automatic Indexing System Using Korean Morpheme Network (문법형태소 네트워크를 이용한 자동색인 시스템의 설계)

  • Ahn, Sung-Hyun;Chang, Jae-Woo
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.13-17
    • /
    • 1995
  • 본 논문은 한국어 특성을 적용하여 키워드를 자동으로 추출하는 기법을 제시한다. 기존에 제안된 명사 추출 시스템인 문법형태소 네트워크를 확장하여 단일 명사 뿐만 아니라 복합 명사를 색인어로 추출한다. 복합 명사는 단일 명사에 비해 보다 한정적 개념을 가지므로, 색인어로 추출될 때 문헌의 식별력을 높일 수 있다. 복합 명사를 구성하는 각각의 단일 명사를 인식함으로써 복합 명사를 분해하고, 간단한 구단위 구문분석을 수행하는 명사 결합 규칙에 따라 단일 명사들을 복합 명사로 합성하는 방법을 제시한다. 마지막으로 이와 같이 추출된 복합 명사에, 복합 명사를 구성하는 단일 명사간의 연관성을 고려하여 보다 정확한 가중치를 부여할 수 있는 새로운 가중치 부여 방안을 제시한다.

  • PDF

Generative Chatting Model based on Index-Term Encoding and Syllable Decoding (색인어 인코딩과 음절 디코딩에 기반한 생성 채팅 모델)

  • Kim, JinTae;Kim, Sihyung;Kim, HarkSoo;Lee, Yeonsoo;Choi, Maengsic
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.125-129
    • /
    • 2017
  • 채팅 시스템은 사람이 사용하는 자연어를 이용해 컴퓨터와 대화를 하는 시스템이다. 한국어 특성상 대화체에서 동일한 의미를 가졌지만 다른 형태를 가진 경우가 많다. 본 논문에서는 Attention mechanism Encoder-Decoder Model을 사용해 한국어 특성에 맞는 효과적인 생성 모델을 만들 수 있는 입력, 출력 단위를 제안한다. 실험에서 정성 평가와 ROUSE, BLEU 평가를 진행한 결과 형태소 단위의 입력 보다 본 논문에서 제안한 색인어 입력 단위의 성능이 높고, 의사 형태소 단위 출력 보다 음절 단위 출력을 사용한 시스템이 더 문법적 오류가 적고 적합한 응답을 생성하는 것을 보였다.

  • PDF

Template Constrained Sequence to Sequence based Conversational Utterance Error Correction Method (문장틀 기반 Sequence to Sequence 구어체 문장 문법 교정기)

  • Jeesu Jung;Seyoun Won;Hyein Seo;Sangkeun Jung;Du-Seong Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.553-558
    • /
    • 2022
  • 최근, 구어체 데이터에 대한 자연어처리 응용 기술이 늘어나고 있다. 구어체 문장은 소통 방식 등의 형태로 인해 정제되지 않은 형태로써, 필연적으로 띄어쓰기, 문장 왜곡 등의 다양한 문법적 오류를 포함한다. 자동 문법 교정기는 이러한 구어체 데이터의 전처리 및 일차적 정제 도구로써 활용된다. 사전학습된 트랜스포머 기반 문장 생성 연구가 활발해지며, 이를 활용한 자동 문법 교정기 역시 연구되고 있다. 트랜스포머 기반 문장 교정 시, 교정의 필요 유무를 잘못 판단하여, 오류가 생기게 된다. 이러한 오류는 대체로 문맥에 혼동을 주는 단어의 등장으로 인해 발생한다. 본 논문은 트랜스포머 기반 문법 교정기의 오류를 보강하기 위한 방식으로써, 필요하지 않은 형태소인 고유명사를 마스킹한 입력 및 출력 문장틀 형태를 제안하며, 이러한 문장틀에 대해 고유명사를 복원한 경우 성능이 증강됨을 보인다.

  • PDF

Korean Sentiment Analysis using Multi-channel and Densely Connected Convolution Networks (Multi-channel과 Densely Connected Convolution Networks을 이용한 한국어 감성분석)

  • Yoon, Min-Young;Koo, Min-Jae;Lee, Byeong Rae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.447-450
    • /
    • 2019
  • 본 논문은 한국어 문장의 감성 분류를 위해 문장의 형태소, 음절, 자소를 입력으로 하는 합성곱층과 DenseNet 을 적용한 Text Multi-channel DenseNet 모델을 제안한다. 맞춤법 오류, 음소나 음절의 축약과 탈락, 은어나 비속어의 남용, 의태어 사용 등 문법적 규칙에 어긋나는 다양한 표현으로 인해 단어 기반 CNN 으로 추출 할 수 없는 특징들을 음절이나 자소에서 추출 할 수 있다. 한국어 감성분석에 형태소 기반 CNN 이 많이 쓰이고 있으나, 본 논문에서 제안한 Text Multi-channel DenseNet 모델은 형태소, 음절, 자소를 동시에 고려하고, DenseNet 에 정보를 밀집 전달하여 문장의 감성 분류의 정확도를 개선하였다. 네이버 영화 리뷰 데이터를 대상으로 실험한 결과 제안 모델은 85.96%의 정확도를 보여 Multi-channel CNN 에 비해 1.45% 더 정확하게 문장의 감성을 분류하였다.

A Method of Function-word Recognition by Relative Frequency (상대빈도를 이용한 문법형태소의 인식 방법)

  • 강승식
    • Korean Journal of Cognitive Science
    • /
    • v.10 no.2
    • /
    • pp.11-16
    • /
    • 1999
  • It is expected that some Josa/Eomi's are frequently used and others are not in the Korean documents. In this paper. we confirm it through the experiment and show that such information is very useful for Korean language processing. In case of Josa. most frequent 9 Josa's occupied 70% of total Josa's and 20. 32. 69 Josa's occupied 90%. 95%. and 99% respectively. Similarly, most frequent 10 numbers of Eomi's occupied 70% of total Eomi's and 33. 54. 117 Eomi's occupied 90%. 95%. and 99% respectively. We propose a dictionary construction method for Josa/Eomi dictionary that is classified by the frequency information. Furthermore. Josa/Eomi frequency results are very useful for the identification of unregistered morphemes and the disambiguation of lexical ambiguities.

  • PDF

A Dynamic Link Model for Korean POS-Tagging (한국어 품사 태깅을 위한 다이내믹 링크 모델)

  • Hwang, Myeong-Jin;Kang, Mi-Young;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.282-289
    • /
    • 2007
  • 통계를 이용한 품사 태깅에서는 자료부족 문제가 이슈가 된다. 한국어나 터키어와 같은 교착어는 어절(word)이 다수 형태소로 구성되어 있어서 자료부족 문제가 더 심각하다. 이러한 문제를 극복하고자 교착어 문장을 어절 열이 아니라 형태소의 열이라 가정한 연구도 있었으나, 어절 특성이 사라지기 때문에 파생에 의한 어절의 문법 범주 변화 등의 통계정보와 어절 간의 통계정보를 구하기 어렵다. 본 논문은 효율적인 어절 간 전이확률 계산 방법론을 고안함으로써 어절 단위의 정보를 유지하면서도 자료부족문제를 해결할 수 있는 확률 모델을 제안한다. 즉, 한국어의 형태통사적인 특성을 고려하면 앞 어절의 마지막 형태소와 함께 뒤 어절의 처음 혹은 끝 형태소-즉 두 개의 어절 간 전이 링크만으로도 어절 간 전이확률 계산 시 필요한 대부분 정보를 얻을 수 있고, 문맥에 따라 두 링크 중 하나만 필요하다는 관찰을 토대로 규칙을 이용해 두전이링크 중 하나를 선택해 전이확률 계산에 사용하는 '다이내믹 링크 모델'을 제안한다. 형태소 품사 bi-gram만을 사용하는 이 모델은 실험 말뭉치에 대해 96.60%의 정확도를 보인다. 이는 같은 말뭉치에 대해 형태소 품사 tri-gram 등의 더 많은 문맥 정보를 사용하는 다른 모델을 평가했을 때와 대등한 성능이다.

  • PDF

A Statistical Model for Korean Text Segmentation Using Syllable-Level Bigrams (음절단위 bigram정보를 이용한 한국어 단어인식모델)

  • Shin, Joong-Ho;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.255-260
    • /
    • 1997
  • 일반적으로 한국어는 띄어쓰기 단위인 어절이 형태소 분석의 입력 단위로 쓰이고 있다. 그러나 실제 영역(real domain)에서 사용되는 텍스트에서는 띄어쓰기 오류와 같은 비문법적인 형태도 빈번히 쓰이고 있다. 따라서 형태소 분석 과정에 선행하여 적합한 형태소 분석의 단위를 인식하는 과정이 이루어져야 한다. 본 연구에서는 한국어의 음절 특성을 이용한 형태소분석을 위한 어절 인식 방법을 제안한다. 제안하는 방법은 사전에 기반하지 않고 원형코퍼스(raw corpus)로부터의 필요한 음절 정보 및 어휘정보를 추출하는 방법을 취하므로 오류가 포함된 문장에 대하여 견고한 분석이 가능하고 많은 시간과 노력이 요구되는 사전구축 및 관리 작업을 필요로 하지 않는다는 장점이 있다. 한국어 어절 인식을 위하여 본 논문에서는 세가지 확률 모텔과 동적 프로그래밍에 기반한 인식 알고리즘을 제안한다. 제안하는 모델들을 띄어쓰기 오류문제와 한국어 복합명사 분석 문제에 적용하여 실험한 결과 82-85%정도의 인식 정확도를 보였다.

  • PDF

Lexical Ambiguity Resolution System of Korean Language using Dependency Grammar and Collative Semantics (의존 문법과 대조 의미론을 이용한 한국어의 어휘적 중의성 해결 시스템)

  • 윤근수;권혁철
    • Korean Journal of Cognitive Science
    • /
    • v.3 no.1
    • /
    • pp.1-24
    • /
    • 1991
  • This paper presents the Lexical Ambiguity Resolution System of Korean Language. This system uses Dependency grammar and Collative Semantics. Dependency grammar is used to analyze Korean syntactic dependency. A robust way to analyze a sentence is to establish links between individual words. Collative Semantics investigates the interplay between lexical ambiguity and semantics relations. Collative Semantics consists of sense-frame, semantic vector, collation, and screening. Our system was implemented by C programming language. This system analyzes sentences, discriminates the kinds of semantic relation between pairs of words senses in those sentences, and resolves lexical ambiguity.

A Morpheme-unit Korean Feature-Based Brammer (KFG) with the X-bar Theoretic Notion of Headedness (X-바 이론의 중심어 개념을 도입한 형태소 단위의 한국어 자질 기반 문법)

  • Park, So-Yeong;Hwang, Yeong-Suk;Im, Hae-Chang
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.10
    • /
    • pp.1247-1259
    • /
    • 1999
  • 본 논문에서는 한국어 문장형성원리를 간결하게 제시할 수 있도록 X-바 이론의 중심어 개념을 도입한 한국어 자질기반 문법을 제안한다. 제안하는 문법은 어절에 관계없이 나타나는 한국어의 문법현상을 명확히 설명할 수 있도록 어절 대신 형태소를 기본단위로 한다. 그리고, 한국어의 구문범주가 지닌 의미정보와 기능정보를 자질을 이용하여 독립적으로 표현하며, 구문범주간의 결합관계를 바탕으로 하는 자질연산을 수행하여 문장을 분석한다. 또한, 한국어의 부분자유어순과 생략현상에 대해 견고하게 분석할 수 있도록 자질연산을 이진결합중심의 CNF(Chomsky Normal Form)로 제한한다. 이렇게 구성된 한국어 자질기반 문법은 규칙을 직관적이고도 간단하게 기술하며, 한국어의 다양한 문장들을 견고하게 분석한다. SERI Test Suites 97과 신문기사에서 746문장을 추출하여 실험한 결과 94%~99%의 적용율을 보였다.Abstract In this paper, we propose a Korean feature-based grammar(KFG) which adopts the X-bar theoretic notion of headedness for a precise representation of Korean syntactic structure. In order to explain various language phenomena in a given sentence, we use not the word but the morpheme as a constituent unit of KFG. We use features manifesting both the syntactic information and the semantic information of Korean syntactic categories, and feature operations based on the association relationship between two categories. In addition, we restrict feature operations to CNF(Chomsky Normal Form) binary form, which provides a robust representation for properties in Korean such as the frequent ellipsis and the partial free-order. The KFG is intuitive, simple, and versatile in representing most Korean sentences. The experimental result shows 94%~99% coverage on 746 sentences extracted from SERI Test Suites 97 and newspaper sentences.

The POS Elderly: Semi-automatic annotation tool for Historical Korean (형태소 깎는 노인: 국어사 자료를 위한 형태분석 보조기)

  • Kim, Migyeong;Park, Suzi;Lee, Sana
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.39-43
    • /
    • 2016
  • '형태소 깎는 노인'은 국어사 자료를 처리하는 고성능 자동 형태분석기의 개발이 난항을 겪고 있는 상황에서 수동으로 형태분석 작업을 하는 연구자들을 지원하기 위하여 개발된 형태분석 보조기이다. 인간과 기계의 분업을 통해 인간의 피로를 최대한 줄이고, 단순 반복 형태에 대해서는 정답을 확실하게 제안할 수 있다는 것이 특징이다. 국어사 자료에는 한국어 정보처리를 위해 필요한 어휘 사전이 없으므로, 문법형태소 사전을 만들어 이를 단서로 조사/어미부와 어간부를 구분하도록 하였다. 이를 통해 구축된 소규모 형태분석 말뭉치들이 장기적으로는 자동 형태분석기의 성능 개선에 일조할 수 있을 것으로 기대한다.

  • PDF