• Title/Summary/Keyword: 자질 분석

Search Result 488, Processing Time 0.029 seconds

Korean Dependency Parsing using Deep Learning (딥 러닝을 이용한 한국어 의존 구문 분석)

  • Lee, Changki;Kim, Junseok;Kim, Jeonghee
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.87-91
    • /
    • 2014
  • 일반적인 기계학습 기반의 자연어처리 모듈의 개발에서 자질의 설계와 최적의 자질 조합을 구하는 작업은 많은 시간과 노력이 필요하다. 본 논문에서는 딥 러닝 기술을 전이 기반 방식의 한국어 의존 구문 분석에 적용하여 자질 튜닝 작업에 들어가는 많은 시간과 노력을 줄일 수 있음을 보인다. 또한 딥 러닝을 적용하기 위해 필요한 다양한 단어 표현(word embedding) 모델을 적용하여 최적의 단어 표현 모델을 알아내고, 성능 향상을 위해 최근에 개발된 Drop-out 및 Rectified Linear hidden Unit(ReLU) 기술을 적용한다. 실험결과, 기존 한국어 의존 구문 분석 연구들보다 높은 UAS 90.37%의 성능을 보였다.

  • PDF

A Morpheme-unit Korean Feature-Based Brammer (KFG) with the X-bar Theoretic Notion of Headedness (X-바 이론의 중심어 개념을 도입한 형태소 단위의 한국어 자질 기반 문법)

  • Park, So-Yeong;Hwang, Yeong-Suk;Im, Hae-Chang
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.10
    • /
    • pp.1247-1259
    • /
    • 1999
  • 본 논문에서는 한국어 문장형성원리를 간결하게 제시할 수 있도록 X-바 이론의 중심어 개념을 도입한 한국어 자질기반 문법을 제안한다. 제안하는 문법은 어절에 관계없이 나타나는 한국어의 문법현상을 명확히 설명할 수 있도록 어절 대신 형태소를 기본단위로 한다. 그리고, 한국어의 구문범주가 지닌 의미정보와 기능정보를 자질을 이용하여 독립적으로 표현하며, 구문범주간의 결합관계를 바탕으로 하는 자질연산을 수행하여 문장을 분석한다. 또한, 한국어의 부분자유어순과 생략현상에 대해 견고하게 분석할 수 있도록 자질연산을 이진결합중심의 CNF(Chomsky Normal Form)로 제한한다. 이렇게 구성된 한국어 자질기반 문법은 규칙을 직관적이고도 간단하게 기술하며, 한국어의 다양한 문장들을 견고하게 분석한다. SERI Test Suites 97과 신문기사에서 746문장을 추출하여 실험한 결과 94%~99%의 적용율을 보였다.Abstract In this paper, we propose a Korean feature-based grammar(KFG) which adopts the X-bar theoretic notion of headedness for a precise representation of Korean syntactic structure. In order to explain various language phenomena in a given sentence, we use not the word but the morpheme as a constituent unit of KFG. We use features manifesting both the syntactic information and the semantic information of Korean syntactic categories, and feature operations based on the association relationship between two categories. In addition, we restrict feature operations to CNF(Chomsky Normal Form) binary form, which provides a robust representation for properties in Korean such as the frequent ellipsis and the partial free-order. The KFG is intuitive, simple, and versatile in representing most Korean sentences. The experimental result shows 94%~99% coverage on 746 sentences extracted from SERI Test Suites 97 and newspaper sentences.

An analysis of Speech Acts for Korean Using Support Vector Machines (지지벡터기계(Support Vector Machines)를 이용한 한국어 화행분석)

  • En Jongmin;Lee Songwook;Seo Jungyun
    • The KIPS Transactions:PartB
    • /
    • v.12B no.3 s.99
    • /
    • pp.365-368
    • /
    • 2005
  • We propose a speech act analysis method for Korean dialogue using Support Vector Machines (SVM). We use a lexical form of a word, its part of speech (POS) tags, and bigrams of POS tags as sentence features and the contexts of the previous utterance as context features. We select informative features by Chi square statistics. After training SVM with the selected features, SVM classifiers determine the speech act of each utterance. In experiment, we acquired overall $90.54\%$ of accuracy with dialogue corpus for hotel reservation domain.

A Comparative Study on Optimal Feature Identification and Combination for Korean Dialogue Act Classification (한국어 화행 분류를 위한 최적의 자질 인식 및 조합의 비교 연구)

  • Kim, Min-Jeong;Park, Jae-Hyun;Kim, Sang-Bum;Rim, Hae-Chang;Lee, Do-Gil
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.11
    • /
    • pp.681-691
    • /
    • 2008
  • In this paper, we have evaluated and compared each feature and feature combinations necessary for statistical Korean dialogue act classification. We have implemented a Korean dialogue act classification system by using the Support Vector Machine method. The experimental results show that the POS bigram does not work well and the morpheme-POS pair and other features can be complementary to each other. In addition, a small number of features, which are selected by a feature selection technique such as chi-square, are enough to show steady performance of dialogue act classification. We also found that the last eojeol plays an important role in classifying an entire sentence, and that Korean characteristics such as free order and frequent subject ellipsis can affect the performance of dialogue act classification.

Vocal-cord Signal Study based on Phonological Feature for Vocal-cord Signal Isolated-Word recognizer (성대신호 명령어 인식기를 위한 음운자질에 기반한 성대신호 연구)

  • Jung, Young-Giu;Han, Mun-Sung;Cho, Kwan-Hyun
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.565-570
    • /
    • 2006
  • 웨어러블 환경에서 가장 유용한 사용자 인터페이스는 음성이다. 그러나 현재 노이즈 제거 기술로는 웨어러블 환경과 같은 고소음 환경에서 음성 인식기의 실제적인 응용은 거의 불가능하다. 본 논문은 환경노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 이를 위해 성대신호를 한국어 음운자질 이론을 기반으로 설명하고, 입력신호를 분석하여 이러한 접근방법의 타당성을 검증한다. 이러한 성대신호의 분석을 위해 스펙트럼과, FFT 결과를 사용하고, MFCC 알고리즘을 이용하여 주파수 영역내의 정보량이 인식에 미치는 영향을 분석한다. 그리고 분석결과를 바탕으로 성대신호 명령어 인식기를 위한 특징벡터로 유/무성음 분리에 사용되는 특징벡터가 유용함을 ZCPA 알고리즘을 이용한 성대신호 명령어 인식기를 개발하여 검증한다. 실험결과 ZCPA 를 사용한 것이 MFCC 에 비해 16%높은 인식률을 보인다.

  • PDF

Performance Improvement of Parser through Error Analysts (오류 분석을 통한 파서의 성능향상)

  • Oh, Jin-Young;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.213-218
    • /
    • 2009
  • 본 논문에서는 무제한 텍스트 입력이 가능한 파서에서 오류분석을 통한 성능 향상을 이루고자 한다. 우선 코퍼스로부터 자동학습에 의해서 구문 분석 모델을 만들고 이를 평가하여 발생하는 오류를 분석한다. 오류를 감소시킬 수 있는 언어 특성이 반영된 자질을 추가하여 성능을 향상시키고자 한다. 세종 코퍼스를 10-fold cross validation으로 평가할 때, 한국어의 특성을 반영한 자질 추가로 1%이상의 성능 향상을 이루었다.

  • PDF

Feature Expansion based on LDA Word Distribution for Performance Improvement of Informal Document Classification (비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장)

  • Lee, Hokyung;Yang, Seon;Ko, Youngjoong
    • Journal of KIISE
    • /
    • v.43 no.9
    • /
    • pp.1008-1014
    • /
    • 2016
  • Data such as Twitter, Facebook, and customer reviews belong to the informal document group, whereas, newspapers that have grammar correction step belong to the formal document group. Finding consistent rules or patterns in informal documents is difficult, as compared to formal documents. Hence, there is a need for additional approaches to improve informal document analysis. In this study, we classified Twitter data, a representative informal document, into ten categories. To improve performance, we revised and expanded features based on LDA(Latent Dirichlet allocation) word distribution. Using LDA top-ranked words, the other words were separated or bundled, and the feature set was thus expanded repeatedly. Finally, we conducted document classification with the expanded features. Experimental results indicated that the proposed method improved the micro-averaged F1-score of 7.11%p, as compared to the results before the feature expansion step.

Effective Korean sentiment classification method using word2vec and ensemble classifier (Word2vec과 앙상블 분류기를 사용한 효율적 한국어 감성 분류 방안)

  • Park, Sung Soo;Lee, Kun Chang
    • Journal of Digital Contents Society
    • /
    • v.19 no.1
    • /
    • pp.133-140
    • /
    • 2018
  • Accurate sentiment classification is an important research topic in sentiment analysis. This study suggests an efficient classification method of Korean sentiment using word2vec and ensemble methods which have been recently studied variously. For the 200,000 Korean movie review texts, we generate a POS-based BOW feature and a feature using word2vec, and integrated features of two feature representation. We used a single classifier of Logistic Regression, Decision Tree, Naive Bayes, and Support Vector Machine and an ensemble classifier of Adaptive Boost, Bagging, Gradient Boosting, and Random Forest for sentiment classification. As a result of this study, the integrated feature representation composed of BOW feature including adjective and adverb and word2vec feature showed the highest sentiment classification accuracy. Empirical results show that SVM, a single classifier, has the highest performance but ensemble classifiers show similar or slightly lower performance than the single classifier.

Analyzing ages, gender, location on Twitter using LDA (LDA를 이용한 트윗 유저의 연령대, 성별, 지역 분석)

  • Lee, Ho-Kyung;Chun, Ju-Ryong;Song, Nam-Hoon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.116-119
    • /
    • 2013
  • 요즘 많은 사람들은 트위터를 통해 짧은 문장의 트윗을 작성하여 자신의 의견이나 생각을 표현한다. 사람들이 작성한 트윗은 사용자의 연령, 성별, 지역에 따라 다른 특성이 담겨있다. 이러한 정보를 이용하여, 기업에서는 연령대, 성별, 지역에 따라 각기 다른 마케팅 전략을 세울 수 있을 것이다. 본 논문에서는 트위터 사용자들의 트윗을 분석하여 연령대, 성별, 지역을 예측하려 한다. 네이버 오픈사전의 자질, 한국전자통신연구원(ETRI)의 개체명 사전을 이용한 자질 및 한국어 형태소 분석, 음절 단위의 bigram을 클래스별 의미 있는 자질로 선택하고 LDA를 이용하여 예측된 확률분포를 활용하여 분류한 결과, 연령 72%, 성별 75%, 지역 43%의 납득할만한 예측 정확도 결과를 얻게 되었다.

  • PDF

Third-order Dependency Parsing of Korean (3차 의존 파싱에 기반한 한국어 구문 분석)

  • Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.78-80
    • /
    • 2014
  • 본 논문에서는 한국어 구문 분석을 위해 3차 의존 파싱 방법을 적용한 성능 결과를 제시한다. 3차 의존 파싱에서는 조부모 (grandparent) 노드 정보까지 참조함으로써 2차 자질의 한계를 넘어 보다 복잡하고 다양한 자질을 고려할 수 있다. 실험 결과 3차 의존 파싱은 기존의 2차 한국어 의존 파싱의 성능을 향상시켰다.

  • PDF