• Title/Summary/Keyword: 어휘 자질

Search Result 103, Processing Time 0.022 seconds

Linguistic Features Discrimination for Social Issue Risk Classification (사회적 이슈 리스크 유형 분류를 위한 어휘 자질 선별)

  • Oh, Hyo-Jung;Yun, Bo-Hyun;Kim, Chan-Young
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.11
    • /
    • pp.541-548
    • /
    • 2016
  • The use of social media is already essential as a source of information for listening user's various opinions and monitoring. We define social 'risks' that issues effect negative influences for public opinion in social media. This paper aims to discriminate various linguistic features and reveal their effects for building an automatic classification model of social risks. Expecially we adopt a word embedding technique for representation of linguistic clues in risk sentences. As a preliminary experiment to analyze characteristics of individual features, we revise errors in automatic linguistic analysis. At the result, the most important feature is NE (Named Entity) information and the best condition is when combine basic linguistic features. word embedding, and word clusters within core predicates. Experimental results under the real situation in social bigdata - including linguistic analysis errors - show 92.08% and 85.84% in precision respectively for frequent risk categories set and full test set.

A Study of Intrinsic and Extrinsic Semantic Features of Korean Nouns: Focusing on the Categories of Grains, Fruits and Vegetables (한국어 명사의 내재적/외재적 의미특징 연구: 곡식, 과일, 채소 범주를 중심으로)

  • 정영철;이정모
    • Korean Journal of Cognitive Science
    • /
    • v.15 no.1
    • /
    • pp.43-67
    • /
    • 2004
  • Using qualitative research methodology, this study has investigated the semantic features of 39 nouns, which are classified into the categories of grains, fruits and vegetables. A survey has been conducted with a substantial number of undergraduate students, who were asked to describe any semantic features they associated with the lexical items within the three categories. The analysis of the survey data shows that the concepts of examples of fruits are defined predominantly by intrinsic semantic features, while those of grains and vegetables are defined noticeably by extrinsic semantic features rather than intrinsic ones. Intrinsic semantic features are any properties inherent in an object itself and extrinsic semantic features are defined as any properties constructed by association with other objects or personal experiences in a certain situation. However, this study does not maintain that either intrinsic or extrinsic semantic features solely define the concepts of the examples of the three categories. Instead, it concludes that both kinds of semantic features are involved in the representation of the concepts of those vocabularies, with intrinsic features salient in the category of fruits and extrinsic features salient in the categories of gains and vegetables.

  • PDF

Relation Extraction based on Extended Composite Kernel using Flat Lexical Features (평면적 어휘 자질들을 활용한 확장 혼합 커널 기반 관계 추출)

  • Chai, Sung-Pil;Jeong, Chang-Hoo;Chai, Yun-Soo;Myaeng, Sung-Hyon
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.8
    • /
    • pp.642-652
    • /
    • 2009
  • In order to improve the performance of the existing relation extraction approaches, we propose a method for combining two pivotal concepts which play an important role in classifying semantic relationships between entities in text. Having built a composite kernel-based relation extraction system, which incorporates both entity features and syntactic structured information of relation instances, we define nine classes of lexical features and synthetically apply them to the system. Evaluation on the ACE RDC corpus shows that our approach boosts the effectiveness of the existing composite kernels in relation extraction. It also confirms that by integrating the three important features (entity features, syntactic structures and contextual lexical features), we can improve the performance of a relation extraction process.

Recognition of Korean Implicit Citation Sentences Using Machine Learning with Lexical Features (어휘 자질 기반 기계 학습을 사용한 한국어 암묵 인용문 인식)

  • Kang, In-Su
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.16 no.8
    • /
    • pp.5565-5570
    • /
    • 2015
  • Implicit citation sentence recognition is to locate citation sentences which lacks explicit citation markers, from articles' full-text. State-of-the-art approaches exploit word ngrams, clue words, researcher's surnames, mentions of previous methods, and distance relative to nearest explicit citation sentences, etc., reaching over 50% performance. However, most previous works have been conducted on English. As for Korean, a rule-based method using positive/negative clue patterns was reported to attain the performance of 42%, requiring further improvement. This study attempted to learn to recognize implicit citation sentences from Korean literatures' full-text using Korean lexical features. Different lexical feature units such as Eojeol, morpheme, and Eumjeol were evaluated to determine proper lexical features for Korean implicit citation sentence recognition. In addition, lexical features were combined with the position features representing backward/forward proximities to explicit citation sentences, improving the performance up to over 50%.

Machine Learning Based Blog Text Opinion Classification System Using Opinion Word Centered-Dependency Tree Pattern Features (의견어중심의 의존트리패턴자질을 이용한 기계학습기반 한국어 블로그 문서 의견분류시스템)

  • Kwak, Dong-Min;Lee, Seung-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.337-338
    • /
    • 2009
  • 블로그문서의 의견극성분류 연구는 주로 기계학습기법에 기반한 방법이었고, 이때 주로 활용된 자질은 명사, 동사 등의 품사정보와 의견어 어휘정보였다. 하지만 하나의 의견어 어휘만을 고려한다면 그 극성을 판별하는데 필요한 정보가 충분하지 않아 부정확한 결과를 도출하는 경우가 발생할 수 있다. 본 논문에서는 여러 어휘를 동시에 고려하였을 때 보다 정확한 의견분류를 수행할 수 있을 것이라는 가정을 세웠다. 본 논문에서는 효과적인 의견어휘자질의 추출을 위하여 의견이 내포될 가능성이 높은 의견어휘를 기반으로 의존구문분석을 통해 의존트리패턴을 추출하였고, 제안하는 PF-IDF가중치를 적용하여 지지벡터기계(SVM)와 다항시행접근 단순베이지안(MNNB)알고리즘으로 비교 실험을 수행하였다. 기준시스템인 TF-IDF가중치 기법에 비해 정확도(accuracy)가 지지벡터기계에서 5%, 다항시행접근 단순베이지안에서 8.9% 향상된 성능을 보였다.

Improving Korean Part-of-Speech Tagging Using The Lexical Specific Classifier (어휘별 분류기를 이용한 한국어 품사 부착의 성능 향상)

  • Choi, Won-Jong;Lee, Do-Gil;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.133-139
    • /
    • 2006
  • 한국어 형태소 분석 및 품사 부착을 위해 지금까지 다양한 모델들이 제안이 되었으며 어절단위 평가로 95%를 넘는 성능을 보여주는 자동 태거가 보고 되었다. 하지만 형태소 분석 및 품사 부착은 모든 자연어처리 시스템의 성능에 큰 영향을 미치므로 작은 오류도 중요하다. 본 연구에서는 대상 어절의 주변 형태소의 어휘와 품사 자질, 그리고 어절 자질을 이용하여 분류기를 학습한 후 자동 태거의 품사 부착 결과를 입력으로 받아 후처리 하는 어휘별 분류기를 제안한다. 실험 결과 어휘별 분류기를 이용한 후처리만으로 어절단위 평가 6.86%$(95.251%{\rightarrow}95.577%)$의 오류가 감소하는 성능향상을 얻었으며, 기존에 제안된 품사별 자질을 이용한 후처리 방법과 순차 결합할 경우 16.91%$(95.251%{\rightarrow}96.054%)$의 오류가 감소하는 성능 향상을 얻을 수 있었다. 특히 본 논문에서 제안하는 방법은 형태소 어휘까지 정정할 수 있기 때문에 품사별 자질을 이용한 후처리 방법의 성능을 더욱 향상시킬 수 있다.

  • PDF

Analyzing Dependency of Korean Subordinate Clauses Using Support Vector Machine (SVM을 사용한 한국어 종속절의 의존관계 분석)

  • Kim, Sang-Soo;Park, Seong-Bae;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.148-155
    • /
    • 2006
  • 한국어 구문 분석에서 가장 어려운 작업들 중에 하나는 종속절의 의존관계 파악이다. 본 논문에서는 이를 해결하기 위해서 종속절의 의존관계를 걸을 구성하는 서술어부(동사와 어미)의 관련 정보의 유무에 따라 의존관계가 성립한다고 가정했다. 즉 각각의 절들의 서술부의 관련 정보의 유무로 보고, 이진 분류 문제로 이 문제를 해결하였다. 사용한 자질은 정적 자질(static feature)와 동적 자질(dynamic feature)를 구성되어 있다. 정적 자질은 동사와 어미에서 표면적인 어휘 정보이고 이는 단어, POS 테그 및 위치 정보들이다. 동적 자질은 문장에서 절이 가지는 문법적인 형태를 의미하고, 이를 추출하기 위해 간단한 규칙을 만들고 이를 바탕으로 CKY 차트 파서를 통하여 추출하였다. 기계학습 방법으로는 이진 분류 문제에서 널리 사용되는 SVM을 사용하였다. 실험 결과 어휘 정보들 중에서 어미의 정보만 사용하였을 경우는 64.4%의 정확도를 보였고 문법적인 정보인 동적 자질을 사용한 경우는 73.5%로 어휘 정보만을 사용한 경우 보다 9.1%의 성능 향상됨을 보였다

  • PDF

Emotion Classification in Dialogues Using Embedding Features (임베딩 자질을 이용한 대화의 감정 분류)

  • Shin, Dong-Won;Lee, Yeon-Soo;Jang, Jung-Sun;Lim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.109-114
    • /
    • 2015
  • 대화 시스템에서 사용자 발화에 대한 감정 분석은 적절한 시스템 응답과 서비스를 제공하는데 있어 매우 중요한 정보이다. 본 연구에서는 단순한 긍, 부정이 아닌 분노, 슬픔, 공포, 기쁨 등 Plutchick의 8 분류 체계에 해당하는 상세한 감정을 분석 하는 데 있어, 임베딩 모델을 사용하여 기존의 어휘 자질을 효과적으로 사용할 수 있는 새로운 방법을 제안한다. 또한 대화 속에서 발생한 감정의 지속성을 반영하기 위하여 문장 임베딩 벡터와 문맥 임베딩 벡터를 자질로서 이용하는 방법에 대해 제안한다. 실험 결과 제안하는 임베딩 자질은 특히 내용어에 대해 기존의 어휘 자질을 대체할 수 있으며, 데이터 부족 문제를 다소 해소하여 성능 향상에 도움이 되는 것으로 나타났다.

  • PDF

Dictionary-Based Opinion Features Extraction and Classification of Korean Product Reviews (사전기반의 한국어 상품 리뷰 의견표현 자질 추출 및 분류시스템)

  • Sangguen Yuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.631-634
    • /
    • 2008
  • 인터넷을 이용한 사람들의 사회 참여가 확대되면서 다양한 의견(Opinion)들이 급속도로 증가하고 있으며 이러한 의견을 분석하여 유용한 정보로 활용하기 위한 연구가 활발히 진행되고 있다. 그 중에서도 상품리뷰는 기업에서 연구, 개발, 마케팅의 주요 자료로 사용되고 있으며 사용자가 상품의 구매를 결정하는 중요한 요인 중 하나로 작용하고 있다. 본 논문에서는 한국어로 이루어진 상품 리뷰를 분석하여 의견 자질(Feature)을 추출하고 분류(Classification)하는 시스템을 설계하고 구현하였다. 한글 의견 자질 추출을 위하여 먼저 한글 상품 리뷰를 분석하여 의견 사전을 구축하였다. 의견 사전으로는 의견 자질과 의견 어휘, 독립의견어휘, 의견 숙어, 부정어 등의 각기 다른 세부 사전을 구축하여 리뷰 분석 시 단계적으로 적용하여 정확도를 높일 수 있도록 설계하였다. 이렇게 구현된 시스템을 평가하기 위하여 각기 다른 3개의 도메인에서 실제 한국어 리뷰를 수집하여 실험을 수행하였으며 자질 추출에서는 평균 78.86% 정확률, 61.41% 재현율을, 극성 분류에서는 평균 69.46% 정확률, 42.26% 재현율을 나타냈다.