• Title/Summary/Keyword: 한글 문장 감정분류

Search Result 13, Processing Time 0.212 seconds

A Weight Boosting Method of Sentiment Features for Korean Document Sentiment Classification (한국어 문서 감정분류를 위한 감정 자질 가중치 강화 기법)

  • Hwang, Jaewon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.201-206
    • /
    • 2008
  • 본 논문은 한국어 문서 감정분류에 기반이 되는 감정 자질의 가중치 강화를 통해 감정분류의 성능 향상을 얻을 수 있는 기법을 제안한다. 먼저, 어휘 자원인 감정 자질을 확보하고, 확장된 감정 자질이 감정 분류에 얼마나 기여하는지를 평가한다. 그리고 학습 데이터를 이용하여 얻을 수 있는 감정 자질의 카이 제곱 통계량(${\chi}^2$ statics)값을 이용하여 각 문장의 감정 강도를 구한다. 이렇게 구한 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정 자질의 가중치를 강화시킨다. 마지막으로 긍정 문서에서는 긍정 감정 자질만 강화하고 부정 문서에서는 부정 감정 자질만 강화하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우 보다 약 2.0%의 성능 향상을 보였다.

  • PDF

A Semantic Orientation Prediction Method of Sentiment Features Based on the General and Domain-Dependent Characteristics (일반적, 영역 의존적 특성을 반영한 감정 자질의 의미지향성 추정 방법)

  • Hwang, Jaewon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.155-159
    • /
    • 2009
  • 본 논문은 한국어 문서 감정분류를 위한 중요한 어휘 자원인 감정자질(Sentiment Feature)의 의미지향성(Semantic Orientation) 추정을 위해 일반적인 특성과 영역(Domain) 의존적인 특성을 반영하여 한국어 문서 감정분류(Sentiment Classification)의 성능 향상을 얻을 수 있는 기법을 제안한다. 감정자질의 의미지 향성은 검색 엔진을 통해 추출한 각 감정 자질의 스니핏(Snippet)과 실험 말뭉치를 이용하여 추정할 수 있다. 검색 엔진을 통해 추출된 스니핏은 감정자질의 일반적인 특성을 반영하며, 실험 말뭉치는 분류하고자 하는 영역 의존적인 특성을 반영한다. 이렇게 얻어진 감정자질의 의미지향성 수치는 각 문장의 감정강도를 추정하기 위해 이용되며, 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정자질의 가중치를 책정한다. 최종적으로 학습 과정에서 긍정 문서에서는 긍정 감정자질, 부정 문서에서는 부정 감정자질을 대상으로 추가 가중치를 부여하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 3.1%의 성능향상을 보였다.

  • PDF

KE-T5-Based Text Emotion Classification in Korean Conversations (KE-T5 기반 한국어 대화 문장 감정 분류)

  • Lim, Yeongbeom;Kim, San;Jang, Jin Yea;Shin, Saim;Jung, Minyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.496-497
    • /
    • 2021
  • 감정 분류는 사람의 사고방식이나 행동양식을 구분하기 위한 중요한 열쇠로, 지난 수십 년간 감정 분석과 관련된 다양한 연구가 진행되었다. 감정 분류의 품질과 정확도를 높이기 위한 방법 중 하나로 단일 레이블링 대신 다중 레이블링된 데이터 세트를 감정 분석에 활용하는 연구가 제안되었고, 본 논문에서는 T5 모델을 한국어와 영어 코퍼스로 학습한 KE-T5 모델을 기반으로 한국어 발화 데이터를 단일 레이블링한 경우와 다중 레이블링한 경우의 감정 분류 성능을 비교한 결과 다중 레이블 데이터 세트가 단일 레이블 데이터 세트보다 23.3% 더 높은 정확도를 보임을 확인했다.

  • PDF

A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text (한글 텍스트 감정 이진 분류 모델 생성을 위한 미세 조정과 전이학습에 관한 연구)

  • JongSoo Kim
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.28 no.5
    • /
    • pp.15-30
    • /
    • 2023
  • Recently, generative models based on the Transformer architecture, such as ChatGPT, have been gaining significant attention. The Transformer architecture has been applied to various neural network models, including Google's BERT(Bidirectional Encoder Representations from Transformers) sentence generation model. In this paper, a method is proposed to create a text binary classification model for determining whether a comment on Korean movie review is positive or negative. To accomplish this, a pre-trained multilingual BERT sentence generation model is fine-tuned and transfer learned using a new Korean training dataset. To achieve this, a pre-trained BERT-Base model for multilingual sentence generation with 104 languages, 12 layers, 768 hidden, 12 attention heads, and 110M parameters is used. To change the pre-trained BERT-Base model into a text classification model, the input and output layers were fine-tuned, resulting in the creation of a new model with 178 million parameters. Using the fine-tuned model, with a maximum word count of 128, a batch size of 16, and 5 epochs, transfer learning is conducted with 10,000 training data and 5,000 testing data. A text sentiment binary classification model for Korean movie review with an accuracy of 0.9582, a loss of 0.1177, and an F1 score of 0.81 has been created. As a result of performing transfer learning with a dataset five times larger, a model with an accuracy of 0.9562, a loss of 0.1202, and an F1 score of 0.86 has been generated.

Sentiment words extraction method using pattern (패턴을 이용한 상품평 감정 단어 추출 방법)

  • Chun, Eun-Hye;Shim, Su-Jeong;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.112-113
    • /
    • 2010
  • 최근 오피니언 마이닝 관련 연구 중 감정 분류에 대한 관심이 높아지면서 많은 연구가 진행되고 있다. 기존 영어권 연구에서 제시되어온 방법은 한국어 상품평에 적용하는 것이 쉽지 않다. 영어 시소러스 기반 한국어 감정단어 추출 기술은 한국어와 영어 단어가 일대일로 일치하기가 어렵다는 문제가 있다. 기존 관련 연구 중 k-Structure 기법은 패턴의 길이가 3인 단순한 문장에 속성단어와 감정단어가 포함되었을 경우를 기준으로 한 것이므로 한정적이다. 본 논문에서 제안하는 방법은 상품평에서 의미적인 패턴을 추출하여 감정 단어의 위치를 파악하는 방법이다.

  • PDF

A method to sequentially use lexical features for effective sentiment categorization of Korean Customer Reviews (효과적인 상품평 감정 분류를 위한 어휘 자질의 순차적 사용 방법)

  • Shin, Jun-Soo;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.151-154
    • /
    • 2009
  • 인터넷이 크게 발전하면서 현재는 인터넷으로 쉽게 쇼핑을 할 수 있다. 이 때 물건의 구입에 큰 영향력을 미치는 것이 바로 그 물건의 상품평이다. 하지만 실제로 수많은 상품평을 사용자가 일일이 확인하고 판단하는 데에는 많은 시간이 소모된다. 이러한 문제점을 해결하기 위해서 본 논문에서는 상품평 문장을 일반, 긍정, 부정의 세 단계로 나누는 시스템을 제안한다. 감정을 판단하는데 중요한 역할을 하는 품사에 따라 우선순위를 달리하여 자질을 추출한다. 추출된 자질을 사용하여 Paul Graham을 사용하여 가중치를 계산하고 기계학습을 한다. 실험은 일반과 감정(긍정, 부정)으로 분류하는 실험과 긍정과 부정으로 분류하는 실험을 하였다. 실험 결과 품사에 우선순위를 사용하여 만든 시스템이 기본 시스템보다 더 적은 자질을 사용하고 더 높은 성능을 보였다.

  • PDF

Emotion Classification in Dialogues Using Embedding Features (임베딩 자질을 이용한 대화의 감정 분류)

  • Shin, Dong-Won;Lee, Yeon-Soo;Jang, Jung-Sun;Lim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.109-114
    • /
    • 2015
  • 대화 시스템에서 사용자 발화에 대한 감정 분석은 적절한 시스템 응답과 서비스를 제공하는데 있어 매우 중요한 정보이다. 본 연구에서는 단순한 긍, 부정이 아닌 분노, 슬픔, 공포, 기쁨 등 Plutchick의 8 분류 체계에 해당하는 상세한 감정을 분석 하는 데 있어, 임베딩 모델을 사용하여 기존의 어휘 자질을 효과적으로 사용할 수 있는 새로운 방법을 제안한다. 또한 대화 속에서 발생한 감정의 지속성을 반영하기 위하여 문장 임베딩 벡터와 문맥 임베딩 벡터를 자질로서 이용하는 방법에 대해 제안한다. 실험 결과 제안하는 임베딩 자질은 특히 내용어에 대해 기존의 어휘 자질을 대체할 수 있으며, 데이터 부족 문제를 다소 해소하여 성능 향상에 도움이 되는 것으로 나타났다.

  • PDF

A Sentiment Analysis of Internet Movie Reviews Using String Kernels (문자열 커널을 이용한 인터넷 영화평의 감정 분석)

  • Kim, Sang-Do;Yoon, Hee-Geun;Park, Seong-Bae;Park, Se-Young;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.56-60
    • /
    • 2009
  • 오늘날 인터넷은 개인의 감정, 의견을 서로 공유할 수 있는 공간이 되고 있다. 하지만 인터넷에는 너무나 방대한 문서가 존재하기 때문에 다른 사용자들의 감정, 의견 정보를 개인의 의사 결정에 활용하기가 쉽지 않다. 최근 들어 감정이나 의견을 자동으로 추출하기 위한 연구가 활발하게 진행되고 있으며, 감정 분석에 관한 기존 연구들은 대부분 어구의 극성(polarity) 정보가 있는 감정 사전을 사용하고 있다. 하지만 인터넷에는 나날이 신조어가 새로 생기고 언어 파괴 현상이 자주 일어나기 때문에 사전에 기반한 방법은 한계가 있다. 본 논문은 감정 분석 문제를 긍정과 부정으로 구분하는 이진 분류 문제로 본다. 이진 분류 문제에서 탁월한 성능을 보이는 Support Vector Machines(SVM)을 사용하며, 문서들 간의 유사도 계산을 위해 문장의 부분 문자열을 비교하는 문자열 커널을 사용한다. 실험 결과, 실제 영화평에서 제안된 모델이 비교 대상으로 삼은 Bag of Words(BOW) 모델보다 안정적인 성능을 보였다.

  • PDF

Automatic Speaker Identification in Fairytales towards Robot Storytelling (로봇 동화 구연을 위한 동화 상 발화문의 화자 자동파악)

  • Min, Hye-Jin;Kim, Sang-Chae;Park, Jong C.
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.77-83
    • /
    • 2012
  • 본 연구에서는 로봇의 자동 동화구연을 목표로 발화문장 상의 감정 파악 및 등장인물 별 다앙한 TTS 보이스 선택에 활용 가능한 발화문장의 화자 파악문제를 다룬다. 본 연구에서는 기존 규칙기반 방법론에서 많이 활용되어온 자질인 후보의 위치, 화자 후보의 주격/목적격 여부, 발화동사 존재 여부를 비롯하여 동화에 자주 나타나는 등장인물의 의미적 분류 및 등장인물의 등장/퇴장과 관련된 동사들을 추가 자질로 활용한다. 사람 및 동식물, 무생물이 모두 화자가 될 수 있는 동화 코퍼스에서 제안한 자질들을 활용하여 의사결정트리로 학습 및 검증한 결과 규칙기반의 베이스라인 방법에 비해 최대 49%의 정확도가 향상되었고, 제안한 방법론이 데이터의 변화에도 강인한 것을 확인할 수 있었다.

  • PDF

Text Style Transfer of Non-parallel Data using Transformer and Discriminator (트랜스포머와 판별기를 이용한 비병렬 데이터의 텍스트 스타일 변환)

  • Park, Da-Sol;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.64-68
    • /
    • 2020
  • 텍스트 스타일 변환은 문장 내 컨텐츠는 유지하면서 문장의 스타일을 변경하는 것이다. 스타일의 정의가 모호하기 때문에 텍스트 스타일 변환에 대한 연구는 대부분 지도 학습으로 진행되어왔다. 본 논문에서는 병렬 데이터 구축이 되지 않은 데이터를 학습하기 위해 비병렬 데이터를 이용하여 스타일 변환을 시도한다. 트랜스포머 기반의 문장 생성기를 이용하여 문장을 생성하고, 해당 스타일을 분류하는 판별기로 이루어진 모델을 제안한다. 제안 모델을 통해, 감정 변환의 성능은 정확도(Accuracy) 56.9%, self-BLEU 0.393(긍정→부정), 0.366(부정→긍정), 유창성(fluency) 798.23(긍정→부정), 1381.05(부정→긍정)을 보였다. 본 연구는 비병렬 데이터에 대해 스타일 변환을 적용함으로써, 병렬 데이터가 없는 다양한 도메인에도 적용가능 할 것이다.

  • PDF