• 제목/요약/키워드: Korean sentiment classification

검색결과 80건 처리시간 0.024초

새로운 텍스트 감정 분류 방법 (New Text Sentiment Classification Method)

  • 신성윤;이현창;신광성;김형진;이재완
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.553-554
    • /
    • 2021
  • 본 논문은 LSTM과 CNN 딥러닝 기법을 기반으로 하는 융합 모델을 제안하고, 다중 카테고리 뉴스 데이터 셋에 적용하여 좋은 결과를 얻는다. 실험에 따르면 딥 러닝 기반의 융합 모델이 텍스트 감정 분류의 정밀도와 정확도를 크게 향상시켰다.

  • PDF

리뷰의 의미적 토픽 분류를 적용한 감성 분석 모델 (Sentiment Analysis Model with Semantic Topic Classification of Reviews)

  • 임명진;김판구;신주현
    • 스마트미디어저널
    • /
    • 제9권2호
    • /
    • pp.69-77
    • /
    • 2020
  • 지상파에 한정되어 방영되었던 과거와는 달리 현재는 케이블 채널과 인터넷 웹에서도 수많은 드라마가 방영되고 있다. 드라마를 보고난 후 시청자들은 리뷰를 통해 적극적으로 자신의 의견을 표현하고 이러한 리뷰의 분석에 관련된 연구들이 활발하게 진행되고 있다. 드라마의 특성상 장르가 뚜렷하지 않고 시청자의 다양한 연령층으로 인해 다른 시청자들의 리뷰와 평가는 어떤 드라마를 볼 것인지 결정하는데 도움이 된다. 하지만 많은 리뷰를 시청자가 일일이 확인하고 분석하는 것은 어렵기 때문에 자동으로 분석하기위한 데이터 분석 기법이 필요하다. 이에 본 논문에서는 드라마 선택에 중요한 영향을 미치는 리뷰의 토픽을 분류하고 단어의 의미 유사도에 따라 의미적 토픽으로 재분류한다. 그리고 리뷰를 의미적 토픽에 따른 문장으로 분류한 다음 감성단어를 통해 감성을 분석하는 모델을 제안한다.

RNN과 트랜스포머 기반 모델들의 한국어 리뷰 감성분류 비교 (Comparison of Sentiment Classification Performance of for RNN and Transformer-Based Models on Korean Reviews)

  • 이재홍
    • 한국전자통신학회논문지
    • /
    • 제18권4호
    • /
    • pp.693-700
    • /
    • 2023
  • 텍스트 문서에서 주관적인 의견과 감정을 긍정 혹은 부정으로 분류하고 식별하는 자연어 처리의 한 분야인 감성 분석은 고객 선호도 분석을 통해 다양한 홍보 및 서비스에 활용할 수 있다. 이를 위해 최근 머신러닝과 딥러닝의 다양한 기법을 활용한 연구가 진행되어 왔다. 본 연구에서는 기존의 RNN 기반 모델들과 최근 트랜스포머 기반 언어 모델들을 활용하여 영화, 상품 및 게임 리뷰를 대상으로 감성 분석의 정확도를 비교 분석하여 최적의 언어 모델을 제안하고자 한다. 실험 결과 한국어 말뭉치로 사전 학습된 모델들 중 LMKor-BERT와 GPT-3가 상대적으로 좋은 정확도를 보여주었다.

자연어처리 모델을 이용한 이커머스 데이터 기반 감성 분석 모델 구축 (E-commerce data based Sentiment Analysis Model Implementation using Natural Language Processing Model)

  • 최준영;임희석
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.33-39
    • /
    • 2020
  • 자연어 처리 분야에서 번역, 형태소 태깅, 질의응답, 감성 분석등 다양한 영역의 연구가 활발히 진행되고 있다. 감성 분석 분야는 Pretrained Model을 전이 학습하여 단일 도메인 영어 데이터셋에 대해 높은 분류 정확도를 보여주고 있다. 본 연구에서는 다양한 도메인 속성을 가지고 있는 이커머스 한글 상품평 데이터를 이용하고 단어 빈도 기반의 BOW(Bag Of Word), LSTM[1], Attention, CNN[2], ELMo[3], KoBERT[4] 모델을 구현하여 분류 성능을 비교하였다. 같은 단어를 동일하게 임베딩하는 모델에 비해 문맥에 따라 다르게 임베딩하는 전이학습 모델이 높은 정확도를 낸다는 것을 확인하였고, 17개 카테고리 별, 모델 성능 결과를 분석하여 실제 이커머스 산업에서 적용할 수 있는 감성 분석 모델 구성을 제안한다. 그리고 모델별 용량에 따른 추론 속도를 비교하여 실시간 서비스가 가능할 수 있는 모델 연구 방향을 제시한다.

소셜빅데이터를 이용한 온라인 소비자감성지수(e-CCSI) 개발 (Electronic-Composit Consumer Sentiment Index(CCSI) development by Social Bigdata Analysis)

  • 김유신;홍성관;강희주;정승렬
    • 인터넷정보학회논문지
    • /
    • 제18권4호
    • /
    • pp.121-131
    • /
    • 2017
  • 인터넷, 소셜미디어, 모바일 등의 등장이후 소비자들은 개인의 의견을 온라인을 통해 적극적으로 표명하기 시작했고 이의 확산 또한 실시간으로 이루어지고 있다. 인터넷 기반의 다양한 커뮤니케이션 활동들을 통해 생산되는 텍스트는 인터넷을 사용하는 사용자들이 공유하고 공감하는 자원으로서 단순한 소통의 도구를 넘어 분석의 가치가 있는 새로운 정보의 창고가 되고 있다. 세계 각국의 정부와 기업은 인터넷과 소셜미디어를 통해 생산되는 소셜 빅데이터를 활용하여 사회/경제적 문제의 해결과 정부의 정책을 효과적으로 추진하는데 적극 활용하고 있다. 특히 경제와 관련해서는 경기현황에 대한 경제주체들의 움직임을 보다 빠르고 정확하게 분석하고 예측하여 이에 알맞은 정책을 적기에 실시할 수 있도록 다각적인 활동을 펼치고 있다. 본 연구에서는 소셜 미디어에 내재된 소비자의 직적접이고 즉시성 있는 의견을 경제적 측면에서 활용할 수 있는 온라인 소비자감성지수 모형을 제시하고 구현하였다. 이를 위해 한국은행의 소비자동향조사(CSI)와 소비자심리지수(CCSI)를 온라인으로 수행할 수 있는 어휘분류체계(온톨로지)와 감성사전을 구축하고 감성분석을 실시하여 생활형편, 경제상황, 소비와 수입 4가지 영역의 소셜감성지수를 도출하였다. 또한 이들을 결합한 온라인 소비자감성지수(e-CCSI)를 개발하고 소비자심리지수와 비교를 통해 유용성을 확인하였다.

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

한글 텍스트 감정 이진 분류 모델 생성을 위한 미세 조정과 전이학습에 관한 연구 (A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text)

  • 김종수
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.15-30
    • /
    • 2023
  • 근래에 트랜스포머(Transformer) 구조를 기초로 하는 ChatGPT와 같은 생성모델이 크게 주목받고 있다. 트랜스포머는 다양한 신경망 모델에 응용되는데, 구글의 BERT(bidirectional encoder representations from Transformers) 문장생성 모델에도 사용된다. 본 논문에서는, 한글로 작성된 영화 리뷰에 대한 댓글이 긍정적인지 부정적인지를 판단하는 텍스트 이진 분류모델을 생성하기 위해서, 사전 학습되어 공개된 BERT 다국어 문장생성 모델을 미세조정(fine tuning)한 후, 새로운 한국어 학습 데이터셋을 사용하여 전이학습(transfer learning) 시키는 방법을 제안한다. 이를 위해서 104 개 언어, 12개 레이어, 768개 hidden과 12개의 집중(attention) 헤드 수, 110M 개의 파라미터를 사용하여 사전 학습된 BERT-Base 다국어 문장생성 모델을 사용했다. 영화 댓글을 긍정 또는 부정 분류하는 모델로 변경하기 위해, 사전 학습된 BERT-Base 모델의 입력 레이어와 출력 레이어를 미세 조정한 결과, 178M개의 파라미터를 가지는 새로운 모델이 생성되었다. 미세 조정된 모델에 입력되는 단어의 최대 개수 128, batch_size 16, 학습 횟수 5회로 설정하고, 10,000건의 학습 데이터셋과 5,000건의 테스트 데이터셋을 사용하여 전이 학습시킨 결과, 정확도 0.9582, 손실 0.1177, F1 점수 0.81인 문장 감정 이진 분류모델이 생성되었다. 데이터셋을 5배 늘려서 전이 학습시킨 결과, 정확도 0.9562, 손실 0.1202, F1 점수 0.86인 모델을 얻었다.

사용자의 정서 단어 분류에 기반한 정서 분류와 선택 방법 (A Classification and Selection Method of Emotion Based on Classifying Emotion Terms by Users)

  • 이신영;함준석;고일주
    • 감성과학
    • /
    • 제15권1호
    • /
    • pp.97-104
    • /
    • 2012
  • 최근에 사용자에 의한 대량의 텍스트 데이터가 발생하면서 사용자의 정보, 의견 등을 분석하는 오피니언 마이닝이 중요하게 부각되고 있다. 오피니언 마이닝 중 특히 정서 분석은 제품, 사회적 이슈, 정치인에 대한 호감 등에 대한 개인적 의견이나 정서를 분석하여 긍정, 부정이나 행복, 슬픔 등의 정서를 분석하는 연구 분야이다. 정서 분석을 위해서 정서 차원 이론의 정서가와 각성 차원의 2차원 공간을 사용하고, 이 공간에서 정서가 분포하는 영역을 설정하여 매핑하는 방법을 사용한다. 그러나 기존에는 정서의 분포 영역을 임의로 설정하는 문제가 있었다. 본 논문에서는 이 문제를 해결하기 위해, 한국어 정서 단어 목록을 사용해 사용자 설문을 실시하여 2차원 상에 12개 정서의 분포를 구성하였다. 또한 2차원 상의 특정 정서 상태가 여러 개의 정서에 중첩되는 경우, 정서에 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서를 선택하는 방법을 제안하였다. 제안한 방법을 사용하여 텍스트에서 정서 단어를 추출하여 텍스트를 정서로 분류할 수 있다.

  • PDF

Movie Review Classification Based on a Multiple Classifier

  • Tsutsumi, Kimitaka;Shimada, Kazutaka;Endo, Tsutomu
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.481-488
    • /
    • 2007
  • In this paper, we propose a method to classify movie review documents into positive or negative opinions. There are several approaches to classify documents. The previous studies, however, used only a single classifier for the classification task. We describe a multiple classifier for the review document classification task. The method consists of three classifiers based on SVMs, ME and score calculation. We apply two voting methods and SVMs to the integration process of single classifiers. The integrated methods improved the accuracy as compared with the three single classifiers. The experimental results show the effectiveness of our method.

  • PDF