• 제목/요약/키워드: 댓글 분류 시스템

검색결과 26건 처리시간 0.028초

자질 가중치의 재조정을 통한 감정 분류 (Sentiment Classification Using Feature Reweighting)

  • 서형원;김형철;김재훈;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2009
  • 이 논문은 한글 뉴스 기사의 댓글에 대한 감정 분류 방법을 제안한다. 제안된 방법은 기계학습을 이용하는데 본 논문에서는 자질의 가중치를 재조정하는 좀 색다른 방법을 제안한다. 일반적으로 댓글은 독자들이 특정 기사에 대해서 어떠한 감정을 가지고 있는지를 파악하는 중요한 단서가 된다. 그런데 독자들의 감정은 가사에 어떤 분야에 속하느냐에 영향을 받는다. 예를 들면 정치 기사는 부정적인 댓글은 많이 포함하고 있으며 인물 기사는 긍정적인 기사를 많이 포함한다. 이 논문은 이와 같은 댓글의 속성을 이용해서 기사의 원문과 기사의 분야 정보를 이용하여 가중치를 조정한다. 제안된 시스템의 성능을 평가하기 위해 신문 기사와 댓글을 수집하여 감정 말뭉치를 구축하였으며 감정자질을 추출하기 위해 감정 사전을 구축하였다. 제안된 시스템의 $F_1$ 척도는 92.2%였으며 원문의 감정 단어와 분야 정보가 댓글의 감정을 분류하는데 중요한 자질임을 알 수 있었다.

  • PDF

Sequence-to-Sequence 모델을 이용한 신문기사의 감성 댓글 자동 생성 (Automatic Generation of Emotional Comments on News-Articles using Sequence-to-Sequence Model)

  • 박천용;박요한;정혜지;김지원;최용석;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.233-237
    • /
    • 2017
  • 본 논문은 신문기사의 감성 댓글을 생성하기 위한 시스템을 제시한다. 감성을 고려한 댓글 생성을 위해 기존의 Sequence-to-Sequence 모델을 사용하여 긍정, 부정, 비속어 포함, 비속어 미포함 유형의 4개의 감성 모델을 구축한다. 하나의 신문 기사에는 다양한 댓글이 달려있지만 감성 사전과 비속어 사전을 활용하여 하나의 댓글만 선별하여 사용한다. 분류한 댓글을 통해 4개의 모델을 학습하고 감성 유형에 맞는 댓글을 생성한다.

  • PDF

Sequence-to-Sequence 모델을 이용한 신문기사의 감성 댓글 자동 생성 (Automatic Generation of Emotional Comments on News-Articles using Sequence-to-Sequence Model)

  • 박천용;박요한;정혜지;김지원;최용석;이공주
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.233-237
    • /
    • 2017
  • 본 논문은 신문기사의 감성 댓글을 생성하기 위한 시스템을 제시한다. 감성을 고려한 댓글 생성을 위해 기존의 Sequence-to-Sequence 모델을 사용하여 긍정, 부정, 비속어 포함, 비속어 미포함 유형의 4개의 감성 모델을 구축한다. 하나의 신문 기사에는 다양한 댓글이 달려있지만 감성 사전과 비속어 사전을 활용하여 하나의 댓글만 선별하여 사용한다. 분류한 댓글을 통해 4개의 모델을 학습하고 감성 유형에 맞는 댓글을 생성한다.

  • PDF

SVM을 이용한 악성 댓글 판별 시스템의 설계 및 구현 (A Design and Implementation of Malicious Web Log Identification System by Using SVM)

  • 김묘실;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-289
    • /
    • 2006
  • 댓글은 온라인 상에서 자신의 의견을 달고 다른 사람의 의견을 공유함으로써 필요한 정보를 쉽고 빠르게 얻을 수 있다. 본 논문에서는 익명성을 이용해서 특정인을 근거 없이 비방하거나 명예를 훼손하는 악성 댓글을 판단하는 시스템을 구현한다. 자질의 추출 방법을 여러 가지로 실험하여 동사, 형용사 등을 추가했을 때 자질의 출현빈도를 이용한 가중치를 계산하고, 용어 벡터로 표현된 입력 문서를 이진 분류기(Binary Classifier)인 $SVM^{light}$을 이용하여 악성 댓글인지를 판단하는 시스템을 구현하고 그 성능을 평가한다.

  • PDF

앙상블 머신러닝 모델 기반 유튜브 스팸 댓글 탐지 (Ensemble Machine Learning Model Based YouTube Spam Comment Detection)

  • 정민철;이지현;오하영
    • 한국정보통신학회논문지
    • /
    • 제24권5호
    • /
    • pp.576-583
    • /
    • 2020
  • 이 논문은 최근 엄청난 성장을 하고 있는 유튜브의 댓글 중 스팸 댓글을 판별하는 기법을 제안한다. 유튜브에서는 광고를 통한 수익 창출이 가능하기 때문에 인기 동영상에서 자신의 채널이나 동영상을 홍보하거나 영상과 관련 없는 댓글을 남기는 스패머(spammer)들이 나타났다. 유튜브에서는 자체적으로 스팸 댓글을 차단하는 시스템을 운영하고 있지만 여전히 제대로 차단하지 못한 스팸 댓글들이 있다. 따라서, 유튜브 스팸 댓글 판별에 대한 관련 연구들을 살펴 보고 인기 동영상인 싸이, 케이티 페리, LMFAO, 에미넴, 샤키라의 뮤직비디오 댓글 데이터에 6가지 머신러닝 기법(의사결정나무, 로지스틱 회귀분석, 베르누이 나이브 베이즈, 랜덤 포레스트, 선형 커널을 이용한 서포트 벡터 머신, 가우시안 커널을 이용한 서포트 벡터 머신)과 이들을 결합한 앙상블 모델로 스팸 탐지 실험을 진행하였다.

WPM(Word Piece Model)을 활용한 구글 플레이스토어 앱의 댓글 감정 분석 연구 (A Study on the Sentiment analysis of Google Play Store App Comment Based on WPM(Word Piece Model))

  • 박재훈;구명완
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.291-295
    • /
    • 2016
  • 본 논문에서는 한국어 기본 유니트 단위로 WPM을 활용한 구글 플레이 스토어 앱의 댓글 감정분석을 수행하였다. 먼저 자동 띄어쓰기 시스템을 적용한 후, 어절단위, 형태소 분석기, WPM을 각각 적용하여 모델을 생성하고, 로지스틱 회귀(Logistic Regression), 소프트맥스 회귀(Softmax Regression), 서포트 벡터머신(Support Vector Machine, SVM)등의 알고리즘을 이용하여 댓글 감정(긍정과 부정)을 비교 분석하였다. 그 결과 어절단위, 형태소 분석기보다 WPM이 최대 25%의 향상된 결과를 얻었다. 또한 분류 과정에서 로지스틱회귀, 소프트맥스 회귀보다는 SVM 성능이 우수했으며, SVM의 기본 파라미터({'kernel':('linear'), 'c':[4]})보다 최적의 파라미터를 적용({'kernel': ('linear','rbf', 'sigmoid', 'poly'), 'C':[0.01, 0.1, 1.4.5]} 하였을 때, 최대 91%의 성능이 나타났다.

  • PDF

WPM(Word Piece Model)을 활용한 구글 플레이스토어 앱의 댓글 감정 분석 연구 (A Study on the Sentiment analysis of Google Play Store App Comment Based on WPM(Word Piece Model))

  • 박재훈;구명완
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.291-295
    • /
    • 2016
  • 본 논문에서는 한국어 기본 유니트 단위로 WPM을 활용한 구글 플레이 스토어 앱의 댓글 감정분석을 수행하였다. 먼저 자동 띄어쓰기 시스템을 적용한 후, 어절단위, 형태소 분석기, WPM을 각각 적용하여 모델을 생성하고, 로지스틱 회귀(Logistic Regression), 소프트맥스 회귀(Softmax Regression), 서포트 벡터머신(Support Vector Machine, SVM)등의 알고리즘을 이용하여 댓글 감정(긍정과 부정)을 비교 분석하였다. 그 결과 어절단위, 형태소 분석기보다 WPM이 최대 25%의 향상된 결과를 얻었다. 또한 분류 과정에서 로지스틱회귀, 소프트맥스 회귀보다는 SVM 성능이 우수했으며, SVM의 기본 파라미터({'kernel':('linear'), 'c':[4]})보다 최적의 파라미터를 적용({'kernel': ('linear','rbf', 'sigmoid', 'poly'), 'C':[0.01, 0.1, 1.4.5]} 하였을 때, 최대 91%의 성능이 나타났다.

  • PDF

교수-학습지원시스템에서 학습자 질의응답 자동분류를 위한 토픽 모델링 (Topic modeling for automatic classification of learner question and answer in teaching-learning support system)

  • 김경록;송혜진;문남미
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권2호
    • /
    • pp.339-346
    • /
    • 2017
  • 기사와 댓글, 질의응답과 같은 비정형 데이터에 기반한 텍스트 분석에 대한 관심이 증가하고 있다. 이는 사람들의 견해인 비정형 텍스트 데이터로부터 특징을 파악하고, 평가, 예측 및 추천에 활용할 수 있기 때문이다. TEL 분야에서도 MOOC 서비스의 확대로 교수학습지원시스템 기반 토론, 질의응답 서비스를 자동화하기 위한 관심이 증가하고 있다. 시스템에 축적된 질의응답 데이터를 기반으로 질의 토픽을 생성하고, 새로운 질의에 대해 토픽을 자동분류하기 위해서이다. 따라서 본 연구에서는 새로운 질의 토픽을 자동분류 할 수 있도록 LDA기법을 활용한 토픽 모델링을 제안하고자 한다. 이를 바탕으로 질의 토픽 사전을 생성하고 새로운 질의에 대해 토픽을 자동분류 할 수 있다. 일부 질의에서는 0.7 이상의 높은 자동 분류를 보였으며, 새로운 질의가 여러 토픽에 포함될수록 좀 더 좋은 자동분류 결과를 보였다.

하이웨이 네트워크 기반 CNN 모델링 및 사전 외 어휘 처리 기술을 활용한 악성 댓글 분류 연구 (A Study on the Toxic Comments Classification Using CNN Modeling with Highway Network and OOV Process)

  • 이현상;이희준;오세환
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권3호
    • /
    • pp.103-117
    • /
    • 2020
  • Purpose Recently, various issues related to toxic comments on web portal sites and SNS are becoming a major social problem. Toxic comments can threaten Internet users in the type of defamation, personal attacks, and invasion of privacy. Over past few years, academia and industry have been conducting research in various ways to solve this problem. The purpose of this study is to develop the deep learning modeling for toxic comments classification. Design/methodology/approach This study analyzed 7,878 internet news comments through CNN classification modeling based on Highway Network and OOV process. Findings The bias and hate expressions of toxic comments were classified into three classes, and achieved 67.49% of the weighted f1 score. In terms of weighted f1 score performance level, this was superior to approximate 50~60% of the previous studies.