• 제목/요약/키워드: 의견 자동분류

검색결과 32건 처리시간 0.022초

지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동 분류에 관한 실험적 연구 (An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI))

  • 이지혜;정영미
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.451-462
    • /
    • 2009
  • 본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

Naïve Bayes와 SVM을 이용한 트위터 데이터의 긍정/부정 의견 자동분류 결과 분석 (Initial Analysis of Positive/Negative Opinion Classification of Twitter Data Using Naïve Bayes and SVM)

  • 조희련;김성국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.406-409
    • /
    • 2012
  • '나꼼수 비키니 시위'에 대 긍정적(지지), 부정적(비판) 의견을 담은 트위터 데이터를, 단어의 출현에 주목하여 Naïve Bayes (NB)와 Support Vector Machine (SVM)을 적용하여 자동분류 한 결과, NB가 75.98%로, 73.65%인 SVM 보다 약간 더 나은 성능을 보였다. 본 실험을 통해, 기계학습을 이용한 대중의견(opinion) 자동분류 시스템을 실용화할 때의 고려사항에 대해 살펴 본다.

한국어 특성을 고려한 감성 분류 (Sentiment Classification considering Korean Features)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권3호
    • /
    • pp.449-458
    • /
    • 2010
  • 다양한 분야에서 인터넷 상의 방대한 양의 문서 혹은 리뷰로부터 유용한 정보를 얻고자 하는 노력이 높아짐에 따라 문서 혹은 리뷰 상의 생각 및 의견에 대한 자동 분류 연구의 필요성이 대두되었다. 이러한 자동분류를 감성 분류라 하며, 감성 분류 연구는 크게 세 가지 단계를 가지는데, 첫 번째로 주관적인 생각이나 느낌을 표현하는 문장을 추출하기 위한 주관성 분류 연구, 두 번째로 문서 또는 문장을 긍정, 부정으로 나누는 극성 분류 연구, 그리고 세 번째로 문서 또는 문장이 어느 정도의 주관성 및 극성을 갖는지 그 강도를 구하는 강도 분류 연구이다. 최근 의견 분류에 대한 연구들을 살펴보면, 분류를 위해 자질(Feature)로서 단일어(Single word)가 아닌 2개 이상의 N-gram 단어, 어휘 구문 패턴 및 통사 구문 패턴 등을 사용하는 것을 확인할 수 있다. 특히, 패턴은 단일어나 N-gram 단어에 비해 유연하고, 언어학적으로 풍부한 정보를 표현할 수 있기 때문에 이를 이용한 많은 연구가 이루어져 왔다. 그럼에도 불구하고, 이러한 연구들은 주로 영어에 대한 연구들이었으며, 한국어에 패턴을 적용하여 주관성을 갖는 문장을 분류하거나, 극성을 분류하는 연구들은 아직 미비하다. 한편, 한국어는 용언의 활용이 발달되어 있어, 어미의 변화가 다양하며, 그 변화에 따라 의미가 미묘하게 변화한다. 그러나 기존 한국어에 대한 의견 분류 연구들은 단어의 핵심 의미만을 파악하기 위해 어미부분을 제거하고 어간만을 취해서 처리하여 어미에 대한 의미변화를 고려하지 못하였다. 그래서 본 연구는 영어에 적용된 패턴을 이용한 기존 방법들을 정리하고, 그 방법들 중에서 극성을 지닌 문장성분 패턴을 한국어에 적용하였다. 그리고 어미의 변화에 대한 패턴을 추출하여 이 변화가 의견 분류의 성능에 미치는 영향을 분석하였다.

  • PDF

어미변화를 고려한 감성 구문 패턴을 이용한 상품평 의견 분류 (Opinion Mining of Product Reviews using Sentiment Phrase Patterns considered the Endings of Declinable Words)

  • 김정호;차명훈;김명규;채수환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.285-290
    • /
    • 2010
  • 인터넷이 대중화됨에 따라 누구나 쉽게 자신의 의견을 온라인상에 표현할 수 있게 되었다. 그 결과 생각이나 느낌을 나타내는 의견 데이터들의 양이 급속도로 방대해졌으며, 이러한 데이터들을 이용한 여러 응용 사례들의 등장으로, 효율적인 검색 및 자동 분류 기술이 요구되고 있다. 이런 기술적 흐름에 맞추어 의견 데이터 분류에 관한 여러 연구들이 이루어져 왔다. 이러한 의견 분류에 대한 연구들을 살펴보면, 분류를 위해 자질(Feature)로서 사용한 단일어(Single word)가 아닌 2개 이상의 N-gram 단어, 어휘 구문 패턴 및 통사 구문 패턴 등을 사용한다. 특히, 패턴은 단일어나 N-gram 단어에 비해 유연하고, 언어학적으로 풍부한 정보를 표현할 수 있기 때문에 이를 주요 연구 주제로 사용되었다. 그럼에도 불구하고, 이러한 연구들은 주로 영어에 대한 연구들이었으며, 한국어에 패턴을 적용하여 주관성을 갖는 문장을 분류하거나, 극성을 분류하는 연구들은 아직 미비하다. 한국어의 특색으로 한국어는 용언의 활용이 발달되어 있어, 어미의 변화가 다양하며, 그 변화에 따라 의미가 미묘하게 변화한다. 그러나 기존 한국어에 대한 의견 분류 연구들은 단어의 핵심 의미만을 파악하기 위해 어미 부분을 제거하고 어간만을 취해서 처리하여 어미에 대한 의미변화를 고려하지 못하므로 분류 정확도가 영어권에 연구 결과에 비해 떨어진다. 그래서 본 연구는 영어에 적용된 패턴을 이용한 기존 방법들을 정리하고, 그 방법들 중에서 극성을 지닌 문장성분 패턴을 한국어에 적용하였다. 그리고 어미의 변화에 대한 패턴을 추출하여 이 변화가 의견 분류의 성능에 미치는 영향을 분석하였다.

  • PDF

온라인 쇼핑몰의 상품평 자동분류를 위한 감성분석 알고리즘 (A Sentiment Analysis Algorithm for Automatic Product Reviews Classification in On-Line Shopping Mall)

  • 장재영
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.19-33
    • /
    • 2009
  • 급속한 전자상거래의 발전으로 인하여 온라인상으로 상품을 구매하고 그에 대한 평가를 작성하는 것이 일반적인 구매 패턴이 되었다. 기존 구매자들의 상품평들은 다른 잠재적인 소비자들의 상품 구입을 이끌어내는데 큰 동기가 된다. 사용자가 작성한 상품평은 하나의 상품에 대해 실제 사용자의 좋고 나쁨에 대한 감정을 표현한 결과로, 개개인에 따라 긍정 또는 부정적인 의견으로 나눠진다. 상품평 중에서 소비자가 원하는 정보를 얻기 위해서는 이들을 일일이 수작업으로 확인해야하지만, 온라인 쇼핑몰에 상품평이 대용량으로 축적된 환경에서 이러한 작업은 비효율적일 수밖에 없다. 본 논문에서는 오피니언 마이닝 기술을 이용하여 제품 사용자의 주관적 의견을 자동으로 분류할 수 있는 감성분석 알고리즘을 제시한다. 본 논문에서 제시하는 알고리즘은 온라인 쇼핑몰에 등록된 개별 상품평을 대상으로 긍정 및 부정 의견으로 판단하여 요약된 결과를 제공하는 기능을 한다. 본 논문에서는 또한 제안된 알고리즘을 바탕으로 개발된 상품평 자동분석 시스템을 소개하고, 알고리즘의 효율성을 검증하기 위한 실험결과도 제시한다.

  • PDF

상품 리뷰 요약에서의 문맥 정보를 이용한 의견 분류 방법 (A Sentiment Classification Method Using Context Information in Product Review Summarization)

  • 양정연;명재석;이상구
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권4호
    • /
    • pp.254-262
    • /
    • 2009
  • e비즈니스가 활발히 이루어지면서 소비자들은 온라인 쇼핑몰올 통해 수많은 상품을 접할 수 있게 되었고, 상품구매 시 다른 사람들의 리뷰를 참고하게 되었다. 하지만, 리뷰의 수도 많아짐에 따라 소비자가 모든 리뷰들을 살펴보기가 힘들다는 문제점이 대두되었으며 이를 해결하기 위해서 리뷰의 상품에 대한 평가를 요약하고 성향을 파악하는 오피니언 마이닝 연구가 나타나게 되었다. 본 논문에서는 상품리뷰를 대상으로 오피니언 마이닝을 수행하는 경우 어휘의 의견 성향을 파악할 때, 문맥정보를 활용하여 기존의 의견분류방법 보다 좀 더 정확한 의견 판단이 가능한 방법에 대해 다루고 있다. 이를 위해, 어휘가 사용될 때의 문맥정보를 정의하고 이를 의견분류에 적용하는 방법을 제안하였으며, 실험을 통하여 기존 연구 보다 상황별 알맞은 의견분류가 가능함을 보였다. 또한 수작업으로 말뭉치의 핵심 어휘들을 정의했던 기존 연구들에서의 방식에서 벗어나, 리뷰본문과 리뷰점수를 활용하여 자동으로 상황에 맞는 말뭉치를 구축하는 방법도 제안하였다. 이를 통해 상품리뷰에 나타난 어휘들의 문맥에 맞는 의미 성향을 정확하고 쉽게 판별해 낼 수 있게 되었다.

감성용어 및 패턴을 이용한 감성기반 분산 문서분류시스템 (Distributed Document Classification System using Susceptibility Terms and Patterns)

  • 김명규;인주호;채수환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (D)
    • /
    • pp.356-360
    • /
    • 2007
  • 인터넷이 폭 넓게 보급되어 개인의 의견을 개진할 기회가 확대됨에 따라 정치, 경제 등의 사안이나 제품 기업의 이미지, 공인에 대한 긍정.부정의 글을 개진할 수 있게 되었다. 이러한 현상에 따라 기업, 제품, 혹은 공공의 분야에서 일반 개인들이 어떻게 생각하는가에 대한 분석 및 자료수집의 필요성이 높아지고 있다. 감성용어 문서분류시스템은 문서의 내용 중 감성기반의 용어들에 기반하여 이에 대한 패턴을 정의하고 이에 대응하는 범주에 문서를 자동으로 할당하는 작업으로써 효율적인 정보 관리 및 검색을 가능하게 한다. 하지만 자동문서 분류를 하기 위해서는 방대한 양의 데이터를 수집 보관하기 위한 분산 환경이 반드시 필요하다. 본 논문에서는 감성기반 문서분류 시스템을 위한 감성용어 추출 및 긍정, 부정의 패턴을 검색해 자동 문서분류를 위해 RTI(Run Time Infrastructure)를 통한 분산 시스템 환경으로 구성하였다.

  • PDF

한국어 텍스트의 논증 구조 내 담화 관계의 자동 분류 연구 (An Automatic Classification of Discourse Relations in the Arguing Structure of Korean Texts)

  • 이상아;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 2015
  • 최근 온라인 텍스트 자료를 이용하여 대중의 의견을 분석하는 작업이 활발히 이루어지고 있다. 이러한 작업에는 주관적 방향성을 갖는 텍스트의 논증 구조와 중요 내용을 파악하는 과정이 필요하며, 자료의 양과 다양성이 급격히 증가하면서 그 과정의 자동화가 불가피해지고 있다. 본 연구에서는 정책에 대한 찬반 의견으로 구성된 한국어 텍스트 자료를 직접 구축하고, 글을 구성하는 기본 단위들 사이의 담화 관계를 정의하였다. 각 단위들 사이의 관계는 기계학습과 규칙 기반 방식을 이용하여 예측되고, 그 결과는 합성되어 하나의 글에 대응되는 트리 구조를 이룬다. 또한 텍스트의 구조상에서 주제문을 직접적으로 뒷받침하는 문장 혹은 절을 추출하여 글의 중요 내용을 얻고자 하였다.

  • PDF

긍정/부정 비대칭도를 이용한 소수상품평의 검색 (Retrieving Minority Product Reviews Using Positive/Negative Skewness)

  • 조희련;이종석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권3호
    • /
    • pp.121-128
    • /
    • 2015
  • 소수 의견을 포함하는 온라인 상품평은 긍정 또는 부정 일변도인 상품평에서는 찾기 어려운 유익한 정보를 내포하기도 한다. 본 논문에서는 주어진 상품평 집합 속에서 소수상품평을 검색하는 방법을 제안한다. 제안방법은 개별 상품평을 먼저 긍정/부정 상품평으로 자동분류한 뒤, 주어진 상품평 집합의 긍정/부정 상품평의 비대칭도를 계산하여 소수상품평을 검색한다. 소수상품평 검색에서는 긍정/부정 자동분류 성능이 소수상품평 검색성능에 영향을 주는데, 본 논문에서는 도메인에 특화된 감성사전과 그렇지 않은 일반적인 감성사전을 가지고 상품평을 긍정/부정으로 감성분류한 뒤 비대칭도를 계산하여 소수상품평 검색성능을 비교한다. 스마트폰과 영화를 다룬 온라인 영문 상품평에 대하여 도메인에 특화된 감성사전을 가지고 소수상품평 검색성능을 평가한 결과, F1점수는 각각 24.6%와 15.9%였고, 정확도는 각각 56.8%와 46.8%였다. 이는 스마트폰과 영화의 개별 상품평 긍정/부정 분류 정확도가 각각 85.3%와 78.8%일 때의 성능이다. 본 논문에서는 또 긍정/부정 자동분류 성능이 주어졌을 때의 이론적인 소수상품평 검색성능에 대해서도 논의한다.

Q&A 문서의 검색 결과 요약을 활용한 질의응답 시스템 (Question and Answering System through Search Result Summarization of Q&A Documents)

  • 유동현;이현아
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권4호
    • /
    • pp.149-154
    • /
    • 2014
  • 지식iN과 같은 사용자 참여 질의응답 커뮤니티에서 원하는 질문에 대한 답을 찾기 위해서는 검색 결과로 제공되는 다양한 문서를 일일이 확인하여 판단하는 과정이 필요하다. 만일 사용자가 원하는 답변을 자동으로 정제하여 제시할 수 있다면, 질의응답의 사용성이 크게 향상될 수 있다. 본 논문에서는 질의응답 데이터 분석을 통해 사용자의 질문의 유형을 단어, 목록, 도표, 글의 4가지 유형으로 분류하고, 문서 내 통계적 특성을 활용하여 각 분류별 답변을 자동으로 제시하기 위한 방식을 제안한다. 단어, 목록, 글 유형은 질의어에 대해 검색된 질문을 군집화하고, 군집 내 빈도와 질의어에 대한 근접도, 답변 신뢰도 등으로 계산된 답변 내 어휘의 적합도를 활용하여 요약한 답변을 사용자에게 제시한다. 도표형은 답변들에서 사용자의 의견 정보를 추출하여 의견 통계를 도표로 제시한다.