• 제목/요약/키워드: Opinion Documents

검색결과 85건 처리시간 0.02초

기계학습을 이용한 SNS 오피니언 문서의 자동추출기법 (Automatic Retrieval of SNS Opinion Document Using Machine Learning Technique)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.27-35
    • /
    • 2013
  • 최근 들어 SNS가 대중화됨에 따라, 이들로 부터 오피니언을 분석하여 특정 이슈에 대한 여론을 파악하려는 다양한 연구가 진행되고 있다. SNS 환경에서 오피니언 분석을 위해서는 우선 게시글 중에서 오피니언 문서와 그렇지 않은 문서(객관적 문서)를 분리해야한다. 본 논문에서는 트위터 문서로 부터 오피니언 문서만을 추출하는 새로운 방법을 제안한다. 트위터 환경에서 오피니언 문서에 대한 분류나 검색의 어려운 점은 충분한 학습 자료가 존재하지 않다는데 있다 이를 위해 제안된 방법에서는 감성 분류를 위해 트위터와 유사한 외부의 정보를 이용하여 기계학습기반 분류 모델을 생성하고, 이를 응용하여 트위터에서의 오피니언 문서 추출에 적용하였다. 또한 실험을 통하여 제안된 방법의 적용 가능성을 평가하였다.

대용량 오피니언 문서에 대한 특성 기반 요약 기법 (Feature-Based Summarization Method for a Large Opinion Documents Collection)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.33-42
    • /
    • 2016
  • 최근 SNS나 포털을 중심으로 다양한 분야 대해 대중들의 의견이 표현될 수 있는 환경이 확대되고 있고, 이로 인해 오피니언 문서들은 빠르게 대량화 되고 있다. 이러한 환경에서 대용량의 오피니언 문서들의 내용을 파악하기 위해서는 자동 요약 기술의 적용이 필수적이다. 하지만 오피니언 문서 내에는 대상 객체가 갖는 특성들과 주관적 표현들이 내재되어 있어 일반적인 요약 기법으로는 효율적인 요약이 불가능하다. 본 논문에서는 대용량의 오피니언 문서를 대상으로 주요 문장들을 추출하여 요약하는 기법을 제안한다. 제안된 기법에서는 사전에 정의된 오피니언 문서의 특성들에 대해서, 특성들에 대한 오피니언이 표현된 대표적인 문장들이 추출되도록 설계되었다. 또한 실험을 통하여 제안된 방법의 유용성을 증명하였다.

의견 문서의 단어 통계 분석을 통한 의견 검색 특성에 관한 연구 (A Study on the Characteristics of Opinion Retrieval Using Term Statistical Analysis in Opinion Documents)

  • 한경수
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권11호
    • /
    • pp.21-29
    • /
    • 2010
  • 문서에 표출된 사용자의 의견을 검색하는 의견 검색의 성능이 일반 사실을 검색하는 기존 주제 검색의 성능을 크게 향상시키지 못하고 있다. 이에 본 연구는 블로그를 대상으로 의견 문서와 비의견 문서의 단어 통계를 비교 분석함으로써 의견 검색에 활용할 수 있는 통계적 특성을 파악하고자 한다. TREC의 블로그 트랙에서 사용했던 Blogs06 컬렉션과 150개의 TREC 토픽을 실험 데이터로 사용하였다. JS divergence를 이용하여 의견 문서에서의 단어 확률 분포 간의 상이성을 비교 분석하였으며, TREC 토픽의 유형 및 주제 영역별로 의견 문서를 구분하여 확률 분포의 차이점을 살펴보았고, 의견 단어별 확률을 비교 분석하였다. 실험을 통해 토픽별 특성을 고려한 의견 탐지 방법의 필요성, 토픽별 긍/부정 의견 단어 추출의 효과성, 유형과 주제 영역의 상호 보완적인 특징, 긍정 의견 단어 사용의 유의점 등을 알아내었다.

기계학습을 이용한 단문 오피니언 문서의 효율적 검색 기법 (Efficient Retrieval of Short Opinion Documents Using Learning to Rank)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.117-126
    • /
    • 2013
  • 최근 들어 트위터나 페이스북과 같은 SNS가 대중화되면서, 오피니언 마이닝에 관한 연구가 활발히 진행되고 있다. 그러나 현재의 오피니언 마이닝 연구는 대부분 감성분류나 특징선택 방법에 중점을 두고 있으며, 오피니언 문서의 검색에 관한 연구는 아직 미진한 실정이다. 본 논문에서는 단문으로 구성된 오피니언 문서로부터 사용자가 원하는 문서들을 효율적으로 검색하는 기법을 제안한다. 제안된 방법에서는 기존의 감성분류 방법을 활용함과 동시에 문서의 질적 평가를 위해 여러 가지 특징들을 적용한다. 검색 모델을 생성하기 위해 기계학습 기반 랭킹 기법을 활용하며, 감성 분류 모델을 기계학습 랭킹 모델에 통합하는 방법을 사용한다. 또한 실험을 통하여 제안된 방법이 오피니언 검색에 효율적으로 적용될 수 있음을 보여준다.

제품 특징화를 위한 오피니언 문서의 클러스터링 기법 (An Opinion Document Clustering Technique for Product Characterization)

  • 장재영
    • 한국전자거래학회지
    • /
    • 제19권2호
    • /
    • pp.95-108
    • /
    • 2014
  • 오피니언 마이닝은 문서로부터 의견을 추출하는 텍스트 마이닝의 응용분야로 현재 활발한 연구가 진행되고 있다. 대부분의 관련 연구는 특정 제품군에 대해서 주어진 특징별로 긍정과 부정 평가를 나누는 감성분류에 초점을 맞추고 있다. 하지만 제품별로 강조되는 특성들을 구별해내는 연구는 거의 이루어지고 있지 않다. 본 논문에서는 특성별로 오피니언 문서들을 분류하고, 이를 이용하여 특정 제품군에 대해서 제품별로 강조되는 특성들을 선별하는 기법을 제안한다. 제안된 기법에서는 텍스트 클러스터링을 활용하였으며, 새로운 유사도 계산 방식을 사용하였다. 또한 실험을 통하여 제안된 방법의 유용성을 증명하였다.

Opinion Extraction based on Syntactic Pieces

  • Aoki, Suguru;Yamamoto, Kazuhide
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.76-85
    • /
    • 2007
  • This paper addresses a task of opinion extraction from given documents and its positive/negative classification. We propose a sentence classification method using a notion of syntactic piece. Syntactic piece is a minimum unit of structure, and is used as an alternative processing unit of n-gram and whole tree structure. We compute its semantic orientation, and classify opinion sentences into positive or negative. We have conducted an experiment on more than 5000 opinion sentences of multiple domains, and have proven that our approach attains high performance at 91% precision.

  • PDF

ISBP 745에서의 운송서류 개정 사항 연구 (A Study on the Revision of Transport Documents under ISBP 745)

  • 박세운
    • 통상정보연구
    • /
    • 제15권2호
    • /
    • pp.261-283
    • /
    • 2013
  • ISBP745에서는 기존 ISBP에서는 규정하고 있지 않던 해상운송장 및 도로, 철도, 내수로 운송서류를 규정하여 규정의 폭을 넓혔다. 종래의 ICC Opinion과 다르거나 없었던 ISBP745의 주요 개정사항을 요약하면 다음과 같다. 첫째, 운송루트가 복합운송이면서 선하증권을 요구한 경우 UCP600 제19조 복합운송서류 규정이 적용되는 것으로 종래의 ICC Opinion과는 다르게 개정되었다. 둘째, 신용장에서 착하인도 대리점의 주소와 명칭의 운송서류 기재를 요구할 때 이 주소가 최종목적지 또는 하역항에 위치 할 필요가 없을 뿐만 아니라 동일 국가에 위치할 필요도 없다는 규정이 신설되었다. 셋째, 여러 사람의 송하인과 한 사람의 수하인이 있는 LCL/FCL 운송의 경우에는 복수의 운송서류가 발행되는데 이에 대한 사례를 구체적으로 규정하고 있다. 그러나 운송업계에서 이러한 경우에 흔히 표시하고 있는 "LCL/FCL" 또는 "CFS/CY"의 기재를 복수의 운송서류가 요구되는 사례로 규정하지 않음으로써 실무적으로 혼란을 야기할 수 있다는 문제가 있다. 넷째, 신용장에서 분할선적이 허용되고, 복수의 운송서류가 하나의 표지서류에 따라 제시될 때 서류 제시기간의 기산일을 운송서류 중 최초의 선적일을 기준으로 한다는 규정이 신설되었다.

  • PDF

한국어 특성을 고려한 감성 분류 (Sentiment Classification considering Korean Features)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권3호
    • /
    • pp.449-458
    • /
    • 2010
  • 다양한 분야에서 인터넷 상의 방대한 양의 문서 혹은 리뷰로부터 유용한 정보를 얻고자 하는 노력이 높아짐에 따라 문서 혹은 리뷰 상의 생각 및 의견에 대한 자동 분류 연구의 필요성이 대두되었다. 이러한 자동분류를 감성 분류라 하며, 감성 분류 연구는 크게 세 가지 단계를 가지는데, 첫 번째로 주관적인 생각이나 느낌을 표현하는 문장을 추출하기 위한 주관성 분류 연구, 두 번째로 문서 또는 문장을 긍정, 부정으로 나누는 극성 분류 연구, 그리고 세 번째로 문서 또는 문장이 어느 정도의 주관성 및 극성을 갖는지 그 강도를 구하는 강도 분류 연구이다. 최근 의견 분류에 대한 연구들을 살펴보면, 분류를 위해 자질(Feature)로서 단일어(Single word)가 아닌 2개 이상의 N-gram 단어, 어휘 구문 패턴 및 통사 구문 패턴 등을 사용하는 것을 확인할 수 있다. 특히, 패턴은 단일어나 N-gram 단어에 비해 유연하고, 언어학적으로 풍부한 정보를 표현할 수 있기 때문에 이를 이용한 많은 연구가 이루어져 왔다. 그럼에도 불구하고, 이러한 연구들은 주로 영어에 대한 연구들이었으며, 한국어에 패턴을 적용하여 주관성을 갖는 문장을 분류하거나, 극성을 분류하는 연구들은 아직 미비하다. 한편, 한국어는 용언의 활용이 발달되어 있어, 어미의 변화가 다양하며, 그 변화에 따라 의미가 미묘하게 변화한다. 그러나 기존 한국어에 대한 의견 분류 연구들은 단어의 핵심 의미만을 파악하기 위해 어미부분을 제거하고 어간만을 취해서 처리하여 어미에 대한 의미변화를 고려하지 못하였다. 그래서 본 연구는 영어에 적용된 패턴을 이용한 기존 방법들을 정리하고, 그 방법들 중에서 극성을 지닌 문장성분 패턴을 한국어에 적용하였다. 그리고 어미의 변화에 대한 패턴을 추출하여 이 변화가 의견 분류의 성능에 미치는 영향을 분석하였다.

  • PDF

오피니언 분류의 감성사전 활용효과에 대한 연구 (A Study on the Effect of Using Sentiment Lexicon in Opinion Classification)

  • 김승우;김남규
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.133-148
    • /
    • 2014
  • 최근 다양한 정보채널들의 등장으로 인해 빅데이터에 대한 관심이 높아지고 있다. 이와 같은 현상의 가장 큰 원인은, 스마트기기의 사용이 활성화 됨에 따라 사용자가 생성하는 텍스트, 사진, 동영상과 같은 비정형 데이터의 양이 크게 증가하고 있는 것에서 찾을 수 있다. 특히 비정형 데이터 중에서도 텍스트 데이터의 경우, 사용자들의 의견 및 다양한 정보를 명확하게 표현하고 있다는 특징이 있다. 따라서 이러한 텍스트에 대한 분석을 통해 새로운 가치를 창출하고자 하는 시도가 활발히 이루어지고 있다. 텍스트 분석을 위해 필요한 기술은 대표적으로 텍스트 마이닝과 오피니언 마이닝이 있다. 텍스트 마이닝과 오피니언 마이닝은 모두 텍스트 데이터를 입력 데이터로 사용할 뿐 아니라 파싱, 필터링 등 자연어 처리기술을 사용한다는 측면에서 많은 공통점을 갖고 있다. 특히 문서의 분류 및 예측에 있어서 목적 변수가 긍정 또는 부정의 감성을 나타내는 경우에는, 전통적 텍스트 마이닝, 또는 감성사전 기반의 오피니언 마이닝의 두 가지 방법론에 의해 오피니언 분류를 수행할 수 있다. 따라서 텍스트 마이닝과 오피니언 마이닝의 특징을 구분하는 가장 명확한 기준은 입력 데이터의 형태, 분석의 목적, 분석의 결과물이 아닌 감성사전의 사용 여부라고 할 수 있다. 따라서 본 연구에서는 오피니언 분류라는 동일한 목적에 대해 텍스트 마이닝과 오피니언 마이닝을 각각 사용하여 예측 모델을 수립하는 과정을 비교하고, 결과로 도출된 모델의 예측 정확도를 비교하였다. 오피니언 분류 실험을 위해 영화 리뷰 2,000건에 대한 실험을 수행하였으며, 실험 결과 오피니언 마이닝을 통해 수립된 모델이 텍스트 마이닝 모델에 비해 전체 구간의 예측 정확도 평균이 높게 나타나고, 예측의 확실성이 강한 문서일수록 예측 정확성이 높게 나타나는 일관적인 성향을 나타내는 등 더욱 바람직한 특성을 보였다.

단어패턴 빈도를 이용한 단문 오피니언 문서 분류기법의 실험적 평가 (An Experimental Evaluation of Short Opinion Document Classification Using A Word Pattern Frequency)

  • 장재영;김일민
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권5호
    • /
    • pp.243-253
    • /
    • 2012
  • 데이터 마이닝의 문서분류 기술에서 발전된 오피니언 마이닝은 이제 국외뿐만 아니라 국내 산업에서 중요한 관심분야로 자리잡아가고 있다. 오피니언 마이닝의 핵심은 문서에서 감정 단어를 추출하여 긍정/부정 여부를 얼마나 정확하게 판별하느냐를 평가하는 것이다. 국내에서도 이에 관련된 많은 연구가 이루어 졌으나 아직 실용적으로 적용할 만큼의 분류 정확도를 보이지 않고 있다. 한국어의 경우 비문법적 표현, 감정단어의 다양성 등으로 인해 문서의 극성을 판별하기가 쉽지 않기 때문이다. 본 논문에서는 문법적 요소를 최대한 배제하고 단어패턴의 빈도만을 고려한 새로운 오피니언 문서 분류기법을 제안한다. 제안된 방법에서는 문서를 단어들의 리스트로 추상화한 후, 패턴들의 빈도를 이용하여 기계학습 알고리즘을 적용한다. 이후에 적절한 스코어 함수를 적용하여 문서의 극성을 판별한다. 또한 제안된 기법의 정확도를 평가하기 위해서 실험결과를 제시한다.