• 제목/요약/키워드: Opinion-Mining

검색결과 269건 처리시간 0.024초

비정형 문서에서 감정과 상황 정보를 이용한 감성 예측 (Sentiment Prediction using Emotion and Context Information in Unstructured Documents)

  • 김진수
    • 융합정보논문지
    • /
    • 제10권10호
    • /
    • pp.40-46
    • /
    • 2020
  • 인터넷의 발전으로 사용자들은 자신의 경험이나 의견을 공유한다. 영화평과 같은 비정형 문서의 전체적인 감정이나 장르 등의 정보를 고려하지 않고 연관된 키워드를 사용하기 때문에 적절한 감정 상황에 따른 감성 정확도를 저해한다. 따라서 사용자들이 작성한 비정형 문서가 속한 장르나 전반적인 감정 등의 정보를 기반으로 감성을 예측하는 시스템을 제안한다. 먼저, 비정형 문서로부터 기쁨, 화남, 공포, 슬픔 등의 감정 집합과 연관된 대표 키워드를 추출하고, 감정 특징단어들의 정규화된 가중치와 비정형 문서의 정보를 훈련 집합으로 CNN과 LSTM을 조합한 시스템에 훈련한다. 최종적으로 영화 정보와 형태소 분석기와 n-gram을 통해 추출한 정제된 단어들과 이모티콘, 이모지 등을 테스트함으로써 감정을 이용한 감성 예측 정확도와 F-measure 측면에서 향상됨을 보였다. 제안한 예측시스템은 슬픈 영화에서 슬픈 단어의 사용과 공포 영화에서 무서운 단어 등의 사용으로 인해 부정으로 판단하는 오류를 피함으로써, 감성을 상황에 따라 적절하게 예측할 수 있다.

텍스트 분석의 신뢰성 확보를 위한 스팸 데이터 식별 방안 (Detecting Spam Data for Securing the Reliability of Text Analysis)

  • 현윤진;김남규
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.493-504
    • /
    • 2017
  • 최근 뉴스, 블로그, 소셜미디어 등을 통해 방대한 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터는 풍부한 정보 및 의견을 거의 실시간으로 반영하고 있다는 측면에서 그 활용도가 매우 높아, 학계는 물론 산업계에서도 분석 수요가 증가하고 있다. 하지만 텍스트 데이터의 유용성이 증가함과 동시에 이러한 텍스트 데이터를 왜곡하여 특정 목적을 달성하려는 시도도 늘어나고 있다. 이러한 스팸성 텍스트 데이터의 증가는 방대한 정보 가운데 필요한 정보를 획득하는 일을 더욱 어렵게 만드는 것은 물론, 정보 자체 및 정보 제공 매체에 대한 신뢰도를 떨어뜨리는 현상을 초래하게 된다. 따라서 원본 데이터로부터 스팸성 데이터를 식별하여 제거함으로써, 정보의 신뢰성 및 분석 결과의 품질을 제고하기 위한 노력이 반드시 필요하다. 이러한 목적으로 스팸을 식별하기 위한 연구가 오피니언 스팸 탐지, 스팸 이메일 검출, 웹 스팸 탐지 등의 분야에서 매우 활발하게 수행되었다. 본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 자세히 소개하고, 블로그 정보의 신뢰성 향상을 위한 방안 중 하나로 블로그의 스팸 태그를 식별하기 위한 방안을 제안한다.

R을 이용한 고용노동부 민원·정책 연관분석 (Analysis of the complaints and policy of the Ministry of Employment and Labor using the R program)

  • 성보경;유연우
    • 한국융합학회논문지
    • /
    • 제9권7호
    • /
    • pp.41-46
    • /
    • 2018
  • 본 연구는 대한민국 정부가 운영하는 의견수렴 및 고충처리 전산망인 국민신문고(http://www.people.go.kr)'의 고용노동부 민원 정책 게시판의 의견을 통해 고용노동부에서 시행하는 직업훈련, 노사관계, 산업안전, 임금정책, 근로기준법 등의 민원 정책에 대한 국민적 의견을 수렴하여 분석하였다. 본 연구는 R프로그램 빅데이터 기법을 이용하여 데이터 시각화, 빈도 분석, 연관분석 등을 실시하였으며, 연구결과는 다음과 같다. 첫째, 한국의 복잡한 임금구조와 노사 간에 인식부족 등으로 임금개념의 불일치, 노사갈등 이 많은 민원요소로 발견되었다. 둘째, 최근 최저임금의 파격적 인상으로 인한 자영업자 및 근로자의 경제적 공황상태 등으로 기인한 각종 민원이 발생하고 있다. 셋째, 생산직 등 제조 분야 등의 영세한 사업장의 안전의식의 부재로 인한 산업재해가 끊임없이 발생하고 있으며, 일 가정 병립을 위한 제도적 뒷받침이 많이 부족한 것으로 나타났다.

소셜 빅데이터를 이용한 영화 흥행 요인 분석 (Movie Box-office Analysis using Social Big Data)

  • 이오준;박승보;정다울;유은순
    • 한국콘텐츠학회논문지
    • /
    • 제14권10호
    • /
    • pp.527-538
    • /
    • 2014
  • 수요 예측은 영화 산업에서 매우 중요한 문제이다. 최근 들어 트위터(Twitter), 페이스북(Facebook)과 같은 소셜미디어의 비정형 텍스트 데이터를 이용하여 영화 흥행을 예측하고 분석하는 시도들이 활발하게 이루어지고 있다. 기존에는 주로 데이터의 주기별 변화량을 측정하여 데이터 양과 영화 흥행간의 상관성을 분석하거나 데이터에 대해 감성의 극성 값을 부여하는 오피니언 마이닝을 통해 영화의 흥행 추이를 예측하였다. 하지만 이러한 정량적 접근만으로는 관객들이 영화를 선택하게 된 근거나 영화의 어떤 속성을 선호하는지를 알 수 없기 때문에 영화의 흥행 요인을 밝히는데 한계가 있었다. 따라서 본 연구는 트위터 데이터를 수집한 후 빈도수 측정을 통해 트윗의 내용을 대표하는 토픽(topic) 키워드를 추출하여 관객들의 관심을 반영하는 영화적 속성들이 무엇인지를 밝히고, 그 속성들에 대한 관객들의 반응을 분석함으로써 영화의 흥행에 영향을 미친 요인들을 제시한다.

온라인 쇼핑몰의 상품평 자동분류를 위한 감성분석 알고리즘 (A Sentiment Analysis Algorithm for Automatic Product Reviews Classification in On-Line Shopping Mall)

  • 장재영
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.19-33
    • /
    • 2009
  • 급속한 전자상거래의 발전으로 인하여 온라인상으로 상품을 구매하고 그에 대한 평가를 작성하는 것이 일반적인 구매 패턴이 되었다. 기존 구매자들의 상품평들은 다른 잠재적인 소비자들의 상품 구입을 이끌어내는데 큰 동기가 된다. 사용자가 작성한 상품평은 하나의 상품에 대해 실제 사용자의 좋고 나쁨에 대한 감정을 표현한 결과로, 개개인에 따라 긍정 또는 부정적인 의견으로 나눠진다. 상품평 중에서 소비자가 원하는 정보를 얻기 위해서는 이들을 일일이 수작업으로 확인해야하지만, 온라인 쇼핑몰에 상품평이 대용량으로 축적된 환경에서 이러한 작업은 비효율적일 수밖에 없다. 본 논문에서는 오피니언 마이닝 기술을 이용하여 제품 사용자의 주관적 의견을 자동으로 분류할 수 있는 감성분석 알고리즘을 제시한다. 본 논문에서 제시하는 알고리즘은 온라인 쇼핑몰에 등록된 개별 상품평을 대상으로 긍정 및 부정 의견으로 판단하여 요약된 결과를 제공하는 기능을 한다. 본 논문에서는 또한 제안된 알고리즘을 바탕으로 개발된 상품평 자동분석 시스템을 소개하고, 알고리즘의 효율성을 검증하기 위한 실험결과도 제시한다.

  • PDF

앙상블 SVM 모형을 이용한 기업 부도 예측 (Bankruptcy prediction using ensemble SVM model)

  • 최하나;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1113-1125
    • /
    • 2013
  • 기업의 부도를 예측하는 것은 회계나 재무 분야에서 중요한 연구주제이다. 지금까지 기업 부도예측을 위해 여러 가지 데이터마이닝 기법들이 적용되었으나 주로 단일 모형을 사용함으로서 복잡한 분류 문제에의 적용에 한계를 갖고 있었다. 본 논문에서는 최근에 각광받고 있는 SVM (support vector machine) 모형들을 결합한 앙상블 SVM 모형 (ensemble SVM model)을 부도예측에 사용하고자 한다. 제안된 앙상블 모형은 v-조각 교차 타당성 (v-fold cross-validation)에 의해 얻어진 여러 가지 모형 중에서 성능이 좋은 상위 k개의 단일 모형으로 구성하고 과반수 투표 방식 (majority voting)을 사용하여 미지의 클래스를 분류한다. 본 논문에서 제안된 앙상블 SVM 모형의 성능을 평가하기 위해 실제 기업의 재무비율 자료와 모의실험자료를 가지고 실험하였고, 실험결과 제안된 앙상블 모형이 여러 가지 평가척도 하에서 단일 SVM 모형들보다 좋은 성능을 보임을 알 수 있었다.

주가지수 방향성 예측을 위한 도메인 맞춤형 감성사전 구축방안 (A domain-specific sentiment lexicon construction method for stock index directionality)

  • 김재봉;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.585-592
    • /
    • 2017
  • 개인용 디바이스의 발달로 개인들이 손쉽게 인터넷에 접속할 수 있게 되었으며, 소셜미디어를 통한 정보의 공유와 습득이 일반화 되고 있다. 특히 분야별 전문 커뮤니티가 발달하며 사회적 영향력을 행사하고 있어 기업과 정부는 이들의 의견을 반영하여 전략을 수립하는 일에 관심을 기울이고 있다. 온라인상의 다양한 텍스트로부터 대중의 의견을 읽어내는 것을 오피니언마이닝이라고 한다. 그 중 하나인 감성사전은 방대한 비정형데이터를 빠르게 파악하는 도구로 여러 분야에서 활용되고 있다. 주식시장은 사회의 여러 요인을 반영하여 변동한다. 최근에는 버즈량 분석 등 빅데이터를 기반으로 오피니언마이닝을 활용한 주식시장 연구가 시도되고 있다. 대표적인 예로 뉴스와 같은 텍스트 데이터 분석을 활용한 연구들이 발표되고 있다. 본 논문에서는 뉴스의 정제된 형식과 한정된 어휘를 사용한 기존연구를 보완하고자 증권전문 사이트 'Paxnet'의 게시 글을 분석대상으로 삼아 주식시장 맞춤형 감성사전을 구축하여 투자자들의 감성을 분석하는 데 기여했다.

온라인 마케팅 전략을 위한 SNS와 Web기반 BDAS(Big data Data Analysis Scheme) 설계 (An SNS and Web based BDAS design for On-Line Marketing Strategy)

  • 정이나;이병관;박석규
    • 한국정보통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.141-148
    • /
    • 2015
  • 본 논문은 SNS와 Web에서 실시간으로 공유되는 정보를 추출하고, 추출한 데이터를 신속하게 분석하여 고객이 무엇을 원하는 지를 분석해서 온라인 마케팅 전략을 효율적으로 만드는 SNS와 Web기반 BDAS(Big data Data Analysis Scheme)을 제안한다. 제안하는 BDAS는 첫째, SNS와 Web에서 공유되는 데이터를 수집하고, 둘째, 수집된 데이터의 의미를 긍정과 부정으로 분석하여 그 결과를 시각화하여 제공한다. 그 결과, BDAS는 공유되는 SNS와 Web 데이터에 대한 의미를 판단하는데 있어서 평균 90%의 정확성을 보장한다. 따라서 본 논문에서 제안하는 BDAS를 이용하여 소비자의 성향을 정확하게 판단할 수 있으므로 온라인 마케팅에 보다 효율적으로 활용할 수 있을 것이다.

국내 드라마 시청률 예측 및 영향요인 분석 (A Study on Domestic Drama Rating Prediction)

  • 강수연;전희정;김지혜;송종우
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.933-949
    • /
    • 2015
  • 최근 상업방송의 도입과 채널의 다양화로 국내 드라마 시장의 시청률 경쟁이 심화되었다. 이에 시청률에 대한 실증적인 연구의 필요성이 대두되고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 최근 방송시장의 변화를 고려한 국내 드라마 시청률 예측 모형을 제시하고 시청률에 유의한 영향을 미치는 변수들을 도출하는 데 있다. 모형 적합 시 선형회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅 등과 같은 다양한 분석 방법을 고려하였다. 이 때 드라마 방영 전 알 수 있는 기본 정보들만을 고려하여 드라마의 초반 시청률을 예측하는 모형을 적합한 후 방영 초기의 여론을 고려한 평균 시청률 예측 모형을 적합하였다. 그 결과 드라마 초반 시청률은 방송사, 방송시간, 드라마 방영 이전 드라마 관련 검색량 등 드라마의 구조적 요인과 임소문 효과의 영향을 크게 받으며, 평균 시청률은 드라마 초반 시청률과 드라마 방영 이후 드라마 관련 검색량 등 방영 초기의 여론에 큰 영향을 받는 것으로 나타났다.

어미변화를 고려한 감성 구문 패턴을 이용한 상품평 의견 분류 (Opinion Mining of Product Reviews using Sentiment Phrase Patterns considered the Endings of Declinable Words)

  • 김정호;차명훈;김명규;채수환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.285-290
    • /
    • 2010
  • 인터넷이 대중화됨에 따라 누구나 쉽게 자신의 의견을 온라인상에 표현할 수 있게 되었다. 그 결과 생각이나 느낌을 나타내는 의견 데이터들의 양이 급속도로 방대해졌으며, 이러한 데이터들을 이용한 여러 응용 사례들의 등장으로, 효율적인 검색 및 자동 분류 기술이 요구되고 있다. 이런 기술적 흐름에 맞추어 의견 데이터 분류에 관한 여러 연구들이 이루어져 왔다. 이러한 의견 분류에 대한 연구들을 살펴보면, 분류를 위해 자질(Feature)로서 사용한 단일어(Single word)가 아닌 2개 이상의 N-gram 단어, 어휘 구문 패턴 및 통사 구문 패턴 등을 사용한다. 특히, 패턴은 단일어나 N-gram 단어에 비해 유연하고, 언어학적으로 풍부한 정보를 표현할 수 있기 때문에 이를 주요 연구 주제로 사용되었다. 그럼에도 불구하고, 이러한 연구들은 주로 영어에 대한 연구들이었으며, 한국어에 패턴을 적용하여 주관성을 갖는 문장을 분류하거나, 극성을 분류하는 연구들은 아직 미비하다. 한국어의 특색으로 한국어는 용언의 활용이 발달되어 있어, 어미의 변화가 다양하며, 그 변화에 따라 의미가 미묘하게 변화한다. 그러나 기존 한국어에 대한 의견 분류 연구들은 단어의 핵심 의미만을 파악하기 위해 어미 부분을 제거하고 어간만을 취해서 처리하여 어미에 대한 의미변화를 고려하지 못하므로 분류 정확도가 영어권에 연구 결과에 비해 떨어진다. 그래서 본 연구는 영어에 적용된 패턴을 이용한 기존 방법들을 정리하고, 그 방법들 중에서 극성을 지닌 문장성분 패턴을 한국어에 적용하였다. 그리고 어미의 변화에 대한 패턴을 추출하여 이 변화가 의견 분류의 성능에 미치는 영향을 분석하였다.

  • PDF