• 제목/요약/키워드: Sentiment dictionary

검색결과 72건 처리시간 0.024초

블로그 데이터 감성분석을 통한 북한산둘레길 구간별 선호도 평가 (Evaluation of Preference by Bukhansan Dulegil Course Using Sentiment Analysis of Blog Data)

  • 이성희;손용훈
    • 한국조경학회지
    • /
    • 제49권3호
    • /
    • pp.1-10
    • /
    • 2021
  • 본 연구는 탐방객이 자유롭게 서술한 블로그 텍스트 데이터를 자연어 처리 기술 중 하나인 감성분석을 활용하여 북한산둘레길의 선호도를 평가하고, 선호 요인과 비선호 요인을 도출하는 것을 목적으로 하였다. 이에 2019년 1년 동안 작성된 블로그를 수집하고 21개 둘레길 구간별 텍스트에 나타난 긍정 및 부정 감성 단어 도출을 통해 감성점수를 산출하였다. 이후 내용분석을 통해 탐방객이 어떤 요소로 인해 구간을 선호하거나 선호하지 않는지 파악하였다. 북한산둘레길에 대해 작성된 블로그에서는 긍정적인 단어가 평균적으로 약 73% 출현하고 있었고, 각 구간별 게시물의 감성 극성 비율에서도 긍정적인 문서의 비율이 부정적인 문서의 비율보다 높았다. 이를 통해 탐방객은 북한산둘레길에 대하여 대체로 긍정적으로 인식하고 있는 것으로 나타났다. 그럼에도 감성점수를 도출한 결과, 21개 둘레길 구간에서는 선호하는 구간과 선호하지 않는 구간이 존재하고 있었다. 선호 구간과 비선호 구간에 대해 탐방객은 난이도가 낮고 부담 없이 걸을 수 있는 구간을 선호하고 있었고, 경관에 대한 여러 요소(시각, 청각, 후각 등)가 조화롭고 계절감이 뚜렷해 다양한 경관이 연출되는 곳, 경관 시퀀스의 변화가 존재하는 구간을 선호하는 것으로 나타났다. 또한 탐방객은 전망대, 조망점 등의 뷰포인트 유무를 둘레길에서의 주요 요소로 인식하고 있었고, 접근성이 우수하고 안내판 등 정보 제공이 원활하게 이뤄지는 구간에 대해 선호도가 더 높은 것을 알 수 있다. 반면, 도로와 인접함에 따라 발생되는 주변 소음과 과도한 시가지 비율, 구간별 난이도 불균형 등으로 인한 둘레길 동선 불만족이 비선호 요인으로 크게 작용하고 있었으며, 경관 단절 및 구간에 대한 정보 부족 등이 선호도를 떨어트리는 원인으로 나타났다. 본 연구의 결과는 국립공원뿐만 아니라 근교 산림 녹지 관리에 있어서 둘레길 정비 및 개선방안 마련에 활용될 수 있으며, 연구에 활용된 감성분석은 자연지역에 대한 실제 이용자들의 반응을 지속적으로 모니터링 할 수 있다는 점에 의의가 있다. 다만 사전에 정의된 감성사전을 기반으로 평가하였기에 지속적인 사전 업데이트가 필요하다. 또한 소셜미디어 특성상 부정적인 견해보다는 긍정적인 내용을 공유하는 경향이 존재하기 때문에, 현장 설문조사 등의 분석 결과와 비교, 검토하는 작업이 필요하다.

트위터의 감정 분석을 통한 실시간 장소 추천 시스템 (Real-time Spatial Recommendation System based on Sentiment Analysis of Twitter)

  • 오평화;황병연
    • 한국전자거래학회지
    • /
    • 제21권3호
    • /
    • pp.15-28
    • /
    • 2016
  • 본 논문에서는 모바일에서 획득한 GPS(Global Positioning System)를 활용하여 사용자의 위치 주변에서 발생한 SNS 데이터를 수집하고 분석을 통해 사용자가 원하는 장소를 추천하는 시스템을 제안한다. 이를 위해 트위터에서 위치정보를 포함하는 게시글을 표본 집합으로 정하고 모바일의 위치정보와 함께 활용했을 때, 사용자의 검색의도에 부합하는 양질의 정보를 제공할 수 있음을 실험을 통해 증명하였다. 이를 위해 2015년 11월부터 12월까지 수집한 트윗(Tweet)을 대상으로 임의의 위치정보와 검색어로 구성된 질의를 구성하고 형태소 분석을 거쳐 분석에 적합한 형태의 데이터로 변환하였다. 또한 장소 추천을 위해 감정사전을 구축하여 긍정 및 부정을 의미하는 극성 키워드들을 정의하고 레이블을 구성한 후, 감정사전과 극성키워드를 이용해 개별 트윗의 추천 점수를 도출하였다. 논문은 추천 점수와 사용자의 현재 위치, 트윗이 작성된 위치와 사용자 위치 사이의 거리 계산을 통해 가까운 거리 순으로 10개의 장소 정보를 정렬하여 결과를 보인다. 또한 성능평가를 위해 감정 분석된 트윗에 대한 정밀도와 재현율을 도출하여 시스템의 성능을 확인한다. 실험은 '맛집', '공연' 2개의 키워드와 10개 지역을 기준으로 수행하였다. 실험 결과 키워드 1개당 수집된 트윗은 평균 10.5개였으며, 총 10번의 실험에 사용된 평균 210개의 트윗 중 긍정 또는 부정의 단어를 포함한 트윗의 개수는 평균 122개였다. 또한 감정 분석을 통해 긍정 또는 부정으로 분류된 트윗은 평균 65개였으며 그 중 실제로 긍정 또는 부정의 의미를 담은 트윗은 평균 46개였다. 이를 통해 시스템은 38%의 재현율로 감정요소를 담은 트윗을 탐지하고, 71%의 정밀도로 감정 분석을 수행했음을 확인했다.

영화리뷰 감성 분석을 통한 평점 예측 연구 (Sentiment Analysis of movie review for predicting movie rating)

  • 조정태;최상현
    • 경영과정보연구
    • /
    • 제34권3호
    • /
    • pp.161-177
    • /
    • 2015
  • 인터넷 포털은 많은 양의 정보를 빠르고 쉽게 이용 할 수 있다는 특성 때문에 지속적으로 영향력이 커지고 있다. 웹 이용자들은 다양한 정보 습득, 네티즌 간의 정보 교환 등 다양한 목적을 위해 포털 사이트를 사용하고 있다. 문화콘텐츠 이용자들은 타인의 경험을 미리 알아보기 위해 포털 사이트에서 정보를 검색한 후 해당콘텐츠를 사용하고 개인적인 의견을 게시하기도 한다. 영화를 보고자 하는 이용자들은 관련 정보를 검색하고 얻는 과정에서 영화에 대한 다른 이용자들이 게시한 다양한 정보들을 접하게 된다. 영화 관련 포털사이트에서는 영화에 대한 제한된 글자수의 리뷰와 평점을 제공하는데 이와 같은 정보의 영향으로 영화에 대한 태도를 형성할 뿐 아니라, 영화 관람 여부를 결정하도록 만들 수 있다. 하지만 영화 리뷰는 사용자가 전체를 읽을 수 없기 때문에 일부 리뷰와 리뷰 개개의 평점보다는 전체 평점을 참고 하여 의사결정을 하는 정도가 대부분이다. 이처럼 전체 평점만을 참고하게 되면 편향적인 정보 습득으로 인하여 잘못된 판단을 할 수 있게 된다. 이러한 리뷰의 특성에도 불구하고 리뷰는 사용자의 의견을 풍부하게 드러내고 영화를 보지 않은 다른 이용자들의 선택에 영향을 미친다는 점에서 다양한 실용적 활용성을 갖는 데이터임은 분명하다. 본 연구에서는 리뷰 데이터를 활용하여 평점을 예측하기 위한 평점예측 연구를 수행하였다. 리뷰테이터를 형태소로 추출하고 형태소별로 극성값을 계산하여 리뷰에 대한 평점을 예측하는 모형으로서, 기존의 긍부정 값만을 근거로 하는 모형에 비해 정확도가 높아진 것을 확인하였다.

  • PDF

SNS 감성분석을 이용한 정보 추출 방법론에 관한 연구 (Study on the Methodology for Extracting Information from SNS Using a Sentiment Analysis)

  • 홍두표;정하림;박상민;한음;김홍회;윤일수
    • 한국ITS학회 논문지
    • /
    • 제16권6호
    • /
    • pp.141-155
    • /
    • 2017
  • 최근 SNS 이용이 활발해짐에 따라 많은 사람들이 특정 이벤트 등에 대한 자신들의 생각을 비정형 데이터인 텍스트 형태로 자신의 SNS에 게시하고 있다. 이에 따라 금융, 유통 등 다양한 분야에서 이미 SNS를 이용하여 서비스 만족도 조사, 소비자 요구사항 모니터링, 대선 후보 선호도 등을 수행하고 있다. 하지만 교통 분야에서는 감성분석과 같은 비정형 데이터 분석을 활용하는 사례가 부족한 실정이다. 이에 본 연구에서는 한국도로공사에서 수집한 비정형 데이터인 고속도로 VOC 데이터를 이용하여 교통분야에서 사용할 수 있는 감성분석 방법론을 개발하였다. 개발된 감성분석 방법론은 수집된 비정형 데이터에 대한 형태소 분석, 감성사전 구축, 감성 판별 등으로 구성되어 있다. 개발된 방법론은 고속도로 관련 트윗 데이터를 이용하여 검증하였다. 분석 결과, 분석 기간 동안 고속도로와 관련하여 공사, 사고에 대한 정보 전달이 많이 이루어졌음을 짐작할 수 있었다. 또한 공사 및 사고로 인해 발생한 지체에 대하여 이용자들의 불만이 높았던 것으로 판단된다. 결론적으로 SNS 감성분석이 교통분야에서도 의미 있는 정보추출이 가능한 기법임을 확인하였다.

비정형데이터를 활용한 건축현장 품질성과 평가 모델 개발 (Crafting a Quality Performance Evaluation Model Leveraging Unstructured Data)

  • 이기석;송태근;유위성
    • 한국건축시공학회지
    • /
    • 제24권1호
    • /
    • pp.157-168
    • /
    • 2024
  • 최근 국내 건축현장에서 붕괴사고가 계속해서 발생하고 있어 시공 및 자재 품질 점검과 관리에 대한 공사감리의 중요성이 증가하고 있다. 현행 제도 및 기준에 의하면, 공사감리 업무는 주요 책임이 있는 감리자가 건축현장에서 진행되고 있는 시공 품질, 자재 품질, 재시공 이력 등이 상세하게 기술하여 공사감리보고서를 작성한다. 이러한 문서는 대표적인 비정형데이터로 건축현장에서 생성되고 있는 데이터의 80%의 비중을 차지하고 있으며, 건축현장의 품질정보가 상세하게 기록되어있다. 본 연구에 건축현장에서 발생하고 있는 공사감리보고서를 텍스트마이닝으로 전처리 후 감성사전을 구축하여 품질성과 수준을 평가하고 계량화할 수 있는 SL-QPA 모델을 제안하였다. 모델에서 산정된 성과 점수와 법적 기준에 의한 지표와의 피어슨 상관관계 분석하고, 상관계수에 대한 일원분산분석 결과는 통계적으로 유의미하였다. 제안된 SL-QPA 모델은 현행 건축현장 품질성과 진단에 상호 보완적으로 활용될 수 있고, 공사단계에서 연속적으로 생성되는 비정형데이터를 활용하여 점검 및 관리 활동의 적시성을 향상시킬 것으로 기대된다.

텍스트마이닝 기법을 활용한 한국인의 행복과 불행 탐색연구 (An Exploratory Study of Happiness and Unhappiness Among Koreans based on Text Mining Techniques)

  • 박상현;도강혁;김학영;박가은;윤진혁;김경일
    • 한국콘텐츠학회논문지
    • /
    • 제18권7호
    • /
    • pp.10-27
    • /
    • 2018
  • 본 연구에서는 텍스트 마이닝 분석을 통해 한국 사회에서 행복과 불행이 갖는 의미를 탐색하였다. 자료수집 및 분석을 위하여 온라인 뉴스 포털에서 Word2Vec과 TF-IDF 방법을 사용하여 '행복' 및 '불행' 키워드와 유사한 단어를 추출했다. 또한 K-LIWC 사전을 사용하여 행복 및 불행과 연관된 단어들의 감성 속성에 대해 알아보았다. TF-IDF 분석 결과, 행복과 불행은 사회적 요인과 해당 년도의 사회적 이슈들과 각각 높은 관련성이 있는 것으로 관찰됐다. Word2Vec 분석에서는 '희망'이 6년 연속으로 행복과 유사성이 높은 단어로 나타났다. K-LIWC 분석에서 '돈재정적이슈', '학교', '의사소통'은 행복 및 불행과 모두 관련성이 높았다. 그밖에 '몸 상태와 증상'이 불행과 높은 관련성이 있는 범주로 나타났다. 이러한 결과를 바탕으로 본 연구의 의의, 제한점 및 후속연구에 대한 필요성을 논의하였다.

빅데이터 분석 기반의 오피니언 마이닝을 이용한 정보화 사업 평가 분석 (An Analysis of IT Proposal Evaluation Results using Big Data-based Opinion Mining)

  • 김홍삼;김종수
    • 산업경영시스템학회지
    • /
    • 제41권1호
    • /
    • pp.1-10
    • /
    • 2018
  • Current evaluation practices for IT projects suffer from several problems, which include the difficulty of self-explanation for the evaluation results and the improperly scaled scoring system. This study aims to develop a methodology of opinion mining to extract key factors for the causal relationship analysis and to assess the feasibility of quantifying evaluation scores from text comments using opinion mining based on big data analysis. The research has been performed on the domain of publicly procured IT proposal evaluations, which are managed by the National Procurement Service. Around 10,000 sets of comments and evaluation scores have been gathered, most of which are in the form of digital data but some in paper documents. Thus, more refined form of text has been prepared using various tools. From them, keywords for factors and polarity indicators have been extracted, and experts on this domain have selected some of them as the key factors and indicators. Also, those keywords have been grouped into into dimensions. Causal relationship between keyword or dimension factors and evaluation scores were analyzed based on the two research models-a keyword-based model and a dimension-based model, using the correlation analysis and the regression analysis. The results show that keyword factors such as planning, strategy, technology and PM mostly affects the evaluation result and that the keywords are more appropriate forms of factors for causal relationship analysis than the dimensions. Also, it can be asserted from the analysis that evaluation scores can be composed or calculated from the unstructured text comments using opinion mining, when a comprehensive dictionary of polarity for Korean language can be provided. This study may contribute to the area of big data-based evaluation methodology and opinion mining for IT proposal evaluation, leading to a more reliable and effective IT proposal evaluation method.

오피니언 마이닝을 이용한 지능형 VOC 분석시스템 (Intelligent VOC Analyzing System Using Opinion Mining)

  • 김유신;정승렬
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.113-125
    • /
    • 2013
  • 기업 경영에 있어서 고객의 소리(VOC)는 고객 만족도 향상 및 기업의사결정에 매우 중요한 정보이다. 이는 비단 기업뿐만 아니라 대고객, 대민원 업무를 처리하는 모든 조직에 있어서도 동일하다. 때문에 최근에는 기업뿐만 아니라 공공, 의료, 금융, 교육기관 등 거의 모든 조직이 VOC를 수집하여 활용하고 있다. 이러한 VOC는 방문, 전화, 우편, 인터넷게시판, SNS 등 다양한 채널을 통해 전달되지만, 막상 이를 제대로 활용하기는 쉽지 않다. 왜냐하면, 고객이 매우 감정적인 상태에서 고객의 주관적 의사를 음성 또는 문자로 표출하기 때문에 그 형식이나 내용이 정형화되어 있지 않고 저장하기도 어려우며 또한 저장하더라도 매우 방대한 분량의 비정형 데이터로 남기 때문이다. 본 연구는 이러한 비정형 VOC 데이터를 자동으로 분류하고 VOC의 유형과 극성을 판별할 수 있는 오피니언 마이닝 기반의 지능형 VOC 분석 시스템을 제안하였다. 또한 VOC 오피니언 분석의 기준이 되는 주제지향 감성사전 개발 프로세스와 각 단계를 구체적으로 제시하였다. 그리고 본 연구에서 제시한 시스템의 효용성을 검증하기 위하여 의료기관 홈페이지에서 수집한 4,300여건의 VOC 데이터를 이용하여 병원에 특화된 감성어휘와 감성극성값을 도출하여 감성사전을 구축하고 이를 통해 구현된 VOC분류 모형의 정확도를 비교하는 실험을 수행하였다. 그 결과 "칭찬, 친절함, 감사, 무사히, 잘해, 감동, 미소" 등의 어휘는 매우 높은 긍정 오피니언 값을 가지며, "퉁명, 뭡니까, 말하더군요, 무시하는" 등의 어휘들은 강한 부정의 극성값을 가지고 있음을 확인하였다. 또한 VOC의 오피니언 분류 임계값이 -0.50일 때 가장 높은 분류 예측정확도 77.8%를 검증함으로써 오피니언 마이닝 기반의 지능형 VOC 분석시스템의 유효성을 확인하였다. 그러므로 지능형 VOC 분석시스템을 통해 VOC의 실시간 자동 분류 및 대응 우선순위를 도출하여 고객 민원에 대해 신속히 대응한다면, VOC 전담 인력을 효율적으로 운용하면서도 고객 불만을 초기에 해소할 수 있는 긍정적 효과를 기대해 볼 수 있을 것이다. 또한 VOC 텍스트를 분석하고 활용할 수 있는 오피니언 마이닝 모형이라는 새로운 시도를 통해 향후 다양한 분석과 실용 프레임워크의 기틀을 제공할 수 있을 것으로 기대된다.

영화의 흥행 성과와 리뷰 감정어휘와의 관계 분석 (Relationship Analysis between the Box Office Performance and Sentimental Words in Movie Review)

  • 문성민;하효지;이경원
    • 디자인융복합연구
    • /
    • 제14권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 본 연구는 영화 리뷰 값이 1000개 이상인 673개의 영화를 대상으로 영화 장르별로 관객들이 느끼는 감정 어휘의 분포를 탐색하고 영화 흥행도와 감정 어휘의 관계를 파악하는데 목적이 있다. 분석을 위해 네이버 영화 리뷰를 크롤링하고 감정 어휘 사전을 활용하여 7개의 대표 감정 어휘, 영화 티켓 판매액, 영화 관람 관객 수, 상영 스크린 수, 한 스크린 당 영화 관람 관객 수, 영화의 장르, 영화의 영문 이름으로 구성된 데이터를 생성하였다. 연구 목적을 위한 분석은 상관관계 분석 방법과 Parallel coordinates 시각화 분석 방법을 사용하였다. 연구 결과로는 첫째, 장르에 따른 영화 흥행도를 분석하여 영화 흥행도가 가장 높은 장르는 코미디이고 가장 낮은 장르는 호러라는 결과를 확인하였다. 둘째, 모든 장르에서 'Happy'와 'Surprise'의 값이 높게 나오지만 다른 장르들에 비해 판타지 장르의 영화는 지루한 감정이 많이 느껴지고, SF장르의 영화는 화나는 감정이 많이 느껴진다는 결과를 확인 하였다. 셋째, 모든 장르의 감정 어휘 별 상관관계를 분석하여 Disgust'의 값이 높아질 때 'Anger'의 값도 높아지고, 'Happy'의 값이 높아질 때 'Surprise'의 값은 낮아진다라는 결과를 확인하였다. 넷째, 영화 흥행도에 따른 감정 어휘를 분석하여 영화 흥행도와 'Happy'는 선형 관계이지만 영화 흥행도와 'Fear'는 비선형 관계인 것을 확인 하였다.

온라인 언급이 기업 성과에 미치는 영향 분석 : 뉴스 감성분석을 통한 기업별 주가 예측 (Influence analysis of Internet buzz to corporate performance : Individual stock price prediction using sentiment analysis of online news)

  • 정지선;김동성;김종우
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.37-51
    • /
    • 2015
  • 인터넷 기술의 발전과 인터넷 상 데이터의 급속한 증가로 인해 데이터의 활용 목적에 적합한 분석방안 연구들이 활발히 진행되고 있다. 최근에는 텍스트 마이닝 기법의 활용에 대한 연구들이 이루어지고 있으며, 특히 문서 내 텍스트를 기반으로 문장이나 어휘의 긍정, 부정과 같은 극성 분포에 따라 의견을 스코어링(scoring)하는 감성분석과 관련된 연구들도 다수 이루어지고 있다. 이러한 연구의 연장선상에서, 본 연구는 인터넷 상의 특정 기업에 대한 뉴스 데이터를 수집하여 이들의 감성분석을 실시함으로써 주가의 등락에 대한 예측을 시도하였다. 개별 기업의 뉴스 정보는 해당 기업의 주가에 영향을 미치는 요인으로, 적절한 데이터 분석을 통해 주가 변동 예측에 유용하게 활용될 수 있을 것으로 기대된다. 따라서 본 연구에서는 개별 기업의 온라인 뉴스 데이터에 대한 감성분석을 바탕으로 개별 기업의 주가 변화 예측을 꾀하였다. 이를 위해, KOSPI200의 상위 종목들을 분석 대상으로 선정하여 국내 대표적 검색 포털 서비스인 네이버에서 약 2년간 발생된 개별 기업의 뉴스 데이터를 수집 분석하였다. 기업별 경영 활동 영역에 따라 기업 온라인 뉴스에 나타나는 어휘의 상이함을 고려하여 각 개별 기업의 어휘사전을 구축하여 분석에 활용함으로써 감성분석의 성능 향상을 도모하였다. 분석결과, 기업별 일간 주가 등락여부에 대한 예측 정확도는 상이했으며 평균적으로 약 56%의 예측률을 보였다. 산업 구분에 따른 주가 예측 정확도를 통하여 '에너지/화학', '생활소비재', '경기소비재'의 산업군이 상대적으로 높은 주가 예측 정확도를 보임을 확인하였으며, '정보기술'과 '조선/운송' 산업군은 주가 예측 정확도가 낮은 것으로 확인되었다. 본 논문은 온라인 뉴스 정보를 활용한 기업의 어휘사전 구축을 통해 개별 기업의 주가 등락 예측에 대한 분석을 수행하였으며, 향후 감성사전 구축 시 불필요한 어휘가 추가되는 문제점을 보완한 연구 수행을 통하여 주가 예측 정확도를 높이는 방안을 모색할 수 있을 것이다.