• 제목/요약/키워드: Sentiment classification

검색결과 170건 처리시간 0.027초

라디오 청취자 문자 사연을 활용한 한국어 다중 감정 분석용 데이터셋연구 (A Study on the Dataset of the Korean Multi-class Emotion Analysis in Radio Listeners' Messages)

  • 이재아;박구만
    • 방송공학회논문지
    • /
    • 제27권6호
    • /
    • pp.940-943
    • /
    • 2022
  • 본 연구에서는 직접 수집한 라디오 청취자 문자 사연을 활용하여 한국어 문장 감정 분석을 수행하기 위한 한국어 데이터셋을 구성하였으며 그 특성을 분석하였다. 딥러닝 언어모델 연구가 활발해지면서 한국어 문장 감정 분석에 관한 연구도 다양하게 진행되고 있다. 그러나 한국어의 언어학적 특성으로 인해 감정 분석은 높은 정확도를 기대하기 어렵다. 또한, 긍정/부정으로만 분류되도록 하는 이진 감성 분석은 많은 연구가 이루어졌으나, 3개 이상의 감정으로 분류되는 다중 감정 분석은 더 많은 연구가 필요하다. 이에 대해 딥러닝 기반의 한국어에 대한 다중 감정 분석 모델의 정확도를 높이기 위한 한국어 데이터셋 구성에 관한 고찰과 분석이 필요하다. 본 논문에서는 설문조사와 실험을 통해 감정 분석이 실행되는 과정에서 한국어 감정 분석이 어떤 이유 때문에 어려운지 분석하고 정확도를 향상시킬 수 있는 데이터셋 조성에 대한 방안을 제시하였으며 한국어 문장 감정 분석에 근거로 활용할 수 있게 하였다.

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

개인 성향 추출을 위한 딥러닝 기반 SNS 리뷰 분석 방법에 관한 연구 (A Study on SNS Reviews Analysis based on Deep Learning for User Tendency)

  • 박우진;이주오;이형걸;김아연;허승연;안용학
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.9-17
    • /
    • 2020
  • 본 논문에서는 개인의 성향을 추출하기 위한 딥러닝 기반의 SNS 리뷰 분석 방법을 제안한다. 기존의 SNS 리뷰 분석 방법은 대부분이 가장 높은 가중치를 기반으로 처리되기 때문에 여러 관심사에 대한 다양한 의견을 반영하지 못하는 문제점이 있다. 이를 해결하기 위해 제안된 방법은 음식을 대상으로 한 SNS의 리뷰에서 사용자의 개인적인 성향을 추출하기 위한 방법이다. YOLOv3 모델을 사용하여 분류체계를 작성하고, BiLSTM 모델을 통해 감성분석을 수행한 후 집합 알고리즘을 통해 다양한 개인적 성향을 추출한다. 실험 결과, YOLOv3 모델의 경우 Top-1 88.61%, Top-5 90.13%의 성능을 보여주었으며, BiLSTM 모델의 경우 90.99%의 정확도를 보여주었다. 또한, SNS 리뷰 분류에서의 개인 성향에 대한 다양성을 히트맵을 통해 시각화하여 확인하였다. 향후에는 다양한 분야에서의 개인 성향을 추출하여 사용자 맞춤 서비스나 마케팅 등에 활용될 것으로 기대된다.

음악 구성요소의 감정 구조 분석에 기반 한 시각화 연구 (Sound Visualization based on Emotional Analysis of Musical Parameters)

  • 김혜란;송은성
    • 한국콘텐츠학회논문지
    • /
    • 제21권6호
    • /
    • pp.104-112
    • /
    • 2021
  • 본 연구에서는 음악의 속성인 구성 요소 데이터들과 심리학의 감정 차원 모델을 기반으로 감정분석을 하였고 그 결과를 조형예술에서의 시각화 규칙에 적용하였다. 음악 속성 데이터를 활용한 기존의 연구들에서는 사람들이 원하는 음악을 분류, 검색, 추천할 수 있도록 하는 보다 실용적인 목적을 가진 사례들이 많았다. 본 연구에서는 특히 음원 분석에 따른 음악의 감정분석을 기반으로 사운드 데이터가 예술작품 창작의 재료가 되어 심미적 표현에 활용될 수 있도록 하는 것에 집중하였다. 음악의 시각화 연구를 위해서는 예술이 가지는 중요한 속성인 감정표현을 가능하게 하는 방법이 필요하였고 이를 위해 잘 구조화된 음악의 기본 속성 분류 및 감정 정보의 분류 체계를 마련하였다. 그리고 조형요소의 형태, 색상, 애니메이션을 통해 음악 요소들에 대해 감정을 기반으로 세분화 된 입력 매개 변수들을 반영하여 시각화하는 작업을 수행하였다. 본 연구는 음악 시각화를 활용하는 작가들에게 기초 자료로 활용될 수 있을 것이다. 또한 감정분석에 기반 한 음악 구성요소와 시각화 매칭을 위한 분석 방법 및 작품 결과는 향후 인공지능 기반의 자동화 된 시각화 연구의 기반이 될 수 있을 것이다.

산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측 (Online news-based stock price forecasting considering homogeneity in the industrial sector)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.1-19
    • /
    • 2018
  • 주가 예측은 학문적으로나 실용적으로나 중요한 문제이기에, 주가 예측에 관련된 연구가 활발히 진행되었다. 빅 데이터 시대에 도입하면서, 빅 데이터를 결합한 주가 예측 연구도 활발히 진행되고 있다. 다수의 데이터를 기반으로 기계 학습을 이용한 연구가 주를 이룬다. 특히 언론의 효과를 접목한 연구 방법들이 주목을 받고 있는데, 그중 온라인 뉴스를 분석하여 주가 예측에 활용하는 연구가 주를 이루고 있다. 기존 연구들은 온라인 뉴스가 개별 회사에 대한 미치는 영향을 주로 살펴보았다. 또한, 관련성이 높은 기업끼리 서로 영향을 주는 것을 고려하는 방법도 최근에 연구되고 있다. 이는 동질성을 가지는 산업군에 대한 효과를 살펴본 것인데, 기존 연구에서 동질성을 가지는 산업군은 국제 산업 분류 표준에 따른다. 즉, 기존 연구들은 국제 산업 분류 표준으로 나뉜 산업군이 동질성을 가진다는 가정하에서 분석을 시행하였다. 하지만 기존 연구들은 영향력을 가지는 회사를 고려하지 못한 채 예측하였거나 산업군 내에서 이질성이 존재하는 점을 반영하지 못했다는 한계점을 가진다. 본 연구는 산업군 내에 이질성이 존재함을 밝히고, 이질성을 반영하지 못한 기존 연구의 한계점을 K-평균 군집 분석을 적용하여, 주가에 영향을 미치는 산업군의 동질적인 효과를 반영할 수 있는 방법론을 제안하였다. 방법론이 적합하다는 것을 증명하기 위해 3년간의 온라인 뉴스와 주가를 통해 실험한 결과, 다수의 경우에서 본 논문에서 제시한 방법이 좋은 결과를 나타냄을 확인할 수 있었으며, 국제 산업 분류 표준 산업군 내에서 이질성이 클수록 본 논문에서 제시한 방법이 좋은 효과를 보인다는 것을 확인할 수 있었다. 본 연구는 국제 산업 분류 표준으로 나누어진 기업들이 높은 동질성을 가지지 않는 다는것을 밝히고 이를 반영한 예측 모형의 효율성을 입증하였다는 점에서 의의를 가진다.

KB-BERT: 금융 특화 한국어 사전학습 언어모델과 그 응용 (KB-BERT: Training and Application of Korean Pre-trained Language Model in Financial Domain)

  • 김동규;이동욱;박장원;오성우;권성준;이인용;최동원
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.191-206
    • /
    • 2022
  • 대량의 말뭉치를 비지도 방식으로 학습하여 자연어 지식을 획득할 수 있는 사전학습 언어모델(Pre-trained Language Model)은 최근 자연어 처리 모델 개발에 있어 매우 일반적인 요소이다. 하지만, 여타 기계학습 방식의 성격과 동일하게 사전학습 언어모델 또한 학습 단계에 사용된 자연어 말뭉치의 특성으로부터 영향을 받으며, 이후 사전학습 언어모델이 실제 활용되는 응용단계 태스크(Downstream task)가 적용되는 도메인에 따라 최종 모델 성능에서 큰 차이를 보인다. 이와 같은 이유로, 법률, 의료 등 다양한 분야에서 사전학습 언어모델을 최적화된 방식으로 활용하기 위해 각 도메인에 특화된 사전학습 언어모델을 학습시킬 수 있는 방법론에 관한 연구가 매우 중요한 방향으로 대두되고 있다. 본 연구에서는 금융(Finance) 도메인에서 다양한 자연어 처리 기반 서비스 개발에 활용될 수 있는 금융 특화 사전학습 언어모델의 학습 과정 및 그 응용 방식에 대해 논한다. 금융 도메인 지식을 보유한 언어모델의 사전학습을 위해 경제 뉴스, 금융 상품 설명서 등으로 구성된 금융 특화 말뭉치가 사용되었으며, 학습된 언어 모델의 금융 지식을 정량적으로 평가하기 위해 토픽 분류, 감성 분류, 질의 응답의 세 종류 자연어 처리 데이터셋에서의 모델 성능을 측정하였다. 금융 도메인 말뭉치를 기반으로 사전 학습된 KB-BERT는 KoELECTRA, KLUE-RoBERTa 등 State-of-the-art 한국어 사전학습 언어 모델과 비교하여 일반적인 언어 지식을 요구하는 범용 벤치마크 데이터셋에서 견줄 만한 성능을 보였으며, 문제 해결에 있어 금융 관련 지식을 요구하는 금융 특화 데이터셋에서는 비교대상 모델을 뛰어넘는 성능을 보였다.

도메인 특수성이 도메인 특화 사전학습 언어모델의 성능에 미치는 영향 (The Effect of Domain Specificity on the Performance of Domain-Specific Pre-Trained Language Models)

  • 한민아;김윤하;김남규
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.251-273
    • /
    • 2022
  • 최근 텍스트 분석을 딥러닝에 적용한 연구가 꾸준히 이어지고 있으며, 특히 대용량의 데이터 셋을 학습한 사전학습 언어모델을 통해 단어의 의미를 파악하여 요약, 감정 분류 등의 태스크를 수행하려는 연구가 활발히 이루어지고 있다. 하지만 기존 사전학습 언어모델이 특정 도메인을 잘 이해하지 못한다는 한계를 나타냄에 따라, 최근 특정 도메인에 특화된 언어모델을 만들고자 하는 방향으로 연구의 흐름이 옮겨가고 있는 추세이다. 도메인 특화 추가 사전학습 언어모델은 특정 도메인의 지식을 모델이 더 잘 이해할 수 있게 하여, 해당 분야의 다양한 태스크에서 성능 향상을 가져왔다. 하지만 도메인 특화 추가 사전학습은 해당 도메인의 말뭉치 데이터를 확보하기 위해 많은 비용이 소요될 뿐 아니라, 고성능 컴퓨팅 자원과 개발 인력 등의 측면에서도 많은 비용과 시간이 투입되어야 한다는 부담이 있다. 아울러 일부 도메인에서 추가 사전학습 후의 성능 개선이 미미하다는 사례가 보고됨에 따라, 성능 개선 여부가 확실하지 않은 상태에서 도메인 특화 추가 사전학습 모델의 개발에 막대한 비용을 투입해야 하는지 여부에 대해 판단이 어려운 상황이다. 이러한 상황에도 불구하고 최근 각 도메인의 성능 개선 자체에 초점을 둔 추가 사전학습 연구는 다양한 분야에서 수행되고 있지만, 추가 사전학습을 통한 성능 개선에 영향을 미치는 도메인의 특성을 규명하기 위한 연구는 거의 이루어지지 않고 있다. 본 논문에서는 이러한 한계를 극복하기 위해, 실제로 추가 사전학습을 수행하기 전에 추가 사전학습을 통한 해당 도메인의 성능 개선 정도를 선제적으로 확인할 수 있는 방안을 제시한다. 구체적으로 3개의 도메인을 분석 대상 도메인으로 선정한 후, 각 도메인에서의 추가 사전학습을 통한 분류 정확도 상승 폭을 측정한다. 또한 각 도메인에서 사용된 주요 단어들의 정규화된 빈도를 기반으로 해당 도메인의 특수성을 측정하는 지표를 새롭게 개발하여 제시한다. 사전학습 언어모델과 3개 도메인의 도메인 특화 사전학습 언어모델을 사용한 분류 태스크 실험을 통해, 도메인 특수성 지표가 높을수록 추가 사전학습을 통한 성능 개선 폭이 높음을 확인하였다.

주거환경에 대한 거주민의 만족도와 영향요인 분석 - 직방 아파트 리뷰 빅데이터와 딥러닝 기반 BERT 모형을 활용하여 - (Analysis of Resident's Satisfaction and Its Determining Factors on Residential Environment: Using Zigbang's Apartment Review Bigdata and Deeplearning-based BERT Model)

  • 권준현;이수기
    • 지역연구
    • /
    • 제39권2호
    • /
    • pp.47-61
    • /
    • 2023
  • 주거환경에 대한 만족도는 주거지 선택 및 이주 등에 영향을 미치는 주요인으로, 도시에서의 삶의 질과 직접적으로 연결된다. 최근 온라인 부동산 서비스의 증가로 주거환경에 대한 사람들의 만족도를 쉽게 확인할 수 있으며, 사람들이 평가하는 내용을 바탕으로 주거환경 만족 요인에 대한 분석이 가능하다. 이는 기존에 활용되던 설문조사 등의 방식보다 더 많은 양의 평가를 효율적으로 활용할 수 있음을 의미한다. 본 연구는 서울특별시를 대상으로 온라인 부동산 서비스인 '직방'에서 수집된 약 3만여 건의 아파트 리뷰를 분석에 활용하였다. 리뷰에 포함된 추천 평점을 토대로, 아파트 리뷰를 긍정적, 부정적으로 분류하고, 딥 러닝 기반 자연어 처리 모델인 BERT(Bidirectional Encoder Representations from Transformers)를 사용하여 리뷰를 자동으로 분류하는 모델을 개발하였다. 이후 SHAP(SHAPley Additive exPlanation)를 이용하여 분류에 중요한 역할을 하는 단어 토큰을 도출함으로 주거환경 만족도의 영향요인을 도출하였다. 더 나아가 Word2Vec을 이용하여 관련 키워드를 분석함으로써 주거환경에 대한 만족도 개선을 위한 우선 고려사항을 제시하였다. 본 연구는 거주자의 정성평가 자료인 아파트 리뷰 빅데이터와 딥러닝을 활용하여 주거환경에 대한 만족도를 긍정적, 부정적으로 자동 분류하는 모형을 제안하여 그 영향요인을 도출하는데 의의가 있다. 분석결과는 주거환경 만족도 향상을 위한 기초자료로 활용될 수 있으며 향후 아파트 단지 인근 주거환경 평가, 신규 단지 및 기반시설의 설계 및 평가 등에 활용될 수 있다.

표층과 심층의 시각에서 바라본 대순진리회 - 종교적 경험의 관점에서 - (Daesoonjinrihoe from both Superficial Religious Perspectives and Deep Religious Perspectives : Focused on Religious Experience)

  • 이은희
    • 대순사상논총
    • /
    • 제27집
    • /
    • pp.245-282
    • /
    • 2016
  • 지금 전 세계에는 자기 안의 신성을 되찾고자 하는 영성의 바람이 거세게 불고 있다. 하지만 아직도 종교 갈등은 진행 중이다. 테러 사건, 종교 간의 분쟁 등이 끊임없이 일어나는 등 오히려 더 규모가 커지고 전 세계로 확대되고 있다. 종교 간의 화합은 더욱 요원해 보인다. 종교 간 갈등의 근본 원인은 무엇일까? 종교공동체 사이에 소통한다는 것이 이토록 어려운가? 비록 문화가 다르고 교리적 의례적 표현은 다르지만 어느 종교이든 핵심적인 부분인 심층을 들여다보면 대체로 종교 상호 간에 일맥상통하는 면이 있는 것으로 보인다. 공통점을 찾고 차이점을 인정할 때 서로 배움의 자세가 되어 소통이 용이하게 된다. 그렇다면 종교 간의 공통점으로 무엇이 있을까? 많은 학자들은 각 종교의 신비주의에서 말하는 '하나됨'의 경지를 주장한다. 이 하나됨의 경지는 하루아침에 되는 것이 아니라 신앙을 성숙시키고자 하는 끊임없는 노력의 궁극적 도달점인 것이다. 이 도달점에 이르는 과정을 중요시하는 깨달음의 종교가 심층종교라고 할 수 있다. 표층종교가 기복적이고 무조건적인 믿음을 강조하는 것이라면 심층종교는 내 안의 신성(神聖), 참나, 큰나를 깨닫는 것을 강조하는 종교이다. 표층종교와 심층종교라는 것은 비교종교학자인 오강남 교수가 편의상 분류한 용어로, 이 잣대는 상대적 개념이며 명확히 구분할 수 있는 것은 더더욱 아니다. 그러나 표층·심층종교의 개념은 종교생활이나 종교성의 발달을 모두 포괄할 수 있다는 측면에서 종교에 대한 논의를 보다 분명하고 수월하게 할 수 있다는 장점이 있다. 표층·심층의 분류를 이러한 의미에서 제한적으로만 사용하고자 한다. 필자는 표층·심층의 용어를 빌리되 여러 학자들의 분류를 참조하여 재고찰해 보고, 이 시각을 종교적 경험과 연결해 보고자 한다. 종교성의 발달 즉 신앙의 성숙은, 진리에 대한 깊이 있는 깨달음은, 개방적이고 공감하는 태도는 어떻게 가능할까? 대부분의 많은 학자들은 '종교적 경험'을 꼽는다. 종교적 경험을 통해 기복적이고 자기중심적이고 표층적인 믿음에서 좀 더 성숙한 신앙으로, 계속되는 깨달음과 그 실천으로 더욱더 깊은 신앙으로 나아갈 수 있다는 것이다. 본 연구에서는 종교사에는 표층종교와 심층종교의 측면이 어떻게 나타났는지, 역대 종교에 대한 비판의 소리는 어떤 것이 있었는지 살펴본다. 이러한 표층과 심층의 시각으로 대순진리회 수도인들의 종교적 경험 수기 몇 가지를 분석하여, 표층에서 심층으로의 종교성의 발달이 종교적 경험을 통해 어떻게 일어나는지, 그 특성은 어떠한지 알아보고자 한다.

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.