• 제목/요약/키워드: 감성어 사전

검색결과 30건 처리시간 0.021초

신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 기법 (Deep Learning-based Target Masking Scheme for Understanding Meaning of Newly Coined Words)

  • 남건민;서수민;곽기영;김남규
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.391-394
    • /
    • 2021
  • 최근 딥러닝(Deep Learning)을 활용하여 텍스트로 표현된 단어나 문장의 의미를 파악하기 위한 다양한 연구가 활발하게 수행되고 있다. 하지만, 딥러닝을 통해 특정 도메인에서 사용되는 언어를 이해하기 위해서는 해당 도메인의 충분한 데이터에 대해 오랜 시간 학습이 수행되어야 한다는 어려움이 있다. 이러한 어려움을 극복하고자, 최근에는 방대한 양의 데이터에 대한 학습 결과인 사전 학습 언어 모델(Pre-trained Language Model)을 다른 도메인의 학습에 적용하는 방법이 딥러닝 연구에서 많이 사용되고 있다. 이들 접근법은 사전 학습을 통해 단어의 일반적인 의미를 학습하고, 이후에 단어가 특정 도메인에서 갖는 의미를 파악하기 위해 추가적인 학습을 진행한다. 추가 학습에는 일반적으로 대표적인 사전 학습 언어 모델인 BERT의 MLM(Masked Language Model)이 다시 사용되며, 마스크(Mask) 되지 않은 단어들의 의미로부터 마스크 된 단어의 의미를 추론하는 형태로 학습이 이루어진다. 따라서 사전 학습을 통해 의미가 파악되어 있는 단어들이 마스크 되지 않고, 신조어와 같이 의미가 알려져 있지 않은 단어들이 마스크 되는 비율이 높을수록 단어 의미의 학습이 정확하게 이루어지게 된다. 하지만 기존의 MLM은 무작위로 마스크 대상 단어를 선정하므로, 사전 학습을 통해 의미가 파악된 단어와 사전 학습에 포함되지 않아 의미 파악이 이루어지지 않은 신조어가 별도의 구분 없이 마스크에 포함된다. 따라서 본 연구에서는 사전 학습에 포함되지 않았던 신조어에 대해서만 집중적으로 마스킹(Masking)을 수행하는 방안을 제시한다. 이를 통해 신조어의 의미 학습이 더욱 정확하게 이루어질 수 있고, 궁극적으로 이러한 학습 결과를 활용한 후속 분석의 품질도 향상시킬 수 있을 것으로 기대한다. 영화 정보 제공 사이트인 N사로부터 영화 댓글 12만 건을 수집하여 실험을 수행한 결과, 제안하는 신조어 표적 마스킹(NTM: Newly Coined Words Target Masking)이 기존의 무작위 마스킹에 비해 감성 분석의 정확도 측면에서 우수한 성능을 보임을 확인하였다.

  • PDF

온라인쇼핑몰 상품평 문법적 오류 개선을 위한 오피니언 마이닝에 대한 연구 (Research for the opinion mining for the improvement of online shopping mall review grammatical errors)

  • 박세정;황재승;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.160-163
    • /
    • 2015
  • 현대인들은 필요한 물건들을 직접 구매하러 갈 시간이 부족하기 때문에 온라인 쇼핑몰의 이용 빈도가 늘어가고 있으며 이에 따라 온라인 쇼핑몰이 성행하고 있다. 하지만 온라인 쇼핑몰에서 물건을 구매하는 것은 물건을 눈으로 확인할 수 없다는 문제점이 있기 때문에 상품평은 구매를 결정하는데 많은 영향을 준다. 현재 온라인 쇼핑몰에서 고객이 상품평을 통해 상품에 대한 정보를 파악하기 어렵기 때문에 이를 해결하기 위한 연구들이 진행되고 있다. 이러한 연구들로 상품평의 의견을 분석하기 위한 연구로 오피니언 마이닝이 사용되고 있는 추세이다. 그러나 지금까지의 연구는 문법적인 오류, 신조어와 같이 국어사전에 등재되어 있지 않은 단어들을 감성분석기가 올바르게 판단하지 못하기 때문에 분석의 신뢰도가 떨어진다는 문제점이 있다. 그래서 형태소 분석을 실시하기 전에 신조어 사전을 추가하여 Noisy-channel model을 적용하여 더욱 정확한 감성분석이 가능하도록 하였다. 이러한 과정을 통해 가공된 정보를 바탕으로 상품평을 보다 정확하게 분석할 수 있는 시스템을 제안하고자 한다.

  • PDF

맵리듀스를 이용한 통계적 접근의 감성 분류 (Statistical Approach to Sentiment Classification using MapReduce)

  • 강문수;백승희;최영식
    • 감성과학
    • /
    • 제15권4호
    • /
    • pp.425-440
    • /
    • 2012
  • 인터넷의 규모가 커지면서 주관적인 데이터가 증가하였다. 이에 주관적인 데이터를 자동으로 분류할 필요가 생겼다. 감성 분류는 데이터를 여러 감성 종류에 따라 나누는 것을 말한다. 감성 분류 연구는 크게 자연어 처리와 감성어 사전 구축을 중심으로 이루어져 왔다. 이전의 감성 분류 연구는 자연어 처리 과정에서 형태소 분석이 제대로 이루어지지 않는 문제와 감성어 사전구축 시 등록할 단어를 선별하고 단어의 감성 정도를 정하는 데에 명확한 기준을 정하기 힘든 문제가 있다. 이러한 어려움을 해결하기 위하여 감성 분류에 대용량 데이터와 통계적 접근의 조합을 제안한다. 본 논문에서 제안하는 방법은 단어의 의미를 찾는 대신 수많은 데이터에서 등장하는 표현들의 통계치를 이용하여 감성 판단을 하는 것이다. 이러한 접근은 자연어 처리 알고리즘에 의존하던 이전 연구와 달리 데이터에 집중한다. 대용량 데이터 처리를 위해 하둡과 맵리듀스를 이용한다.

  • PDF

Deep Learning-based Target Masking Scheme for Understanding Meaning of Newly Coined Words

  • Nam, Gun-Min;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권10호
    • /
    • pp.157-165
    • /
    • 2021
  • 최근 대량의 텍스트 분석을 위해 딥 러닝(Deep Learning)을 활용하는 연구들이 활발히 수행되고 있으며, 특히 대량의 텍스트에 대한 학습 결과를 특정 도메인 텍스트의 분석에 적용하는 사전 학습 언어 모델(Pre-trained Language Model)이 주목받고 있다. 다양한 사전 학습 언어 모델 중 BERT(Bidirectional Encoder Representations from Transformers) 기반 모델이 가장 널리 활용되고 있으며, 최근에는 BERT의 MLM(Masked Language Model)을 활용한 추가 사전 학습(Further Pre-training)을 통해 분석 성능을 향상시키기 위한 방안이 모색되고 있다. 하지만 전통적인 MLM 방식은 신조어와 같이 새로운 단어가 포함된 문장의 의미를 충분히 명확하게 파악하기 어렵다는 한계를 갖는다. 이에 본 연구에서는 기존의 MLM을 보완하여 신조어에 대해서만 집중적으로 마스킹을 수행하는 신조어 표적 마스킹(NTM: Newly Coined Words Target Masking)을 새롭게 제안한다. 제안 방법론을 적용하여 포털 'N'사의 영화 리뷰 약 70만 건을 분석한 결과, 제안하는 신조어 표적 마스킹이 기존의 무작위 마스킹에 비해 감성 분석의 정확도 측면에서 우수한 성능을 보였다.

소셜 감성과 암호화폐 가격 간의 관계 분석: 빅데이터를 활용한 계량경제적 분석 (An Analysis of Relationship between Social Sentiments and Cryptocurrency Price: An Econometric Analysis with Big Data)

  • 유상이;현지연;이상용
    • 경영정보학연구
    • /
    • 제21권1호
    • /
    • pp.91-111
    • /
    • 2019
  • 2017년 말, 전 세계적으로 비트코인을 필두로 암호화폐에 대한 투자 열풍이 시작되었으며, 특히 한국은 그 중심에 서 있는 상황이었다. 한국의 투자자들이 그간 수익성이 있는 투자 기회를 찾기가 어려웠던 만큼 새로운 투자처에 투자심리가 몰린 것으로 보인다. 하지만 암호화폐에 대한 이러한 한국의 열기는 자산의 본질적인 가치에 기초한 투자가 아니라 단기적 차익 실현 기대 및 사회적 분위기에 따른 것이기 때문에 심리적 현상에 좌우되는 바가 크다고 할 수 있다. 따라서 본 연구에서는 이를 살펴보기 위해 트위터와 비트코인을 대표로 선정하여 사람들의 소셜 감성이 암호화폐에 미치는 영향을 분석해보고자 하였다. 데이터는 2017년 11월 1일부터 2018년 4월 30일까지 총 181일간 트위터상에 노출된 비트코인 관련 게시물과 빗썸/업비트의 비트코인 가격을 대상으로 수집하였다. 수집된 트위터 데이터는 감성 분석을 통해 중립어 및 긍·부정어로 정제해주었고, 정제된 중립어, 긍정어, 부정어는 비트코인 가격에 어떤 영향을 미치는지 확인하기 위해 회귀분석 모형에 투입하였다. 회귀분석을 통해 관계를 살펴본 후에는 Granger Causality test를 통해 인과관계의 존재 여부를 확인하였다. 그 결과, 긍정어는 비트코인 가격과 정의 관계로 나타났고, 부정어는 부의 관계로 나타났다. 또한 소셜감성과 비트코인 가격간에는 양방향의 인과관계가 있음을 확인하였다. 즉, 비트코인 가격 변동이 소셜감성에 영향을 미치기도 하지만, 동시에 소셜감성의 변화도 암호화폐 투자자들의 행동에 영향을 미칠 수 있음을 확인할 수 있었다.

영상 콘텐츠의 신뢰도 평가를 위한 언어와 비언어 통합 감성 분석 시스템 (Integrated Verbal and Nonverbal Sentiment Analysis System for Evaluating Reliability of Video Contents)

  • 신희원;이소정;손규진;김혜린;김윤희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권4호
    • /
    • pp.153-160
    • /
    • 2021
  • IT 기술 발달에 따른 영상 콘텐츠 생산과 소비가 증가함에 따라 영상 콘텐츠를 통한 제품 리뷰 정보로 구매의사 결정이 빈번해졌다. 따라서, 리뷰 영상에 대한 신뢰성을 평가할 필요가 있다. 본 연구에서는 제품 리뷰 영상을 얼굴 표정 분석과 텍스트 마이닝을 통해 리뷰어의 표정과 음성을 분석하여 영상의 신뢰도를 분석한다. 영상 내 인물 표정의 감성 값을 추출하는 알고리즘을 활용하여 비언어 감성을 정량화하고, 유의미한 감정 변화 구간을 추출한다. 유의미한 감정 변화 구간의 리뷰어 음성을 텍스트화하여 표준어 및 비표준어 감성 사전 활용을 통해 긍정과 부정으로 리뷰에 대한 언어 감성 분석 후 수치화 한다. 비언어 감성 분석과 언어 감성 분석의 결과를 통합하여 일치 여부에 따라 신뢰도를 도출한다. 본 연구를 통해 영상 콘텐츠의 신뢰성 평가 방법을 제시한다.

직물디자인의 시각적 요소와 관련된 감성 어휘 모형 (A lexical structure of adjectives for the sensibility of visual design elements in Textile)

  • 박수진;조경자;장준익;김길님
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 1997년도 한국감성과학회 연차학술대회논문집
    • /
    • pp.63-68
    • /
    • 1997
  • 본 연구에서는 직물 디자인의 시각적 요소와 관련된 감성 모형을 제안하고, 아울러 감성 모형을 구성하는 과정에서 사용될 수 있ㅅ는 대안적인 방안을 제시하고자 한다. 이를 위해 설문 조사와 관련 잡지, 신문, 사전 등을 통한 광범위한 어휘 수집이 이뤄졌으며 수집된 어휘는 1,000여 개였다. 수집된 어휘에 대해 이해도 및 적절성 평가를 실시하여 직물 제품과 관련된 감성을 표현하기에 부적절하거나 이해하기 어려운 어휘들을 제거하여 360개의 감성 어휘로 정리하였다. 사용 빈도가 높은 어휘 108개를 이용하여 자유 연상과제를 실시하였으며 그결과 어휘들 간 관계에 대한 연결망을 그려낼 수 있었다. 어휘망에서 중심적인 대표어 역할을 하는 18개 어휘를 추출하여 1차로 유사성평정을 실시하였으며 다차원 척도법으로 분석한 결과 어휘들 간 관계를 표현하기 위해 필요한 차원은 네 개였다. 1차로 구성된 모형의 타당성을 확인하기 위해 추가로 각각 20개씩의 어휘를 새로이 추출하여 2회에 걸쳐 유사성 평정을 실시한 결과, 직물 디자인의 시각적 요소와 관련된 감성을 모형화하기 위해서는 세 개차원이면 충분하다고 생각된다.

  • PDF

Bi-LSTM 기반의 한국어 감성사전 구축 방안 (KNU Korean Sentiment Lexicon: Bi-LSTM-based Method for Building a Korean Sentiment Lexicon)

  • 박상민;나철원;최민성;이다희;온병원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.219-240
    • /
    • 2018
  • 감성사전은 감성 어휘에 대한 사전으로 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 이와 같은 감성사전을 구성하는 감성 어휘는 특정 도메인에 따라 감성의 종류나 정도가 달라질 수 있다. 예를 들면, '슬프다'라는 감성 어휘는 일반적으로 부정의 의미를 나타내지만 영화 도메인에 적용되었을 경우 부정의 의미를 나타내지 않는다. 그렇기 때문에 정확한 감성 분석을 수행하기 위해서는 특정 도메인에 알맞은 감성사전을 구축하는 것이 중요하다. 최근 특정 도메인에 알맞은 감성사전을 구축하기 위해 범용 감성 사전인 오픈한글, SentiWordNet 등을 활용한 연구가 진행되어 왔으나 오픈한글은 현재 서비스가 종료되어 활용이 불가능하며, SentiWordNet은 번역 간에 한국 감성 어휘들의 특징이 잘 반영되지 않는다는 문제점으로 인해 특정 도메인의 감성사전 구축을 위한 기초 자료로써 제약이 존재한다. 이 논문에서는 기존의 범용 감성사전의 문제점을 해결하기 위해 한국어 기반의 새로운 범용 감성사전을 구축하고 이를 KNU 한국어 감성사전이라 명명한다. KNU 한국어 감성사전은 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 89.45%의 정확도로 분류하였으며 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 추출한다. 또한 다양한 외부 소스(SentiWordNet, SenticNet, 감정동사, 감성사전0603)를 활용하여 감성 어휘를 확장하였으며 온라인 텍스트 데이터에서 사용되는 신조어, 이모티콘에 대한 감성 어휘도 포함하고 있다. 이 논문에서 구축한 KNU 한국어 감성사전은 특정 도메인에 영향을 받지 않는 14,843개의 감성 어휘로 구성되어 있으며 특정 도메인에 대한 감성사전을 효율적이고 빠르게 구축하기 위한 기초 자료로 활용될 수 있다. 또한 딥러닝의 성능을 높이기 위한 입력 자질로써 활용될 수 있으며, 기본적인 감성 분석의 수행이나 기계 학습을 위한 대량의 학습 데이터 세트를 빠르게 구축에 활용될 수 있다.

웰니스워드넷: 비정형데이터와 상황적 긍부정성에 기반하여 주관적 웰빙 상태를 무구속적으로 모니터링하기 위한 워드넷 개발 (WellnessWordNet: A Word Net for Unconstrained Subjective Well-Being Monitor ing Based on Unstructured Data and Contextual Polarity)

  • 송영은;남수현;권오병
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.1-21
    • /
    • 2016
  • 주관적 웰빙 서비스(subjective well-being service)는 Wellness IT의 주요 서비스이며 개인의 주관적 웰빙 상태를 무구속적이고 비용 효율적으로 측정하는 방법이 중요하다. 이를 위해 감성어휘사전을 활용할 수 있으나 감성어만으로 주관적 웰빙 상태를 측정할 수는 없으며 웰니스 어휘 사전이 별도로 구축될 필요가 있다. 더욱이 기존의 감성어휘사전은 동일한 감정어에 대해 한가지만의 감성값을 제공함으로써 그 용어를 사용한 사람의 특징에 따라 감성값이 변경될 수 있다는 점을 간과하고 있다. 따라서 본 연구의 목적은 현존하는 감성어휘사전 중에서 표현력이 가장 뛰어난 SenticNet을 기반으로 하여 SenticNet에서 제공하는 정보를 통해 스트레스, 우울, 분노, 행복감 등 웰니스 상태를 추정한 결과를 추가한 WellnessWordNet 을 개발하는 것이다. 또한 실제 사람들을 대상으로 WellnessWordNet 에 근거한 웰니스 상태 추정 정확도를 검증해 보았다. 본 논문의 독창성은 WellnessWordNet 웰니스 상태 언어에 대한 값을 제공할 뿐더러, 성별이나 연령과 같은 사람의 특성에 따라 다른 감성값을 제공하는 최초의 감성어휘사전이라는 것이다.

비정형 데이터 마이닝을 활용한 한국농수산대학 재학생의 학교생활 감성 분석(1) (An Analysis of School Life Sensibility of Students at Korea National College of Agriculture and Fisheries Using Unstructured Data Mining(1))

  • 주진수;이소영;김종숙;송천영;신용광;박노복
    • 현장농수산연구지
    • /
    • 제21권1호
    • /
    • pp.99-114
    • /
    • 2019
  • 본 논문은 빅 데이터 분석기법을 이용하여 한국농수산대학 학생들의 대학생활 요소에 대한 선호도를 연구하기 위하여 비정형 데이터 분석기법으로서 감성 분석(opinion mining) 기법과 텍스트 마이닝 기법을 활용하였다. 분석도구로는 RStudio를 이용하였으며, 긍정과 부정의 감성을 분류하고 선호도를 평가하기 위한 긍정어 사전과 부정어 사전을 새롭게 작성하여 프로그래밍하였다. 비정형 텍스트에 대한 분석 결과는 도표와 워드 클라우드를 이용한 시각화 자료로 나타내어 정보를 추출하였다. 학교생활 요소로는 '나의 현재', '10년 후 모습', '교우관계', '한농제(대학 축제)', '후생관(식사)', '청학관(기숙사)', '한농대', '장기현장실습' 등 학생들에게 밀접한 8가지 주제를 대상으로 하였다. 분석 결과 한농대 학생들은 '후생관 식사'과 ' 교우관계'의 주제에 대해서 85% 이상의 긍정적 감성을 나타냈으나 '장기현장실습'과 '청학관(기숙사)'에 대해서는 긍정적 감성이 60%를 넘지 않는 만족도를 갖는 것으로 나타났다. 그리고 '나의 현재', '10년 후 모습', '한농제(대학 축제)' 및 'KNCAF' 등의 주제에 대해서는 69.3~74.2% 정도의 긍정적 감성을 나타냈다. 남녀 학생별 차이를 보면 '나의 현재', '10년 후 모습', '교우관계', '청학과(기숙사)' 및 '장기현장실습' 주제에서는 남학생의 긍정적 감성이 높게 나타났으며, '한농제(대학 축제)', '후생관' 및 '한농대' 주제에서는 여학생의 긍정적 감성이 높게 나타났다. 전공별 특징을 살펴보면 학생들은 '현재'나 '10년 후'의 자신의 모습에 대하여 71% 이상 긍정적 자신감을 지니고 있는 것으로 나타났다. 특히 축산계열 학생들의 긍정적 감성이 높게 나타났으며, 화훼학과 학생들은 다른 전공의 학생들에 비하여 긍정적 감성이 낮게 나타나 자신감이 부족한 결과를 보였다. '교우관계'에 대해서는 화훼학과를 제외하고 80% 이상의 긍정적 감성을 나타냈으며, 중소가축학과 학생들은 93%를 초과하는 적극적인 교우관계를 맺고 있는 것으로 나타났다. 대학 축제인 '한농제'에 대하여 전체 학생들의 긍정적 감성은 약 70% 정도이나 과수학과와 수산양식학과 학생들의 호감도는 60% 미만으로 축제에 대한 부정적 이미지가 높게 나타났다. '후생관 식사'에 대한 전체 학생들의 긍정적 감성은 85%를 넘어 매우 높은 만족도를 나타냈으나 수산양식학과 학생(남학생)들의 만족도는 매우 낮게 나타났다. 모든 학생들이 공동생활을 하는 '청학관'에 대한 학생들의 호감도는 59.5%로 낮게 나타났으며, 과수학과와 수산양식학과 학생들의 만족도는 약 42% 미만으로 더욱 부정적인 감성을 나타냈다. 또한 자신들이 3년간 학업을 재학한 한농대에 대해서는 74% 이상이 긍정적인 평가를 하는 것으로 나타났다. 특히 학생들의 호감도가 가장 낮게 나타난 장기현장실습에 대한 화훼학과, 채소학과, 중소가축학과 학생들의 호감도는 50%를 넘지 않는 매우 부정적 감성을 나타냈다. 빅 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하기 위하여 텍스트 마이닝 기법으로 구조화되지 않은 텍스트에서 주요 단어를 긍정어와 부정어로 나누어 추출하고 그 단어들의 word cloud를 작성하여 학생들의 감성을 시각화하였다. 한농대는 학생들에게 지금보다 더욱 긍정적인 감성을 가지고 밝고 환한 말, 힘이 되고 용기를 주는 말, 사람을 기쁘게 하는 말을 많이 할 수 있도록 여건을 제공함으로써 학생들은 삶의 활기가 넘치고 성공적인 인생을 살아가는 행복을 만들 수 있으리라 여겨진다.