DOI QR코드

DOI QR Code

나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법

Sensitivity Identification Method for New Words of Social Media based on Naive Bayes Classification

  • 김정인 (조선대학교 컴퓨터공학과) ;
  • 박상진 (조선대학교 컴퓨터공학과) ;
  • 김형주 (제주대학교 컴퓨터교육과) ;
  • 최준호 (조선대학교 소프트웨어융합공학과) ;
  • 김한일 (조선대학교 자유전공학부) ;
  • 김판구 (조선대학교 컴퓨터공학과)
  • 투고 : 2020.03.09
  • 심사 : 2020.03.17
  • 발행 : 2020.03.31

초록

인터넷의 발달과 스마트폰의 보급으로 인하여 그에 따른 소셜 미디어 문화가 형성됨에 따라 PC통신부터 지금까지 소셜 미디어 신조어가 그 문화로 자리 잡아가고 있다. 소셜 미디어의 등장과 사람들의 가교역할을 해주는 스마트폰의 보급화로 신조어가 생기고 빈번하게 사용되고 있는 추세이다. 신조어의 사용은 다양한 문자 제한 메신저의 문제점을 해결하고 짧은 문장을 사용하여 데이터를 줄이는 등 많은 장점을 가지고 있다. 그러나 신조어에는 사전적인 의미가 없으므로 데이터 마이닝 기술이나 빅데이터와 같은 연구에서 사용되는 알고리즘의 성능 저하와 연구에 제약사항이 발생한다. 따라서 본 논문에서는 웹 크롤링을 통해 텍스트 데이터를 추출하고, 텍스트 마이닝과 오피니언 마이닝을 통해 의미부여 및 단어들에 대한 감정적 분류를 통한 문장의 오피니언 파악을 진행하고자 한다. 실험은 다음과 같이 3단계로 진행하였다. 첫째, 소셜 미디어에서 새로운 단어를 수집하여 수집된 단어는 긍정적이고 부정적인 학습을 받게 하였다. 둘째, 표준 문서를 사용하여 감정적 가치를 도출하고 검증하기 위해 TF-IDF를 사용하여 데이터의 감정적 가치를 측정하기 위해 명사 빈도수를 측정한다. 신조어와 마찬가지로 분류된 감정적 가치가 적용되어 감정이 표준 언어 문서로 분류되는지 확인하였다. 마지막으로, 새로 합성된 단어와 표준 감정적 가치의 조합을 사용하여 장비 기술의 비교분석을 수행하였다.

From PC communication to the development of the internet, a new term has been coined on the social media, and the social media culture has been formed due to the spread of smart phones, and the newly coined word is becoming a culture. With the advent of social networking sites and smart phones serving as a bridge, the number of data has increased in real time. The use of new words can have many advantages, including the use of short sentences to solve the problems of various letter-limited messengers and reduce data. However, new words do not have a dictionary meaning and there are limitations and degradation of algorithms such as data mining. Therefore, in this paper, the opinion of the document is confirmed by collecting data through web crawling and extracting new words contained within the text data and establishing an emotional classification. The progress of the experiment is divided into three categories. First, a word collected by collecting a new word on the social media is subjected to learned of affirmative and negative. Next, to derive and verify emotional values using standard documents, TF-IDF is used to score noun sensibilities to enter the emotional values of the data. As with the new words, the classified emotional values are applied to verify that the emotions are classified in standard language documents. Finally, a combination of the newly coined words and standard emotional values is used to perform a comparative analysis of the technology of the instrument.

키워드

참고문헌

  1. 장경현, "신조어 연어의 형성원리," 인문논총, 제66권, 269-297쪽, 2011년 12월 https://doi.org/10.17326/JHSNU.66..201112.269
  2. 강아름, 이상연, 이건, "매스미디어 상 인터넷 용어 처리를 위한 은닉 마코프 모델기반 신조어 추출," 한국지능시스템학회 학술발표 논문집, 제25권, 제1호, 119-120쪽, 2015년 4월
  3. 안정은, "Text Mining 기법을 이용한 표준특허 기술의 유사도 측정방법," 한국정보과학회 학술발표논문집, 제36권, 제1호, 1-5쪽, 2009년 6월
  4. 이한동, 김종배, "복합명사를 포함하는 개선된 키워드 추출 방법," 예술인문사회융합멀티미디어논문지, 제7권, 제10호, 857-864쪽, 2017년 10월 https://doi.org/10.35873/AJMAHS.2017.7.10.079
  5. 이성직, 김한준, "TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법," 한국전자거래학회지, 제14권, 제4호, 59-73쪽, 2009년 11월
  6. 대한민국의 인터넷 신조어 목록(2018), https://ko.wikipedia.org/wiki/대한민국의_인터넷_신조어_목록 (accessed Mar., 12, 2020).
  7. 홍택은, 김정인, 신주현, "인스타그램 이미지와 텍스트 분석을 통한 사용자 감정 분류," 스마트미디어저널, 제5권, 제1호, 61-68쪽, 2016년 3월
  8. 장경애, 박상현, 김우제, "인터넷 감정기호를 이용한 긍정/부정 말뭉치 구축 및 감정분류 자동화," 정보과학회논문지, 제42권, 제4호, 512-521쪽, 2015년 4월
  9. 이종화, 레환수, 이현규, "오피니언 마이닝을 통한 국내와 수입 의류 제품에 대한 고객 평판 연구," 인터넷전자상거래연구, 제15권, 제3호, 223-234쪽, 2015년 6월
  10. 김동성, 김종우, "온라인 여론의 감성분석을 위한 감성용어 자동화 추출 방안 연구," 한국경영정보학회 학술대회논문집, 제2016권, 제6호, 187-189 쪽, 2016년 6월
  11. 한나눔(2018), http://semanticweb.kaist.ac.kr/home/index.php/HanNanum (accessed Mar., 12, 2020).
  12. 조하나, 정연오, 이재동, 이지형, "인터넷 뉴스 댓글의 감성 분석을 통한 오피니언 마이닝," 한국지능시스템학회학술발표논문집, 제23권, 제1호, 149-150쪽, 2013년4월
  13. 박승현, 이은지, 김판구, "한글 편집거리 알고리즘을 이용한 한국어 철자오류 교정방법," 스마트미디어저널, 제6권, 제1호, 16-21쪽, 2017년 3월
  14. 차준석, 김정인, 김판구, "단어 간 의미적 연관성을 고려한 어휘 체인 기반의 개선된 자동 문서요약 방법," 스마트미디어저널, 제6권, 제1호, 22-29쪽, 2017년 3월
  15. 최성자, 손민영, 김영학, "키워드 기반 블로그 마케팅을 위한 연관 키워드 추천 시스템," 정보과학회 컴퓨팅의 실제 논문지, 제22권, 제5호, 246-251쪽, 2016년 5월 https://doi.org/10.5626/KTCP.2016.22.5.246
  16. 안광모, 김윤석, 김영훈, 서영훈, "Levenshtein 거리를 이용한 영화평 감성 분류," 한국디지털콘텐츠 학회 논문지, 제14권, 제4호, 581-587쪽, 2013년 12월