Browse > Article
http://dx.doi.org/10.30693/SMJ.2020.9.4.144

Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon  

Kang, Seung-Shik (국민대학교 컴퓨터공학과)
Won, HyeJin (국민대학교 컴퓨터공학과 대학원)
Lee, Minhaeng (연세대학교 독어독문학과)
Publication Information
Smart Media Journal / v.9, no.4, 2020 , pp. 144-151 More about this Journal
Abstract
In a mobile environment, communication takes place via SMS text messages. Vocabularies used in SMS texts can be expected to use vocabularies of different classes from those used in general Korean literary style sentence. For example, in the case of a typical literary style, the sentence is correctly initiated or terminated and the sentence is well constructed, while SMS text corpus often replaces the component with an omission and a brief representation. To analyze these vocabulary usage characteristics, the existing colloquial style corpus and the literary style corpus are used. The experiment compares and analyzes the vocabulary use characteristics of the colloquial corpus SMS text corpus and the Naver Sentiment Movie Corpus, and the written Korean written corpus. For the comparison and analysis of vocabulary for each corpus, the part of speech tag adjective (VA) was used as a standard, and a distinctive collexeme analysis method was used to measure collostructural strength. As a result, it was confirmed that adjectives related to emotional expression such as'good-','sorry-', and'joy-' were preferred in the SMS text corpus, while adjectives related to evaluation expressions were preferred in the Naver Sentiment Movie Corpus. The word embedding was used to automatically construct a sentiment lexicon based on the extracted adjectives with high collostructural strength, and a total of 343,603 sentiment representations were automatically built.
Keywords
SMS corpus; raw corpus; sentiment representation; lexicon;
Citations & Related Records
Times Cited By KSCI : 7  (Citation Analysis)
연도 인용수 순위
1 S. Baccianella, A. Esuli, and F. Sebastiani, "SentiWordNet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining," Proceedings of LREC-10, pp. 2200-2204, 2010.
2 M. Thelwall, K. Buckley, G. Paltoglou, D. Cai, A. Kappas, "Sentiment strength detection in short informal text," Journal of the American Society for Information Science and Technology, vol. 62, no. 2, pp. 2544-2558, 2010.
3 M. Qu, X. Ren, J Han, "Automatic synonym discovery with knowledge bases," Proceedings of KDD, pp. 997-1005, 2017.
4 이민행, "빅데이터 시대의 언어연구 - 내 손안의 검색엔진," 21세기 북스, 2015
5 S. Evert and A. Hardie, "A twenty-first century corpus workbench: updating a query architecture for the new millennium," Proceedings of the Corpus Linguistics, pp. 1-21, 2011.
6 K. Church and P Hanks, "Word association norms, mutual information, and lexicography," Computational Linguistics, vol. 16, no. 1, pp. 22-29, 1990.
7 박호민, 천민아, 남궁영, 최민석, 윤호, 김재균, 김재훈, "BPE를 활용한 한국어 감정사전 제작," 제31회 한글 및 한국어 정보처리 학술대회 논문집, 510-513쪽, 2019년
8 Seung-Shik Kang and Minhaeng Lee, "Automatic Construction of Sentiment Lexicon by Analyzing SMS Bigdata," 2018 IEEE International Conference on BigData(IEEE BigData 2018), pp. 5331-5333, 2018.
9 S. Gries and A. Stefanowitsch, "Co-varying collexemes in the into-causative," Michel Achard & Suzanne Kemmer (eds.), Language, Culture, and Mind, pp. 225-236, 2004.
10 H. Lee and S. Kang, "Spam message filtering by using Sen2Vec and feedforward neural network," 4th Annual Conference on Computational Science & Computational Intelligence(CSCI 2017), pp.123-123, 2017.
11 강승식, "스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법," 정보처리학회논문지, 제3권, 제7호, 271-276쪽, 2014년   DOI
12 K. Wang, C. Thrasher, E. Viegas, X. Li, and B. Hsu, "An overview of Microsoft web n-gram corpus and applications," Proceedings of NAACL HLT 2010: Demo. Session, pp. 45-48, 2010.
13 김흥규, 강범모, 홍정하, "21세기 세종계획 현대국어 기초말뭉치: 성과와 전망," 제19회 한글 및 한국어 정보처리 학술발표 논문집, 311-316쪽, 2007년
14 강승식, "21세기 세종계획 원시 말뭉치의 유니코드와 코드 변환," 제21회 한글 및 한국어 정보처리학술발표 논문집, 262-265쪽, 2009년
15 홍진표, 차정원, "품사 태거와 빈도 정보를 활용한 세종 형태 분석 말뭉치 오류 수정," 정보과학회논문지: 소프트웨어 및 응용, 제40권, 제7호, 417-428쪽, 2013년
16 T. Brants and A. Franz, "Web 1T 5-gram version 1," Linguistic Data Consortium, ISBN: 1-58563-397-6, Philadelphia, 2006.
17 http://nlp.kookmin.ac.kr/kcc/, KCC150, KCCq28, and KCC940: Korean Contemporary Corpus, 2018.
18 홍택은, 김정인, 신주현, "인스타그램 이미지와 텍스트 분석을 통한 사용자 감정 분류," 스마트미디어저널, 제5권, 제1호, 61-68쪽, 2016년 3월
19 김정인, 최준호, 김한일, 김판구, "나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법," 스마트미디어저널, 제5권, 제1호, 51-59쪽, 2020년 3월
20 임명진, 신주현, 김판구, "리뷰의 의미적 토픽 분류를 적용한 감성 분석 모델," 스마트미디어저널, 제5권, 제1호, 69-77쪽, 2020년 6월
21 강승식, "SMS 영역에 대한 형태소 분석 사전의 구축," 언어정보, 5-21쪽, 2008년
22 강승식, 장병탁, "음절 특성을 이용한 범용 한국어 형태소 분석기 및 맞춤법 검사기," 정보과학회 논문지(B), 제23권, 제5호, 530-539쪽, 1996년 5월
23 T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," Proceedings of NIPS, pp. 3111-3119, 2013.
24 박상민, 나철원, 최민성, 이다희, 온병원, "Bi-LST M 기반의 한국어 감성사전 구축 방안," 지능정보연구, 제24권, 제4호, 219-240쪽, 2018년   DOI
25 Y. Lu, M. Castellanos, U. Dayal, and C. Zhai, "Automatic construction of a context-aware sentiment lexicon: an optimization approach," Proceedings of WWW-11, pp. 347-356, 2011.