DOI QR코드

DOI QR Code

Deep learning-based Multilingual Sentimental Analysis using English Review Data

영어 리뷰데이터를 이용한 딥러닝 기반 다국어 감성분석

  • Received : 2019.05.02
  • Accepted : 2019.06.07
  • Published : 2019.06.30

Abstract

Large global online shopping malls, such as Amazon, offer services in English or in the language of a country when their products are sold. Since many customers purchase products based on the product reviews, the shopping malls actively utilize the sentimental analysis technique in judging preference of each product using the large amount of review data that the customer has written. And the result of such analysis can be used for the marketing to look the potential shoppers. However, it is difficult to apply this English-based semantic analysis system to different languages used around the world. In this study, more than 500,000 data from Amazon fine food reviews was used for training a deep learning based system. First, sentiment analysis evaluation experiments were carried out with three models of English test data. Secondly, the same data was translated into seven languages (Korean, Japanese, Chinese, Vietnamese, French, German and English) and then the similar experiments were done. The result suggests that although the accuracy of the sentimental analysis was 2.77% lower than the average of the seven countries (91.59%) compared to the English (94.35%), it is believed that the results of the experiment can be used for practical applications.

영어로 된 아마존과 같은 대형 글로벌 온라인 쇼핑몰은 전 세계를 대상으로 영어 또는 판매 해당국가 언어로 서비스를 하고 있다. 온라인 쇼핑몰 이용자 중, 많은 고객은 상품 리뷰평가를 참조하여 상품을 구매하고 있다. 그래서 고객들이 작성한 대량의 리뷰데이터를 이용하여 구매 상품에 대해 긍정과 부정을 판정하는 감성분석을 영어를 중심으로 활발히 연구되고 분석 결과는 고객의 타켓 마케팅에 활용되고 있다. 하지만 이와 같은 영어 중심의 감성분석 시스템을 전 세계의 다양한 언어에 그대로 적용하기는 어렵다. 따라서 본 연구에서는 영어로 된 50만개 이상의 아마존 푸드 상품 리뷰데이터를 학습과 테스트 데이터로 분리하여 딥러닝 기술 기반의 감성분석 시스템을 구현하였다. 먼저 영어 테스트데이터의 3가지 모델에 대한 감성분석 평가 실험을 한 후에, 같은 데이터를 자동번역기로 7개국(한국어, 일본어, 중국어, 베트남어, 불어, 독어, 영어) 언어로 번역 후에 다시 영어로 번역하여 실험 결과를 얻었다. 감성분석 정확성은 영어(94.35%)에 비해 각 7개국 언어의 평균(91.59%)보다 정확도가 2.77% 정도 낮게 나왔으나 번역 성능 수준에서 실용 가능성을 확인하였다.

Keywords

Ⅰ. 서론

글로벌 온라인 쇼핑몰인 아마존, 이베이, 알리바바는 국가와 국가간 온라인을 통한 거래로 지속적 성장을 하고 있다[1]. 특히 이들 쇼핑몰은 세계 각국의 이용자를 위해서 판매 해당국가의 언어 지원과 웹 기반 자동번역기를 통해서 정보를 제공하고 있다. 그래서 요즘 글로벌 상품 구매자는 과거에 비해 언어장벽을 적게 느끼면서 상품 구매를 하고 자국 언어로 리뷰 작성을 통해서 의사 표시를 한다. 아마존과 이베이와 같은 영어로 된 쇼핑몰의 구매 리뷰를 비영어권 구매자도 자유롭게 번역을 통해 상품 정보를 공유하고 있다. 이러한 비영어권 언어 사용자들은 상품 구매 사이트뿐만 아니라 트위터, 블로그, 페이스북과 같은 소셜 미디어를 통해 자연스럽게 자국 언어로 의견을 공유하고 상품 구매시 실제 도움을 받는다[2]. 하지만 구매자들은 이러한 방대한 양의 리뷰를 일일이 읽고 분석하면 많은 시간과 불편함을 준다. 그래서 이러한 구매자들의 불편을 줄이고 고객들의 타켓 마케팅을 위하여 영어 리뷰데이터 기반의 감성분석에 대한 연구가 활발히 이루어지고 있다[3][4][5][6][7]. 하지만 그에 반해 비영어권 언어들은 상대적으로 감성분석에 대한 연구가 부족하다.

본 논문에서는 영어로 된 리뷰 상품 데이터를 기반으로 3개의 딥러닝 알고리즘 모델(Word Count, TFIDF(Term Frequency Inverse Document Frequency), TFIDF+ngram))의 구현과 감성분석 성능 평가 실험을 하였다. 그런 후 비영어권 7개국(한국어 일본어, 중국어, 베트남어, 불어, 독일어, 러시아어)언어에 대해서도 같은 실험을 통해 성능 비교 분석을 하였다. 실험데이터는 영어로 된 약 50만개인 아마존 상품 푸드 리뷰데이터(amazon fine food reviews)를 사용하고 이 중에 2,000개를 분리하여 영어와 7개국 언어를 테스트데이터로 생성하여 실험을 하였다. 영어와 생성한 7개국 언어를 자동번역기를 통해서 번역 후에 다시 영어로 번역한 하여 감성분석 성능 비교 평가 실험을 하였다.

Ⅱ. 관련 연구

본 장에서는 인터넷 상품 리뷰데이터의 감성분석 비교평가를 위해서 텍스트마이닝과 감성분석 딥러닝 기술에 대해서 살펴본다.

1. 텍스트마이닝과 감성분석

자연어처리 텍스트마이닝은 언어학, 통계학, 기계 학습 등을 기반으로 자연어처리 기술을 활용하여 정형화되지 않은 데이터를 정형화하고, 특징을 추출하고 추출된 특징으로부터 의미 있는 정보를 찾는 기술이다. 자연어처리 주요 기술로는 파싱, 형태소 분석, 품사 태깅, 관계추출, 의미 등을 추출하는 자연어처리가 있고 언어 감지, 규칙기반 개체명과 상용어를 인식하는 언어모델링 기술이 있다. 그 외에 반복훈련을 통하여 습득한 정보 사용능력을 개선하는 것은 기계학습 알고리즘 기술을 사용하고 각종 통계적 기법을 활용한 정보 분류 및 분석 기술의 기법으로 마이닝 기술을 사용한다. 텍스트마이닝의 주요 업은 정보검색, 정보추출, 텍스트 범주화, 텍스트 군집화, 텍스트 요약 등이 있다[8]. 그 중 텍스트 범주화는 단어, 구, 문장, 문단 등 구조화 되어있지 않은 다양한 형태의 텍스트 데이터에 대해 그 특성에 따라 범주를 구분하는 과정이다[9][10]. 그 중 감성분석은 “긍정”, “부정”으로 상반되는 분류와 여러 감성에 대한 분류까지 단어에 내포된 의미를 다양하게 범주화하는 작업을 의미한다[9]. 감성분석은 수행되는 기법에 따라서 어휘기반, 기계학습, 혼합방식 등으로 분류할 수 있다[11]. 그 중에 기계학습 기반의 지도 학습 기법은 나이브 베이지안 분류기(naive bayesian classifier), 서포트 벡터 머신(support vector machine), 의사결정나무(decision tree), 인공신경망(artificial neural networks) 등이 있다[12]. 감성분석 연구 사례로는 Lee et al[13] 연구에서는 화장품에 한 SNS 리뷰데이터에서 호감, 비호감, 유추어를 추출하여 각 회사별 제품에 대한 선호도와 신뢰도를 분석한다[14]. Kim et al[15] 연구에서는 상품 리뷰를 5개의 분류코드를 이용해 분류하고 구매자의 상품 리뷰를 분석하여 선호도 상품을 파악한다[13].

2. 자연어처리를 위한 딥러닝

딥러닝은 사물이나 데이터를 군집화하거나 분류하는데 사용하는 기술로 데이터를 어떻게 분류할 것인가에 대한 기계학습 알고리즘 중에 하나이다. 딥러닝 기술은 이미지 분류, 얼굴인식, 문장의미 분석 등에 활용되고 있고 있으며[16][17][18], 한편에서는 제한된 볼츠만 기계를 적층으로 쌓은 인공신경망을 통해 감성분석에 적용한 모델이 제안되기도 하였다[19][20]. 문장의미 분석에 많이 쓰이는 RNN(Recurrent Neural Network)은 인공지능의 한 종류로 시퀀스(Sequence) 모델로 입력과 출력을 시퀀스로 처리하는 순환적 구조 모델이다[21]. 이러한 구조는 시간에 따른 동적으로 변화는 특징을 모델링하도록 은닉층에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내면서, 다시 은닉층의 다음 계산의 입력으로 신경망 내부에 상태를 저장할 수 있게 해준다. 따라서 순환 인공 신경망은 필기체 인식이나 음성 인식과 같이 시변적 특징을 가지는 데이터를 처리할 수 있다. 하지만 RNN은 비교적 짧은 시퀀스에 대해서만 효과를 보이는 단점이 있다. 이와 같은 단점에 비해 LSTM은 긴 시퀀스의 입력값도 처리가 잘된다. LSTM(Long short-term memory)은 은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 기억을 지우고, 기억해야할 것들을 정한다[22]. 로지스틱 회귀(logistic regression)는 확률 모델로서 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 통계 기법이다. 로지스틱 회귀의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계에 대해 함수로 표현하여 향후 예측 모델에 사용한다. 로지스틱 회귀는 독립 변수 선형 결합의 선형 회귀 분석과 비슷한 부분도 있지만 로지스틱 회귀는 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 대해 특정 분류로 나뉘기 때문에 일종의 분류(classification) 기법으로도 볼 수 있다[23].

3. Word2vec

Word2vec란 하나의 문장에 속하는 키워드들의 연관성이 드러날 수 있도록 학습 문서 셋의 모든 단어들을 Neural Network기반의 벡터로 바꿔주는 알고리즘이다. Word2vec를 학습 방법에는 크게 중심에 있는 단어로 주변 단어를 예측하는 skip-gram과 주변에 있는 단어들을 이용하여 중심 단어를 예측하는 CBOW(Continuous Bag of Words) 방법이 있다[24]. Word Count는 벡터화되어 있는 단어와 문자를 카운트하는 것이다. TFIDF는 정보 검색과 텍스트마이닝에서 이용하는 가중치로, 여러문서로 이루어진 문서 군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다[25]. ngram은 skip-gram으로 입력한 문자열을 n개의 기준 단위로 절단하는 방법이다. 또한 하이브리드 모델을 이용하는 방법이 있다[26].

본 연구에서는 상품 리뷰데이터를 기반으로 Word Count, TFIDF, TFIDF+ngram 3가지 모델에 대해 로지스틱 회귀 모델을 사용하여 긍정과 부정을 판정하는 감성분석 시스템을 제안한다.

Ⅲ. 3장 상품 리뷰 분석 시스템

본 장에서는 상품 리뷰 분류 시스템 구조 설계와 구현 방법 및 실험데이터에 대해서 설명한다.

1. 시스템 구조 설계 및 구현

상품 리뷰 분석 시스템은 온라인 쇼핑몰에 있는 구매상품 리뷰데이터와 딥러닝 기술을 기반으로 고객의 리뷰에 대해 긍정과 부정을 판단하는 감성분석 시스템을 구현하였다. 본 시스템은 영어로 된 약 50만 건 이상의 아마존 푸드 상품 리뷰를 학습데이터와 테스트데이터로 분리하여 사용하였다. 구현 기술은 딥러닝 방법을 이용한 단어 임베딩 학습 모델인 Word2vec 알고리즘 기반 Word Count, TFIDF, TFIDF+ngram 3가지 모델로 구현하였다. 감성분류 로지스틱 회귀(logistic regression) 모델을 사용하여 영어와 7개국 언어에 대해 긍정 부정평가하였다. 감성분석 시스템의 구조는 그림 1과 같다.

OTNBBE_2019_v19n3_9_f0001.png 이미지

[그림 1] 감성분석 시스템 구조도

[Fig. 1] sentimental analysis system structure diagram

Word Count와 TFIDF는 벡터화 되어 있는 단어를 기준으로 카운트하였고, ngram도 입력한 단어를 n개의 기준 단위로 절단하여 최대 2-gram 까지를 사용하였다. 그리고 너무 빈번하여 유용하지 않은 단어와 의미 없는 단어를 제거하기 위한 방법으로 언어별 불용어(stopword) 목록을 사용하여 너무 자주 나타나는 단어를 제외하였다.

2. 실험데이터

실험에 사용한 데이타는 영어로 된 아마존 푸드 상품 리뷰데이터 568,455개중에서 566,455개는 학습데이터로 2,000개는 테스트데이터로 분리하였다. 분리한 2,000개의 테스트데이터는 랜덤(random)하게 선택하지 않고 분리 작업의 편리성을 위해 리뷰데이터 뒤 부분에서 선택하였다. 약 50만개의 리뷰 실험데이터는 구매 고객이 평가한 1부터 5까지의 점수로 구성되었는데 이중에서 중립점수인 3을 제외하고 1,2는 부정, 4,5는 긍정으로 분류하여 실험데이터를 생성하였다. 이 중에서 분리한 데이터 2,000개 영어 테스트데이터를 구글 자동번역기로 한국어로 변환 후에 다시 영어로 번역하여 한국어에 대한 영어데이터를 생성하였다. 이와 같은 방법으로 영어와 7개국 언어(한국어, 일본어, 중국어, 베트남어, 불어, 독어, 영어)변환을 거친 8개국의 영어 테스터데이터 언어를 생성하였다.

Ⅳ. 실험 및 분석

본 장에서는 구현한 감성 분류 평가 시스템과 자동번역기를 이용하여 생성한 실험데이터로 고객 리뷰 감성분석을 실험을 하였다. 먼저 실험환경 및 방법에 대해서 설명하였고 8개국 언어(영어를 포함한 7개국어) 테스터데이터 언어로 감성분석 정확도를 비교 분석하였다.

1. 실험환경 및 방법

본 연구의 감성분석을 위한 실험환경은 Intel Core i7 GPU 2.80GHz GPU, 6.0GB RAM과 NVIDIA GeForce GTS 250 비디오 카드를 사용하였다.

8개국 데스트데이터 언어를 3개(Word Count, TFIDF, TFIDF+ngram)의 모델로 벡터화하고 로지스틱 회귀(logistic regression)를 사용하여 긍정과 부정에 대해서 감성 성능 평가 실험을 하였다.

약 50만개의 리뷰 실험데이터에서 분리한 2,000개의 테스트데이터를 8개국 모든 언어에 동일한 테스트데이터를 사용하였다. 이유는 동일 조건에서 실험하여 결과를 비교 분석하기 위해서다. 실험은 먼저 2,000개 영어 테스트데이터를 통해서 영어 성능에 대한 실험을 하였다. 그 다음 동일한 영어 테스트데이터를 2차례 구글 자동번역기를 통해서 생성한 영어(영어->한국어와 한국어 ->영어)데이터를 Word Count, TFIDF, TFIDF+ngram 모델에 대해서 감성분석 실험을 하였다.

2 실험 결과 및 분석

아래 표1은 2,000개의 영어 테스트데이터와 2차례의 자동번역기를 통해서 생성한 7개국 테스트데이터를 사용하여 실험한 feature와 record의 수이다.

표 1. 3모델 실험데이터(feature / record)

Table 1. 3model experimental data (feature / record)

OTNBBE_2019_v19n3_9_t0001.png 이미지

feature의 수는 성능평가 실험에 사용된 실험데이터는 문장을 각 단어별로 분리하여 벡터화한 단어의 수이다. 두 모델(Word Count와 TFIDF)에서 features의 수는 같은 데이터 문장이기 때문에 같게 1149,69개가 추출되었고, TFIDF+gram의 features 수는 3,933,179개로 두 모델에 비해 30배 이상 증가하였다. 이유는 gram 설정함에 있어서 여러 실험을 통해서 가장 성능이 좋았던 입력한 문자열을 2개의 기준 단위로 절단하는 방법으로 설정하여 실험한 결과이기 때문이다. 학습데이터(train records)와 테스트데이터(test records)로 분리한 record 수는 표1에서와 같이 전부 동일하지만 feature 수는 변화가 있었다. 이유는 2,000개의 test records 데이터수가 언어별로 2번의 자동번역기를 통해서 번역되면서 단어 수의 변화로 feature 수가 약 50개 정도의 범위에서 증가 또는 감소의 변화가 있었다. 그리고 train records 수가 568,455개에서 523,814개로 줄어든 이유는 중립점수를 주었던 3점의 리뷰데이터를 모두 제외하였기 때문이다. TFIDF+gram 모델의 features 수도 모든 언어에서 두 모델과 비슷한 증가율이 있었다.

2,000개의 8개국어 테스트데이터를 이용하여 3가지 모델에 대해 긍정과 부정에 대한 감성분석 정확도 실험을 하였다. 약 50만개의 리뷰 실험데이터에서 분리한 2,000개의 8개국 테스트데이터는 동일한 데이터를 사용하여 실험을 하였다. 동일한 테스트데이터는 반복 실험을 하여도 항상 모든 언어에서 같은 값의 정확도가 나왔다. 실험 결과를 그림 2에서와 같이 4개의 그룹(영어, 7개국 평균, 한국어 일본어 평균, 불어, 독어, 러시아어 평균)으로 나눠 비교 분석을 하였다. 8개국의 언어를 영어와 영어를 제외한 7개국 언어의 평균으로 나누고, 영어 어순과 다른 한국어와 일본어를 평균으로 영어와 어순이 비슷한 영어권 구조의 언어인 불어 독어 러시아어 3개국 평균통계를 그림3에 도표화를 하였다. 그러나 중국어와 베트남 언어는 그룹 없이 실험 결과만 그림 3에 표시하였다.

OTNBBE_2019_v19n3_9_f0002.png 이미지

그림 2. 3가지 모델 감성분석 정확도

Fig. 2. 3models sentimental analysis accuracy

OTNBBE_2019_v19n3_9_f0003.png 이미지

그림 3. word count 감성분석 정확도

Fig. 3. word count sentimental analysis accuracy

영어의 감성분석은 3가지 모델에 대해 4가지의 언어 그룹에 대한 통계는 그림2와 같다. 영어의 정확도가 가장높은 순의 모델부터 살펴보면 TFIDF+ngram(94.35%), TFIDF(92.45%)와 Word Count(90.15%)의 정확도가, 7개국 언어의 평균은 TFIDF+ngram(90.21), TFIDF(89.69%)와 Word Count(88.92%)의 결과가 나왔다. 그리고 7개국 중에 영어 어순과 다른 그룹(한국어 일본어의 평균)TFIDF+ngram(88.60%), TFIDF(87.93%)와 Word Count(87.25%)과 어순이 같은 그룹(불어 독어 러시아의 평균)은 TFIDF+ngram(91.58%), TFIDF(91.17%)와 Word Count(90.20%)의 결과가 나왔다. 3가지 모델과 4그룹 모두에서 정확도는 TFIDF+ngram, TFIDF와 Word Count순으로 결과가 나왔다. 가장 성능이 좋은 TFIDF+ngram모델의 정확도는 영어와 어순이 같은 영어권 구조가 비영어권 구조인 한국어 일본어 평균보다 2,88% 정도 높게 나왔다.

8개국 테스트데이터를 3가지의 모델에 중에 word count을 이용한 실험 결과는 그림 3과 같다. 영어 알파벳을 사용하는 베트남어(90.2%)도 영어권 언어 구조와 비슷한 실험 결과가 나왔다. 일본어(86.05%)는 다른 언어에 비해 상대적으로 가장 낮은 결과가 나왔다.

8개국 테스트데이터를 3가지의 모델에 중에 TFIDF을 이용한 실험 결과는 그림 4과 같다.

OTNBBE_2019_v19n3_9_f0004.png 이미지

그림 4. TFIDF 감성분석 정확도

Fig. 4. TFIDF sentimental analysis accuracy

8개국 테스트데이터를 3가지의 모델에 중에 TFIDF+ngram을 이용한 실험 결과는 그림 5과 같다.

OTNBBE_2019_v19n3_9_f0005.png 이미지

그림 5. TFIDF+ngram 감성분석 정확도

Fig. 5. TFIDF sentimental analysis accuracy

8개국어 테스트데이터의 감성분석 정확도는 3가지 모델에서 영어권 구조에서 약간의 성능 순위의 변화가 있었지만 거의 비슷한 순위로 도출 되었다. 특히 영어권과 비영어권의 성능차이는 분명하게 있었다. 그리고 번역기를 거치지 않은 영어는 2차례의 번역기를 거친 7개국 언어 보다 높은 성능이 나왔고 일본어가 가장 낮은 실험 결과가 나왔다. 그리고 베트남 언어는 영어 구조권 언어와 비슷한 결과가 나왔다.

Ⅴ. 결론

본 연구에서는 8개국 언어 테스트데이터를 3가지 모델에서 실험한 결과는 TFIDF+ngram이 다른 두 모델에 비해 가장 높은 결과가 도출되었다. TFIDF+ ngram은 8개국 언어 중에 가장 높게 나온 영어와 7개국 언어의 평균 정확도와 차이는 약 2.77%로 결과가 나왔다. 영어 어순과 다른 한국어와 일본어의 평균은 영어와 5.75%정도 낮게 평가 되었다. 본 실험에서는 동일한 조건에서 비교평가를 위해 같은 영어 데이터를 2차례의 번역(영어->7개국언어, 7개국언어->영어)이 필요했지만 실제에서는 서비스 해당국가 사이트에 있는 리뷰데이터를 사용하므로 1차례 번역(7개국언어->영어)만으로도 가능하다. 그리고 본 실험에서 영어로 학습된 감성분석 평가 시스템은 데이터와 기술 부족의 7개국 외에 비영어권 국가의 언어도 감성분석 평가가 가능함을 확인하였다. 그리고 영어 어순과 같은 구조의 언어들이 다른 구조의 언어보다 더 좋은 성능의 결과가 있었다. 다른 구조의 언어의 성능을 높이려면 영어와 해당국가의 번역 성능이 절대적이다.

※ 감사의 글 : 본 연구는 한국산업기술평가관리원의 산업핵심기술개발사업(지식서비스)의 일환으로 수행하였음. [2016-지식서비스-일반-지정-13, 과제번호:10067784]

References

  1. https://blog.naver.com/richsik/221490572941
  2. Jongheum Yeon, Dongjoo Lee, Junho Shim, Sang-goo Lee, "Product Review Data and Sentiment Analytical Processing Modeling" Journal of Society for e-Business Studies, 16(4),125-137. 2011.
  3. Areum Lee, Jiseon Bang, Yoonhee Kim, "A Design of TV Advertisement Effectiveness Analysis System Using SNS Big-data," Journal of KIISE Transactions on Computing Practices, Vol. 21, No. 9, pp. 579- 586, Sept. 2015. https://doi.org/10.5626/KTCP.2015.21.9.579
  4. Seoyeon Hur, Yoonhee Kim, "A Design of Analysis System on TV Advertising Effect of Social Networking Using Hadoop," Journal of Korean Society for Internet Information, Vol. 14, No. 6, pp. 49-57, Dec. 2013.
  5. Gi young Kim, Haiin Lee, Suhwan Yook, Woojin Paik, "Customer Preference Identification System using Natural Language Processing-based Analysis and Automatic Classification of Product Reviews," Proc. of the Korea Society for Information Management 2009, pp. 65-70, 2009.
  6. Jung-Yeon Yang, Jaeseok Myung, Sang-goo Lee, "A product review summarization system using a scoring of features," Proc. of the Society for e- Business Studies, pp. 339-347. 2008.
  7. Jieun Choi, Hyejin Ryu, Dabeen Yu, Nara Kim, Yoonhee Kim, "System Design for Analysis and Evaluation of E-commerce Products Using Review Sentiment Word Analysis". KIISE Transactions on Computing Practices, 22(5),209- 217. 2016. https://doi.org/10.5626/KTCP.2016.22.5.209
  8. https://terms.naver.com/entry.nhn?docId=3386330&cid=58370&categoryId=58370
  9. MinJi Seo, JiHyun Yoon, JaeWon Kim, HuiBeom Kim, YuJin Ji, TaeWon Kang, "Value Judgement of Accommodation using Sentiment Analysis", Korean Institute of Information Technology, 280-282. 11. 2018.
  10. Dang, Shilpa, and Peerzada Hamid Ahmad. "Text Mining: Techniques and its Application.", International Journal of Engineering & Technology Innovations,, ISSN (Online), 2348-0866, 2014.
  11. Medhat, Walaa, Ahmed Hassan, and Hoda Korashy. "Sentiment analysis algorithms and applications: A survey.", Ain Shams Engineering Journal, 5.4, : 1093-1113. 2014. https://doi.org/10.1016/j.asej.2014.04.011
  12. Gye-Sung Lee, In-Kook Kim. "A Study on Simplification of Machine Learning Model.", The Journal of The Institute of Internet, Broadcasting and Communication, VOL. 16 NO. 4, August 2016
  13. Jieun Choi, Hyejin Ryu, Dabeen Yu, Nara Kim, Yoonhee Kim, "System Design for Analysis and Evaluation of E-commerce Products Using Review Sentiment Word Analysis", KIISE Transactions on Computing Practices 22(5)209-217, 2018. https://doi.org/10.5626/KTCP.2016.22.5.209
  14. Areum Lee, Jiseon Bang, Yoonhee Kim, "A Design of TV Advertisement Effectiveness Analysis System Using SNS Big-data," Journal of KIISE Transactions on Computing Practices, Vol. 21, No. 9, pp. 579- 586, Sept. 2015. https://doi.org/10.5626/KTCP.2015.21.9.579
  15. Gi young Kim, Haiin Lee, Suhwan Yook, Woojin Paik, "Customer Preference Identification System using Natural Language Processing-based Analysis and Automatic Classification of Product Reviews," Proc. of the Korea Society for Information Management, pp. 65-70, 2009.
  16. Il-Taeck Joo, Seung-Ho Choi, "Stock Prediction Model based on Bidirectional LSTM Recurrent Neural Network", jkiiect, 18-04, Vol.11 No.2, 2018. DOI : http://dx.doi.org/10.17661/jkiiect.2018.11.2.204
  17. Dong-Hee Yun, Young-Ung Kim "Design and Implementation of Mobile Communication System for Hearing- impaired Person", The Journal of The Institute of Internet, Broadcasting and Communication, VOL. 16 NO. 5, October 2016
  18. Deoras, Anoop, and Ruhi Sarikaya. "Deep belief network based semantic taggers for spoken language understanding.", INTERSPEECH, 2013.
  19. https://terms.naver.com/entry.nhn?docId=3578519&cid=59088&categoryId=59096
  20. Zhou, Shusen, Qingcai Chen, and Xiaolong Wang. "Active deep learning method for semi-supervised sentiment classification.", Neurocomputing 120, 536-546, 2013. https://doi.org/10.1016/j.neucom.2013.04.017
  21. https://terms.naver.com/entry.nhn?docId=3578519&cid=59088&categoryId=59096
  22. https://ko.wikipedia.org/wiki/%EC%88%9C%ED%99%98_%EC%8B%A0%EA%B2%BD%EB%A7%9D
  23. Cox, DR, "The regression analysis of binary sequences (with discussion)", J Roy Stat Soc B, 20: 215-242. 1958.
  24. Jang Hwan-seok, Jang Eun-young, Jeong Kwang-yong, "The method of analyzing sentiment keywords using Word2Vec", Journal of KIISE 661 - 663(3 pages), 12 2017.
  25. https://ko.wikipedia.org/wiki/Tf-idf
  26. Kwang-Kyu Seo, Beum-Jun Ahn, "TCustomer Segmentation of a Home Study Company using a Hybrid Decision Tree and Artificial Neural Network Model", Journal of the Korea Academia-Industrial cooperation Society, v.7, no.3, 518-523, 2006.