• Title/Summary/Keyword: BOW(Bag-of-words)

Search Result 17, Processing Time 0.023 seconds

Exploring an Optimal Feature Selection Method for Effective Opinion Mining Tasks

  • Eo, Kyun Sun;Lee, Kun Chang
    • Journal of the Korea Society of Computer and Information
    • /
    • v.24 no.2
    • /
    • pp.171-177
    • /
    • 2019
  • This paper aims to find the most effective feature selection method for the sake of opinion mining tasks. Basically, opinion mining tasks belong to sentiment analysis, which is to categorize opinions of the online texts into positive and negative from a text mining point of view. By using the five product groups dataset such as apparel, books, DVDs, electronics, and kitchen, TF-IDF and Bag-of-Words(BOW) fare calculated to form the product review feature sets. Next, we applied the feature selection methods to see which method reveals most robust results. The results show that the stacking classifier based on those features out of applying Information Gain feature selection method yields best result.

A Similarity-based Dialogue Modeling with Case Frame and Word Embedding (격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링)

  • Lee, Hokyung;Bae, Kyoungman;Ko, Youngjoong
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.220-225
    • /
    • 2016
  • 본 논문에서는 격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링을 제안한다. 기존의 유사도 기반 대화 모델링 방법은 형태소, 형태소 표지, 개체명, 토픽 자질, 핵심단어 등을 대화 말뭉치에서 추출하여 BOW(Bag Of Words) 자질로 사용하였기 때문에 입력된 사용자 발화에 포함된 단어들의 주어, 목적어와 같은 문장성분들의 위치적 역할을 반영할 수 가 없다. 또한, 의미적으로 유사하지만 다른 형태소를 가지는 문장 성분들의 경우 유사도 계산에 반영되지 않는 형태소 불일치 문제가 존재한다. 이러한 문제점을 해결하기 위해서, 위치적 정보를 반영하기 위한 문장성분 기반의 격틀과 형태소 불일치 문제를 해결하기 위한 워드 임베딩을 활용하여 개선된 유사도 기반 대화 모델링을 제안한다. 개선된 유사도 기반 대화 모델링은 MRR 성능 약 92%의 성능을 나타낸다.

  • PDF

A Similarity-based Dialogue Modeling with Case Frame and Word Embedding (격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링)

  • Lee, Hokyung;Bae, Kyoungman;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.220-225
    • /
    • 2016
  • 본 논문에서는 격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링을 제안한다. 기존의 유사도 기반 대화 모델링 방법은 형태소, 형태소 표지, 개체명, 토픽 자질, 핵심단어 등을 대화 말뭉치에서 추출하여 BOW(Bag Of Words) 자질로 사용하였기 때문에 입력된 사용자 발화에 포함된 단어들의 주어, 목적어와 같은 문장성분들의 위치적 역할을 반영할 수 가 없다. 또한, 의미적으로 유사하지만 다른 형태소를 가지는 문장 성분들의 경우 유사도 계산에 반영되지 않는 형태소 불일치 문제가 존재한다. 이러한 문제점을 해결하기 위해서, 위치적 정보를 반영하기 위한 문장성분 기반의 격틀과 형태소 불일치 문제를 해결하기 위한 워드임베딩을 활용하여 개선된 유사도 기반 대화 모델링을 제안한다. 개선된 유사도 기반 대화 모델링은 MRR 성능 약 92%의 성능을 나타낸다.

  • PDF

Exploring Feature Selection Methods for Effective Emotion Mining (효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구)

  • Eo, Kyun Sun;Lee, Kun Chang
    • Journal of Digital Convergence
    • /
    • v.17 no.3
    • /
    • pp.107-117
    • /
    • 2019
  • In the era of SNS, many people relies on it to express their emotions about various kinds of products and services. Therefore, for the companies eagerly seeking to investigate how their products and services are perceived in the market, emotion mining tasks using dataset from SNSs become important much more than ever. Basically, emotion mining is a branch of sentiment analysis which is based on BOW (bag-of-words) and TF-IDF. However, there are few studies on the emotion mining which adopt feature selection (FS) methods to look for optimal set of features ensuring better results. In this sense, this study aims to propose FS methods to conduct emotion mining tasks more effectively with better outcomes. This study uses Twitter and SemEval2007 dataset for the sake of emotion mining experiments. We applied three FS methods such as CFS (Correlation based FS), IG (Information Gain), and ReliefF. Emotion mining results were obtained from applying the selected features to nine classifiers. When applying DT (decision tree) to Tweet dataset, accuracy increases with CFS, IG, and ReliefF methods. When applying LR (logistic regression) to SemEval2007 dataset, accuracy increases with ReliefF method.

A Sentiment Analysis of Internet Movie Reviews Using String Kernels (문자열 커널을 이용한 인터넷 영화평의 감정 분석)

  • Kim, Sang-Do;Yoon, Hee-Geun;Park, Seong-Bae;Park, Se-Young;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.56-60
    • /
    • 2009
  • 오늘날 인터넷은 개인의 감정, 의견을 서로 공유할 수 있는 공간이 되고 있다. 하지만 인터넷에는 너무나 방대한 문서가 존재하기 때문에 다른 사용자들의 감정, 의견 정보를 개인의 의사 결정에 활용하기가 쉽지 않다. 최근 들어 감정이나 의견을 자동으로 추출하기 위한 연구가 활발하게 진행되고 있으며, 감정 분석에 관한 기존 연구들은 대부분 어구의 극성(polarity) 정보가 있는 감정 사전을 사용하고 있다. 하지만 인터넷에는 나날이 신조어가 새로 생기고 언어 파괴 현상이 자주 일어나기 때문에 사전에 기반한 방법은 한계가 있다. 본 논문은 감정 분석 문제를 긍정과 부정으로 구분하는 이진 분류 문제로 본다. 이진 분류 문제에서 탁월한 성능을 보이는 Support Vector Machines(SVM)을 사용하며, 문서들 간의 유사도 계산을 위해 문장의 부분 문자열을 비교하는 문자열 커널을 사용한다. 실험 결과, 실제 영화평에서 제안된 모델이 비교 대상으로 삼은 Bag of Words(BOW) 모델보다 안정적인 성능을 보였다.

  • PDF

Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity (군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법)

  • Park, Sun;Kim, Kyung-Jun;Lee, Jin-Seok;Lee, Seong-Ro
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.48 no.5
    • /
    • pp.30-38
    • /
    • 2011
  • This paper proposes a new enhancing document clustering method using a synonym of cluster topic and the similarity. The proposed method can well represent the inherent structure of document cluster set by means of selecting terms of cluster topic based on the semantic features by NMF. It can solve the problem of "bags of words" by using of expanding the terms of cluster topics which uses the synonyms of WordNet. Also, it can improve the quality of document clustering which uses the cosine similarity between the expanded cluster topic terms and document set to well cluster document with respect to the appropriation cluster. The experimental results demonstrate that the proposed method achieves better performance than other document clustering methods.

A Hybrid Proposed Framework for Object Detection and Classification

  • Aamir, Muhammad;Pu, Yi-Fei;Rahman, Ziaur;Abro, Waheed Ahmed;Naeem, Hamad;Ullah, Farhan;Badr, Aymen Mudheher
    • Journal of Information Processing Systems
    • /
    • v.14 no.5
    • /
    • pp.1176-1194
    • /
    • 2018
  • The object classification using the images' contents is a big challenge in computer vision. The superpixels' information can be used to detect and classify objects in an image based on locations. In this paper, we proposed a methodology to detect and classify the image's pixels' locations using enhanced bag of words (BOW). It calculates the initial positions of each segment of an image using superpixels and then ranks it according to the region score. Further, this information is used to extract local and global features using a hybrid approach of Scale Invariant Feature Transform (SIFT) and GIST, respectively. To enhance the classification accuracy, the feature fusion technique is applied to combine local and global features vectors through weight parameter. The support vector machine classifier is a supervised algorithm is used for classification in order to analyze the proposed methodology. The Pascal Visual Object Classes Challenge 2007 (VOC2007) dataset is used in the experiment to test the results. The proposed approach gave the results in high-quality class for independent objects' locations with a mean average best overlap (MABO) of 0.833 at 1,500 locations resulting in a better detection rate. The results are compared with previous approaches and it is proved that it gave the better classification results for the non-rigid classes.