• 제목/요약/키워드: Bag-of-words

검색결과 90건 처리시간 0.028초

Automatic extraction of similar poetry for study of literary texts: An experiment on Hindi poetry

  • Prakash, Amit;Singh, Niraj Kumar;Saha, Sujan Kumar
    • ETRI Journal
    • /
    • 제44권3호
    • /
    • pp.413-425
    • /
    • 2022
  • The study of literary texts is one of the earliest disciplines practiced around the globe. Poetry is artistic writing in which words are carefully chosen and arranged for their meaning, sound, and rhythm. Poetry usually has a broad and profound sense that makes it difficult to be interpreted even by humans. The essence of poetry is Rasa, which signifies mood or emotion. In this paper, we propose a poetry classification-based approach to automatically extract similar poems from a repository. Specifically, we perform a novel Rasa-based classification of Hindi poetry. For the task, we primarily used lexical features in a bag-of-words model trained using the support vector machine classifier. In the model, we employed Hindi WordNet, Latent Semantic Indexing, and Word2Vec-based neural word embedding. To extract the rich feature vectors, we prepared a repository containing 37 717 poems collected from various sources. We evaluated the performance of the system on a manually constructed dataset containing 945 Hindi poems. Experimental results demonstrated that the proposed model attained satisfactory performance.

군집과 위키피디아를 이용한 문서군집 (Document Clustering using Clustering and Wikipedi)

  • 박선;이성호;박희만;김원주;김동진;산드라 아벨;이성로
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.392-393
    • /
    • 2012
  • 본 논문은 군집과 위키피디아(Wikipedia)를 이용하여 문서를 군집하는 새로운 방법을 제안한다. 제안된 방법은 비음수행렬분해를 이용하여 군집을 대표할 수 있는 군집 주제(topic)의 개념을 잘 표현할 수 있으며, 위키피디아의 동음이의어를 사용함으로써 문서와 군집 간의 의미관계를 고려하지 않는 용어집합(bag-of-words) 문제를 해결할 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

  • PDF

텍스트 마이닝을 위한 그래프 기반 텍스트 표현 모델의 연구 동향 (A Study on Research Trends of Graph-Based Text Representations for Text Mining)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.37-47
    • /
    • 2013
  • 텍스트 마이닝은 비정형화된 텍스트를 분석하여 그 안에 내재된 패턴, 추세, 분포 등의 고급정보들을 추출하는 분야이다. 텍스트 마이닝은 기본적으로 비정형 데이터를 가정하므로 텍스트를 단순화된 모델로 표현하는 것이 필요하다. 현재까지 가장 많이 사용되고 있는 모델은 텍스트를 단순한 단어들의 집합으로 표현한 벡터공간 모델이다. 그러나 최근 들어 단어들의 의미적 관계까지 표현하기 위해 그래프를 이용한 텍스트 표현 모델을 많이 사용하고 있다. 본 논문에서는 텍스트 마이닝을 위한 기존의 연구 중에서 그래프에 기반한 텍스트 표현 모델의 방법들과 그들의 특징들을 기술한다. 또한 그래프 기반 텍스트 마이닝의 향후 발전방향에 대해서도 논한다.

봉지종류가 적색과피 서양배 'Kalle'의 과피색 발현에 미치는 영향 (The Effect of Several Paper Bags on Fruit Skin Coloration of Red Skin European Pear 'Kalle')

  • 김윤경;강삼석;최장전;박경섭;원경호;이한찬;한태호
    • 원예과학기술지
    • /
    • 제32권1호
    • /
    • pp.10-17
    • /
    • 2014
  • 본 연구는 적색과피 서양배 'Kalle'(Pyrus communis L.) 품종 과피의 해부학적 관찰을 통해, 안토시아닌의 분포위치를 확인하고, 투광량이 다른 봉지를 이용하여 성숙기 과실의 과피색 변화를 구명함으로써 봉지 물성에 따른 착색발현 양상을 밝혀, 보다 안정적인 적색배 생산을 위한 기초자료를 확보하고자 수행하였다. 적색과피 배와 사과에서는 안토시아닌 층이 표피나 아표피에서 관찰되었으나 황갈색이나 선황색 배에서는 안토시아닌 층이 확인되지 않았다. 암적색으로 전면이 착색된 'Kalle'의 과피 내 안토시아닌 함량은 $29.8mg{\cdot}100g^{-1}FW$으로 밝은 적색을 보인 사과 '홍로'보다 많은 경향을 보였다. 사용 봉지의 물리적 특성 중 투광률은 백색봉지에서 42.2%로 사용한 봉지 중 가장 높았고, 봉지내로 투과되는 650-655nm 파장의 광량도 $8.9{\mu}mol$로 가장 많았다. 봉지 내부의 최고온도는 황색봉지에서 자연조건이나 다른 봉지에 비해 $3^{\circ}C$ 가량 높게 나타났다. 봉지를 씌운 과실의 과피색과 안토시아닌 함량을 조사한 결과, 봉지를 씌우지 않고 재배한 경우, 적색 발현이 가장 좋았고, 안토시아닌 함량도 가장 높았다. 봉지를 씌운 처리에서는 봉지를 씌우지 않은 처리에 비해 적색 발현이 유의하게 낮아졌는데 봉지 종류간에는 백색봉지가 가장 적색이 많았으며, 이중착색봉지와 황색봉지에서는 적색 발현이 매우 낮은 수준을 보였다. 특히, chromaticity value는 안토시아닌 함량이 높을수록 높은 값을 보여 안토시아닌 발현에 따른 과피색 변화를 비교적 잘 표현할 수 있는 것으로 판단되었다. 이상의 결과로는 'Kalle'의 안정적인 적색 발현을 위해서는 봉지를 씌우지 않는 것이 가장 이상적이나 한국에서는 해충방제를 위해 봉지재배를 하고 있으므로 적색과피 배 재배를 위해서는 과실의 피해는 줄이면서 적색이 균일하게 발현될 수 있도록 봉지제거 시기의 구명 또는 안토시아닌 합성에 유효한 특정 파장의 광 투과율이 높거나 온도가 과도하게 상승하지 않는 등 과피착색에 유리한 전용봉지의 개발을 위한 물리성 개선도 고려해볼 수 있을 것으로 생각된다.

Levenshtein 거리를 이용한 영화평 감성 분류 (Sentiment Classification of Movie Reviews using Levenshtein Distance)

  • 안광모;김윤석;김영훈;서영훈
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권4호
    • /
    • pp.581-587
    • /
    • 2013
  • 본 논문에서는 레빈쉬타인 거리(Levenshtein distance)를 이용한 감성 분류 방법을 제안한다. 감성 자질에 레빈쉬타인 거리를 적용하여 BOW(Back-Of-Word)를 생성하고 이를 학습 자질로 사용한다. 학습 모델은 지지벡터기계(support vector machines, SVMs)와 나이브 베이즈(Naive Bayes)를 이용하였다. 실험 데이터로는 다음 영화 사이트로부터 영화평을 수집하였으며, 수집한 영화평은 총 2,385건이다. 수집된 영화평으로부터 감성 어휘를 수작업을 통해 수집하였으며 총 778개 어휘가 선별되었다. 실험에서는 감성 어휘에 레빈쉬타인 거리를 적용한 BOW를 이용하여 기계학습을 수행하였으며, 10-fold-cross validation 방식으로 분류기의 성능을 평가하였다. 평가 결과는 레빈쉬타인 거리가 3일 때 다항 나이브 베이즈(Muitinomial Naive Bayes) 분류기에서 85.46%의 가장 높은 정확도를 보였다. 실험을 통하여 본 논문에서 제안하는 방법이 문서 내의 철자 오류에 대해서도 분류 성능에 영향을 적게 받음을 알 수 있었다.

Topic Classification for Suicidology

  • Read, Jonathon;Velldal, Erik;Ovrelid, Lilja
    • Journal of Computing Science and Engineering
    • /
    • 제6권2호
    • /
    • pp.143-150
    • /
    • 2012
  • Computational techniques for topic classification can support qualitative research by automatically applying labels in preparation for qualitative analyses. This paper presents an evaluation of supervised learning techniques applied to one such use case, namely, that of labeling emotions, instructions and information in suicide notes. We train a collection of one-versus-all binary support vector machine classifiers, using cost-sensitive learning to deal with class imbalance. The features investigated range from a simple bag-of-words and n-grams over stems, to information drawn from syntactic dependency analysis and WordNet synonym sets. The experimental results are complemented by an analysis of systematic errors in both the output of our system and the gold-standard annotations.

텍스트 스트리밍 데이터에서 텍스트 임베딩과 이상 패턴 탐지를 이용한 신규 주제 발생 탐지 (Emerging Topic Detection Using Text Embedding and Anomaly Pattern Detection in Text Streaming Data)

  • 최세목;박정희
    • 한국멀티미디어학회논문지
    • /
    • 제23권9호
    • /
    • pp.1181-1190
    • /
    • 2020
  • Detection of an anomaly pattern deviating normal data distribution in streaming data is an important technique in many application areas. In this paper, a method for detection of an newly emerging pattern in text streaming data which is an ordered sequence of texts is proposed based on text embedding and anomaly pattern detection. Using text embedding methods such as BOW(Bag Of Words), Word2Vec, and BERT, the detection performance of the proposed method is compared. Experimental results show that anomaly pattern detection using BERT embedding gave an average F1 value of 0.85 and the F1 value of 1 in three cases among five test cases.

Text Classification for Patents: Experiments with Unigrams, Bigrams and Different Weighting Methods

  • Im, ChanJong;Kim, DoWan;Mandl, Thomas
    • International Journal of Contents
    • /
    • 제13권2호
    • /
    • pp.66-74
    • /
    • 2017
  • Patent classification is becoming more critical as patent filings have been increasing over the years. Despite comprehensive studies in the area, there remain several issues in classifying patents on IPC hierarchical levels. Not only structural complexity but also shortage of patents in the lower level of the hierarchy causes the decline in classification performance. Therefore, we propose a new method of classification based on different criteria that are categories defined by the domain's experts mentioned in trend analysis reports, i.e. Patent Landscape Report (PLR). Several experiments were conducted with the purpose of identifying type of features and weighting methods that lead to the best classification performance using Support Vector Machine (SVM). Two types of features (noun and noun phrases) and five different weighting schemes (TF-idf, TF-rf, TF-icf, TF-icf-based, and TF-idcef-based) were experimented on.

Adaptive Bayesian Object Tracking with Histograms of Dense Local Image Descriptors

  • Kim, Minyoung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제16권2호
    • /
    • pp.104-110
    • /
    • 2016
  • Dense local image descriptors like SIFT are fruitful for capturing salient information about image, shown to be successful in various image-related tasks when formed in bag-of-words representation (i.e., histograms). In this paper we consider to utilize these dense local descriptors in the object tracking problem. A notable aspect of our tracker is that instead of adopting a point estimate for the target model, we account for uncertainty in data noise and model incompleteness by maintaining a distribution over plausible candidate models within the Bayesian framework. The target model is also updated adaptively by the principled Bayesian posterior inference, which admits a closed form within our Dirichlet prior modeling. With empirical evaluations on some video datasets, the proposed method is shown to yield more accurate tracking than baseline histogram-based trackers with the same types of features, often being superior to the appearance-based (visual) trackers.

Domain Adaptation Image Classification Based on Multi-sparse Representation

  • Zhang, Xu;Wang, Xiaofeng;Du, Yue;Qin, Xiaoyan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권5호
    • /
    • pp.2590-2606
    • /
    • 2017
  • Generally, research of classical image classification algorithms assume that training data and testing data are derived from the same domain with the same distribution. Unfortunately, in practical applications, this assumption is rarely met. Aiming at the problem, a domain adaption image classification approach based on multi-sparse representation is proposed in this paper. The existences of intermediate domains are hypothesized between the source and target domains. And each intermediate subspace is modeled through online dictionary learning with target data updating. On the one hand, the reconstruction error of the target data is guaranteed, on the other, the transition from the source domain to the target domain is as smooth as possible. An augmented feature representation produced by invariant sparse codes across the source, intermediate and target domain dictionaries is employed for across domain recognition. Experimental results verify the effectiveness of the proposed algorithm.