• 제목/요약/키워드: Text categorization

검색결과 146건 처리시간 0.027초

문헌범주화에서 학습문헌수 최적화에 관한 연구 (Optimization of Number of Training Documents in Text Categorization)

  • 심경
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.277-294
    • /
    • 2006
  • 본 연구는 실재 시스템 환경에서 문헌 분류를 위해 범주화 기법을 적용할 경우, 범주화 성능이 어느 정도이며, 적정한 문헌범주화 성능의 달성을 위하여 분류기 학습에 필요한 범주당 가장 이상적인 학습문헌집합의 규모는 무엇인가를 파악하기 위하여 kNN 분류기를 사용하여 실험하였다. 실험문헌집단으로15만 여건의 실제 서비스되는 데이터베이스에서 2,556건 이상의 문헌을 가진 8개 범주를 선정하였다. 이들을 대상으로 범주당 학습문헌수 20개(Tr-20)에서 2,000개(Tr-2000)까지 단계별로 증가시키며 8개 학습문헌집합 규모를 갖도록 하위문헌집단을 구성한 후, 학습문헌집합 규모에 따른 하위문헌집단 간 범주화 성능을 비교하였다. 8개 하위문헌집단의 거시평균 성능은 $F_1$ 값 30%로 선행연구에서 발견된 kNN 분류기의 일반적인 성능에 미치지 못하는 낮은 성능을 보였다. 실험을 수행한 8개 대상문헌집단 중 학습문헌수가 100개인 Tr-100 문헌집단이 $F_1$값 31%로 비용대 효과면에서 분류기 학습에 필요한 최적정의 실험문헌집합수로 판단되었다. 또한, 실험문헌집단에 부여된 주제범주 정확도를 수작업 재분류를 통하여 확인한 후, 이들의 범주별 범주화 성능과 관련성을 기반으로 위 결론의 신빙성을 높였다.

Making Anyatha (Upper Lander) and Auktha (Lower Lander): Crossing the Introduction of the Colonial Boundary System to British Burma (Myanmar)

  • Oo, Myo
    • 수완나부미
    • /
    • 제13권2호
    • /
    • pp.135-164
    • /
    • 2021
  • In Myanmar studies, despite research on the categorization of ethnic nationalities are fairly much, research on the categorization of Myanmar people (ethnic Myanmar) is rarely exposed. People settled down in Central Myanmar had been categorized by regionalism into two groups as Anyatha (Upper Lander) and Auktha (Lower lander). It can be determined that the regionalism of Myanmar people existed and still exists. Previous scholarship in the colonial history of Myanmar has primarily referred to the documents recorded by the colonial officers and historical texts composed by the British authorities and scholars. The Catalogue of the Hluttaw Records is one of the rarest documents recorded in the Myanmar language on the affairs in the borderline drawn by the British after the Second Anglo-Myanmar War (1852-1853). Scrutinizing the Catalogue of the Hluttaw Records, it has been found that the text sheds light on the division of Central Myanmar into two regions in colonial Burma, later known as Lower Myanmar and Myanmar kingdom. These areas were known as Upper Myanmar between 1853 and 1885, and the categorization of the Myanmar king's subject, known as Anyatha (Upper Lander) and British colony citizen later known as Auktha (Lower Lander). This article traces back the relation of introducing the colonial boundary system and the division of Central Myanmar into two regions that allowed the emergence of regionalism among Myanmar people.

한중 자동 문서분류를 위한 최적 자질어 비교 (Comparison Between Optimal Features of Korean and Chinese for Text Classification)

  • 임미영;강신재
    • 한국지능시스템학회논문지
    • /
    • 제25권4호
    • /
    • pp.386-391
    • /
    • 2015
  • 본 논문에서는 한국어와 중국어의 언어학적인 특징을 고려하여 문서 자동분류 시스템의 성능을 높일 수 있는 최적의 자질어 단위를 제안한다. 언어 종속적 단위인 형태소 자질어와 언어 독립적 단위인 n-gram 자질어 그리고 이들을 조합한 복합 자질어 집합을 대상으로 각 언어의 인터넷 신문기사를 SVM으로 분류하는 실험을 수행하였다. 실험 결과, 한국어 문서분류에서는 bi-gram이 F1-measure 87.07%로 가장 좋은 분류 성능을 보였고, 중국어 문서분류에서는 'uni-gram 명사 동사 형용사 사자성어'의 복합 자질어 집합이 F1-measure 82.79%로 가장 좋은 성능을 보였다.

SVM 분류기를 이용한 문서 범주화 연구 (An Experimental Study on Text Categorization using an SVM Classifier)

  • 정영미;임혜영
    • 정보관리학회지
    • /
    • 제17권4호
    • /
    • pp.229-248
    • /
    • 2000
  • 문서 범주화에 이용되는 학습알고리즘 중에서 이원 패턴인식 문제를 해결하기 위해 제안된 SVM은 다른 분류기 보다 우수한 성능을 보이고 있다. 본 연구에서는 Reuters-21578 (ModApte 분할판)을 대상으로 SVM 분류기를 이용하여 단어빈도, 역문헌빈도, 문헌길이 정규화 공식을 자질에 대한 가중치로 적용하여 성능을 평가하고, 선형 SVM과 비선형 SVM의 분류 성능을 비교하였다. 또한 이원 분류기를 승자독식 방법과 쌍단위 분류방법에 의해 다원 분류기로 확정하여 실험한 후 이원 분류기와의 성능을 비교 분석하였다.

  • PDF

하이브리드 다중모델 학습기법을 이용한 자동 문서 분류 (Automatic Text Categorization Using Hybrid Multiple Model Schemes)

  • 명순희;김인철
    • 정보관리학회지
    • /
    • 제19권4호
    • /
    • pp.35-51
    • /
    • 2002
  • 본 논문에서는 다중 모델 기계학습 기법을 이용하여 자동 문서 분류의 성능과 신뢰도를 향상시킬 수 있는 연구와 실험 결과를 기술하였다. 기존의 다중 모델 기계 학습법들이 훈련 데이터 또는 학습 알고리즘의 편향에 의한 오류를 극복하고자 한 것인데 비해 본 논문에서 제안한 메타 학습을 이용한 하이브리드 다중 모델 방식은 이 두 가지의 오류 원인을 동시에 해소하고자 하였다. 다양한 문서 집합에 대한 실험 결과. 본 논문에서 제안한 하이브리드 다중 모델 학습법이 전반적으로 기존의 일반 다중모델 학습법들에 비해 높은 성능을 보였으며, 다중 모델의 결합 방식으로서 메타 학습이 투표 방식에 비해 효율적인 것으로 나타났다.

A Text Content Classification Using LSTM For Objective Category Classification

  • Noh, Young-Dan;Cho, Kyu-Cheol
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권5호
    • /
    • pp.39-46
    • /
    • 2021
  • 인공지능은 현재 인공지능 번역기, 페이스 아이디와 같이 우리의 삶 다양한 곳에 적용되고 있으며 여러 가지 장점으로 많은 산업분야에서도 적용되고 있다. 본 연구는 매년 방대한 양의 콘텐츠들이 넘쳐나는 상황에서 인공지능을 적용한 카테고리 분류로 원하는 데이터를 추출함으로써 편의성을 제공한다. 본 연구에서는 텍스트 분류에서 두각을 나타내고 있는 LSTM(Long-Short Term Memory network)을 사용한 모델을 제안하며 자연어 처리에 적합한 구조를 가진 RNN(Recurrent Neural Network)과 BiLSTM(Bidirectional LSTM)을 사용한 모델과의 성능을 비교한다. 세 가지 모델의 성능비교는 뉴스 텍스트 데이터에 적용해 accuracy, precision, recall의 측정값을 사용해 비교하였고 그 결과 LSTM모델의 성능이 가장 우수한 것으로 나타났다. 따라서 본 연구에서는 LSTM을 사용한 텍스트 분류를 권장한다.

Machine Learning Based Automatic Categorization Model for Text Lines in Invoice Documents

  • Shin, Hyun-Kyung
    • 한국멀티미디어학회논문지
    • /
    • 제13권12호
    • /
    • pp.1786-1797
    • /
    • 2010
  • Automatic understanding of contents in document image is a very hard problem due to involvement with mathematically challenging problems originated mainly from the over-determined system induced by document segmentation process. In both academic and industrial areas, there have been incessant and various efforts to improve core parts of content retrieval technologies by the means of separating out segmentation related issues using semi-structured document, e.g., invoice,. In this paper we proposed classification models for text lines on invoice document in which text lines were clustered into the five categories in accordance with their contents: purchase order header, invoice header, summary header, surcharge header, purchase items. Our investigation was concentrated on the performance of machine learning based models in aspect of linear-discriminant-analysis (LDA) and non-LDA (logic based). In the group of LDA, na$\"{\i}$ve baysian, k-nearest neighbor, and SVM were used, in the group of non LDA, decision tree, random forest, and boost were used. We described the details of feature vector construction and the selection processes of the model and the parameter including training and validation. We also presented the experimental results of comparison on training/classification error levels for the models employed.

온라인 고객리뷰 분석을 통한 시장세분화에 텍스트마이닝 기술을 적용하기 위한 방법론 (Methodology for Applying Text Mining Techniques to Analyzing Online Customer Reviews for Market Segmentation)

  • 김근형;오성열
    • 한국콘텐츠학회논문지
    • /
    • 제9권8호
    • /
    • pp.272-284
    • /
    • 2009
  • 본 논문에서는 텍스트마이닝 기술을 이용하여 온라인 고객리뷰를 분석하기 위한 방법론을 제안하였다. 온라인 고객리뷰를 보다 효율적이고 효과적으로 분석할 수 있도록 시장세분화의 개념을 도입하였다. 즉, 제안한 방법론은 텍스트마이닝 분야에서 시장세분화의 개념에 부응하는 기술들이라 할 수 있는 범주화와 정보추출 기법의 사용을 포함한다. 특히, 통계적으로 보다 견고한 분석결과를 도출할 수 있도록 전통적 통계분석기법중의 하나인 교차분석방법을 제안하는 방법론에 포함하였다. 제안한 방법론의 타당성을 확인하기 위하여 양질의 온라인 고객리뷰가 있는 웹사이트를 선정하여 실제로 온라인 고객리뷰들을 분석하여 보았다.

Competitive intelligence in Korean Ramen Market using Text Mining and Sentiment Analysis

  • Kim, Yoosin;Jeong, Seung Ryul
    • 인터넷정보학회논문지
    • /
    • 제19권1호
    • /
    • pp.155-166
    • /
    • 2018
  • These days, online media, such as blogospheres, online communities, and social networking sites, provides the uncountable user-generated content (UGC) to discover market intelligence and business insight with. The business has been interested in consumers, and constantly requires the approach to identify consumers' opinions and competitive advantage in the competing market. Analyzing consumers' opinion about oneself and rivals can help decision makers to gain in-depth and fine-grained understanding on the human and social behavioral dynamics underlying the competition. In order to accomplish the comparison study for rival products and companies, we attempted to do competitive analysis using text mining with online UGC for two popular and competing ramens, a market leader and a market follower, in the Korean instant noodle market. Furthermore, to overcome the lack of the Korean sentiment lexicon, we developed the domain specific sentiment dictionary of Korean texts. We gathered 19,386 pieces of blogs and forum messages, developed the Korean sentiment dictionary, and defined the taxonomy for categorization. In the context of our study, we employed sentiment analysis to present consumers' opinion and statistical analysis to demonstrate the differences between the competitors. Our results show that the sentiment portrayed by the text mining clearly differentiate the two rival noodles and convincingly confirm that one is a market leader and the other is a follower. In this regard, we expect this comparison can help business decision makers to understand rich in-depth competitive intelligence hidden in the social media.

A Novel Feature Selection Method in the Categorization of Imbalanced Textual Data

  • Pouramini, Jafar;Minaei-Bidgoli, Behrouze;Esmaeili, Mahdi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.3725-3748
    • /
    • 2018
  • Text data distribution is often imbalanced. Imbalanced data is one of the challenges in text classification, as it leads to the loss of performance of classifiers. Many studies have been conducted so far in this regard. The proposed solutions are divided into several general categories, include sampling-based and algorithm-based methods. In recent studies, feature selection has also been considered as one of the solutions for the imbalance problem. In this paper, a novel one-sided feature selection known as probabilistic feature selection (PFS) was presented for imbalanced text classification. The PFS is a probabilistic method that is calculated using feature distribution. Compared to the similar methods, the PFS has more parameters. In order to evaluate the performance of the proposed method, the feature selection methods including Gini, MI, FAST and DFS were implemented. To assess the proposed method, the decision tree classifications such as C4.5 and Naive Bayes were used. The results of tests on Reuters-21875 and WebKB figures per F-measure suggested that the proposed feature selection has significantly improved the performance of the classifiers.