• Title/Summary/Keyword: 범주화

Search Result 923, Processing Time 0.034 seconds

Automatic Text Categorization by Term Weighting and Inverted Category Frequency (용어 가중치와 역범주 빈도에 의한 자동문서 범주화)

  • Lee, Kyung-Chan;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.14-17
    • /
    • 2003
  • 문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

  • PDF

Automatic Document Categorization by the Importance of Features (자질 중요도 계산 기법에 의한 자동문서 범주화)

  • 이경찬;강승식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.537-539
    • /
    • 2003
  • 문서 범주화를 위해 자질을 선별하는 기법으로는 자질의 출현 빈도에 따라 범주를 대표하는 자질들을 선별하는 것이 일반적이다. 출현 빈도에 의한 자질을 선별하는 통계적인 기법은 문서의 내용을 대표하는 용어들의 중요도를 간과하는 문제가 발생한다. 본 논문에서는 학습 문서 및 실험 문서에서 자질의 중요도에 의해 범주 대표어를 선별하는 문서 범주화 기법을 제안하였으며, 역범주 빈도 및 카이제곱 통계량에 의해 자질을 선별하는 방법과 비교-실험을 하였다. 문서 범주화 모델로는 나이브 베이지언 확률 모델을 이용하였으며, 성능 평가를 위해서 웹 디렉토리에서 수집된 데이터를 이용하여 실험하였다. 본 논문에서 제안한 자질 중요도에 의한 자질 선별 기법은 용어의 출현 빈도 및 카이제곱 통계량에 의해 자질을 선별한 방법보다 더 나은 성능을 보였다.

  • PDF

Improving performance of Binary Text Classification Using the EM algorithm (EM 알고리즘을 이용한 이진 분류 문서 범주화의 성능 향상)

  • 한형동;고영중;서정연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.790-792
    • /
    • 2004
  • 문서 범주화에서 이진분류를 다중 분류에 적용할 때, 일반적으로 One-Against-All 방법을 사용한다. 하지만, 이 One-Against-All 방법은 한가지 문제점을 가진다. 즉, positive 집합의 문서들은 사람이 직접 범주를 할당한 것이지만, negative 집합의 문서들은 사람이 직접 범주를 할당한 것이 아니기 때문에 오류 문서들이 포함될 수 있다는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해 Sliding Window기법과 EM 알고리즘을 이진 분류 기반의 문서 범주화에 적용할 것을 제안한다. 먼저 Sliding Window 기법을 이용하여 학습 데이터로부터 오류 문서들을 추출하고 이 문서들을 EM 알고리즘을 사용해서 다시 범주를 할당함으로써 이진 분류 기반의 문서 범주화 기법의 성능을 향상시킨다.

  • PDF

Visualizing Large Two-way Crosstabs by PLS Method (PLS 방법에 의한 "큰" 2원 교차표의 시각화)

  • Lee, Yong-Goo;Choi, Youn-Im
    • Communications for Statistical Applications and Methods
    • /
    • v.16 no.3
    • /
    • pp.421-428
    • /
    • 2009
  • On the visualization of categorical data, if the number of categories is small, we can consider Hayashi Quantification Method 3 for visualization of the categories of the variables. But it is known that the method is unstable because it quantifies more significantly for the small frequency categories rather than large frequency categories. The purpose of this research is to propose the visualization of large two-way crosstabulation data by PLS methods for checking the relationship between the categories of row and column variables. In this research, we utilize the PLS visualization methods (Huh et al., 2007) that is proposed for visualization of the qualitative data to visualize the categories of the large categorical data. We also compared both methods by applying them to real data, and studied the results from PLS visualization method on the real categorized data with many categories.

The Design?Marketing Strategy through emotion-oriented categorization(focused on Korean traditional sauce) (감성지향적 범주화를 통한 디자인?마케팅 전략(장류제품을 중심으로))

  • Lee, Yu-Ri;Yang, Jong-Yeol;Park, Sang-Jun
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 2007.05a
    • /
    • pp.64-66
    • /
    • 2007
  • 범주화(categorization)은 제품디자인에 있어서 매우 중요하다. 범주화의 유형에 따라 소비자의 감성이 다르고 감성의 차이에 따라 디자인 컨셉 및 디자인요소가 다르게 배합되어야 하기 때문이다. 특히 요즘처럼 제품라인이 확대되어 제품의 차별화가 모호한 경우에는 범주화과정이 필요하다. 즉 감성의 유사성정도를 바탕으로 정확한 범주를 정하고 컨셉화하여 소비자 지향적인 디자인을 제공해야 하는 것이다. 본 연구는 특정의 제품범주(장) 안에 유사한 하위 범주(고추장, 된장, 청국장, 쌈장, 간장)를 구성하고 있는 장류제품전체와 고추장, 된장, 청국장, 쌈장, 간장제품에 대한 소비자의 감성을 추출하고 그 유사성정도를 바탕으로 고추장, 된장, 청국장, 쌈장, 간장의 범주를 결정하여 디자인방향을 어떻게 결정해야 할지를 제시하는데 목적이 있다. 장류제품을 연구대상으로 한 것은 장류제품이 한국인의 식탁에서는 가장 기본적이고 중요한 제품 중의 하나이고 또 현대화시대의 라이프스타일과 환경의 변화로 시장이 확대되고 있기 때문이다. 실증연구는 전북지역과 서울지역의 소비자을 바탕으로 이루어졌다. 본 연구는 학문적 측면과 실무적 측면에서 제품디자인에 대한 다양한 통찰력을 제공할 것이다.

  • PDF

A Study on Information Resource Evaluation for Text Categorization (문서범주화 효율성 제고를 위한 정보원 평가에 관한 연구)

  • Chung, Eun-Kyung
    • Journal of the Korean Society for information Management
    • /
    • v.24 no.4
    • /
    • pp.305-321
    • /
    • 2007
  • The purpose of this study is to examine whether the information resources referenced by human indexers during indexing process are effective on Text Categorization. More specifically, information resources from bibliographic information as well as full text information were explored in the context of a typical scientific journal article data set. The experiment results pointed out that information resources such as citation, source title, and title were not significantly different with full text. Whereas keyword was found to be significantly different with full text. The findings of this study identify that information resources referenced by human indexers can be considered good candidates for text categorization for automatic subject term assignment.

Analysis on Spatio-Temporal Pattern and Regionalization of Extreme Rainfall Data (극치강수량의 시공간적 특성 분석 및 지역화에 관한 연구)

  • Lee, Jeong-Ju;Kwon, Hyun-Han
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.31 no.1B
    • /
    • pp.13-20
    • /
    • 2011
  • The spatio-temporal pattern in precipitation is a significant element in defining characteristics of precipitation. In this study, a new scheme on regionalization utilizing temporal information was introduced on the basis of existing approaches that is mainly based on simple moments of data and geographical information. Given the identified spatio-temporal pattern, this study was extended to characterize regional pattern of annual maximum rainfall over Korea. We have used circular statistics to characterize the temporal distribution on the precipitation, and the circular statistics allow us to effectively assess changes in timing of the extreme rainfall in detail. In this study, a modified K-means method was incorporated with derived temporal characteristics of extreme rainfall in order to better characterize hydrologic pattern for regional frequency analysis. The extreme rainfall was reasonably separated into five categories that considered most attributes in both quantitative and temporal changes in extremes. The results showed that the proposed approach is a promising approach for regionalization in term of physical understanding of extreme rainfall.

An Evaluation of Category Features in Text Categorization Using Nearest Neighbor Method (Nearest Neighbor 방법을 이용한 문서 범주화에서 범주 자질의 평가)

  • Kwon, Oh-Woog;Lee, Jong-Hyeok;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.7-14
    • /
    • 1997
  • 문서 범주화에서 문서의 내용에 따라 적합한 범주의 종류와 수를 찾는 문제를 해결하기 위해서는 문서 당 하나의 범주를 할당할 경우에 가장 좋은 성능을 보이는 모델이 효과적일 것이다. 그러므로, 본 논문에서는 문서 당 하나의 범주를 할당할 경우에 좋은 결과를 보이는 k-nearest neighbor 방법을 이용한다. 그리고 k-nearest neighbor 방법을 이용한 문서 범주화의 성능을 향상시키기 위해서, 문서 표현에 사용하는 단어들을 범주 자질의 성격을 갖는 단어들로 제한하는 방법을 제안한다. 제안한 방법은 Router 신문 일년치로 구성된 Router-21578 테스트 집합에서 breakeven point 82%라는 좋은 결과를 보였다.

  • PDF

The categorization process of convergence products: rule-based? or similarity-based? (융합제품의 범주화과정: 규칙기반? 외형적 유사성기반?)

  • Yoon, Chal-Hyuk;Peon, So-Yeon;Kim, Gwi-Gon
    • Journal of Digital Convergence
    • /
    • v.10 no.11
    • /
    • pp.279-285
    • /
    • 2012
  • This study classified the categorization process of convergence products as a rule-based and a similarity-based categorization process. And we examined that how the categorization process was determined according to information types(visual vs. visual + verbal) about the components of two prototypes before convergence and thinking styles(holistic vs. analytic). The result of this study showed: (1) The rule-based categorization process appeared more in case of visual information with verbal information than only visual information. (2) Analytic thinkers chose a rule-based categorization process more than holistic thinkers. These findings provide the theoretical and practical implications to comprehend the categorization process of convergence products and the judgement for consideration set from various convergence products.

Theoretical Categorization of the Meanings of Interaction in Interactive Media (인터랙티브 미디어에 적용되는 인터랙션 의미의 범주화)

  • Rhee, Hyun-jung
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2015.05a
    • /
    • pp.85-86
    • /
    • 2015
  • 문화콘텐츠 시장에서 주요 화두로서 등장하는 인터랙션이라는 용어는 단어자체 의미의 포괄성으로 인해 미디어 세부 분야마다 각기 다른 해석을 가진다. 이러한 양상은 산업 간 융합 및 다학문적 연구에 어려움을 야기한다. 보다 나은 인터랙티브 관련 기술 및 학문 발전의 토대를 위해, 본 연구에서는 콘텐츠 미디어를 중심으로 인터랙션의 개념에 대한 범주화를 시도하였다. 본 연구에서는 인터랙티브 미디어에서 해석하는 인터랙션 의미에 대한 다양한 관점을 바탕으로 일차적으로 총체적인 분류체계를 만들고, 인터랙션 관련 산학 전문가들과의 FGI를 실시하여 수정 및 보완의 과정을 거치며 분류체계에 따른 의미의 범주화를 완성하였다.

  • PDF