• Title/Summary/Keyword: 카테고리 분류

Search Result 346, Processing Time 0.031 seconds

A Study of Classification System for Online Bookstore in Korea: Categories and Book Classification (한국 인터넷서점 분류체계 연구 - 카테고리와 도서 분류를 중심으로 -)

  • Kwak, Chul-Wan
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.47 no.1
    • /
    • pp.221-247
    • /
    • 2013
  • The purpose of the study is to investigate and analyze the categories of online bookstores and to propose improvements. For the study, the category conformity was compared among eight Korean online bookstores selected; the book classification on the categories was compared from them. The results show that the category conformity was high among online bookstores, but the book classification on the categories was different on the bookstores. ISBN contents classification codes for books might not help to classify the books on the categories. Thus, the study proposes a new publication category for the book classification on categories of online bookstores.

Land Cover Classification of Image Data Using Artificial Neural Networks (인공신경망 모형을 이용한 영상자료의 토지피복분류)

  • Kang, Moon-Seong;Park, Seung-Woo;Kwang, Sik-Yoon
    • Journal of Korean Society of Rural Planning
    • /
    • v.12 no.1 s.30
    • /
    • pp.75-83
    • /
    • 2006
  • 본 연구에서는 최대우도법과 인공신경망 모형에 의해 카테고리 분류를 수행하고 각각의 분류 성능을 비교 평가하였다. 인공신경망 모형은 오류역전파 알고리즘을 이용한 것으로서 학습을 통한 은닉층의 최적노드수를 결정하여 카테고리 분류를 수행하도록 하였다. 인공신경망 최적 모형은 입력층의 노드수가 7개, 은닉층의 최적노드수가 18개, 그리고 출력층의 노드수가 5개인 것으로 구성하였다. 위성영상은 1996년에 촬영된 Landsat TM-5 영상을 사용하였고, 최대우도법과 인공신경망 모형에 의한 카테고리 분류를 위하여 각각의 카테고리에 대한 분광특성을 대표하는 지역을 절취하였다. 분류 정확도는 인공신경망 모형에 의한 방법이 90%, 최대우도법이 83%로서, 인공신경망 모형의 분류 성능이 뛰어난 것으로 나타났다. 카테고리 분류 항목인 토지 피복 상태에 따른 분류는 두 가지 방법에서 밭과 주거지의 분류오차가 큰 것으로 나타났다. 특히, 최대우도법에 의한 밭에서의 태만오차는 62.6%로서 매우 큰 값을 보였다. 이는 밭이나 주거지의 특성이 위성영상 촬영시기에 따라 나지의 형태로 분류되거나 산림, 또는 논으로도 분류되는 경향이 있기 때문인 것으로 보인다. 차후에 카테고리 분류를 위한 각각의 클래스의 보조적인 정보를 추가한다면, 카테고리 분류 향상이 이루어질 것으로 기대된다.

Reconstruction of Categories on the National Petition Site Using K-Means clustering and Topic Modeling (K-means 클러스터링과 토픽 모델링을 기반으로 한 국민청원 사이트의 카테고리 재구성)

  • Woo, Yun Hui;Kim, Hyon Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.302-305
    • /
    • 2019
  • 국민 청원 사이트가 뛰어난 접근성과 신속성으로 인하여 국민들로부터 많은 관심을 받고 있다. 현재 국민청원 사이트의 카테고리 분류는 '미래', '성장동력' 등을 포함한 16개의 카테고리 및 기타로 구성되어 있으나 그 기준이 모호하여 많은 청원글들이 기타 카테고리로 분류되고 있는 상황이다. 이는 청원글의 내용을 명확히 반영하지 않고 미리 정의된 카테고리 구조를 사용하고 있는데서 기인한다고 할 수 있다. 본 논문에서는 보다 구체적으로 정의된 카테고리를 정의하고자 추천 순으로 1,500개의 청원글을 수집하였고, 수집된 청원글의 내용을 바탕으로 카테고리 구조를 추출하였다. 먼저, k-평균 알고리즘을 적용하여 청원글을 군집하여 대분류를 정의하였고, 보다 구체적인 세부 분류를 정의하기 위하여 토픽모델링을 실시하였다. 본 논문에서 제시하는 계층적 카테고리 구조는 청원글의 내용을 바탕으로 대분류와 세부분류로 구성된 것이므로 새로운 청원글을 등록하거나 분류하는 데 적절한 것으로 보인다.

The mall offers user-centric categorys Using Card sorting methods (Card sorting기법을 이용한 사용자 중심의 쇼핑몰 카테고리 제안)

  • Yun, Jung-Min;Han, Mi-Ran;Park, Peom
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2009.11a
    • /
    • pp.291-295
    • /
    • 2009
  • 최근 인터넷 쇼핑몰이 활성화 되면서 각 쇼핑몰의 카테고리 분류 체계에 대한 사용자의 접근 편이성이 중요한 요소로 부각되었다. 따라서, 카테고리 분류체계에 대한 사용성 평가를 통하여 각 카테고리의 타당성 검증 및 개선에 대한 필요성이 대두되고 있다. 본 논문에서는 D 쇼핑몰의 각 카테고리 항목을 대상으로 카드 소팅 기법을 실시하여 새로운 카테고리 분류체계를 제안하였다. 뿐만 아니라 기존의 카테고리와 새로 제안된 카테고리의 사용성 평가를 실시하여 비교 및 검증을 실시하였다. 본 연구는 기존 온라인 쇼핑몰의 카테고리의 분류 체계를 재정립하며, 사용자 중심의 인포메이션 아키텍처를 설계하는데 활용 가능할 것이다.

  • PDF

A Text Classification System for Hierarchical Categories (계층구조 카테고리를 가지는 텍스트 분류 시스템)

  • 박지호;김진상
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.128-130
    • /
    • 2000
  • 인터넷의 발전으로 온라인 문서들의 양이 급증하여 문서의 자동 분류 기술의 중요성이 증대되고 있다. 문서를 미리 정의된 카테고리로 분류할 때 카테고리는 평면구조보다 계층구조를 갖도록 하는 것이 사용자의 측면에서 볼 때 훨씬 더 자연스럽다. 본 논문에서는 계층구조 카테고리를 가지는 문서를 분류하는 방법을 연구하고 실제 20개의 유스넷 뉴스그룹 문서들을 분류하도록 시험하였다. 여기서 사용한 알고리즘은 하이퍼링크 정보를 이용하여 웹 문서분류를 목적으로 개발된 IBM의 TAPER(taxonomy and path enhanced retrieval system) 알고리즘을 변형한 것이다.

  • PDF

Implementation of Topic Classifier for University News-based BI Analysis (대학 BI 분석을 위한 주제분류기의 구현)

  • Jang, Seo-Yoon;Jang, Hyeon-Yeong;Cha, Chae-Won
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.23-25
    • /
    • 2021
  • 본 논문에서는 대학별 홍보 전략, 발전에 기여하기 위한 서비스를 제안한다. 이 서비스는 데이터 수집에는 크롤링을 사용하고 사이킷 런을 사용하여 정확도를 최대화하고, 각 분류된 카테고리의 오류을 최소화한다. 이 서비스는 각 카테고리별로 특성이 높은 키워드를 사용하여 카테고리 별 학습 데이터셋을 생성한 후 이러한 학습 데이터셋을 바탕으로 각 기사들을 최적의 카테고리로 분류해주는 분류기를 구현한다. 이러한 분류기를 사용하여 분류된 기사들을 분석하여 막대 그래프 등의 시각화된 자료들로 볼 수 있도록 하여 기존의 대학 홍보 자료에 비해 누구든 쉽고 간단하게 접근이 가능하도록 한다.

  • PDF

A Methodology for Automatic Multi-Categorization of Single-Categorized Documents (단일 카테고리 문서의 다중 카테고리 자동확장 방법론)

  • Hong, Jin-Sung;Kim, Namgyu;Lee, Sangwon
    • Journal of Intelligence and Information Systems
    • /
    • v.20 no.3
    • /
    • pp.77-92
    • /
    • 2014
  • Recently, numerous documents including unstructured data and text have been created due to the rapid increase in the usage of social media and the Internet. Each document is usually provided with a specific category for the convenience of the users. In the past, the categorization was performed manually. However, in the case of manual categorization, not only can the accuracy of the categorization be not guaranteed but the categorization also requires a large amount of time and huge costs. Many studies have been conducted towards the automatic creation of categories to solve the limitations of manual categorization. Unfortunately, most of these methods cannot be applied to categorizing complex documents with multiple topics because the methods work by assuming that one document can be categorized into one category only. In order to overcome this limitation, some studies have attempted to categorize each document into multiple categories. However, they are also limited in that their learning process involves training using a multi-categorized document set. These methods therefore cannot be applied to multi-categorization of most documents unless multi-categorized training sets are provided. To overcome the limitation of the requirement of a multi-categorized training set by traditional multi-categorization algorithms, we propose a new methodology that can extend a category of a single-categorized document to multiple categorizes by analyzing relationships among categories, topics, and documents. First, we attempt to find the relationship between documents and topics by using the result of topic analysis for single-categorized documents. Second, we construct a correspondence table between topics and categories by investigating the relationship between them. Finally, we calculate the matching scores for each document to multiple categories. The results imply that a document can be classified into a certain category if and only if the matching score is higher than the predefined threshold. For example, we can classify a certain document into three categories that have larger matching scores than the predefined threshold. The main contribution of our study is that our methodology can improve the applicability of traditional multi-category classifiers by generating multi-categorized documents from single-categorized documents. Additionally, we propose a module for verifying the accuracy of the proposed methodology. For performance evaluation, we performed intensive experiments with news articles. News articles are clearly categorized based on the theme, whereas the use of vulgar language and slang is smaller than other usual text document. We collected news articles from July 2012 to June 2013. The articles exhibit large variations in terms of the number of types of categories. This is because readers have different levels of interest in each category. Additionally, the result is also attributed to the differences in the frequency of the events in each category. In order to minimize the distortion of the result from the number of articles in different categories, we extracted 3,000 articles equally from each of the eight categories. Therefore, the total number of articles used in our experiments was 24,000. The eight categories were "IT Science," "Economy," "Society," "Life and Culture," "World," "Sports," "Entertainment," and "Politics." By using the news articles that we collected, we calculated the document/category correspondence scores by utilizing topic/category and document/topics correspondence scores. The document/category correspondence score can be said to indicate the degree of correspondence of each document to a certain category. As a result, we could present two additional categories for each of the 23,089 documents. Precision, recall, and F-score were revealed to be 0.605, 0.629, and 0.617 respectively when only the top 1 predicted category was evaluated, whereas they were revealed to be 0.838, 0.290, and 0.431 when the top 1 - 3 predicted categories were considered. It was very interesting to find a large variation between the scores of the eight categories on precision, recall, and F-score.

ISA Relation Extraction from Wikipedia Category Structure (위키피디아 카테고리 구조를 이용한 상하위 관계 추출)

  • Choi, DongHyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.1-5
    • /
    • 2009
  • 상하위 관계 자동 추출은 분류체계를 자동 구축하는 데 있어서 핵심적인 내용이며, 이렇게 자동으로 구축된 분류 체계는 정보 추출과 같은 여러 가지 분야에 있어서 중요하게 사용된다. 본 논문에서는 위키피디아 카테고리 구조로부터 상하위 관계를 추출하는 방식에 대하여 제안한다. 본 논문에서는 판별하고자하는 위키피디아 카테고리 구조뿐만이 아닌, 그와 관련된 다른 위키피디아 카테고리 구조까지 고려하여 카테고리 이름에 나타난 토큰들간의 수식 그래프를 구축한 후, 그래프 분석 알고리즘을 통하여 각 카테고리 구조가 상하위 관계일 가능성에 대한 점수를 매긴다. 실험 결과, 본 알고리즘은 기존의 연구로 상하위 관계임을 판별할 수 없었던 일부 카테고리 구조에 대하여 성공적으로 상하위 관계인지를 판별하였다.

  • PDF

Study on Application of IUCN Management Category System on Baekdudaegan Protected Area (백두대간보호지역의 IUCN 관리 카테고리 적용 연구)

  • Kim, Seongil;Kang, Mihee
    • Journal of Korean Society of Forest Science
    • /
    • v.100 no.3
    • /
    • pp.494-503
    • /
    • 2011
  • This study was aimed at applying the IUCN category system to the Baekdudaegan Protected Area. A classification key was developed to apply the system to the overlapped designated protected areas inside of Baekdudaegan Protected Area. Korea national parks and forests managers' and experts' opinions were collected and they all agreed to the use of multiple classification in Baekdudaegan Protected Area. For example, the type of natural forests among the Forest Genetic Resources Reserves was classified to be IUCN Category Ia while other types of Forest Genetic Resources Reserve was classified to be Category IV. And the Protected Forest Landscape was classified to be Category V while the other types of protected forests were classified to be Category VI. The study suggests the need of classification of forest protected areas including Baekdudaegan Protected Area using IUCN system accompanying with protected areas management effectiveness evaluation.

Selecting Initial Training Set for Active Learning by Clustering (군집화 기법을 이용한 능동적 학습의 최초학습예제 선정)

  • 강재호;류광렬
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.16-18
    • /
    • 2003
  • 기계학습의 분류(classification) 기술을 실제 문제에 적용하기 위해서는 카테고리(category)를 부여한 학습예제를 상당수 준비하여야 한다. 예제에 카테고리를 부여(labeling)하는 작업에는 무시할 수 없는 시간과 인력을 필요로 한다. 능동적 학습(active learning)은 동일한 수의 학습예제로 최대한의 성능을 달성하기 위하여 카테고리를 부여할 학습예제를 선별하는 전략이다. 능동적 학습은 현재까지 파악된 정보에 기반하여 분류기(classifier)를 생성하고, 생성된 분류기를 활용하여 카테고리를 부여받았을 때 가장 이득이 큰 예제들을 선정하여 사용자에게 문의하는 과정을 반복하여 수행한다. 만일 능동적 학습의 첫 학습단계에서 학습에 보다 유용한 예제들을 최초학습예제집합으로 선정한다면 같은 수의 학습예제로 더 나은 성능을 달성할 수 있을 것이다. 본 논문에서는 유사한 예제들은 동일한 카테고리에 속할 가능성이 높다는 일반적인 가정에 기반하여 예제들을 군집화(clustering)한 후, 생성된 각 군집을 대표할 수 있는 예제로 최초학습예제집합으로 구성하는 방안을 제안한다. 제안한 방안을 문서분류 문제를 대상으로 실험해 본 결과 최초학습예제들을 임의로 선정하는 방식보다 정확도가 높은 분류기를 생성할 수 있음을 확인하였다.

  • PDF