• 제목/요약/키워드: Hierarchical Classification

검색결과 395건 처리시간 0.026초

상향식 계층분류의 최적화 된 병합을 위한 후처리분석과 피드백 알고리즘 (Reinforcement Post-Processing and Feedback Algorithm for Optimal Combination in Bottom-Up Hierarchical Classification)

  • 최윤정;박승수
    • 정보처리학회논문지B
    • /
    • 제17B권2호
    • /
    • pp.139-148
    • /
    • 2010
  • 본 논문은 자동화된 분류시스템의 성능향상을 위한 것으로 오분류율이 높은 불확실성이 강한 문서들의 범주결정방식을 개선하기 위한 후처리분석 방법과 피드백 알고리즘을 제안한다. 전통적인 분류시스템에서 분류의 정확성을 결정하는 요인으로 학습방법과 분류모델, 그리고 데이터의 특성을 들 수 있다. 특성들이 일부 공유되어 있거나 다의적인 특성들이 풍부한 문서들의 분류문제는 정형화된 데이터들에서 보다 심화된 분석과정이 요구된다. 특히 단순히 최상위 항목으로 지정하는 기존의 결정방법이 분류의 정확도를 저하시키는 직접적인 요인이 되므로 학습방법의 개선과 함께 분류모델을 적용한 이후의 결과 값인 순위정보 리스트의 관계를 분석하는 작업이 필요하다. 본 연구에서는 경계범주의 자동탐색기법으로 확장된 학습체계를 제안한 이전 연구의 후속작업으로써, 최종 범주를 결정하기까지의 후처리분석 방법과 이전의 학습단계로 피드백하여 신뢰성을 높일 수 있는 알고리즘을 제안하고 있다. 실험결과에서는 제안된 범주결정방식을 적용한 후 1회의 피드백을 수행하였을 때의 결과들을 단계적이고 종합적으로 분석함으로써 본 연구의 타당성과 정확성을 보인다.

러프집합과 계층적 분류구조를 이용한 데이터마이닝에서 분류지식발견

  • 이철희;서선화
    • 한국지능시스템학회논문지
    • /
    • 제12권3호
    • /
    • pp.202-209
    • /
    • 2002
  • 본 논문은 제어 시스템에서 규칙기반과 데이터 마이닝에서의 분류규칙의 명료함에 대해 다룬다. 대용량의 데이터로부터 유용한 정보를 얻어내는 데이터 마이닝은 중요한 이슈가 되고 있다. 인공지능에 기반을 둔 데이터 마이닝 분류기법에는 신경망, 의사결정나무 등 여러가지가 있지만 그 결과는 명확하고 이해하기 쉽고 분류규칙이 간단명료해야 한다. 러프집합이론은 불충분하고 비일관적인 데이터로부터 의미있는 지식을 추출하는데 효과적인 기법이고, 다양한 속성들을 효과적으로 사용함으로써 분류와 근사화에 대한 좋은 해법을 제시한다. 본 논문에서는 러프집합이론의 근사화를 이용하여 알갱이 속에 숨겨져 있는 지식들을 찾아내는데 있어 효과적인 접근을 하였으며, 최상위 레벨에 코어를 적용하여 계층적 분류를 함으로써 대량의 데이터를 효율적으로 처리할 수 있도록 하였다. 제안된 분류방법은 정보시스템의 해석을 용이하게 하고 최소의 분류규칙을 만든다.

Improving Classification Accuracy in Hierarchical Trees via Greedy Node Expansion

  • Byungjin Lim;Jong Wook Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권6호
    • /
    • pp.113-120
    • /
    • 2024
  • 정보통신 기술이 발전함에 따라 우리는 일상에서 다양한 형태의 데이터를 손쉽게 생성하고 있다. 이처럼 방대한 데이터를 효율적으로 관리하려면, 체계적인 카테고리별 분류가 필수적이다. 효율적인 검색과 탐색을 위해서 데이터는 트리 형태의 계층적 구조인 범주 트리로 조직화되는데, 이는 뉴스 웹사이트나 위키피디아에서 자주 볼 수 있는 구조이다. 이에 따라 방대한 양의 문서를 범주 트리의 단말 노드로 분류하는 다양한 기법들이 제안되었다. 그러나 범주 트리를 대상으로 하는 문서 분류기법들은 범주 트리의 높이가 증가할수록 단말 노드의 수가 기하급수적으로 늘어나고 루트 노드부터 단말 노드까지의 길이가 길어져서 오분류 가능성이 증가하며, 결국 분류 정확도의 저하로 이어진다. 그러므로 본 연구에서는 사용자의 요구 분류 정확도를 만족시키면서 세분화된 분류를 구현할 수 있는 새로운 노드 확장 기반 분류 알고리즘을 제안한다. 제안 기법은 탐욕적 접근법을 활용하여 높은 분류정확도를 갖는 노드를 우선적으로 확장함으로써, 범주 트리의 분류 정확도를 극대화한다. 실데이터를 이용한 실험 결과는 제안 기법이 단순 방법보다 향상된 성능을 제공함을 입증한다.

Statistical bioinformatics for gene expression data

  • Lee, Jae-K.
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보학 국제심포지엄
    • /
    • pp.103-127
    • /
    • 2001
  • Gene expression studies require statistical experimental designs and validation before laboratory confirmation. Various clustering approaches, such as hierarchical, Kmeans, SOM are commonly used for unsupervised learning in gene expression data. Several classification methods, such as gene voting, SVM, or discriminant analysis are used for supervised lerning, where well-defined response classification is possible. Estimating gene-condition interaction effects require advanced, computationally-intensive statistical approaches.

  • PDF

계층적 문서 클러스터링을 이용한 실세계 질의 메일의 자동 분류 (Automatic Categorization of Real World FAQs Using Hierarchical Document Clustering)

  • 류중원;조성배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 춘계학술대회 학술발표 논문집
    • /
    • pp.187-190
    • /
    • 2001
  • Due to the recent proliferation of the internet, it is broadly granted that the necessity of the automatic document categorization has been on the rise. Since it is a heavy time-consuming work and takes too much manpower to process and classify manually, we need a system that categorizes them automatically as their contents. In this paper, we propose the automatic E-mail response system that is based on 2 hierarchical document clustering methods. One is to get the final result from the classifier trained seperatly within each class, after clustering the whole documents into 3 groups so that the first classifier categorize the input documents as the corresponding group. The other method is that the system classifies the most distinct classes first as their similarity, successively. Neural networks have been adopted as classifiers, we have used dendrograms to show the hierarchical aspect of similarities between classes. The comparison among the performances of hierarchical and non-hierarchical classifiers tells us clustering methods have provided the classification efficiency.

  • PDF

Word-Sense Classification by Hierarchical Clustering

  • Lau, KenY.K.;Luk RobertW.P.
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 1998년도 Language, Information and Computation = Selected Papers from the 12th Pacific Asia Conference on Language, Information and Computation, Singapore
    • /
    • pp.236-247
    • /
    • 1998
  • PDF

A HIERARCHICAL APPROACH TO HIGH-RESOLUTION HYPERSPECTRAL IMAGE CLASSIFICATION OF LITTLE MIAMI RIVER WATERSHED FOR ENVIRONMENTAL MODELING

  • Heo, Joon;Troyer, Michael;Lee, Jung-Bin;Kim, Woo-Sun
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 Proceedings of ISRS 2006 PORSEC Volume II
    • /
    • pp.647-650
    • /
    • 2006
  • Compact Airborne Spectrographic Imager (CASI) hyperspectral imagery was acquired over the Little Miami River Watershed (1756 square miles) in Ohio, U.S.A., which is one of the largest hyperspectral image acquisition. For the development of a 4m-resolution land cover dataset, a hierarchical approach was employed using two different classification algorithms: 'Image Object Segmentation' for level-1 and 'Spectral Angle Mapper' for level-2. This classification scheme was developed to overcome the spectral inseparability of urban and rural features and to deal with radiometric distortions due to cross-track illumination. The land cover class members were lentic, lotic, forest, corn, soybean, wheat, dry herbaceous, grass, urban barren, rural barren, urban/built, and unclassified. The final phase of processing was completed after an extensive Quality Assurance and Quality Control (QA/QC) phase. With respect to the eleven land cover class members, the overall accuracy with a total of 902 reference points was 83.9% at 4m resolution. The dataset is available for public research, and applications of this product will represent an improvement over more commonly utilized data of coarser spatial resolution such as National Land Cover Data (NLCD).

  • PDF

형태적 특징 정보를 이용한 C.Elegans의 개체 분류 (Classification of C.elegans Behavioral Phenotypes Using Shape Information)

  • 전미라;나원;홍승범;백중환
    • 한국통신학회논문지
    • /
    • 제28권7C호
    • /
    • pp.712-718
    • /
    • 2003
  • C.elegans 선충은 유전자 기능 연구에 주로 쓰이고 있으나, 변종들의 구분이 육안으로는 쉽지 않다. 이를 해결하기 위하여 컴퓨터 비젼을 이용하여 자동으로 분류할 수 있는 시스템이 연구 중이며, 이전 논문[1]에서 선충의 자동 분류 시스템에 사용될 영상의 전처리 과정에 대하여 서술한 바 있다. 본 논문에서는 전처리 된 영상 데이터를 이용하여 추출해 낼 수 있는 선충의 형태적 특징들을 제시한다. 선충의 크기와 관련한 특징과 자세에 관련한 특징으로 나누어, 각 특징의 추출 알고리즘을 수학적으로 표현하였다. 실험에서 제시된 형태적 특징 정보를 이용하여 직접 분류해 봄으로써 성능을 확인하였다. 분류 알고리즘은 Hierarchical Clustering을 사용하였다. 그 결과 실험에 이용된 선충의 4 종류 모두 90% 이상 옳게 분류되었다.

첨단생산기술(AMT)의 전략적 분류 : 조정-공급-활용의 계층구조를 중심으로 (A Strategic Classification of Advanced Manufacturing Technologies based on a Hierarchical Approach)

  • 박용태
    • 기술혁신연구
    • /
    • 제3권1호
    • /
    • pp.213-236
    • /
    • 1995
  • Advanced Manufacturing Technology(AMT), a comprehensive collection of new technologies for the efficiency and flexibility of manufacturing systems has received a growing attention recently, AMT consists of various industrial and technological components, homogeneous in some aspects while heterogeneous in others. Thus, it is difficult but necessary task to construct a classification framework in which the relationship among individual technologies are depicted in a meaningful fashion. In this, paper, we propose a hierarchical framework in which the objective and criteria of classification are decomposed into three level: industrialization, development and application of AMT. At the first and highest level, the main interest is to "industrialize" AMT. The major actors at this level are policy makers(public sector) and top management(private sector) and the primary classification criterion is the interrelationship between industry and technology. At the middle level exist system engineers whose main objective is to "develop" new technologies and/or systematize individual technologies. At the final and bottom level, shop floor managers need to "apply" AMT in order to enhance the efficiency and flexibility of manufacturing process. It should be stressed that, as a whole, the above three levels should be interactively linked to that each level contributes to the balanced development of AMT.

  • PDF

Real-time Classification of Internet Application Traffic using a Hierarchical Multi-class SVM

  • Yu, Jae-Hak;Lee, Han-Sung;Im, Young-Hee;Kim, Myung-Sup;Park, Dai-Hee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제4권5호
    • /
    • pp.859-876
    • /
    • 2010
  • In this paper, we propose a hierarchical application traffic classification system as an alternative means to overcome the limitations of the port number and payload based methodologies, which are traditionally considered traffic classification methods. The proposed system is a new classification model that hierarchically combines a binary classifier SVM and Support Vector Data Descriptions (SVDDs). The proposed system selects an optimal attribute subset from the bi-directional traffic flows generated by our traffic analysis system (KU-MON) that enables real-time collection and analysis of campus traffic. The system is composed of three layers: The first layer is a binary classifier SVM that performs rapid classification between P2P and non-P2P traffic. The second layer classifies P2P traffic into file-sharing, messenger and TV, based on three SVDDs. The third layer performs specialized classification of all individual application traffic types. Since the proposed system enables both coarse- and fine-grained classification, it can guarantee efficient resource management, such as a stable network environment, seamless bandwidth guarantee and appropriate QoS. Moreover, even when a new application emerges, it can be easily adapted for incremental updating and scaling. Only additional training for the new part of the application traffic is needed instead of retraining the entire system. The performance of the proposed system is validated via experiments which confirm that its recall and precision measures are satisfactory.