• Title/Summary/Keyword: 분류하기

Search Result 34,510, Processing Time 0.059 seconds

Automatic Email Multi-category Classification Using Dynamic Category Hierarchy and Non-negative Matrix Factorization (비음수 행렬 분해와 동적 분류 체계를 사용한 자동 이메일 다원 분류)

  • Park, Sun;An, Dong-Un
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.5
    • /
    • pp.378-385
    • /
    • 2010
  • The explosive increase in the use of email has made to need email classification efficiently and accurately. Current work on the email classification method have mainly been focused on a binary classification that filters out spam-mails. This methods are based on Support Vector Machines, Bayesian classifiers, rule-based classifiers. Such supervised methods, in the sense that the user is required to manually describe the rules and keyword list that is used to recognize the relevant email. Other unsupervised method using clustering techniques for the multi-category classification is created a category labels from a set of incoming messages. In this paper, we propose a new automatic email multi-category classification method using NMF for automatic category label construction method and dynamic category hierarchy method for the reorganization of email messages in the category labels. The proposed method in this paper, a large number of emails are managed efficiently by classifying multi-category email automatically, email messages in their category are reorganized for enhancing accuracy whenever users want to classify all their email messages.

A Meta-learning Approach for Building Multi-classifier Systems in a GA-based Inductive Learning Environment (유전 알고리즘 기반 귀납적 학습 환경에서 다중 분류기 시스템의 구축을 위한 메타 학습법)

  • Kim, Yeong-Joon;Hong, Chul-Eui
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.19 no.1
    • /
    • pp.35-40
    • /
    • 2015
  • The paper proposes a meta-learning approach for building multi-classifier systems in a GA-based inductive learning environment. In our meta-learning approach, a classifier consists of a general classifier and a meta-classifier. We obtain a meta-classifier from classification results of its general classifier by applying a learning algorithm to them. The role of the meta-classifier is to evaluate the classification result of its general classifier and decide whether to participate into a final decision-making process or not. The classification system draws a decision by combining classification results that are evaluated as correct ones by meta-classifiers. We present empirical results that evaluate the effect of our meta-learning approach on the performance of multi-classifier systems.

Ensemble Learning of Region Based Classifiers (지역 기반 분류기의 앙상블 학습)

  • Choe, Seong-Ha;Lee, Byeong-U;Yang, Ji-Hun;Kim, Seon-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.267-270
    • /
    • 2007
  • 기계학습에서 분류기들의 집합으로 구성된 앙상블 분류기는 단일 분류기에 비해 정확도가 높다는 것이 입증되었다. 본 논문에서는 새로운 앙상블 학습으로서 데이터의 지역 기반 분류기들의 앙상블 학습을 제시하여 기존의 앙상블 학습과의 비교를 통해 성능을 검증하고자 한다. 지역 기반 분류기의 앙상블 학습은 데이터의 분포가 지역에 따라 다르다는 점에 착안하여 학습 데이터를 분할하고 해당하는 지역에 기반을 둔 분류기들을 만들어 나간다. 이렇게 만들어진 분류기들로부터 지역에 따라 가중치를 둔 투표를 하여 앙상블 방법을 이끌어낸다. 본 논문에서 제시한 앙상블 분류기의 성능평가를 위해 UCI Machine Learning Repository에 있는 11개의 데이터 셋을 이용하여 단일 분류기와 기존의 앙상블 분류기인 배깅과 부스팅등의 정확도를 비교하였다. 그 결과 기본 분류기로 나이브 베이즈와 SVM을 사용했을 때 새로운 앙상블 방법이 다른 방법보다 좋은 성능을 보이는 것을 알 수 있었다.

  • PDF

요구사항 분류 언어를 통한 반 자동 품질 요구사항 분류

  • Park, Su-Yong;Min, Seong-Gi;Choe, Sun-Hwang
    • 시스템엔지니어링워크숍
    • /
    • s.1
    • /
    • pp.127-133
    • /
    • 2003
  • 시나리오 형태의 요구사항 분류는 ATAM, SAAM, Software Quality Metric 과 같은 품질 요구사항 분석 및 평가 방법 등 많은 분야에 응용된다. 이들 기법들은 소프트웨어 시스템의 품질 요구사항을 분석, 평가하기에 앞서 초기 수집된 요구사항들을 분류하게 된다. 그러나 요구사항을 분류하는 일은 수작업을 통해 이루어지게 되고, 따라서 미 분류, 중복분류, 등의 결함을 가질 수 있다. 결함의 가능성을 요구사항의 수가 많은 대형 프로젝트 일수록 높아지게 된다. 따라서 본 논문에서는 요구사항 분류언어를 통한 품질 요구사항 자동 분류 기법을 제안한다. 제안된 기법은 분류언어와 유사도를 이용한 2 단계 분류기법을 이용하였다. 분류언어는 각 도메인별로 개발되어 비슷한 도메인일 경우 재사용될 수 있다. 이를 검증하기 위해, 본 논문에서는 15 여개의 프로젝트로부터 수집된 요구사항을 이용해 실험을 수행하고 그 결과를 분석, 평가 하였다.

  • PDF

Comparison between supervised and unsupervised land cover classification using satellite image (인공위성 영상을 이용한 토지피복의 감독 분류 및 무감독 분류 비교)

  • Han, Seung-Jae;Choi, Min-Ha
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.355-355
    • /
    • 2011
  • 토지피복의 분류는 토지표면의 물리적인 지표면의 상태를 나타내는 자료로 환경, 행정, 수자원, 재해 등 다방면으로 이용되고 있다. 특히 수자원과 관련하여 식생의 증산과 토양의 증발을 통칭하는 증발산과 유출, 토양수분 등과 연관되어 있다. 광범위한 토지피복의 산정에는 경제성 및 주기성 등의 장점으로 인하여 인공위성 영상을 이용하는 기법이 적합하다. 위성영상분류법은 훈련지역의 선정 여부에 따라 감독분류와 무감독 분류로 나누어지며 각각의 알고리즘의 특성에 따라 더욱 세분화된다. 본 연구에서는 Landsat-TM (Thematic Mapper) 영상을 이용하여 감독 분류와 무감독 분류를 각각 적용하여 한강유역의 토지피복을 수역, 시가, 나지 습지, 초지, 산림, 농지의 7가지 부분으로 대분류로 산정하고 비교하였다. 두 경우의 정확도는 각각 91.6%, 90.9%의 비슷한 정확도를 나타내었으며, 세부적으로 우리나라의 대부분의 면적에 분포하는 산림, 농지, 시가, 수역의 정확도가 높게 나타났다. 또한 각 항목별로 정확도를 비교하였을 때 감독분류가 무감독분류에 비해 다소 정확한 것을 확인할 수 있었다. 추후 외부자료를 도입하면 비교적 낮은 정확도를 나타낸 초지, 습지, 나지의 정확도를 보완할 수 있을 것이다.

  • PDF

Bayesian Automatic Document Categorization Using Apriori-Genetic Algorithm (Apriori-Genetic 알고리즘을 이용한 베이지안 자동 문서 분류)

  • Go, Su-Jeong;Lee, Jeong-Hyeon
    • The KIPS Transactions:PartB
    • /
    • v.8B no.3
    • /
    • pp.251-260
    • /
    • 2001
  • 기존의 베이지안 문서 분류는 문서의 특징 표현에 있어서 단어간의 의미를 정확하게 반영하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해, 본 논문에서는 Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류 방법을 제안한다. Apriori 알고리즘은 단어간의 의미를 반영한 연관 단어의 형태로 문서의 특징을 추출하며 추출된 연관 단어로 연관 단어 지식베이스를 구축한다. Aprrori 알고리즘만으로 연관 단어 지식베이스를 구축할 경우, 지식베이스 안에 부적당한 연관 단어가 포함된다. 따라서 문서 분류의 정확도가 낮아지는 단점이 있다. 이러한 단점을 보완하기 위해, Genetic 알고리즘을 이용하여 연관 단어 지식베이스를 최적화하는 방법을 사용한다. 베이지안 확률을 이용하는 분류자는 최적화된 연관 단어 지식베이스를 기반으로 문서를 클래스별로 분류한다. Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류의 성능을 평가하기 위해, Apriori 알고리즘을 이용한 베이지안 문서 분류 방법, 역문헌빈도를 사용한 베이지안 문서 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다.

  • PDF

Comparison of e-Mail Classifiers for e-Mail Response Management Systems (전자메일 자동관리 시스템을 위한 전자메일 분류기의 성능 비교)

  • Kim, Kuk-Pyo;Kwon, Young-S;Baek, Chan-Young
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2002.11a
    • /
    • pp.411-416
    • /
    • 2002
  • 인터넷의 발전과 더불어 전자메일 사용자가 증가하게 되고, 기업의 고객접촉채널로서 전자메일에 대한 중요성 또한 증가되고 있다. 고객의 요구에 대해 적시에 적절하게 응답하지 못하면 고객의 불만족이 증가하게 되고, 충성도를 감소시켜 결국 장기적 매출 및 수익성 악화를 초래하게 된다. 따라서 고객의 전자메일에 신속, 정확하게 응답할 수 있는 전자 메일 자동관리 시스템의 필요성이 증가되고 있다. 본 연구에서는 나이브 베이지안 학습과 중심점 기반 분류 방법을 이용하여 전자메일 자동관리 시스템에서 전자메일 분류를 수행하는 분류기를 구현한다. 구현된 분류기를 이용하여 실제 기업의 고객 전자메일을 분류하는 실험을 수행하고 두 분류기의 성능을 비교하였다. 실험결과 두 분류기 모두 전자메일 분류에 비교적 우수한 성능을 보였다. 그러나, 클래스 수가 적은 경우 중심점 기반 분류기가 좋은 성능을 보였으나, 학습집합이 작아지면서 두 분류기의 성능 차이는 없었으며, 클래스의 수가 많아지면서 나이브 베이지안 분류기가 더 우수한 성능을 보였다.

  • PDF

Effective Fingerprint Classification with Dynamic Integration of OVA SVMs (OVA SVM의 동적 결합을 이용한 효과적인 지문분류)

  • Hong Jin-Hyuk;Cho Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.883-885
    • /
    • 2005
  • 지지 벡터 기계(Support Vector Machine: SVM)를 이용한 다중부류 분류기법이 최근 활발히 연구되고 있다. SVM은 이진분류기이기 때문에 다중부류 분류를 위해서 다수의 분류기를 구성하고 이들을 효과적으로 결합하는 방법이 필요하다. 본 논문에서는 기존의 정적인 다중분류기 결합 방법과는 달리 포섭구조의 분류모델을 확률에 따라 동적으로 구성하는 방법을 제안한다. 확률적 분류기인 나이브 베이즈 분류기(NB)를 이용하여 입력된 샘플의 각 클래스에 대한 확률을 계산하고, OVA (One-Vs-All) 전략으로 구축된 다중의 SVM을 획득된 확률에 따라 포섭구조로 구성한다. 제안하는 방법은 OVA SVM에서 발생하는 중의적인 상황을 효과적으로 처리하여 고성능의 분류를 수행한다. 본 논문에서는 지문분류 문제에서 대표적인 NIST-4 지문 데이터베이스를 대상으로 제안하는 방법을 적용하여 $1.8\%$의 거부율에서 $90.8\%$의 분류율을 획득하였으며, 기존의 결합 방법인 다수결 투표(Majority vote), 승자독식(Winner-takes-all), 행동지식공간 (Behavior knowledge space), 결정템플릿(Decision template) 등보다 높은 성능을 확인하였다.

  • PDF

Personalized I-Mail Classification System Using Dynamic Thesaurus and Genetic Algorithm (동적 시소러스와 GA을 이용한 개별화된 E-Mail1 분류시스템 (PECS))

  • 안희국;노희영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.472-474
    • /
    • 2002
  • 본 논문에서는 전자메일을 사용자 적합도(선호도)를 기준으로 분류하기 위한 구조를 제안한다. 분류는 1차 분류와 2차 분류로 나눠지는데, 1차 분류에서는 사용자 적합도를 판단하기 위해 사용자 관련 정보로부터 동적 시소러스를 구축하고, 구축된 시소러스와의 비교를 통해 사용자에게 유용한 메일인지 아닌지를 결정하고, 2차 분류에서는 사용자가 지정한 폴더키워드를 중심으로 사용자 시소러스로부터 유전자 알고리즘을 이용해 추출한 키워드들과의 적합도 비교를 통해서 특정 폴더로의 분류가 이뤄지게 된다 테스트에는 메일 정보값(Mail Information Word)을 추출하기 위해 HAM(Hangup Analysys Module)을 포함하는 메일정보추줄 에이전트를 사용하였고, mail의 subject와 본문(body)로부터 추출된 16개의 word정보와 시소러스 적합도 정보, 분류 적합도 정보를 하나의 데이터구조로 사용하였다. 이러한 통할된 시스템 구조와 data structure를 이용해 mail을 사용자의 선호도에 따라. 1차와 2차에 걸친 분류시 분류가 사용자 선호도에 근접하게 이루어 질 수 있음을 확인하였다.

  • PDF

Automatic Classification of Blog Posts (블로그 포스트의 자동 분류 시스템)

  • Jho, Hee-Sun;Kim, Su-Ah;Lee, Hyun-Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.160-162
    • /
    • 2013
  • 편리한 블로그 사용과 블로그에서의 정보 탐색을 위해서는 내용에 기반한 분류가 필요하다. 대부분의 블로그 사이트에서는 내용 기반 분류를 제공하고 있으나, 블로거들은 자신이 작성한 블로그에 대한 수동 분류를 입력하지 않는 경우가 많다. 본 논문에서는 분류가 제공되는 블로그 사이트에서 각 분류별 문서를 수집하고, 어휘빈도와 문서빈도, 분류별 빈도를 활용하여 문서 내 어휘의 자질 가중치를 부여하고, 다양한 학습기를 이용하여 분류 모델을 생성한 뒤 블로그의 특성에 적합한 자질 추출 알고리즘과 분류 알고리즘을 찾아낸다. 실험에서는 본 논문에서 고안한 CTF-IECDF와 나이브 베이즈 멀티노미얼로 조합한 분류 모델이 75.40%의 분류 정확률을 보였다.

  • PDF