Search | Korea Science

An Experimental Study on Categorization of Web Documents Using an Ensemble Classifier (복합 분류기를 이용한 웹 문서 범주화에 관한 실험적 연구)

이혜원;정영미
- Proceedings of the Korean Society for Information Management Conference
- /
- 2003.08a
- /
- pp.73-82
- /
- 2003
본 연구에서는 웹 문서를 분류하기 위해 문서로부터 다양한 자질을 추출하고, 두 가지의 분류기를 통해 여러 개의 분류 예측치를 구한 다음, 그것들을 하나의 결과물로 통합하는 복합분류기를 사용하였다. 먼저 다양한 자질 집합에 대해 일반적으로 많이 사용되는 kNN(k nearest neighbor) 분류기와 나이브 베이즈(Naive Bayes) 분류기를 사용한 범주화 실험을 수행하고, 실험을 통해 나온 범주 예측치를 통합하는 복합 분류기들의 성능을 비교하였다. 또한 단일 분류기들을 통해 나온 모든 범주 예측치를 통합하는 과정을 수행하여, 단일 분류기만을 사용할 경우와 복합 분류기를 사용할 경우를 비교해 더 좋은 성능을 나타내는 분류기를 밝히고자 한다.
PDF

요구사항 분류 언어를 통한 반 자동 품질 요구사항 분류

Park, Su-Yong;Min, Seong-Gi;Choe, Sun-Hwang
- 시스템엔지니어링워크숍
- /
- s.1
- /
- pp.127-133
- /
- 2003
시나리오 형태의 요구사항 분류는 ATAM, SAAM, Software Quality Metric 과 같은 품질 요구사항 분석 및 평가 방법 등 많은 분야에 응용된다. 이들 기법들은 소프트웨어 시스템의 품질 요구사항을 분석, 평가하기에 앞서 초기 수집된 요구사항들을 분류하게 된다. 그러나 요구사항을 분류하는 일은 수작업을 통해 이루어지게 되고, 따라서 미 분류, 중복분류, 등의 결함을 가질 수 있다. 결함의 가능성을 요구사항의 수가 많은 대형 프로젝트 일수록 높아지게 된다. 따라서 본 논문에서는 요구사항 분류언어를 통한 품질 요구사항 자동 분류 기법을 제안한다. 제안된 기법은 분류언어와 유사도를 이용한 2 단계 분류기법을 이용하였다. 분류언어는 각 도메인별로 개발되어 비슷한 도메인일 경우 재사용될 수 있다. 이를 검증하기 위해, 본 논문에서는 15 여개의 프로젝트로부터 수집된 요구사항을 이용해 실험을 수행하고 그 결과를 분석, 평가 하였다.
PDF

Comparison between supervised and unsupervised land cover classification using satellite image (인공위성 영상을 이용한 토지피복의 감독 분류 및 무감독 분류 비교)

Han, Seung-Jae;Choi, Min-Ha
- Proceedings of the Korea Water Resources Association Conference
- /
- 2011.05a
- /
- pp.355-355
- /
- 2011
토지피복의 분류는 토지표면의 물리적인 지표면의 상태를 나타내는 자료로 환경, 행정, 수자원, 재해 등 다방면으로 이용되고 있다. 특히 수자원과 관련하여 식생의 증산과 토양의 증발을 통칭하는 증발산과 유출, 토양수분 등과 연관되어 있다. 광범위한 토지피복의 산정에는 경제성 및 주기성 등의 장점으로 인하여 인공위성 영상을 이용하는 기법이 적합하다. 위성영상분류법은 훈련지역의 선정 여부에 따라 감독분류와 무감독 분류로 나누어지며 각각의 알고리즘의 특성에 따라 더욱 세분화된다. 본 연구에서는 Landsat-TM (Thematic Mapper) 영상을 이용하여 감독 분류와 무감독 분류를 각각 적용하여 한강유역의 토지피복을 수역, 시가, 나지 습지, 초지, 산림, 농지의 7가지 부분으로 대분류로 산정하고 비교하였다. 두 경우의 정확도는 각각 91.6%, 90.9%의 비슷한 정확도를 나타내었으며, 세부적으로 우리나라의 대부분의 면적에 분포하는 산림, 농지, 시가, 수역의 정확도가 높게 나타났다. 또한 각 항목별로 정확도를 비교하였을 때 감독분류가 무감독분류에 비해 다소 정확한 것을 확인할 수 있었다. 추후 외부자료를 도입하면 비교적 낮은 정확도를 나타낸 초지, 습지, 나지의 정확도를 보완할 수 있을 것이다.
PDF

Bayesian Automatic Document Categorization Using Apriori-Genetic Algorithm (Apriori-Genetic 알고리즘을 이용한 베이지안 자동 문서 분류)

Go, Su-Jeong;Lee, Jeong-Hyeon
- The KIPS Transactions:PartB
- /
- v.8B no.3
- /
- pp.251-260
- /
- 2001
기존의 베이지안 문서 분류는 문서의 특징 표현에 있어서 단어간의 의미를 정확하게 반영하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해, 본 논문에서는 Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류 방법을 제안한다. Apriori 알고리즘은 단어간의 의미를 반영한 연관 단어의 형태로 문서의 특징을 추출하며 추출된 연관 단어로 연관 단어 지식베이스를 구축한다. Aprrori 알고리즘만으로 연관 단어 지식베이스를 구축할 경우, 지식베이스 안에 부적당한 연관 단어가 포함된다. 따라서 문서 분류의 정확도가 낮아지는 단점이 있다. 이러한 단점을 보완하기 위해, Genetic 알고리즘을 이용하여 연관 단어 지식베이스를 최적화하는 방법을 사용한다. 베이지안 확률을 이용하는 분류자는 최적화된 연관 단어 지식베이스를 기반으로 문서를 클래스별로 분류한다. Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류의 성능을 평가하기 위해, Apriori 알고리즘을 이용한 베이지안 문서 분류 방법, 역문헌빈도를 사용한 베이지안 문서 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다.
PDF

Comparison of e-Mail Classifiers for e-Mail Response Management Systems (전자메일 자동관리 시스템을 위한 전자메일 분류기의 성능 비교)

Kim, Kuk-Pyo;Kwon, Young-S;Baek, Chan-Young
- 한국IT서비스학회:학술대회논문집
- /
- 2002.11a
- /
- pp.411-416
- /
- 2002
인터넷의 발전과 더불어 전자메일 사용자가 증가하게 되고, 기업의 고객접촉채널로서 전자메일에 대한 중요성 또한 증가되고 있다. 고객의 요구에 대해 적시에 적절하게 응답하지 못하면 고객의 불만족이 증가하게 되고, 충성도를 감소시켜 결국 장기적 매출 및 수익성 악화를 초래하게 된다. 따라서 고객의 전자메일에 신속, 정확하게 응답할 수 있는 전자 메일 자동관리 시스템의 필요성이 증가되고 있다. 본 연구에서는 나이브 베이지안 학습과 중심점 기반 분류 방법을 이용하여 전자메일 자동관리 시스템에서 전자메일 분류를 수행하는 분류기를 구현한다. 구현된 분류기를 이용하여 실제 기업의 고객 전자메일을 분류하는 실험을 수행하고 두 분류기의 성능을 비교하였다. 실험결과 두 분류기 모두 전자메일 분류에 비교적 우수한 성능을 보였다. 그러나, 클래스 수가 적은 경우 중심점 기반 분류기가 좋은 성능을 보였으나, 학습집합이 작아지면서 두 분류기의 성능 차이는 없었으며, 클래스의 수가 많아지면서 나이브 베이지안 분류기가 더 우수한 성능을 보였다.
PDF

Effective Fingerprint Classification with Dynamic Integration of OVA SVMs (OVA SVM의 동적 결합을 이용한 효과적인 지문분류)

Hong Jin-Hyuk;Cho Sung-Bae
- Proceedings of the Korean Information Science Society Conference
- /
- 2005.11b
- /
- pp.883-885
- /
- 2005
지지 벡터 기계(Support Vector Machine: SVM)를 이용한 다중부류 분류기법이 최근 활발히 연구되고 있다. SVM은 이진분류기이기 때문에 다중부류 분류를 위해서 다수의 분류기를 구성하고 이들을 효과적으로 결합하는 방법이 필요하다. 본 논문에서는 기존의 정적인 다중분류기 결합 방법과는 달리 포섭구조의 분류모델을 확률에 따라 동적으로 구성하는 방법을 제안한다. 확률적 분류기인 나이브 베이즈 분류기(NB)를 이용하여 입력된 샘플의 각 클래스에 대한 확률을 계산하고, OVA (One-Vs-All) 전략으로 구축된 다중의 SVM을 획득된 확률에 따라 포섭구조로 구성한다. 제안하는 방법은 OVA SVM에서 발생하는 중의적인 상황을 효과적으로 처리하여 고성능의 분류를 수행한다. 본 논문에서는 지문분류 문제에서 대표적인 NIST-4 지문 데이터베이스를 대상으로 제안하는 방법을 적용하여 $1.8\%$의 거부율에서 $90.8\%$의 분류율을 획득하였으며, 기존의 결합 방법인 다수결 투표(Majority vote), 승자독식(Winner-takes-all), 행동지식공간 (Behavior knowledge space), 결정템플릿(Decision template) 등보다 높은 성능을 확인하였다.
PDF

Automatic Classification of Blog Posts (블로그 포스트의 자동 분류 시스템)

Jho, Hee-Sun;Kim, Su-Ah;Lee, Hyun-Ah
- Annual Conference on Human and Language Technology
- /
- 2013.10a
- /
- pp.160-162
- /
- 2013
편리한 블로그 사용과 블로그에서의 정보 탐색을 위해서는 내용에 기반한 분류가 필요하다. 대부분의 블로그 사이트에서는 내용 기반 분류를 제공하고 있으나, 블로거들은 자신이 작성한 블로그에 대한 수동 분류를 입력하지 않는 경우가 많다. 본 논문에서는 분류가 제공되는 블로그 사이트에서 각 분류별 문서를 수집하고, 어휘빈도와 문서빈도, 분류별 빈도를 활용하여 문서 내 어휘의 자질 가중치를 부여하고, 다양한 학습기를 이용하여 분류 모델을 생성한 뒤 블로그의 특성에 적합한 자질 추출 알고리즘과 분류 알고리즘을 찾아낸다. 실험에서는 본 논문에서 고안한 CTF-IECDF와 나이브 베이즈 멀티노미얼로 조합한 분류 모델이 75.40%의 분류 정확률을 보였다.
PDF

BClassifier : A Bookmark-Classification Agent Based on Naive Bayesian Learning Method (BClassifier : 나이브 베이지안 학습법에 기초한 북마크 분류 에이전트)

최정민;김인철
- Proceedings of the Korean Information Science Society Conference
- /
- 2000.10b
- /
- pp.81-83
- /
- 2000
최근 고성능 PC의 보급과 네트워크의 발달로 인하여 인터넷의 가용 정보가 폭발적으로 증가하고 있다. 이러한 추세에 따라 우리는 인터넷을 사용하여 많은 정보를 얻고 있다. 그러나 인터넷에 존재하는 정보는 수많은 웹 서버에 주소(URL)를 가지고 존재하게 되는데 사용자는 자신이 관심 있는 정보의 사이트를 재방문하기 위하여 웹 브라우저 북 마크 기능을 사용한다. 그러나, 북 마크를 효율적으로 사용하기 위해서는 북 마크 분류, 수정, 편집, 정렬등의 북 마크 관리가 필수적이지만 이와 같은 북 마크 관리 작업이 전반적으로 수작업으로 이루어져야 하는 단점이 있다. 이러한 문제점을 해결하기 위한 한가지 방법으로 웹 문서 분류를 위한 기계학습법을 적용하여 사용자의 북 마크를 카테고리별로 자동으로 분류, 재정렬해주는 북 마크 자동 분류 에이전트를 개발하고자 한다. 대표적인 분류 에이전트 시스템으로는 전자우편 분류 에이전트인 Maxims, 뉴스 기사 분류 에이전트인 NewT, 엔터테인먼트 선별 에이전트인 Ringo 등이 있으며, 이러한 시스템들은 분류 대상과 분류 방법, 기능 등에서 차이를 보이고 있다. 본 논문에서는 대표적인 교사학습 방법인 나이브 베이지안 학습법을 사용하여 북 마크를 자동으로 분류하는 북 마크 자동 분류 에이전트를 설계, 구현하였다.
PDF

Document Classification using Weighted Associative Classifier (가중치가 부여된 연관 규칙을 이용한 문서 분류)

김흥남;이기성;조근식
- Proceedings of the Korean Information Science Society Conference
- /
- 2003.10a
- /
- pp.154-156
- /
- 2003
인터넷의 급속한 성장과 더불어 많은 정보와 데이터들을 인터넷을 통하여 얻을 수 있게 되었으며 많은 단체들이 문서들을 웹을 통하여 이용 가능하게 만들고 있다. 이에 따라 다양한 정보와 데이터를 효과적으로 분류하고 검색하는 문서 분류 (Document Classification)에 대한 알고리즘이 다양한 분야에서 널리 연구되어 왔으며 본 논문에서 초점을 두고 있는 전자 도서관 (Digital Library) 분야에서도 활발히 연구되어지고 있다. 하지만 기존의 전자 도서관의 문서 분류 알고리즘들은 문서들의 각 단락의 비중을 고려하지 않은 채 단어들의 발생 빈도에 초점을 두어 많은 잡음 단어 (Noise Term)를 포함하고 그로 인하여 분류 성능이 떨어졌다. 본 논문에서는 문서 단락의 중요도에 따라 다른 .가중치를 부여하여 단어 지지도 (Term Support)가 높은 단어들을 추출하고 그 단어들로 연관 규칙 (Association Rules)을 이용하여 분류 규칙을 생성하는 방법을 제안한다. 제안된 방법의 성능평가를 위해 문서 분류에 널리 쓰이는 나이브 베이지안 분류자 (Na$\square$ve Bayesian Classifier) 및 기존의 단순 연관 규칙 분류자 (Associative Classifier)와 비교 평가하였다. 그 결과, 각 가중치가 부여된 연관 규칙 분류 방법이 나이브 베이지안 분류 방법과 단순 연관 규칙 분류 방법보다 높은 성능을 보였다.
PDF

A GRNN classifier using random generator and application to classifying promoters (난수발생기를 이용한 일반화된 회귀신경망 분류기와 프로모터 분류에의 응용)

Kim, Kun-Ho;Kim, Byung-Whan;Kim, Kyung-Nam;Hong, Jin-Han
- Proceedings of the KIEE Conference
- /
- 2003.07d
- /
- pp.2552-2554
- /
- 2003
난수발생기 (Random generator-RG)와 GRNN을 이용한 분류기 설계방식을 제안하며, 이를 프로모터 염기서열의 분류에 적용한다. 주어진 난수범위에서 다중 분류기를 발생하였으며, 그 성능을 예측정확도와 분류민감도 측면에서 평가하였고, 분류민감도는 다시 전체와 개별적 프로모터에 대해서 세분화하여 평가하였다. 최적화된 분류기 상호간의 비교에서 제안된 기법은 모든 임계점에 대해서, 전체 분류민감도와 전체 예측정확도를 향상시키었으며, 이는 전체 분류 민감도에서 더 두드러졌다. 한편, 개별적 프로모터에 대한 분류민감도와 예측정확도도 평균적으로 향상되었다. 이 같은 결과로 제안된 기법이 분류와 예측성능을 동시에 증진하는데 매우 효과적임을 알 수 있었다.
PDF

Search Result 34,478, Processing Time 0.057 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)