• Title/Summary/Keyword: 과도 분류

Search Result 8,482, Processing Time 0.04 seconds

A Comparative Study on Feature Selection and Classification Methods Using Closed Frequent Patterns Mining (닫힌 빈발 패턴을 기반으로 한 특징 선택과 분류방법 비교)

  • Zhang, Lei;Jin, Cheng Hao;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.148-151
    • /
    • 2010
  • 분류 기법은 데이터 마이닝 기술 중 가장 잘 알려진 방법으로서, Decision tree, SVM(Support Vector Machine), ANN(Artificial Neural Network) 등 기법을 포함한다. 분류 기법은 이미 알려진 상호 배반적인 몇 개 그룹에 속하는 다변량 관측치로부터 각각의 그룹이 어떤 특징을 가지고 있는지 분류 모델을 만들고, 소속 그룹이 알려지지 않은 새로운 관측치가 어떤 그룹에 분류될 것인가를 결정하는 분석 방법이다. 분류기법을 수행할 때에 기본적으로 특징 공간이 잘 표현되어 있다고 가정한다. 그러나 실제 응용에서는 단일 특징으로 구성된 특징공간이 분명하지 않기 때문에 분류를 잘 수행하지 못하는 문제점이 있다. 본 논문에서는 이 문제에 대한 해결방안으로써 많은 정보를 포함하면서 빈발패턴에 대한 정보의 순실이 없는 닫힌 빈발패턴 기반 분류에 대한 연구를 진행하였다. 본 실험에서는 ${\chi}^2$(Chi-square)과 정보이득(Information Gain) 속성 선택 척도를 사용하여 의미있는 특징 선택을 수행하였다. 그 결과, 이 연구에서 제시한 척도를 사용하여 특징 선택을 수행한 경우, C4.5, SVM 과 같은 분류기법보다 더 향상된 분류 성능을 보였다.

Distribution of Vascular Plants at the Ecological Landscape Conservation Area Heoninlleung in Seoul (서울시 생태.경관보전지역 헌인릉의 관속식물 분포)

  • Kim, Kun-Ok;Hong, Sun-Hee;Lee, Yong-Ho;Na, Chae-Sun;Kang, Byeung-Hoa;Son, Yo-Whan
    • Korean Journal of Plant Resources
    • /
    • v.23 no.1
    • /
    • pp.60-78
    • /
    • 2010
  • To clarify the distribution of vascular plants and their usefulness in Heoninlleung, Ecological Landscape Conservation Areas of Seoul, we investigated it from April, 2006 to June, 2009. Total 313 taxa; 68 families, 191 genera, 264 species, 41 varieties and 8 forma were distributed in Heoninlleung. Among them, 37 taxa were highly abundant everywhere (3A), 16 taxa were highly abundant locally (3B), 70 taxa were moderately abundant everywhere (2A), 96 taxa were common in certain regions locally (2B), 9 taxa were rare but observed everywhere with low frequency (2A) and 85 taxa were rare and observed locally (1B). The economic plants were 293 taxa. There were 156 taxa of edible source, 223 taxa of medicinal source, 141 taxa of ornamental source, 69 taxa of pastoral source, 12 taxa of industrial, and 8 taxa of timber source. Twelve Korean endemic plants were collected. Based on the list of rare plants by the Korea National Arboretum and Ministry of Environment, 2 rare species were found. The specific species of I~V grades by phytogeography were 19 taxa. And twentyfour taxa of naturalized plant species were distributed. Naturalization Index was 7.7% and Urbanization Index was 8.4% in the investigated area.

Vascular Plant of Bakdal Mountain and Myeongbong Mountain in Paju-city Gyeonggi-do (경기도 파주시 박달산·명봉산의 관속식물상)

  • Jin-Heon Song;Kyung-Ryul Byun;Hee-Young Gil;Kae-Sun Chang
    • Korean Journal of Environment and Ecology
    • /
    • v.37 no.1
    • /
    • pp.35-58
    • /
    • 2023
  • In this study, we conducted a flora survey at Mt.Bakdal (363m) and Mt. Myeongbong (245.3m) in Paju-si, Gyeonggi-do. A total of 405 taxa, including 2 forms, 32 varieties, 8 subspecies, 363 species, 261 genera, and 87 families, were surveyed in the two mountain areas. The ferns were identified as 12 taxa from 6 families, the gymnosperms as 6 taxa from 2 families, the dicotyledonous plants as 290 taxa from 70 families, and the monocotyledonous plants as 97 taxa from 9 families. The remarkable plants included 8 taxa of the Korean endemic plants, which were Populus tomentiglandulosa, Salix koriyanagi, Clematis brachyura, Viola seoulensis, Forsythia koreana, Paulownia coreana, Weigela subsessilis, and Hemerocallis hakuunensis, and 3 taxa of the rare and endangered plants as designated by the Korea Forest Service, including Tylophora floribunda as Vulnerable (VU) species, and Viola albida and Chionanthus retusus as Least Concern (LC) species. The invasive alien plants were 35 taxa, including Rumex crispus, Phytolacca americana, Cerastium glomeratum, Chenopodium album, Chenopodium ficifolium, Lepidium virginicum, Amorpha fruticosa, Robinia pseudoacacia, and Trifolium repens, accounting for 8.5 percent of the 405 taxa of the surveyed plants. We intend to further identify plants through the studies on unsurveyed areas in the western part of the DMZ, identify the native habitats of rare and specialty plants, and use them as basic data for managing ecosystem-disturbing plants.

Analysis for River Network Classification based on Beta Distribution and Support Vector Machines (Beta Distribution 과 Support Vector Machines를 적용한 하천유역 분류 기법 개발)

  • Jung, Kichul;Shin, Ju-Yong;Um, Myoung-Jin;Park, Daeryong
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.411-411
    • /
    • 2019
  • 지형학적으로 다양한 형상을 가지고 있는 하천유역은 지역적 조건에 따라 뚜렷한 특징을 나타낸다. 이러한 조건은 하천유역의 발달 및 수문학적 특징에 영향을 미친다. 금회 연구는 여러 가지 유역의 특징 중 유역을 대표할 만한 특징을 이용하여 간단하고 유용한 하천 유역 분류 기법을 제시하였다. 하천유역의 여러 특징 중 지류교차각(Tributary Junction Angle)은 유역을 분석하기 위해 많이 사용되었으며 다른 특징들과 함께 유역 구분을 위해 분석되어 왔다. 하지만, 지류교차각만 이용하여 유역 분류를 제시하는 기법은 연구되지 않았다. 하천유역 분류 기법 제시를 위해 수지형 유역, 평행형 유역, 부채형 유역, 직사각형 유역, 격자형 유역 등 5가지의 형태를 중심으로 50개의 하천유역을 사용하였고, 지류교차각의 Beta Distribution 모델을 적용하여 매개변수 추정치 산정 후 유역 분류를 위한 분석을 실시하였다. 매개변수 추정치는 각 유역 형태 구분을 위해 적용되었고, 이후 Support Vector Machines를 이용하여 하천유역 형태를 분류하도록 하였다. 분석을 통한 결과는 일반적인 통계기법과 다른 유역형태 구분 기법을 이용하여 검증하였다. 제안된 기법은 수지형, 평행형, 부채형 유역 형태들에 대하여 정확하게 분류할 수 있으며, 얻어지는 결과는 중요한 수문학적 정보 제공에 사용 될 것으로 판단된다. 금회 연구를 통해 Beta 분포형의 매개변수 추정치는 하천유역 분류 적용에 유용하게 사용 될 수 있음을 확인하였고, 하나의 주요 유역 인자로 유역 구분이 가능함을 제시하였다. 향후 연구로는 하천유역 분류를 통해 수문학적인 동질 유역을 구분하여 수문모델의 수행능력을 향상 시킬 수 있는 수문모델 분석과 개발에 적용 될 수 있을 것이다.

  • PDF

The Type Clustering for the Multi-Font Hangul Character Recognition (다중 활자체 한글 문자 인식을 위한 유형 분류)

  • Kim, Min-Ki;Kwon, Young-Bin
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.194-199
    • /
    • 1997
  • 본 논문에서는 글꼴의 변화와 잡영을 흡수할 수 있도록 자소의 탐색 영역을 정의 하였으며 이 영역에 나타나는 횡모음과 종모음의 주획을 추출하는 방법을 기술하였다. 종모음 영역에서 추출한 수직획들과 횡모음 영역에서 추출한 수평획들을 각각 종모음과 횡모음의 주획이 될 수 있는 후보들로써 이들로 부터 종모음과 횡모음의 존재를 파악하는 것이 한글 유형 분류의 주된 내용이다. 그러나 다양한 글꼴에 나타나는 수평획들로부터 곧바로 횡모음의 존재를 파악하는 것은 쉬운 문제가 아니다 본 논문에서는 기존의 트리 분류기를 확장하여 복잡하고 다양한 특징을 단계별로 단순화시키고 트리 분류기의 상위 노드에서 결정된 정보와 제약 조건을 이용하여 유형을 분류하는 방법을 제안하였다. 제안된 방법은 한글 상위 빈도 1405자, 3가지 글꼴에 대하여 99.8 %의 유형 분류율을 보이고 있다.

  • PDF

Classification of Gene Expression Data by Ensemble of Bayesian Networks (앙상블 베이지안망에 의한 유전자발현데이터 분류)

  • 황규백;장정호;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.434-436
    • /
    • 2003
  • DNA칩 기술로 얻어지는 유전자발현데이터(gene expression data)는 생채 조직이나 세포의 수천개에 달하는 유전자의 발현량(expression level)을 측정한 것으로, 유전자발현양상(gene expression pattern)에 기반한 암 종류의 분류 등에 유용하다. 본 논문에서는 확률그래프모델(probabilistic graphical model)의 하나인 베이지안망(Bayesian network)을 발현데이터의 분류에 적응하며, 분류 성능을 높이기 위해 베이지안망의 앙상블(ensemble of Bayesian networks)을 구성한다. 실험은 실제 암 조직에서 추출된 유전자발현데이터에 대해 행해졌다 실험 결과, 앙상블 베이지안망의 분류 정확도는 단일 베이지안망보다 높았으며, naive Bayes 분류기, 신경망, support vector machine(SVM) 등과 대등한 성능을 보였다.

  • PDF

A Preprocessing for Efficient Classification of E-mail Messages (전자우편문서의 효율적인 분류를 위한 전처리)

  • 강영순;이용배;김태현;조숙현;맹성현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.493-495
    • /
    • 2002
  • 인터넷 사용의 증가는 의사소통 매체의 하나로 전자우편(e-mail)을 일반화되게 땠다. 전자우편은 개인적인 목적 뿐만 아니라, 광고, 판매, 서비스 흑은 제품구입 관련문의 등의 특정목적에 이용되고 있는 추세이므로 한꺼번에 많은 메일을 처리 및 관리하기 위해서는 전자우편문서의 자동분류가 필요하다. 전자우편문서는 일반문서와는 달리 반구조적(semi-structure)구성, 특수문자, 약어 및 속어 등의 특징들이 있으므로 이러한 특성들은 자동분류의 정확도에 영향을 기치는 요인이 될 수 있다. 본 논문에서는 분류 성능을 향상 시키기 위해 자동분류의 오류가 될 수 있는 특성들을 제거하고, 구조적인 특징을 활용한 분류기의 전처리기를 설계한 방법론을 제시하고자 한다

  • PDF

Data Fusion, Ensemble and Clustering for the Severity Classification of Road Traffic Accident in Korea (데이터융합, 앙상블과 클러스터링을 이용한 교통사고 심각도 분류분석)

  • 손소영;이성호
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.597-600
    • /
    • 2000
  • 계속적인 증가 추세를 보이고 있는 교통량으로 인해 환경 문제뿐 아니라 교통사고로 인한 사상자 및 물적피해가 상당량으로 집계되고 있다. 본 논문에서는 데이터융합 및 앙상블 클러스터링방법을 이용한 교통사고 심각도 분류분석방법을 제안함으로서 교통사고예방에 기여하고자 한다. 이를 위하여 신경망과 Decision-Tree기법을 이용하여 얻은 물적피해와 신체상해가 발생할 확률을 융합하는 전형적인 데이터 융합기법(템스터-쉐퍼, 베이지안 방법, 로지스틱융합방법)을 사용하였다. 또한, 분류정확도를 향상시키고자 Bootstrap 재추출 방법을 이용해 얻어진 여러 개의 분류예측 결과 중 다수의 분류결과를 선택하는 앙상블 (arcing, bagging)기법을 적용하였다. 더불어, 본 연구에서는 클러스터링 방법을 제시하고, 이 방법이 기존의 융합기법, 앙상블기법과 비교한 결과, 분류예측면에서 정확도가 향상됨을 보였다.

  • PDF

Local Descriptor Classification Method for License Plate Detection (번호판 영역 검출을 위한 지역특징 분류 방법)

  • Hong, Won-Ju;Kim, Min-Woo;Oh, Il-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.466-468
    • /
    • 2011
  • 본 논문은 영상 획득 환경이 자유로운 상황에서 차량 번호판 영역을 검출하기 위한 새로운 방법을 제안한다. 입력 영상에서 SIFT 지역특징을 추출하고 미리 학습한 분류기를 통해 각 지역특징이 번호판 내부에 속하는지 번호판 외부에 속하는지를 분류한다. 번호판 내부로 분류된 지역특징이 밀집한 영역이 번호판 영역으로 검출된다. 실험을 통해 제안하는 지역특징 분류 방법이 높은 성능으로 번호판 내/외부를 분류함을 보인다.