• 제목/요약/키워드: classification trees

검색결과 313건 처리시간 0.026초

18세기 프랑스의 프린트 직물에 관한 연구 -트왈 드 죠이 디자인을 중심으로- (A Study on the Printed French Textiles in the 18th Century - Focus on the Toile do Jouy)

  • 김희선;구희경
    • 한국의상디자인학회지
    • /
    • 제8권3호
    • /
    • pp.129-143
    • /
    • 2006
  • This study is to review the printed cotton textile industry of Europe in 17th-l8th century, and specially investigate the development of the Toile do Jouy, printed French fabrics around the 18th century. Generally, the Toile de Jouy has two different meanings. The first meaning is the popular printed cotton textiles producted by wood block printing, copper plate printing and roller printing techniques at Jouy on Joas factory in France, around 18th century. The second meaning is the monochromatic upholstery fabrics printed by copper plate. Actually, this monochromatic printed textiles were the most popular printed cotton fabrics with large scale scenic designs with people, trees, birds, buildings, mythical heroes, protagonists of novel and country scenes of shepherds, sheep and other animals manufactured by Jouy on Joas factory. Main issue of this paper is to propose features of pattern, color and classify types of patterns expressed on the Toile de Jouy fabrics according to printing techniques such as wood block printing, copper plate printing and copper roller printing. And this study is also to analyze on origins of the variety of names called the printed cotton textiles in those days. The results of this study can help to understand the knowledge of printed cotton textiles in Europe and be effectively applied to develop printed fabric design in the textile industry.

  • PDF

데이터 마이닝에서 배깅, 부스팅, SVM 분류 알고리즘 비교 분석 (An Empirical Comparison of Bagging, Boosting and Support Vector Machine Classifiers in Data Mining)

  • 이영섭;오현정;김미경
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.343-354
    • /
    • 2005
  • 데이터 마이닝에서 데이터를 효율적으로 분류하고자 할 때 많이 사용하고 있는 알고리즘을 실제 자료에 적용시켜 분류성능을 비교하였다. 분류자 생성기법으로는 의사결정나무기법 중의 하나인 CART, 배깅과 부스팅 알고리즘을 CART 모형에 결합한 분류자, 그리고 SVM 분류자를 비교하였다. CART는 결과 해석이 쉬운 장점을 가지고 있지만 데이터에 따라 생성된 분류자가 다양하여 불안정하다는 단점을 가지고 있다. 따라서 이러한 CART의 단점을 보완한 배깅 또는 부스팅 알고리즘과의 결합을 통해 분류자를 생성하고 그 성능에 대해 평가하였다. 또한 최근 들어 분류성능을 인정받고 있는 SVM의 분류성능과도 비교?평가하였다. 각 기법에 의한 분류 결과를 가지고 의사결정나무를 형성하여 자료가 가지는 데이터의 특성에 따른 분류 성능을 알아보았다. 그 결과 데이터의 결측치가 없고 관측값의 수가 적은 경우는 SVM의 분류성능이 뛰어남을 알 수 있었고, 관측값의 수가 많을 때에는 부스팅 알고리즘의 분류성능이 뛰어났으며, 데이터의 결측치가 존재하는 경우는 배깅의 분류성능이 뛰어남을 알 수 있었다.

GAM: 대형 통신 시스템을 위한 위험도 예측 모델 (GAM: A Criticality Prediction Model for Large Telecommunication Systems)

  • 홍의석
    • 컴퓨터교육학회논문지
    • /
    • 제6권2호
    • /
    • pp.33-40
    • /
    • 2003
  • 소프트웨어 개발 초기 단계의 문제점이 개발 후반부 산물의 품질에 심각한 영향을 미치기 때문에 설계 명세를 이용하여 결함경향성이 많은 부분을 예측하는 위험도 예측 모델은 전체 시스템 개발비용을 낮추는 데 중요한 역할을 하고 있으며, 이러한 예측 모델은 결과 산물이 매우 크고 실행 정확성이 요구되는 통신 소프트웨어 같은 실시간 시스템 설계에 더욱 필요하다. 판별분석, 인공신경망, 분류트리 등의 기법들을 이용한 모델들이 제안되었으나 이들은 결과에 대한 원인 분석의 어려움, 낮은 확장성 등의 문제점들을 지니고 있었다. 본 논문에서는 유전자 알고리즘을 이용한 새로운 모델인 GAM을 제안한다. GAM은 위험도 함수를 만들어 내므로 기존의 분류 모델들과는 다르게 설계 개체의 위험도 비교에도 사용가능하다. 여러 내부 특성들과 예측 정확도 비교를 통해 GAM을 잘 알려진 예측 모델인 역전파 신경망 모델(BPM)과 비교하였다.

  • PDF

다중외적연관성규칙을 이용한 불필요한 입력변수 제거에 관한 연구 (A study on removal of unnecessary input variables using multiple external association rule)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.877-884
    • /
    • 2011
  • 의사결정나무는 데이터마이닝의 대표적인 알고리즘으로서, 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법이다. 일반적으로 의사결정나무의 모형 생성 시, 입력 변수의 수가 많을 경우 생성된 의사결정모형은 복잡한 형태가 될 수 있고, 모형 탐색 및 분석에 있어 어려움을 겪기도 한다. 이때 입력변수들 간의 내재적인 관련성은 없으나, 외적 변수에 의하여 각 변수가 우연히 어떤 다른 변수와 연결됨으로써 관련성이 있는 것으로 나타나는 것을 종종 볼 수 있다. 이에 본 논문에서는 의사결정나무 생성 시, 입력 변수에 대한 외적 관계를 파악할 수 있는 다중외적연관성규칙을 이용하여 의사결정나무 생성에 불필요한 입력변수를 제거하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.

Nonstandard Machine Learning Algorithms for Microarray Data Mining

  • Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보 워크샵 (DNA Chip Bioinformatics)
    • /
    • pp.165-196
    • /
    • 2001
  • DNA chip 또는 microarray는 다수의 유전자 또는 유전자 조각을 (보통 수천내지 수만 개)칩상에 고정시켜 놓고 DNA hybridization 반응을 이용하여 유전자들의 발현 양상을 분석할 수 있는 기술이다. 이러한 high-throughput기술은 예전에는 생각하지 못했던 여러가지 분자생물학의 문제에 대한 해답을 제시해 줄 수 있을 뿐 만 아니라, 분자수준에서의 질병 진단, 신약 개발, 환경 오염 문제의 해결 등 그 응용 가능성이 무한하다. 이 기술의 실용적인 적용을 위해서는 DNA chip을 제작하기 위한 하드웨어/웻웨어 기술 외에도 이러한 데이터로부터 최대한 유용하고 새로운 지식을 창출하기 위한 bioinformatics 기술이 핵심이라고 할 수 있다. 유전자 발현 패턴을 데이터마이닝하는 문제는 크게 clustering, classification, dependency analysis로 구분할 수 있으며 이러한 기술은 통계학과인공지능 기계학습에 기반을 두고 있다. 주로 사용된 기법으로는 principal component analysis, hierarchical clustering, k-means, self-organizing maps, decision trees, multilayer perceptron neural networks, association rules 등이다. 본 세미나에서는 이러한 기본적인 기계학습 기술 외에 최근에 연구되고 있는 새로운 학습 기술로서 probabilistic graphical model (PGM)을 소개하고 이를 DNA chip 데이터 분석에 응용하는 연구를 살펴본다. PGM은 인공신경망, 그래프 이론, 확률 이론이 결합되어 형성된 기계학습 모델로서 인간 두뇌의 기억과 학습 기작에 기반을 두고 있으며 다른 기계학습 모델과의 큰 차이점 중의 하나는 generative model이라는 것이다. 즉 일단 모델이 만들어지면 이것으로부터 새로운 데이터를 생성할 수 있는 능력이 있어서, 만들어진 모델을 검증하고 이로부터 새로운 사실을 추론해 낼 수 있어 biological data mining 문제에서와 같이 새로운 지식을 발견하는 exploratory analysis에 적합하다. 또한probabilistic graphical model은 기존의 신경망 모델과는 달리 deterministic한의사결정이 아니라 확률에 기반한 soft inference를 하고 학습된 모델로부터 관련된 요인들간의 인과관계(causal relationship) 또는 상호의존관계(dependency)를 분석하기에 적합한 장점이 있다. 군체적인 PGM 모델의 예로서, Bayesian network, nonnegative matrix factorization (NMF), generative topographic mapping (GTM)의 구조와 학습 및 추론알고리즘을소개하고 이를 DNA칩 데이터 분석 평가 대회인 CAMDA-2000과 CAMDA-2001에서 사용된cancer diagnosis 문제와 gene-drug dependency analysis 문제에 적용한 결과를 살펴본다.

  • PDF

Identification, Characterization and Phylogenic Analysis of Conserved Genes within the p74 Gene Region of Choristoneura fumiferana Granulovirus Genome

  • Rashidan, Kianoush Khajeh;Nassoury, Nasha;Giannopoulos, Paresa N.;Mauffette, Yves;Guertin, Claude
    • BMB Reports
    • /
    • 제37권6호
    • /
    • pp.700-708
    • /
    • 2004
  • The genes located within the p74 gene region of the Choristoneura fumiferana granulovirus (ChfuGV) were identified by sequencing an 8.9 kb BamHI restriction fragment on the ChfuGV genome. The global guanine-cytosine (GC) content of this region of the genome was 33.02%. This paper presents the ORFs within the p74 gene region along with their transcriptional orientations. This region contains a total of 15 open reading frames (ORFs). Among those, 8 ORFs were found to be homologues to the baculoviral ORFs: Cf-i-p , Cf-vi, Cf-vii, Cf-viii (ubiquitin), Cf-xi (pp31), Cf-xii (lef-11), Cf-xiii (sod) and Cf-xv-p (p74). To date, no specific function has been assigned to the ORFs: Cf-i, Cf-ii, Cf-iii, Cf-iv, Cf-v, Cf-vi, Cf-vii, Cf-ix and Cf-x. The most noticeable ORFs located in this region of the ChfuGV genome were ubiquitin, lef-11, sod, fibrillin and p74. The phylogenetic trees (constructed using conceptual products of major conserved ORFs) and gene arrangement in this region were used to further examine the classification of the members of the granulovirus genus. Comparative studies demonstrated that ChfuGV along with the Cydia pomonella granulovirus (CpGV), Phthorimaea operculella granulovirus (PhopGV), Adoxophyes orana granulovirus (AoGV) and Cryptophlebia leucotreta granulovirus (ClGV) share a high degree of amino acids sequence and gene arrangement preservation within the studied region. These results support a previous report, which classified a granuloviruses into 2 distinct groups: Group I: ChfuGV, CpGV, PhopGV and AoGV and Group II: Xestia c-nigrum granulovirus (XcGV) and Plutella xylostella granulovirus (PxGV). The phylogenetic and gene arrangement studies also placed ClGV as a novel member of the Group I granuloviruses.

자동 생성 메일계정 인식을 통한 스팸 필터링 (Spam-Filtering by Identifying Automatically Generated Email Accounts)

  • 이상호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.378-384
    • /
    • 2005
  • 본 논문에서는 기존의 스팸 메일 필터링 시스템의 성능을 향상시키기 위한 새로운 필터링 방법을 설명한다. 대부분의 스팸 필터링 시스템은 메일의 제목이나 혹은 그 문서 안에서 발견되는 단어들의 분포를 조사하여 이루어진다. 한편, 최근의 스팸 발송자들은 메일 서비스 업체가 제공하는 웹메일 계정을 이용하여 스팸을 발송하기 시작하였다 이렇게 웹메일을 통해 발송되는 스팸 메일의 특징을 보면, 그 메일 계정이 자동으로 생성되기 때문에 일반 사용자의 메일 계정과 많은 차이를 보인다. 본 연구에서는 이러한 점에 착안하여, 발송자의 메일 계정이 자동 생성된 메일 계정인지를 예측하고 이를 통해 스팸을 필터링하고자 한다. 메일 계정을 분류하기 위해서는 패턴 인식 문제에서 사용되어 온 결정 트리를 이용하였으며, 메일 서비스 업체로부터 수집된 약 215 만개의 메일 계정에 대해 실험하였다. 실험 결과, $96.3\%$의 정확률을 나타내었으며, 기존 시스템과 연동하여 새로운 형태의 스팸을 필터링할 수 있었다.

Validation of DEM Derived from ERS Tandem Images Using GPS Techniques

  • 이인수;장싱정;지린린
    • 대한공간정보학회지
    • /
    • 제13권1호
    • /
    • pp.63-69
    • /
    • 2005
  • InSAR(Interferometric Synthetic Aperture Radar)는 급속히 발진하고 있는 기술이며 지표면의 수치지형모델 제작과 토지이용 분류뿐만 아니라, 지진, 화신, 지반침하와 빙하흐름의 모니터링과 같은 다양한 응용분야 적용은 그것의 장점을 강화시켜 주고 있다. InSAR는 원격탐측 기술의 한 부류이므로, 위성위치와 자세, 대기, 그리고 기타 요소에 의한 다양한 오차원인을 가지고 있으므로, 이 시스템의 정확도 검증, 특별히 SAR 영상으로부터 제작된 수치지형모델에 대해서는 중요하다. 본 연구에서는 RTK GPS와 Kinematic GPS 측위가 InSAR 기술로 제작된 수치지형모델의검증 도구로 이용되었다. 그 결과로서, Kinematic GPS는 실험지역에서 RTK GPS보다 많은 관측값을 얻을 수 있었지만, 안테나 주위 나무 등에 의한 위성추적 문제와 통신거리에 따른 기준국과 이동국사이의 자료전송 문제 등이 여전히 시급히 해결해야 할 과제로 나타났다.

  • PDF

CHANGE DETECTION ANALYSIS OF FORESTED AREA IN THE TRANSITION ZONE AT HUSTAI NATIONAL PARK, CENTRAL MONGOLIA

  • Bayarsaikhan, Uudus;Boldgiv, Bazartseren;Kim, Kyung-Ryul;Park, Kyeng-Ae
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2007년도 Proceedings of ISRS 2007
    • /
    • pp.426-429
    • /
    • 2007
  • One of the widely used applications of remote sensing studies is environmental change detection and biodiversity conservation. The study area Hustai Mountain is situated in the transition zone between the Siberian taiga forest and Central Mongolian arid steppe. Hustai National Park carries out one of several reintroduction programs of takhi (wild horse or Equus ferus przewalskii) from various zoos in the world and it represents one of a few textbook examples of successful reintroduction of an animal extinct in the wild. In this paper we describe the results of an analysis on the change of remaining forest area over the 7-year period since Hustai Mountain was designated as a protected area for reintroduction to wild horses. Today the forested area covers approximately 5% of the Hustai National Park, mostly the north-facing slopes above 1400 m altitude. Birch (Betula platyphylla) and aspen (Populus tremula) trees are predominant in the forest. We used Landsat ETM+ images from two different years and multi temporal MODIS NDVI data. Land types were determined by supervised classification methods (Maximum Likelihood algorithm) verified with ground-truthing data and the Land Change Modeler (LCM) which was developed by Clark Labs. Forested area was classified into three different land types, namely the forest land, mountain meadow and mountain steppe. The study results illustrate that the remaining birch forest has rapidly changed to fragmented forest land and to open areas. Underlying causes for such a rapid change during the 15-year period may be manifold. However, the responsible factors appear to be the drying off and outbreak of forest pest species (such as gypsy moth or Lymantria dispar) in the area.

  • PDF

고품질 한우를 위한 여러 경제형질에서의 주요 SNP 규명 (Important SNPs Identification from the Economic Traits for the High Quality Korean Cattle)

  • 이제영;김동철
    • Communications for Statistical Applications and Methods
    • /
    • 제16권1호
    • /
    • pp.67-74
    • /
    • 2009
  • 고품질 한우를 만들기 위해 여러 경제형질에 영향을 주는 유전자 즉 single nucleotide polymorphisms(SNPs)를 규명하려고 한다. 이미 Lee 등 (2008a)에 의해 SNP(19_1)$^*$SNP(28_2)가 등심단면적 (LMA: longissimus muscle dorsi area)에 주요한 유전자로 규명되었다. 여기에 추가로 도체중 (CWT: carcass cold weight)과 일당증체량 (ADG: average daily gain)을 선형 모형에 적용하였으며 또한 상호작용에 더 유리하고 연속형 데이터에도 사용할 수 있는 expanded multifactor dimensionality reduction (expanded MDR)을 이용하여 주요한 SNP를 파악하였다. Expanded MDR 적용결과 등심단면적과 같은 결과인 SNP(19_1)과 SNP(19_1)$^*$SNP(28_2)의 상호작용 형태가 가장 좋은 SNP로 선정되었으며, 최종적으로 SNP(19_1)*SNP(28_2) 마커가 한우의 여러 경제형질에 우수 유전자임을 규명하였다.