• 제목/요약/키워드: ID3 tree

검색결과 47건 처리시간 0.025초

재처리를 통한 결정트리의 정확도 개선 (Improvement of Accuracy of Decision Tree By Reprocessing)

  • 이계성
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.593-598
    • /
    • 2003
  • 기계학습은 효율적이고 정확한 재사용을 위해 지식을 재구성한다. 본 논문은 이미 알려진 학습 객체들로부터 지식을 추출하는 '예제에 의한 개념학습 방법에 관한 연구이다. 대부분 학습 시스템은 처리와 표현에 대한 제약으로 인해 학습 결과를 새로운 객체에 적용할 때 효율성과 정확도가 기대에 못 미치는 경우가 있다. 본 논문에서는 ID3의 바이어스에 대해 조사하고, 다양한 표현 양식을 통해 보다 정확하고 학습적으로 이해하기 쉬운 분류 방법을 제안한다.

New Species of the Genus Metschnikowia Isolated from Flowers in Indonesia, Metschnikowia cibodasensis sp. nov.

  • Sjamsuridzal, Wellyzar;Oetari, Ariyanti;Nakashima, Chiharu;Kanti, Atit;Saraswati, Rasti;Widyastuti, Yantyati;Ando, Katsuhiko
    • Journal of Microbiology and Biotechnology
    • /
    • 제23권7호
    • /
    • pp.905-912
    • /
    • 2013
  • A novel species, Metschnikowia cibodasensis, is proposed to accommodate eight strains (ID03-$0093^T$, ID03-0094, ID03-0095, ID03-0096, ID03-0097, ID03-0098, ID03-0099, and ID03-0109) isolated from flowers of Saurauia pendula, Berberis nepalensis, and Brunfelsia americana in Cibodas Botanical Garden, West Java, Indonesia. The type strain of M. cibodasensis is ID03-$0093^T$ (= NBRC $101693^T$ =UICC $Y-335^T$ = BTCC-$Y25^T$). The common features of M. cibodasensis are a spherical to ellipsoidopedunculate shaped ascus, which contains one or two needle-shaped ascospores, and lyse at maturity. Asci generally develop directly from vegetative cells but sometimes from chlamydospores. The neighbor-joining tree based on the D1/D2 domain of nuclear large subunit (nLSU) ribosomal DNA sequences strongly supports that M. cibodasensis (eight strains) and its closest teleomorphic species, M. reukaufii, are different species by a 100% bootstrap value. The type strain of M. cibodasensis, ID03-$0093^T$, differed from M. reukaufii NBRC $1679^T$ by six nt (five substitutions and one deletion) in their D1/D2 region of nLSU rDNA, and by 18 nt (five deletions, four insertions, and nine substitutions) in their internal transcribed spacer regions of rDNA, respectively. Four strains representative of M. cibodasensis (ID03-$0093^T$, ID03-0095, ID03-0096, and ID03-0099) showed a mol% G+C content of $44.05{\pm}0.25%$, whereas that of M. reukaufii NBRC $1679^T$ was 41.3%. The low value of DNA-DNA homology (5-16%) in four strains of M. cibodasensis and M. reukaufii NBRC $1679^T$ strongly supported that these strains represent a distinct species.

러프셋 이론과 개체 관계 비교를 통한 의사결정나무 구성 (A New Decision Tree Algorithm Based on Rough Set and Entity Relationship)

  • 한상욱;김재련
    • 대한산업공학회지
    • /
    • 제33권2호
    • /
    • pp.183-190
    • /
    • 2007
  • We present a new decision tree classification algorithm using rough set theory that can induce classification rules, the construction of which is based on core attributes and relationship between objects. Although decision trees have been widely used in machine learning and artificial intelligence, little research has focused on improving classification quality. We propose a new decision tree construction algorithm that can be simplified and provides an improved classification quality. We also compare the new algorithm with the ID3 algorithm in terms of the number of rules.

소셜 복마킹 시스템의 스패머 탐지를 위한 기계학습 기술의 성능 비교 (Comparative Study of Machine learning Techniques for Spammer Detection in Social Bookmarking Systems)

  • 김찬주;황규백
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권5호
    • /
    • pp.345-349
    • /
    • 2009
  • 소결 북마킹(social bookmarking) 시스템은 사용자가 북마크를 저장하고 공유할 수 있는 플랫폼을 제공하는 웹 기반(web-based) 시스템으로 폭소노미(folksonomy)를 이용한 대표적인 웹2.0 서비스이다. 소셜 북마킹 시스템에서의 스패머(spammer)란 자신들의 이익을 위해서 시스템을 고의적으로 악용하는 사람을 말한다. 스패머는 많은 양의 잘못된 정보를 시스템에 포스팅(posting)하기 때문에 전체 소셜 북마킹 시스템의 리소스(resource)를 쓸모없게 만들어 버린다. 따라서, 스패머를 빠른 시간 안에 탐지하고 그들의 접근을 차단하는 것은 시스템의 붕괴를 방지하기 위해 중요하다. 본 논문에서는 사용자가 사용한 태그에 대한 데이터를 추출하여, 사용자가 스패머 인지 아닌지를 예측하는 모델을 기계학습의 다양한 방법을 적용하여 생성한 후 그 성능을 비교해 보았다. 구체적으로, 결정테이블 (decision table, DT), 결정트리(decision tree, ID3), 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier), TAN(tree-augmented $na{\ddot{i}}ve$ Bayes) 분류기, 인공신경망(artificial neural network)의 방법을 비교하였다. 그 결과 AUC(area under the ROC curve)와 모델 생성시간을 고려하였을 때 나이브 베이즈 분류기가 가장 만족할 만한 성능을 보였다. 나이브 베이즈 분류기의 분류 결과가 가장 좋았던 이유는 성능을 비교하는 데 사용된 AUC가 결정트리 계열의 방법(ID3 등)보다 나이브 베이즈 분류기에서 일반적으로 높게 나오는 경향이 있다는 것과, 스패머 탐지 문제가 선형으로 분리 가능한 경우(lineally separable)와 유사할 가능성이 높기 때문으로 여겨진다.

데이터 마이닝을 위한 퍼지 결정트리 (A Fuzzy Decision Tree for Data Mining)

  • 이중근;민창우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.63-65
    • /
    • 1998
  • 사회 전 분야에서 데이터가 폭발적으로 증가함에 따라 데이터를 이해하고 분석하는 새로운 자동적이고 지능적인 데이터 분석 도구와 기술이 필요하게 되었다. KDD(Knowledge Discovery in Databases)는 이러한 필요로부터 데이터에서 유용하고 이해 가능한 지식을 추출하는 연구이다. 데이터 마이닝(Data Mining)은 KDD에서 가장 중요한 단계로 데이터로부터 지식을 추출하는 단계이다. 데이터 마이닝에서 생성된 지식은 좋은 분류율을 가져야하고 이해하기 쉬워야한다. 본 논문에서는 퍼지 결정트리(FDT : Fuzzy Decision Tree)에 기반한 효율적인 데이터 마이닝 알고리즘을 제안한다. FDT의 각 링크는 속성(attribute) 값을 갖는 퍼지 집합이며, EDT의 각 경로는 퍼지 규칙을 생성한다. 제안된 알고리즘은 ID3의 이해성과 퍼지이론의 추론과 표현력을 결합한 방법으로 히스토그램에 이루어진다. 마지막으로 제안된 방법의 타당성을 검증하기 위해 표준적인 패턴 분류 벤치마크 데이터에 대한 실험 결과를 보인다.

  • PDF

RFID 시스템에서 다중 태그 인식을 위한 하이브리드 충돌방지 알고리즘의 개선 및 성능 분석 (Improvement and Performance Analysis of Hybrid Anti-Collision Algorithm for Object Identification of Multi-Tags in RFID Systems)

  • 최태정;서재준;백장현
    • 산업공학
    • /
    • 제22권3호
    • /
    • pp.278-286
    • /
    • 2009
  • The anti-collision algorithms to identify a number of tags in real-time in RFID systems are divided into the anti-collision algorithms based on the Framed slotted ALOHA that randomly select multiple slots to identify the tags, and the anti-collision algorithms based on the Tree-based algorithm that repeat the questions and answer process to identify the tags. In the hybrid algorithm which is combined the advantages of these algorithms, tags are distributed over the frames by selecting one frame among them and then identified by using the Query tree frame by frame. In this hybrid algorithm, however, the time of identifying all tags may increase if many tags are concentrated in a few frames. In this study, to improve the performance of the hybrid algorithm, we suggest an improved algorithm that the tags select a specific group of frames based on the earlier bits of the tag ID so that the tags are distribute equally over the frames. By using the simulation and mathematical analysis, we show that the suggested algorithm outperforms traditional hybrid algorithm from the viewpoint of the number of queries per frame and the time of identifying all tags.

모바일 환경에서 타임스탬프 트리 기반 캐시 무효화 보고 기법 (A Timestamp Tree-based Cache Invalidation Report Scheme in Mobile Environments)

  • 정성원;이학주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.217-231
    • /
    • 2007
  • 이동 컴퓨팅(Mobile Computing)환경에서 빈번한 접속 단절은 클라이언트의 캐시 일관성(Consistency)문제로 직결된다. 이러한 캐시 일관성 문제를 해결하기 위해 무효화 보고(Invalidation Report)에 관한 연구가 진행되고 있다. 그러나 기존의 무효화 보고 기법은 서버 측의 데이타의 수가 많아지거나, 갱신(Update)되는 데이타의 양이 증가하게 되면 무효화 보고 기법의 크기의 증가 및 캐시 효율성의 저하를 가지고 온다. 또한 캐시 전체의 무효화를 확인하는 보고 기법은 선택적 청취(Selective tuning)를 지원하지 못한다. 본 논문에서는 이러한 기존 방식의 문제점을 해결하며 효율성을 개선한 무효화 보고 기법으로써 TTCI(Timestamp Tree-based Cache Invalidation scheme)를 제안한다. 갱신된 데이타의 타임스탬프를 이용하여 타임스탬프 트리를 구성하고 데이타의 아이디를 갱신된 순서대로 나열하여 무효화 보고를 만든다. 이를 활용하게 되면 각 클라이언트는 자신의 단절(Disconnect)된 시점에 맞는 정보를 확인하여 캐시의 이용률을 증가 시킬 수 있다. 또한 트리 구조를 이용하여 선택적 청취를 가능하게 함으로써 클라이언트의 자원 소비를 줄일 수 있다. 이러한 본 구조의 효율성을 검증하기 위해 기존의 기법인 DRCI(Dual-Report Cache Invalidation)와 성능비교를 실시한다.

개선된 타임 슬롯 방법을 이용한 효과적인 태그 인식 알고리즘 (An Efficient Tag Identification Algorithm Using Improved Time Slot Method)

  • 김태희;김선경
    • 한국산업정보학회논문지
    • /
    • 제15권3호
    • /
    • pp.1-9
    • /
    • 2010
  • 최근 유비쿼터스 환경 구축의 가장 핵심은 센서 네트워크와 RFID 시스템이다. 이 중 RFID 시스템은 태그의 전자정보를 RF 신호를 이용하여 리더에게 전송한다. RFID 시스템은 다중 태그의 존재로 인해 충돌이 발생하고 태그 인식 성능이 저하된다. 그래서 태그 충돌을 중재할 수 있는 방법이 필요하다. 본 논문은 태그 간 충돌을 줄이며 좀 더 빠른 태그 인식이 가능한 하이브리드 방법을 제안한다. 본 논문에서 제안하는 방법은 트리기반 알고리즘의 장점인 확실성을 기반으로 동작하며 충돌을 줄이기 위해 태그 아이디를 이용하여 전송 타임 슬롯을 결정한다. 시뮬레이션을 통한 성능평가에서 다른 트리기반의 알고리즘과 다른 하이브리드 알고리즘에 비하여 충돌 횟수와 쿼리 수에서 높은 성능을 가진다는 것을 보여준다.

Microbial Evaluation of Fodder Tree Leaves as Ruminant Feed

  • Odenyo, A.A.;Osuji, P.O.;Negassa, D.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제12권5호
    • /
    • pp.708-714
    • /
    • 1999
  • Fermentation of legume fodder tree leaves by rumen microorganisms was evaluated. The substrates were sun-dried, ground leaves. Gas and volatile fatty acid (VFAs) production were estimated. Using gas production as an index of fermentation at 12 h, the leaves tested ranked as follows; Chamaecytisus palmensis>Gliricidia sepium>Sebania sesban>Tephrosia bracteolate>Leucaena pallida>Vernonia amygdalina>Acacia sieberiana>Sesbania goetzei>Acacia angustissima. Using VFA production, the ranking was a follows; G. sepium>S. sesban>S. goetzei>L. pallida>C. palmensis/V. amygdalina>T. bracteolate> A. sieberiana>A. angustissima. Absolute gas or VFA production rates, were also used to rank the leaves. Extracts (70% acetone) of A. angustissima inhibited the growth of Ruminococcus albus 8, R. flavefaciens FD-1, Prevotella ruminicola D3ID and Streptococcus bovis JBI while the trowth of Selenomonas ruminantium D was depressed when 0.6 ml exracts were added. C. palmensis water extracts enhanced cellulose hydrolysis by R. flavefaciens FD-1. All extracts reduced celluloysis by R. albus 8. R. flavefaciens FD-1 hydrolyzed more (p<0.001) cellulose than R. albus 8.

Personalized Anti-spam Filter Considering Users' Different Preferences

  • Kim, Jong-Wan
    • 한국멀티미디어학회논문지
    • /
    • 제13권6호
    • /
    • pp.841-848
    • /
    • 2010
  • Conventional filters using email header and body information equally judge whether an incoming email is spam or not. However this is unrealistic in everyday life because each person has different criteria to judge what is spam or not. To resolve this problem, we consider user preference information as well as email category information derived from the email content. In this paper, we have developed a personalized anti-spam system using ontologies constructed from rules derived in a data mining process. The reason why traditional content-based filters are not applicable to the proposed experimental situation is described. In also, several experiments constructing classifiers to decide email category and comparing classification rule learners are performed. Especially, an ID3 decision tree algorithm improved the overall accuracy around 17% compared to a conventional SVM text miner on the decision of email category. Some discussions about the axioms generated from the experimental dataset are given too.