• 제목/요약/키워드: 결정트리 학습 알고리즘

검색결과 73건 처리시간 0.024초

2 단계 결정트리 학습을 이용한 뇌 자기공명영상 분류 (Classification of Brain Magnetic Resonance Images using 2 Level Decision Tree Learning)

  • 김형일;김용욱
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권1호
    • /
    • pp.18-29
    • /
    • 2007
  • 본 논문에서는 뇌 자기공명영상을 분류하기 위하여 결정트리 알고리즘을 2 단계로 적용하는 영상 분류 시스템을 제안한다. 영상으로부터 얻을 수 있는 정보에는 두 종류가 있다. 하나는 크기, 색상, 질감, 윤곽선 등 영상으로부터 직접 얻을 수 있는 하위레벨 특징들이고, 다른 하나는 특정 객체의 존재 유무, 여러 부위 사이의 공간적 관계 등 분할된 영상들에 대한 해석을 통해서 얻을 수 있는 상위레벨 특징들이다. 의미에 따라 영상을 분류하기 위해서는 상위레벨 특징들을 기반으로 학습 및 분류가 수행되어야 한다. 제안하는 시스템에서는 결정트리 학습을 각각의 레벨에 개별적으로 적용하며, 하위레벨 분류 결과를 이용하여 상위레벨의 특징을 추출한다. 종양이 있는 뇌 자기공명영상 집합에 대하여 분류 실험을 수행하였으며, 몇 가지 실험 결과를 통해 제안된 시스템의 효과를 확인하였다.

불완전한 데이터를 처리하기 위한 데이터 확장기법 (A data extension technique to handle incomplete data)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권2호
    • /
    • pp.7-13
    • /
    • 2021
  • 본 논문은 학습 데이터에 손실값을 포함하고 있는 불완전한 데이터를 위하여 확률을 나타낼 수 있는 형식으로 변환한 후 손실값을 보상하는 알고리즘을 소개한다. 기존에 이러한 데이터 변환을 사용한 방법에서는 손실 변수가 가질 수 있는 균등한 확률로 손실값을 할당하여 불완전한 데이터를 처리하는 것이었다. 이 방법으로 많은 문제에 적용하여 좋은 결과를 얻었으나, 손실 변수에 남아있는 모든 정보를 무시하고 새로운 값을 할당한다는 점에서 정보의 손실이 있다는 지적이 있었다. 이에 반해 새로운 제안 방법은 손실값을 포함하지 않는 완전한 정보만을 잘 알려진 분류 알고리즘(C4.5)에 입력하고 학습하는 중에 결정트리가 구축된다. 그리고 이 결정트리로 부터 손실값에 대한 확률을 구하여 이를 손실 변수의 추정값으로 할당한다. 즉, 불완전한 학습 데이터에서 손실되지 않은 많은 정보들을 사용하여 손실된 일부 정보를 복구하는 것이다.

악성코드 탐지를 위한 기계학습 알고리즘의 성능 비교 (Performance Comparison of Machine Learning Algorithms for Malware Detection)

  • 이현종;허재혁;황두성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제57차 동계학술대회논문집 26권1호
    • /
    • pp.143-146
    • /
    • 2018
  • 서명기반 악성코드 탐지는 악성 파일의 고유 해싱 값을 사용하거나 패턴화된 공격 규칙을 이용하므로, 변형된 악성코드 탐지에 취약한 단점이 있다. 기계 학습을 적용한 악성코드 탐지는 이러한 취약점을 극복할 수 있는 방안으로 인식되고 있다. 본 논문은 정적 분석으로 n-gram과 API 특징점을 추출해 특징 벡터로 구성하여 XGBoost, k-최근접 이웃 알고리즘, 지지 벡터 기기, 신경망 알고리즘, 심층 학습 알고리즘의 일반화 성능을 비교한다. 실험 결과로 XGBoost가 일반화 성능이 99%로 가장 우수했으며 k-최근접 이웃 알고리즘이 학습 시간이 가장 적게 소요됐다. 일반화 성능과 시간 복잡도 측면에서 XGBoost가 비교 대상 알고리즘에 비해 우수한 성능을 보였다.

  • PDF

의사결정트리를 이용한 개별 공시지가 비교표준지의 자동 선정 (An Automatic Method for Selecting Comparative Standard Land Parcels in Land Price Appraisal Using a Decision Tree)

  • 김종윤;박수홍
    • 한국지리정보학회지
    • /
    • 제7권1호
    • /
    • pp.9-19
    • /
    • 2004
  • 개별 공시지가 산정에 있어 비교 표준지의 선정은 가장 중요한 작업으로서, 최대한 객관적이고 합리적으로 이루어져야 한다. 그러나 현재 비교표준지를 선정하는 작업은 담당 공무원의 수작업에 의해 이루어지기 때문에 효율성이나 객관성을 보장하기가 어렵다. 본 연구에서는 현행 비교표준지 선정방식을 분석하여 문제를 정의하고 비교표준지 선정 업무의 자동화에 적용가능한 기계학습 알고리즘으로 의사결정트리를 선정하고 비교표준지를 선정하여 규칙을 주제지향적인 데이터베이스를 기반으로 학습하였다. 이렇게 학습된 규칙을 이용하여 비교표준지를 선정하고 그 결과를 평가 분석하여 새로운 비교표준지 선정 방법을 제안하였다.

  • PDF

한국어 구문분석의 효율성을 개선하기 위한 구문제약규칙의 학습 (Loaming Syntactic Constraints for Improving the Efficiency of Korean Parsing)

  • 박소영;곽용재;정후중;황영숙;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권10호
    • /
    • pp.755-765
    • /
    • 2002
  • 본 논문에서는 한국어 구문분석에 적합한 다양한 구문정보에 대해 살펴보고, 이를 바탕으로 학습한 제약규칙을 이용하여 구문분석모델의 효율성을 개선시키는 방법을 제안한다. 제안하는 방법의 특징은 다음과 같다. 첫째, 제약규칙을 이용하여 불필요한 중간결과물의 생성을 제약하므로, 구문분석의 효율성이 향상된다. 둘째, 제약규칙의 학습에 이용되는 구문정보가 한국어의 특성을 적절히 반영하고 있으므로, 한국어 문장에 대해 비교적 견고하게 분석할 수 있다. 셋째, 제약규칙은 결정트리 학습알고리즘에 의해 말뭉치에서 자동으로 학습되므로, 제약규칙의 획득이 용이하다. 제약규칙을 이용하여 실험한 결과 구문분석모델의 과생성이 1/2~1/3로 줄고 처리속도가 2~3배 빨라졌다.

지식기반 유전자 알고리즘에서 추출된 규칙을 이용한 Cleavage Site 예측 (Cleavage Site Prediction Using the Rule Extracted from Knowledge-Based Genetic Algorithm)

  • 조연진;김현철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.247-249
    • /
    • 2005
  • Cleavage Site 분석 및 예측은 바이러스 증식에 필요한 핵심 단백질인 Protease$(3CL^{pro})$를 예측하게 하고, 예측한 Protease의 활성을 억제함으로써 바이러스 중식을 저지하게 된다. 본 연구에서는 신경망과 결정트리, 유전자 알고리즘을 이용하여 SARS-CoV의 cleavage site를 분석하고, 학습 결과에서 추출된 규칙(Rule)에 의해 cleavage site를 예측한다. 또한 신경망에서 학습된 지식(Knowledge)을 이용하여 유전자 알고리즘의 성능을 향상시키는 지식기반 유전자 알고리즘 (KBGA: Knowledge-Based Genetic Algorithm)을 제안한다.

  • PDF

결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘을 이용한 음성인식에 관한 연구 (A Study on Speech Recognition Using the HM-Net Topology Design Algorithm Based on Decision Tree State-clustering)

  • 정현열;정호열;오세진;황철준;김범국
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.199-210
    • /
    • 2002
  • 본 논문은 한국어 음성인식에서 음향모델의 성능개선을 위한 기초적 연구로서 결정트리 상태 클러스터링에 의한 HM-Net (Hidden Markov Network)의 구조결정 알고리즘을 이용한 음성인식에 관한 연구를 수행하였다. 한국어는 다른 언어와 비교하여 많은 문법과 변이음이 존재하는데, 국어 음성학에서 정의한 다양한 변이음을 조사하고, 음소결정트리를 위한 음소 질의어 집합을 작성하였다. 본 논문의 HM-Net 구조결정 알고리즘의 아이디어는 SSS (Successive State Splitting) 알고리즘의 구조를 가지면서 미리 작성해 둔 문맥의존 음향모델의 상태를 다시 분할하는 방법이다. 즉, 모델의 각 상태위치마다 음소 질의어 집합에 의해 음소결정트리를 생성하고, PDT-SSS (Phonetic Decision Tree-based SSS) 알고리즘에 의해 문맥의존 음향모델의 상태열을 다시 학습하는 방법이다. 결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘의 유효성을 확인하기 위해, 국어공학센터 (KLE)의 452단어와 항공편 예약에 관련된 YNU200 문장을 대상으로 음성인식 실험을 수행하였다. 인식실험 결과, 음소, 단어, 연속음성인식 실험에서 상태분할을 수행한 후 상태수의 변화에 따라 인식률이 점진적으로 향상됨을 확인하였다. 상태수 2,000일 때 음소, 단어 인식률이 평균 71.5%, 99.2%를 각각 얻었으며, 연속음성인식률은 상태수 800일 때 평균 91.6%를 얻었다. 또한 HM-Net 구조결정 알고리즘의 파라미터 공유관계를 비교하기 위해 상태공유를 수행하는 HTK를 이용한 단어인식 실험을 수행하였다. 실험결과, HTK를 이용한 문맥의존 음향모델에 비해 평균 4.0%의 인식률 향상을 보여, 본 논문에서 적용한 결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘의 유효성을 확인하였다.

대용량 데이터를 위한 전역적 범주화를 이용한 결정 트리의 순차적 생성 (Incremental Generation of A Decision Tree Using Global Discretization For Large Data)

  • 한경식;이수원
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.487-498
    • /
    • 2005
  • 최근 들어, 대용량의 데이터를 처리할 수 있는 트리 생성 방법에 많은 관심이 집중되고 있다 그러나 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 데이터가 추가되면 이 데이터를 반영한 결정 트리를 생성하기 위해 처음부터 트리를 다시 생성해야 하다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있으며 이들 알고리즘은 수치형 데이터 처리를 위해 지역적 범주화를 이용한다. 그러나 범주화는 정렬된 형태의 수치형 데이터를 요구하기 때문에 대용량 데이터를 처리해야하는 상황에서 전체 데이터에 대해 한번만 정렬을 수행하는 전역적 범주화 기법이 모든 노드에서 매번 정렬을 수행하는 지역적 범주화보다 적합하다. 본 논문은 수치형 데이터 처리를 위해 전역적 범주화를 이용하여 생성된 트리를 효율적으로 재생성하는 순차적 트리 생성 방법을 제안한다. 새로운 데이터가 추가될 경우, 전역적 범주화에 기반 한 트리를 순차적으로 생성하기 위해서는 첫째, 이 새로운 데이터가 반영된 범주를 재생성해야 하며, 둘째, 범주 변화에 맞게 트리의 구조를 변화시켜야한다. 본 논문에서는 효율적인 범주 재생성을 위해 샘플 분할 포인트를 추출하고 이로부터 범주화를 수행하는 기법을 제안하며 범주 변화에 맞는 트리 구조 변화를 위해 신뢰구간과 트리 재구조화기법을 이용한다. 본 논문에서 피플 데이터베이스를 이용하여 기존의 지역적 범주화를 이용한 경우와 비교 실험하였다.

다중 분포 학습 모델을 위한 Haar-like Feature와 Decision Tree를 이용한 학습 알고리즘 (Learning Algorithm for Multiple Distribution Data using Haar-like Feature and Decision Tree)

  • 곽주현;원일용;이창훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권1호
    • /
    • pp.43-48
    • /
    • 2013
  • Adaboost 알고리즘은 얼굴인식을 위한 Haar-like feature들을 이용하기 위해 가장 널리 쓰이고 있는 알고리즘이다. 매우 빠르며 효율적인 성능을 보이고 있으며 하나의 모델이미지가 존재하는 단일분포 데이터에 대해 매우 효율적이다. 그러나 정면 얼굴과 측면 얼굴을 혼합한 인식 등 둘 이상의 모델이미지를 가진 다중 분포모델에 대해서는 그 성능이 저하된다. 이는 단일 학습 알고리즘의 선형결합에 의존하기 때문에 생기는 현상이며 그 응용범위의 한계를 지니게 된다. 본 연구에서는 이를 해결하기 위한 제안으로서 Decision Tree를 Harr-like Feature와 결합하는 기법을 제안한다. Decision Tree를 사용 함으로서 보다 넓은 분야의 문제를 해결하기 위해 기존의 Decision Tree를 Harr-like Feature에 적합하도록 개선한 HDCT라고 하는 Harr-like Feature를 활용한 Decision Tree를 제안하였으며 이것의 성능을 Adaboost와 비교 평가하였다.

소속 함수 학습을 이용한 퍼지 분류의 성능 개선 (Improving the Performance of Fuzzy Classification Using Membership Function Learning)

  • 곽동헌;김명원
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.462-465
    • /
    • 2004
  • 수치적인 데이터를 분류하기 위한 대표적인 방법은 퍼지 규칙을 사용하는 것이다. 하지만, 이러한 방법은 퍼지 소속 함수를 어떻게 정의하느냐에 따라 퍼지 분류의 성능이 크게 영향을 받는다는 문제점과 퍼지 규칙을 쉽게 이해하기 위해 가능한 퍼지 규칙의 수를 적게 유지해야한다는 문제점이 있다. 본 논문에서는 효과적이며 이해하기 쉬운 퍼지 규칙을 생성하기 위해 기울기 강하법을 기반으로 하는 소속 함수 학습 방법을 제안한다. 에러율을 감소하기 위해 Penalty 연산과 Reward 연산을 통해 소속 함수가 반복적으로 조절된다. 새로운 소속 함수는 Coverage 연산에 의해 생성된다. 또한 이해하기 쉬운 퍼지 규칙을 최적화하기 위해 학습된 소속 함수를 퍼지 결정 트리에 적용한다. 본 논문에서 제안한 알고리즘의 타당성을 확인하기 위해 벤치 마크 데이터인 Iris, Wisconsin Breast Cancer, Pima. Bupa 데이터를 이용하여 실험 결과를 보인다. 실험 결과를 통해 제안한 알고리즘이 기존의 C4.5와 FID 3.1 알고리즘보다 더 효과적이거나 비슷한 성능을 보임을 알 수 있다.

  • PDF