• 제목/요약/키워드: k-nearest neighbor method

검색결과 313건 처리시간 0.026초

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

재무예측을 위한 Support Vector Machine의 최적화 (Optimization of Support Vector Machines for Financial Forecasting)

  • 김경재;안현철
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.241-254
    • /
    • 2011
  • Support vector machines(SVM)은 비교적 최근에 등장한 데이터마이닝 기법이지만, 재무, CRM 등의 경영학 분야에서 많이 연구되고 있다. SVM은 인공신경망과 필적할 만큼의 예측 정확도를 보이는 사례가 많았지만, 암상자로 불리는 인공신경망 모형에 비해 구축된 예측모형의 구조를 이해하기 쉽고, 인공신경망에 비해 과도적합의 가능성이 적어서 적은 수의 데이터에서도 적용 가능하다는 장점을 가지고 있다. 하지만, 일반적인 SVM을 이용하려면, 인공신경망과 마찬가지로 여러 가지 설계요소들을 설계자가 선택하여야 하기 때문에 임의성이 높고, 국부 최적해에 수렴할 가능성도 크다. 또한, 많은 수의 데이터가 존재하는 경우에는 데이터를 분석하고 이용하는데 시간이 소요되고, 종종 잡음이 심한 데이터가 포함된 경우에는 기대하는 수준의 예측성과를 얻지 못할 가능성이 있다. 본 연구에서는 일반적인 SVM의 장점을 그대로 유지하면서, 전술한 두 가지 단점을 보완한 새로운 SVM 모형을 제안한다. 본 연구에서 제안하는 모형은 사례선택기법을 일반적인 SVM에 융합한 것으로 대용량의 데이터에서 예측에 불필요한 데이터를 선별적으로 제거하여 예측의 정확도와 속도를 제고할 수 있는 방법이다. 본 연구에서는 잡음이 많고 예측이 어려운 것으로 알려진 재무 데이터를 활용하여 제안 모형의 유용성을 확인하였다.

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

8체질 진단을 위한 전문가 시스템 개발에 관한 연구(2) (A Study for 8 Constitution Medicine Diagnosis Expert System Development(2))

  • 신용섭;박영배;박영재;김민용;이상철;오환섭
    • 대한한의진단학회지
    • /
    • 제12권2호
    • /
    • pp.107-126
    • /
    • 2008
  • Background : There was seldom study about method that diagnose 8 Constitution beside method of pulse diagnosis in 8 Constitution Medicine. Objectives : This study is to make out 8 Constitution Medicine Diagnosis Expert System Development used CBR(Case based Reasoning). Methods : First, at case base construction process we constructed case base for CBR embodiment because gathering 925 cases all to patient who constitution is verified, and second, at study model establishment process superior expert system development by purpose CBR of reasoning process dividing fundamental type CBR that spend basis data value and expert type CBR that reflect weight in basis data value accordin I II III to advice expert opinion, and third, system embodiment process explained about way to give process and weight that diagnose constitution through Nearest Neighbor Method sampling process of CBR techniques, and fourth, at system estimation process we selected superior CBR model because comparing and estimate the diagnosis rate of expert system with fundamental type system (GECBR) model and expert type I II III CBR system (AVCBR, AACBR, AGCBR) model that reflect expert opinion in fundamental type system. GECBR and AGCBR chose on superior study model. Through such 4 study process, we developed 8 constitution diagnosis expert system lastly. Results : 1. When we select GECBR that is fundamental type by reasoning system, diagnosis rate 78.91% of 8 constitution diagnosis expert system is expected, and the constitution diagnosis rate Hepatonia 90.4%, Cholecystonia 63.0%, Pancreotonia 91.1%, Gastrotonia 0%, Pulmotonia 71.2%, Colonotonia 74.4%, Renotonia 37.5%, Vesicotonia 67.1% expect. 2. When we select AGCBR that is expert type III by reasoning system, diagnosis rate 77.51% of 8 constitution diagnosis expert system is expected, and the constitution diagnosis rate Hepatonia 93.4%, Cholecystonia 58.5%, Pancreotonia 91.1%, Gastrotonia 0%, Pulmotonia 73.1%, Colonotonia 64.4%, Renotonia 41.7%, Vesicotonia 72.2% expect. Conclusion : Based on this study, 8 constitution diagnosis expert system may give help to diagnose 8 constitution, and it is going to utilize as objective estimation tool of 8 constitution diagnosis, and further study for 8 Constitution Medicine Diagnosis Expert System Development used CBR(Case based Reasoning) is needed to supplement this study.

  • PDF

8체질의학을 위한 진단 전문가 시스템 개발 및 고찰 (A Study for 8 Constitution Medicine Diagnosis Expert System Development)

  • 신용섭;박영배;박영재;김민용;오환섭
    • 대한한의진단학회지
    • /
    • 제12권1호
    • /
    • pp.142-184
    • /
    • 2008
  • Background: There was seldom study about method that diagnose 8 Constitution beside method of pulse diagnosis in 8 Constitution Medicine. Objectives: This study is to make out 8 Constitution Medicine Diagnosis Expert System Development used CBR(Case based Reasoning). Methods: First, at case base construction process we constructed case base for CBR embodiment because gathering 925 cases all to patient who constitution is verified, and second, at study model establishment process superior expert system development by purpose CBR of reasoning process dividing fundamental type CBR that spend basis data value and expert type I II III CBR that reflect weight in basis data value according to advice expert opinion, and third, system embodiment process explained about way to give process and weight that diagnose constitution through Nearest Neighbor Method sampling process of CBR techniques, and fourth, at system estimation process we selected superior CBR model because comparing and estimate the diagnosis rate of expert system with fundamental type system (GECBR) model and expert type I II III CBR system (AVCBR, AACBR, AGCBR) model that reflect expert opinion in fundamental type system. GECBR and AGCBR chose on superior study model. Through such 4 study process, we developed 8 constitution diagnosis expert system lastly. Results: 1. When we select GECBR that is fundamental type by reasoning system, diagnosis rate 78.91% of 8 constitution diagnosis expert system is expected, and the constitution diagnosis rate Hepatonia 90.4%, Cholecystonia 63.0%, Pancreotonia 91.1%, Gastrotonia 0%, Pulmotonia 71.2%, Colonotonia 74.4%, Renotonia 37.5%, Vesicotonia 67.1% expect. 2. When we select AGCBR that is expert type III by reasoning system, diagnosis rate 77.51% of 8 constitution diagnosis expert system is expected, and the constitution diagnosis rate Hepatonia 93.4%, Cholecystonia 58.5%, Pancreotonia 91.1%, Gastrotonia 0%, Pulmotonia 73.1%, Colonotonia 64.4%, Renotonia 41.7%, Vesicotonia 72.2% expect. Conclusion: Based on this study, 8 constitution diagnosis expert system may give help to diagnose 8 constitution, and it is going to utilize as objective estimation tool of 8 constitution diagnosis, and further study for 8 Constitution Medicine Diagnosis Expert System Development used CBR(Case based Reasoning) is needed to supplement this study.

  • PDF

밀리미터파 대역 차량용 레이더를 위한 순서통계 기법을 이용한 다중표적의 데이터 연관 필터 (Multi-target Data Association Filter Based on Order Statistics for Millimeter-wave Automotive Radar)

  • 이문식;김용훈
    • 대한전자공학회논문지SP
    • /
    • 제37권5호
    • /
    • pp.94-104
    • /
    • 2000
  • 차량 충돌 경보용 레이더 시스템의 개발에 있어 표적 추적의 정확도와 신뢰도는 매우 중요한 요소이다. 여러 표적을 동시에 추적할 때 중요한 것은 표적과 측정치와의 데이터 연관(data association) 이며, 부적절한 측정치가 어느 표적과 연관되면 그 표적은 트랙을 벗어나 추적능력을 잃어버릴 수 있고 심지어 다른 표적의 추적에도 영향을 줄 수 있다 지금까지 발표된 대부분의 데이터 연관 필터들은 근접하여 이동하는 표적들의 경우 이와 같은 문제점을 보여왔다 따라서, 현재 개발되고 있는 많은 알고리즘들은 이러한 데이터 연 관 문제의 해결에 초점을 맞추고 있다 본 논문에서는 순서통계(order statistics)를 이용한 새로운 다중 표적의 데이터 연관 방법에 대하여 서술하고자 한다 OSPDA와 OSJPDA로 불리는 제안된 방법은 각각 PDA 필터 또는 JPDA 필터에서 계산된 연관 확률을 이용하며 이 연관 확률을 결정 논리(dicision logic)에 의한 가중치로 함수화 하여 표적과 측정치 사이에 최적 혹은 최적 근처의(near optimal) 데이터 연관이 가능하도록 한 것이다 시뮬레이션 결과를 통해, 제안한 방법은 기존의 NN 필터, PDA 필터, 그리고 JPDA 필터의 성능과 비교 분석되었으며, 그 결과 제안한 OSPDA, OSJPDA 필터는 PDA, JPDA 필터보다 추적 정확도에 대해 각각 약 18%, 19% 이상으로 성능이 향상됨을 확인하였다 제안한 방법은 CAN을 통해 차량 엔진 등의 ECU와 통신하도록 개발된 DSP 보드를 이용하여 구현되었다

  • PDF

한국 전통음악 (국악)에 대한 자동 장르 분류 시스템 구현 (An Implementation of Automatic Genre Classification System for Korean Traditional Music)

  • 이강규;윤원중;박규식
    • 한국음향학회지
    • /
    • 제24권1호
    • /
    • pp.29-37
    • /
    • 2005
  • 본 논문은 한국의 전통 음악, 즉 국악 장르를 자동으로 분류하는 시스템을 제안한다. 제안된 시스템은 입력 음악의 내용기반 분석을 통하여 궁중음악, 풍류방음악, 민속성악, 민속기악, 불교음악, 무속음악 등 6가지 장르중 하나로 자동분류하여 해당 음악의 장르 결과를 보여준다. 국악 장르 분류에 사용된 내용기반 알고리즘은 크게 음악의 특징 벡터 추출 그리고 장르 분류를 위한 패턴인식 과정 2가지로 구성된다. 음악의 특징 벡터 추출은 디지탈 신호 처리기술을 이용하여 해당 음악의 spectral centroid, rolloff, flux 등 STFT (Short Time Fourier Transform) 기반의 특징 계수들과 MFCC (Mel frequency cepstral coefficient), LPC (Linear predictive coding) 등의 계수들을 구한 후 SFS (Sequential Forward Selection) 최적 특징 벡터 열을 선별하여 사용하였으며 패틴 분류 알고리즘으로는 k-NN (k -Nearest Neighbor), Gaussian, GMM (Gaussian Mixture Model), SVM (Support Vector Machine) 분류기를 사용하였다. 특히 본 연구에서는 입력 질의의 패턴 (혹은 구간) 변화에 따른 시스템의 불확실성을 개선하기 위하여 MFC (Multi Feature Clustring) 방법을 이용하여 DB를 구축하였다. 모의실험 결과 k-NN 과 SVM 분류기 모두 $97{\%}$ 이상의 장르 분류 성공률을 보였으나, SVM 이 k-NN에 비해 약 3배 이상의 빠른 분류 성능을 가지고 있음을 확인하였다.

이미지 데이터베이스에서 매개변수를 필요로 하지 않는 클러스터링 및 아웃라이어 검출 방법 (A Parameter-Free Approach for Clustering and Outlier Detection in Image Databases)

  • 오현교;윤석호;김상욱
    • 전자공학회논문지CI
    • /
    • 제47권1호
    • /
    • pp.80-91
    • /
    • 2010
  • 이미지 데이터가 증가함에 따라 효율적인 검색을 위해서 이미지 데이터를 구조화해야 할 필요성이 증가하고 있다. 이미지 데이터를 구조화하기 위한 대표적인 방법으로는 클러스터링이 있다. 그러나 기존 클러스터링 방법들은 클러스터링을 수행하기 전에 매개변수로서 클러스터의 개수를 사용자로부터 제공 받아야 되는 어려움이 있다. 본 논문에서는 클러스터의 개수를 사용자에게 제공 받지 않고 이미지 데이터를 클러스터링 하는 방안에 대해서 논의 한다. 제안하는 방안은 객체들 간의 상호 연관관계를 이용하여 매개변수 없이 데이터의 감추어진 구조나 패턴을 찾아내는 방법인 Cross-Association을 기반으로 한다. 이미지 데이터 클러스터링에 Cross-Association을 적용하기 위해서는 먼저 이미지 데이터를 그래프로 변환해야 한다. 그런 후에 생성된 그래프를 Cross-Association에 적용시키고 그 결과를 클러스터링 관점에서 해석한다. 본 논문에서는 또한 Cross-Association을 기반으로 계층적 클러스터링 하는 방법과 아웃라이어 검출 방법을 제안한다. 실험을 통해서 제안하는 방법의 우수성을 규명하고 이미지 데이터를 클러스터링 하는데 적절한 k-최근접 이웃검색에서의 k값과 더 나은 그래프 생성 방법이 무엇인지를 제시한다.

북 마크 자동 분류를 위한 학습 에이전트 (A Learning Agent for Automatic Bookmark Classification)

  • 김인철;조수선
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.455-462
    • /
    • 2001
  • 웹은 이제 인터넷의 중요한 서비스중의 하나가 되었다. 웹 공간을 탐색할 때 사용자들은 항해하는 동한 만나는 흥미 있는 사이트들을 기록하기 위해 북 마크 기능을 이용한다. 북 마크 기능을 이용할때 겪는 문제중의 하나가 거듭된 새로운 북 마크의 추가로 인해 북 마크 리스트의 길이가 길어지면 북 마크 리스트가 일관성 있는 구성을 잃어버리게 되어 실제적인 도움을 주기 어렵다는 것이다. 사용자가 북 마크 파일을 효율적이고 체계적으로 유지하기 위해서는 북 마크 파일에 추가되는 새로운 북 마크들을 카테고리별로 분류하여 신규 폴더를 찾아 삽입해주어야 한다. 본 논문에서는 대응되는 웹 문서들을 다운 받아 내용을 분서함으로써 자동으로 북 마크를 분류하는 BClassifier라 불리는 학습에이전트를 소개한다. BClassifier 에이전트를 위한 훈련 예의 주된 공급원은 바로 사용자가 명시적으로 이미 주제에 따라 몇 개의 북 마크 폴더들로 분류해놓은 북 마크들이다. 여기에 주제 카테고리들을 확대하고 이들에 대한 훈련 문서들을 확보하기 위해 추가적으로 Yahoo 사이트의 최상휘 카테고리들로부터 웹 문서들을 수집하여 훈련 예에 포함시킨다. BClassifier 에이전트는 잘 알여진 확률기반의 분류 기술이나 나이브 베이지안 학습 방법을 채용하고 있다. 본 논문에서는 BClassifier 에이전트에 관한 몇 가지 실험 결과를 소개하고 평가한다. 나이브 베이지안 방법과 k-최근접 이웃 방법, TFIDF 등과 같은 서로 다른 학습 방법들과 비교 실험 결과도 제시한다.

  • PDF

시그니처 트리를 사용한 의미적 유사성 검색 기법 (Semantic Similarity Search using the Signature Tree)

  • 김기성;임동혁;김철한;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.546-553
    • /
    • 2007
  • 온톨로지의 활용이 늘어나면서 의미적 유사성 검색에 대한 관심이 높아지고 있다. 본 논문에서는 질의 객체와의 의미적 유사성이 높은 객체를 검색하는 최근접 질의 기법을 제안하였다. 의미적 유사성을 측정하는 유사성 함수로는 최적 대응값 방식의 유사도 함수를 사용하였으며 주석 정보에 대한 색인을 위해 시그니처 트리를 사용하였다. 시그니처 트리는 집합 유사성 검색에서 많이 사용되는 색인 구조로서 유사성 검색에 사용하기 위해서는 검색시 각 노드를 탐색하였을 때 발견할 수 있는 유사도의 최대값을 예측할 수 있어야 한다. 이에 본 논문에서는 최적 대응값 방식의 유사도 함수에 대한 예측 최대값 함수를 제안하고 올바른 예측 함수임을 증명하였다. 또한 시그니처 트리에 동일한 시그니처가 중복되어 저장되지 않도록 구조를 개선하였다. 이는 시그니처 트리의 크기를 감소시킬 뿐만 아니라 질의 성능 또한 향상시켜 주었다. 실험의 데이타로는 대용량 온톨로지와 주석 정보 데이타를 제공하는 Gene Ontology(GO)를 사용하였다. 실험에서는 제안한 방법의 성능 향상 외에도 페이지 크기와 노드 분할 방법이 의미적 유사성 질의 성능에 미치는 영향에 대해 알아보았다.