• 제목/요약/키워드: k-Nearest neighbor

검색결과 641건 처리시간 0.029초

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

8체질의학을 위한 진단 전문가 시스템 개발 및 고찰 (A Study for 8 Constitution Medicine Diagnosis Expert System Development)

  • 신용섭;박영배;박영재;김민용;오환섭
    • 대한한의진단학회지
    • /
    • 제12권1호
    • /
    • pp.142-184
    • /
    • 2008
  • Background: There was seldom study about method that diagnose 8 Constitution beside method of pulse diagnosis in 8 Constitution Medicine. Objectives: This study is to make out 8 Constitution Medicine Diagnosis Expert System Development used CBR(Case based Reasoning). Methods: First, at case base construction process we constructed case base for CBR embodiment because gathering 925 cases all to patient who constitution is verified, and second, at study model establishment process superior expert system development by purpose CBR of reasoning process dividing fundamental type CBR that spend basis data value and expert type I II III CBR that reflect weight in basis data value according to advice expert opinion, and third, system embodiment process explained about way to give process and weight that diagnose constitution through Nearest Neighbor Method sampling process of CBR techniques, and fourth, at system estimation process we selected superior CBR model because comparing and estimate the diagnosis rate of expert system with fundamental type system (GECBR) model and expert type I II III CBR system (AVCBR, AACBR, AGCBR) model that reflect expert opinion in fundamental type system. GECBR and AGCBR chose on superior study model. Through such 4 study process, we developed 8 constitution diagnosis expert system lastly. Results: 1. When we select GECBR that is fundamental type by reasoning system, diagnosis rate 78.91% of 8 constitution diagnosis expert system is expected, and the constitution diagnosis rate Hepatonia 90.4%, Cholecystonia 63.0%, Pancreotonia 91.1%, Gastrotonia 0%, Pulmotonia 71.2%, Colonotonia 74.4%, Renotonia 37.5%, Vesicotonia 67.1% expect. 2. When we select AGCBR that is expert type III by reasoning system, diagnosis rate 77.51% of 8 constitution diagnosis expert system is expected, and the constitution diagnosis rate Hepatonia 93.4%, Cholecystonia 58.5%, Pancreotonia 91.1%, Gastrotonia 0%, Pulmotonia 73.1%, Colonotonia 64.4%, Renotonia 41.7%, Vesicotonia 72.2% expect. Conclusion: Based on this study, 8 constitution diagnosis expert system may give help to diagnose 8 constitution, and it is going to utilize as objective estimation tool of 8 constitution diagnosis, and further study for 8 Constitution Medicine Diagnosis Expert System Development used CBR(Case based Reasoning) is needed to supplement this study.

  • PDF

밀리미터파 대역 차량용 레이더를 위한 순서통계 기법을 이용한 다중표적의 데이터 연관 필터 (Multi-target Data Association Filter Based on Order Statistics for Millimeter-wave Automotive Radar)

  • 이문식;김용훈
    • 대한전자공학회논문지SP
    • /
    • 제37권5호
    • /
    • pp.94-104
    • /
    • 2000
  • 차량 충돌 경보용 레이더 시스템의 개발에 있어 표적 추적의 정확도와 신뢰도는 매우 중요한 요소이다. 여러 표적을 동시에 추적할 때 중요한 것은 표적과 측정치와의 데이터 연관(data association) 이며, 부적절한 측정치가 어느 표적과 연관되면 그 표적은 트랙을 벗어나 추적능력을 잃어버릴 수 있고 심지어 다른 표적의 추적에도 영향을 줄 수 있다 지금까지 발표된 대부분의 데이터 연관 필터들은 근접하여 이동하는 표적들의 경우 이와 같은 문제점을 보여왔다 따라서, 현재 개발되고 있는 많은 알고리즘들은 이러한 데이터 연 관 문제의 해결에 초점을 맞추고 있다 본 논문에서는 순서통계(order statistics)를 이용한 새로운 다중 표적의 데이터 연관 방법에 대하여 서술하고자 한다 OSPDA와 OSJPDA로 불리는 제안된 방법은 각각 PDA 필터 또는 JPDA 필터에서 계산된 연관 확률을 이용하며 이 연관 확률을 결정 논리(dicision logic)에 의한 가중치로 함수화 하여 표적과 측정치 사이에 최적 혹은 최적 근처의(near optimal) 데이터 연관이 가능하도록 한 것이다 시뮬레이션 결과를 통해, 제안한 방법은 기존의 NN 필터, PDA 필터, 그리고 JPDA 필터의 성능과 비교 분석되었으며, 그 결과 제안한 OSPDA, OSJPDA 필터는 PDA, JPDA 필터보다 추적 정확도에 대해 각각 약 18%, 19% 이상으로 성능이 향상됨을 확인하였다 제안한 방법은 CAN을 통해 차량 엔진 등의 ECU와 통신하도록 개발된 DSP 보드를 이용하여 구현되었다

  • PDF

지상부 바이오매스 탄소저장량의 추정에 위치 오차가 미치는 영향 (Effect of Location Error on the Estimation of Aboveground Biomass Carbon Stock)

  • 김상필;허준;정재훈;유수홍;김경민
    • 한국측량학회지
    • /
    • 제29권2호
    • /
    • pp.133-139
    • /
    • 2011
  • 산림의 바이오매스 탄소저장량을 추정하는 것은 산림의 공익적인 가치를 평가하기 위해 선행되어야 하는 연구이다. 하지만 기존의 바이오매스 탄소저장량 추정에 관한 연구는 대부분 결정론적 모델이 사용되어 오차에 의한 영향을 알 수 없다는 한계를 가진다. 본 연구에서는 단양군의 지상부 바이오매스 탄소저장량 추정의 경우를 대상으로 몬테카를로 시뮬레이션을 통해 위치 오차에 의한 추정오차의 영향을 분석하고자 하였다. 기본적인 추정 방법으로는 kNN 알고리즘이 사용되었으며, 표본점의 위치에 우연오차 및 계통오차를 추가하여 RMSE의 변화를 통해 추정오차에 미치는 영향을 분석하였다. 분석결과 일반적인 위성영상에서 발생 할 수 있는 0.5~1 영상소의 위치오차에 의해 추정의 평균 RMSE가 24.8 tonC/ha에서 26 tonC/ha로 증가하는 것으로 확인되었으며, 추정 오차의 범위는 23.8 tonC/ha에서 28.1 tonC/ha로 나타났다. 하지만, 대상지역의 특성에 의해 0.8 영상소 이상의 우연오차에 대해서는 더 이상의 RMSE 증가가 없이 수렴하는 것으로 확인되었다. 방향을 고려한 계통오차에 대한분석의 경우 실험자료에서 특정한 경향은 발견되지 않았다.

독립성분분석을 이용한 다변량 시계열 모의 (Multivariate Time Series Simulation With Component Analysis)

  • 이태삼;호세살라스;주하카바넨;노재경
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2008년도 학술발표회 논문집
    • /
    • pp.694-698
    • /
    • 2008
  • In hydrology, it is a difficult task to deal with multivariate time series such as modeling streamflows of an entire complex river system. Normal distribution based model such as MARMA (Multivariate Autorgressive Moving average) has been a major approach for modeling the multivariate time series. There are some limitations for the normal based models. One of them might be the unfavorable data-transformation forcing that the data follow the normal distribution. Furthermore, the high dimension multivariate model requires the very large parameter matrix. As an alternative, one might be decomposing the multivariate data into independent components and modeling it individually. In 1985, Lins used Principal Component Analysis (PCA). The five scores, the decomposed data from the original data, were taken and were formulated individually. The one of the five scores were modeled with AR-2 while the others are modeled with AR-1 model. From the time series analysis using the scores of the five components, he noted "principal component time series might provide a relatively simple and meaningful alternative to conventional large MARMA models". This study is inspired from the researcher's quote to develop a multivariate simulation model. The multivariate simulation model is suggested here using Principal Component Analysis (PCA) and Independent Component Analysis (ICA). Three modeling step is applied for simulation. (1) PCA is used to decompose the correlated multivariate data into the uncorrelated data while ICA decomposes the data into independent components. Here, the autocorrelation structure of the decomposed data is still dominant, which is inherited from the data of the original domain. (2) Each component is resampled by block bootstrapping or K-nearest neighbor. (3) The resampled components bring back to original domain. From using the suggested approach one might expect that a) the simulated data are different with the historical data, b) no data transformation is required (in case of ICA), c) a complex system can be decomposed into independent component and modeled individually. The model with PCA and ICA are compared with the various statistics such as the basic statistics (mean, standard deviation, skewness, autocorrelation), and reservoir-related statistics, kernel density estimate.

  • PDF

북 마크 자동 분류를 위한 학습 에이전트 (A Learning Agent for Automatic Bookmark Classification)

  • 김인철;조수선
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.455-462
    • /
    • 2001
  • 웹은 이제 인터넷의 중요한 서비스중의 하나가 되었다. 웹 공간을 탐색할 때 사용자들은 항해하는 동한 만나는 흥미 있는 사이트들을 기록하기 위해 북 마크 기능을 이용한다. 북 마크 기능을 이용할때 겪는 문제중의 하나가 거듭된 새로운 북 마크의 추가로 인해 북 마크 리스트의 길이가 길어지면 북 마크 리스트가 일관성 있는 구성을 잃어버리게 되어 실제적인 도움을 주기 어렵다는 것이다. 사용자가 북 마크 파일을 효율적이고 체계적으로 유지하기 위해서는 북 마크 파일에 추가되는 새로운 북 마크들을 카테고리별로 분류하여 신규 폴더를 찾아 삽입해주어야 한다. 본 논문에서는 대응되는 웹 문서들을 다운 받아 내용을 분서함으로써 자동으로 북 마크를 분류하는 BClassifier라 불리는 학습에이전트를 소개한다. BClassifier 에이전트를 위한 훈련 예의 주된 공급원은 바로 사용자가 명시적으로 이미 주제에 따라 몇 개의 북 마크 폴더들로 분류해놓은 북 마크들이다. 여기에 주제 카테고리들을 확대하고 이들에 대한 훈련 문서들을 확보하기 위해 추가적으로 Yahoo 사이트의 최상휘 카테고리들로부터 웹 문서들을 수집하여 훈련 예에 포함시킨다. BClassifier 에이전트는 잘 알여진 확률기반의 분류 기술이나 나이브 베이지안 학습 방법을 채용하고 있다. 본 논문에서는 BClassifier 에이전트에 관한 몇 가지 실험 결과를 소개하고 평가한다. 나이브 베이지안 방법과 k-최근접 이웃 방법, TFIDF 등과 같은 서로 다른 학습 방법들과 비교 실험 결과도 제시한다.

  • PDF

대용량 이력자료를 활용한 다중시간대 고속도로 교통량 예측 (Multiple Period Forecasting of Motorway Traffic Volumes by Using Big Historical Data)

  • 장현호;윤병조
    • 대한토목학회논문집
    • /
    • 제38권1호
    • /
    • pp.73-80
    • /
    • 2018
  • 고속도로 교통류 제어는 기존의 Reactive 방식(실시간 대응)에서 Proactive 방식(사전 대응)으로 발전하고 있다. 첨단 고속도로 교통류 제어의 핵심 입력자료 중 하나는 여러 시간대에 걸치는 장래 교통량 상태이다. 다중 시간대 교통량 예측을 위해서는 장래 상태의 불확실성을 극복해야 한다. 이는 예측 시간대의 확장에 따라 장래 상태의 불확실성은 증가하기 때문이다. 따라서 다중 시간대 교통량 예측을 위해서는 장래 상태의 불확실성을 효과적으로 극복할 수 있는 실행 가능한 방안이 필요하다. 본 연구에서는 대용량 이력자료에 내재된 교통류 상태의 시간적 진화 행태를 이용하여 장래 상태의 불확실성을 효과적으로 극복함으로써 다중 시간대 장래 교통량 상태를 예측하는 모형을 제시하도록 한다. 개발 모형은 현행 교통량의 상태 진화를 기반으로 대용량 자료에 내재된 과거 상태를 추출하고, 이를 이용하여 장래 상태를 예측한다. 추가로, 개발된 모형은 실제 적용을 고려하여 자료관리시스템에 적합하도록 설계되었다. 적용결과, 개발모형은 다중 시간대에 걸치는 불확실성을 효과적으로 극복함으로써 우수한 예측력을 보였으며, 첨단자료관리시스템에 실제 적용이 가능하다고 판단된다.

사례기반추론의 유사 임계치 및 커버리지 최적화 (Optimizing Similarity Threshold and Coverage of CBR)

  • 안현철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권8호
    • /
    • pp.535-542
    • /
    • 2013
  • 사례기반추론(CBR)은 많은 장점으로 인해 지금까지 의료진단, 생산계획, 고객분류 등 다양한 분야의 의사결정 지원에 적용되어 왔다. 그러나, 효과적인 CBR 시스템을 설계, 구축하기 위해서는 연구자가 직관적으로 설정해야 할 많은 설계요소들이 존재한다. 본 연구에서는 이러한 CBR의 여러 설계요소들 중 사례 검색 단계에서 결합할 이웃 사례들을 보다 효과적으로 선정할 수 있는 새로운 모형을 제시한다. 기존 연구에서는 결합할 이웃 사례를 선정하는 방법으로 사전에 정해진 이웃사례의 수(k-NN의 k)를 적용하든가, 혹은 최대 유사도의 상대적 비율을 임계치로 사용하는 방식을 적용해 왔다. 하지만, 본 연구에서는 결합할 유사사례를 선택하는 새로운 기준으로 0에서 1사이의 값을 갖는 절대적 유사 임계치를 사용할 것을 제안한다. 이 경우, 임계치 값이 과도하게 작아지게 되면, 예측결과의 생성이 잘 이루어지지 않을 수 있는 문제가 발생할 수 있다. 이에, 전체 학습사례들 중에서 예측결과가 생성된 사례의 비중을 커버리지(coverage)로 정의하고, 이를 유사 임계치 최적화 시 제약조건으로 설정함으로서, 사용자가 원하는 수준의 커버리지는 유지한 상태에서 가장 효과적인 유사 사례를 찾아 추론할 수 있도록 모형을 설계하였다. 제안 모형의 유용성을 검증하기 위해, 본 연구에서는 이 모형을 실존하는 국내 한 온라인 쇼핑몰의 표적 마케팅 사례에 적용하였다. 그 결과, 제안 모형이 CBR의 예측 성과를 유의미하게 개선시킬 수 있음을 확인할 수 있었다.

완전 자율주행을 위한 도로 상태 기반 제동 강도 계산 시스템 (The Road condition-based Braking Strength Calculation System for a fully autonomous driving vehicle)

  • 손수락;정이나
    • 인터넷정보학회논문지
    • /
    • 제23권2호
    • /
    • pp.53-59
    • /
    • 2022
  • 3단계 자율주행 차량 이후, 4, 5단계의 자율주행 기술은 차량의 완벽한 주행뿐만 아니라 탑승객의 상태를 최적으로 유지하기 위해 노력하고 있다. 그러나 현재 자율주행 기술은 LiDAR, 전방 카메라 등 시각적 정보에 과하게 의존하기 때문에 지정된 도로 이외의 도로에서 완벽하게 자율주행을 실행하기 힘들다. 따라서 본 논문은 차량이 시각 정보 외의 데이터를 사용하여 도로의 상태를 분류하고, 도로 상태와 주행 상태에 따라 최적의 제동 강도를 계산하는 BSCS (Braking Strength Calculation System)를 제안한다. 본 논문에서 제안하는 BSCS는 KNN 알고리즘을 기반으로 도로의 상태를 분류하는 RCDM (Road Condition Definition Module)과 RCDM의 결과와 현재 주행 상태를 통해 주행 중 최적의 제동 강도를 계산하는 BSCM (Braking Strength Calculation Module)로 구성된다. 본 논문의 실험 결과, KNN 알고리즘에 가장 적합한 K의 수를 찾을 수 있었고, 비지도 학습인 K-means 알고리즘보다 본 논문에서 제안한 RCDM이 더 정확한 것이 증명되었다. 해당 논문의 BSCS는 시각 정보뿐만 아니라 서스펜션에 가해지는 진동 데이터를 사용함으로써, 시각 정보가 제한되는 여러 환경에서 자율주행 차량의 제동을 더 원활하게 만들 수 있다.

저온에서 규칙적인 단일벽 탄소나노튜브 배열의 수소 흡착 특성 (Adsorption Characteristics of Hydrogen in Regular Single-Walled Carbon Nanotube Arrays at Low Temperature)

  • 서양곤
    • 청정기술
    • /
    • 제29권3호
    • /
    • pp.217-226
    • /
    • 2023
  • 본 연구에서는 grand canonical 몬테카를로 전산모사 방법을 이용하여 정사각형 배열을 가지는 단일벽나노튜브에서 나노튜브의 직경과 가장 가까운 튜브들 사이의 거리의 함수로써 수소의 흡착특성을 연구하였다. 그리고 동일한 직경과 간격을 가지는 삼각형 배열을 이용하여 기하학에 대한 영향도 연구하였다. 수소-탄소 그리고 수소-수소의 인력은 단거리 인력의 경우 Lennard-Jones 포텐셜을 사용하였고, 수소-수소의 경우는 정전기적 인력을 저온에서의 양자효과를 고려하기 위해 추가하였다. 194.5 K에서 큰 직경을 가지는 단일벽나노튜브의 경우 Type I과 넓은 간격을 가지는 나노튜브의 경우 흡착과 탈착과정에서 Type IV의 흡착 등온선이 관찰되었다. 200 bar에서 단일벽나노튜브의 중량 수소저장 능력은 미국 에너지부의 목표치에 도달하거나 초과하였다. 그러나 부피 수소저장 능력은 목표치의 약 70%에 해당하였다. 77 K에서는 단일층 형성과 이후 응축 단계가 따르는 두 단계의 흡착이 관찰되었다. 수소는 나노튜브의 내부 표면, 외부 표면, 관 내부의 공간 그리고 나노튜브 다발 사이의 틈새 채널의 순서로 흡착하였다. 1 bar 이하에서도 여러 가지 직경과 간격을 가지는 탄소나노튜브는 중량 그리고 부피 저장 능력이 모두 목표치를 초과하였다.