• 제목/요약/키워드: Nearest Neighbor (NN)

검색결과 215건 처리시간 0.022초

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권1호
    • /
    • pp.47-60
    • /
    • 2010
  • 기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.

  • PDF

임상도와 Landsat TM 위성영상을 이용한 산림탄소저장량 추정 방법 비교 연구 (Comparison of Forest Carbon Stocks Estimation Methods Using Forest Type Map and Landsat TM Satellite Imagery)

  • 김경민;이정빈;정재훈
    • 대한원격탐사학회지
    • /
    • 제31권5호
    • /
    • pp.449-459
    • /
    • 2015
  • 기존의 국가산림자원조사(National Forest Inventory, NFI)에 의한 산림탄소저장량 추정 방법은 국가 규모의 평균 탄소저장량 추정에는 충분하지만 표본점 개수가 부족한 시 군 단위의 세밀한 추정은 어렵다. 본 연구에서는 시 군별 산림탄소저장량 추정을 위해 공간 자료를 보조 자료로 이용하고 2가지 업스케일링 방법을 적용하여 격자별 산림탄소저장량 정보를 가진 산림탄소지도를 제작하였다. 대상지역은 충청남도로 2가지 방법 모두 제 5차 NFI(2006~2009) 자료를 활용하였다. 방법 1은 임상도를 보조 자료로 선택하고 NFI 기반 산림탄소저장량 회귀모델을 이용하였다. 방법 2는 위성영상을 보조 자료로 선택하고 k-NN을 이용하여 산림탄소저장량을 추정하였다. 불확실성을 고려하기 위해 200회 몬테카를로 시뮬레이션을 수행하여 최종 AGB 탄소지도를 산출하였다. 방법 1에서는 충청남도의 총 산림탄소저장량이 22,948,151 tonC으로 기존의 현지조사표본 기반 추정치(21,136,911 tonC)에 비해 과대추정을, 방법 2에서는 19,750,315 tonC로 과소추정되는 경향을 나타내었다. 독립검증 지점(n=186)의 탄소저장량에 대한 대응표본 T-검정 결과, 방법 2의 평균 추정치와 NFI 표본 기반 평균 추정치는 통계적으로 유의한 차이가 있는 반면(p<0.01), 방법 1의 평균 추정치는 NFI 표본 기반 평균 추정치와 통계적으로 유의한 차이가 없는 것으로 평가되었다(p>0.01). 특히, 방법 2의 경우 k-NN의 스무딩 효과 및 몬테카를로 시뮬레이션을 통해 위성영상과 표본점의 mis-registration 오차가 추정오차에 큰 영향을 미칠 수 있음이 발견되었다. 임상도를 활용한 방법 1이 임분 구조가 복잡한 우리나라 산림의 탄소량 추정에 효과적일 수 있지만, 미조사 지점의 주기적인 갱신 및 대면적 추정에 유리한 위성영상의 활용은 여전히 필수적이다, 따라서 시공간적인 확장과 함께 보다 신뢰할 수 있는 산림탄소저장량 추정을 위해 다양한 위성영상 자료 및 활용 기법에 관한 연구가 필요할 것으로 사료된다.

기후변화 시나리오를 활용한 미래 한반도 물수급 전망 (Water Balance Projection Using Climate Change Scenarios in the Korean Peninsula)

  • 김초롱;김영오;서승범;최수웅
    • 한국수자원학회논문집
    • /
    • 제46권8호
    • /
    • pp.807-819
    • /
    • 2013
  • 본 연구에서는 기존의 기후변화를 고려한 물수급 분석 방법론의 문제점을 개선하기 위해 GCM 미래 유량 시나리오를 물수급 모형에 직접 입력하는 대신 과거 유량 시나리오의 가중값(재현확률)을 부여하는 새로운 물수급 전망기법을 제안하고자 한다. GCM 미래 기후자료를 TANK 모형에 입력하여 중권역별 미래 유량을 모의하였으며 모의결과에 대한 편이보정을 위해 Quantile Mapping 기법을 적용하였다. 이러한 미래 유량 전망결과를 반영하여 각각의 입력자료에 대한 가중값(재현확률)을 새롭게 산정함으로써 미래 목표 전망구간에 대한 물부족량을 산정하였다. 물수급 모형의 입력자료에 대한 가중값 산정을 위해K-nn 알고리즘을 적용하였으며 비홍수기(10~6월) 유량을 가중값 산정을 위한 기준유량으로 결정하였다. 기후 변화의 불확실성을 고려하고자 4개의 GCM과 3개의 AR4 SRES 온실가스 배출 시나리오를 앙상블 조합하여 생성한 기후변화 시나리오를 활용하였다. 본 연구에서제시한 방법론을 한반도 4대강 유역에 적용한 결과, 기후변화를 고려한 한반도 미래 평균 물부족량은 2020s (2010~2039년)에는 과거에 비해 10~32% 정도 증가할 것으로 전망되었다. 또한, 한반도 4대강 유역의 경우 먼 미래로 갈수록 비홍수기 유량이 점차 감소할 것으로 전망됨에 따라 2080s (2070~2099년)에는 과거 대비 평균 물부족량이 최대 97%(약 516.5백만 $m^3$/년) 증가할 것으로 전망되었다. 기존의 기후변화 연구 방법론의 전망결과를 비교분석한 결과, 기존 방법론은 매우 극적인 물부족량 증가를 전망하고 있는 반면 본 연구에서 제안한 기법은 상대적으로 보수적인 변화를 전망하였다. 본 연구는 물수급 분석시기 후 변화를 고려하되 기존 국가계획 방법론의 틀을 최대한 유지하고 있다는 점에서 국가수자원계획 수립에 있어 정책결정권자들의 혼돈을 줄여줄 수 있는 방법론이 될 수 있다고 판단된다.

밀리미터파 대역 차량용 레이더를 위한 순서통계 기법을 이용한 다중표적의 데이터 연관 필터 (Multi-target Data Association Filter Based on Order Statistics for Millimeter-wave Automotive Radar)

  • 이문식;김용훈
    • 대한전자공학회논문지SP
    • /
    • 제37권5호
    • /
    • pp.94-104
    • /
    • 2000
  • 차량 충돌 경보용 레이더 시스템의 개발에 있어 표적 추적의 정확도와 신뢰도는 매우 중요한 요소이다. 여러 표적을 동시에 추적할 때 중요한 것은 표적과 측정치와의 데이터 연관(data association) 이며, 부적절한 측정치가 어느 표적과 연관되면 그 표적은 트랙을 벗어나 추적능력을 잃어버릴 수 있고 심지어 다른 표적의 추적에도 영향을 줄 수 있다 지금까지 발표된 대부분의 데이터 연관 필터들은 근접하여 이동하는 표적들의 경우 이와 같은 문제점을 보여왔다 따라서, 현재 개발되고 있는 많은 알고리즘들은 이러한 데이터 연 관 문제의 해결에 초점을 맞추고 있다 본 논문에서는 순서통계(order statistics)를 이용한 새로운 다중 표적의 데이터 연관 방법에 대하여 서술하고자 한다 OSPDA와 OSJPDA로 불리는 제안된 방법은 각각 PDA 필터 또는 JPDA 필터에서 계산된 연관 확률을 이용하며 이 연관 확률을 결정 논리(dicision logic)에 의한 가중치로 함수화 하여 표적과 측정치 사이에 최적 혹은 최적 근처의(near optimal) 데이터 연관이 가능하도록 한 것이다 시뮬레이션 결과를 통해, 제안한 방법은 기존의 NN 필터, PDA 필터, 그리고 JPDA 필터의 성능과 비교 분석되었으며, 그 결과 제안한 OSPDA, OSJPDA 필터는 PDA, JPDA 필터보다 추적 정확도에 대해 각각 약 18%, 19% 이상으로 성능이 향상됨을 확인하였다 제안한 방법은 CAN을 통해 차량 엔진 등의 ECU와 통신하도록 개발된 DSP 보드를 이용하여 구현되었다

  • PDF

사례기반추론의 유사 임계치 및 커버리지 최적화 (Optimizing Similarity Threshold and Coverage of CBR)

  • 안현철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권8호
    • /
    • pp.535-542
    • /
    • 2013
  • 사례기반추론(CBR)은 많은 장점으로 인해 지금까지 의료진단, 생산계획, 고객분류 등 다양한 분야의 의사결정 지원에 적용되어 왔다. 그러나, 효과적인 CBR 시스템을 설계, 구축하기 위해서는 연구자가 직관적으로 설정해야 할 많은 설계요소들이 존재한다. 본 연구에서는 이러한 CBR의 여러 설계요소들 중 사례 검색 단계에서 결합할 이웃 사례들을 보다 효과적으로 선정할 수 있는 새로운 모형을 제시한다. 기존 연구에서는 결합할 이웃 사례를 선정하는 방법으로 사전에 정해진 이웃사례의 수(k-NN의 k)를 적용하든가, 혹은 최대 유사도의 상대적 비율을 임계치로 사용하는 방식을 적용해 왔다. 하지만, 본 연구에서는 결합할 유사사례를 선택하는 새로운 기준으로 0에서 1사이의 값을 갖는 절대적 유사 임계치를 사용할 것을 제안한다. 이 경우, 임계치 값이 과도하게 작아지게 되면, 예측결과의 생성이 잘 이루어지지 않을 수 있는 문제가 발생할 수 있다. 이에, 전체 학습사례들 중에서 예측결과가 생성된 사례의 비중을 커버리지(coverage)로 정의하고, 이를 유사 임계치 최적화 시 제약조건으로 설정함으로서, 사용자가 원하는 수준의 커버리지는 유지한 상태에서 가장 효과적인 유사 사례를 찾아 추론할 수 있도록 모형을 설계하였다. 제안 모형의 유용성을 검증하기 위해, 본 연구에서는 이 모형을 실존하는 국내 한 온라인 쇼핑몰의 표적 마케팅 사례에 적용하였다. 그 결과, 제안 모형이 CBR의 예측 성과를 유의미하게 개선시킬 수 있음을 확인할 수 있었다.