• 제목/요약/키워드: k-Nearest neighbor

검색결과 638건 처리시간 0.033초

시그니처 트리를 사용한 의미적 유사성 검색 기법 (Semantic Similarity Search using the Signature Tree)

  • 김기성;임동혁;김철한;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.546-553
    • /
    • 2007
  • 온톨로지의 활용이 늘어나면서 의미적 유사성 검색에 대한 관심이 높아지고 있다. 본 논문에서는 질의 객체와의 의미적 유사성이 높은 객체를 검색하는 최근접 질의 기법을 제안하였다. 의미적 유사성을 측정하는 유사성 함수로는 최적 대응값 방식의 유사도 함수를 사용하였으며 주석 정보에 대한 색인을 위해 시그니처 트리를 사용하였다. 시그니처 트리는 집합 유사성 검색에서 많이 사용되는 색인 구조로서 유사성 검색에 사용하기 위해서는 검색시 각 노드를 탐색하였을 때 발견할 수 있는 유사도의 최대값을 예측할 수 있어야 한다. 이에 본 논문에서는 최적 대응값 방식의 유사도 함수에 대한 예측 최대값 함수를 제안하고 올바른 예측 함수임을 증명하였다. 또한 시그니처 트리에 동일한 시그니처가 중복되어 저장되지 않도록 구조를 개선하였다. 이는 시그니처 트리의 크기를 감소시킬 뿐만 아니라 질의 성능 또한 향상시켜 주었다. 실험의 데이타로는 대용량 온톨로지와 주석 정보 데이타를 제공하는 Gene Ontology(GO)를 사용하였다. 실험에서는 제안한 방법의 성능 향상 외에도 페이지 크기와 노드 분할 방법이 의미적 유사성 질의 성능에 미치는 영향에 대해 알아보았다.

수출인프라강화사업이 식품유통기업 수출에 미치는 정책효과 분석 (An Analysis of Policy Effects of Export Infrastructure Strengthening Program on Export of Food Distribution Companies)

  • 황성혁;지성태
    • 유통과학연구
    • /
    • 제16권1호
    • /
    • pp.87-99
    • /
    • 2018
  • Purpose - The Export Infrastructure Strengthening Program(EISP) is a project to expand exports of agri-food products through providing customized export information to food distribution companies and supporting overseas information activities. A total of 39.6 billion won was provided by 2016. So, the purpose of this study is to analyze whether EISP is effective for expanding exports of agri-food products. Research design, data, and methodology - A simple average difference between the export performance of the policy beneficiaries and the non-policy beneficiaries can be biased if the export capacity or inherent characteristics of the enterprise are not taken into consideration. In order to solve the problem of such a bias, the propensity score matching(PSM) method has been employed in this study. PSM is a method of converting the characteristics of an export company into an index through logit analysis and then reducing the matching to one dimension to improve the accuracy of the performance measurement. Results - The balancing test was conducted to determine how the characteristics of the policy beneficiary group and the matched policy non-beneficiary group corresponded to each other. As a result of the test, we could not reject the null hypothesis that there was no difference between the two groups, so that after the matching, the two groups were similar and the explanatory variables were well controlled. Using the nearest neighbor matching with propensity score estimating through logit analysis, we estimated average treatment effect on the treated(ATT). The food companies participating the EISP had the effect of increasing the exports of $ 5.88 million. As a result, the number of export contracts increased by 11.77, the number of exporting countries by 7.52, the number of export items by 47.51, and the number of buyers' consultation by 3.50. And overseas marketing expenses increased by 35.92 million won. Except for the number of export contracts, other export performance results showed statistically significant results. Conclusions - As the EISP has a positive effect on the expansion of agro-food exports, efforts should be made to find out the limitations or problems of the policy in the future and to make a greater contribution to the increase of exports.

Prefetch R-tree: 디스크와 CPU 캐시에 최적화된 다차원 색인 구조 (Prefetch R-tree: A Disk and Cache Optimized Multidimensional Index Structure)

  • 박명선
    • 정보처리학회논문지D
    • /
    • 제13D권4호
    • /
    • pp.463-476
    • /
    • 2006
  • R-tree는 일반적으로 트리 노드의 크기를 디스크 페이지의 크기와 같게 함으로써 I/O 성능이 최적화 되도록 구현한다. 최근에는 주메모리 환경에서 CPU 캐시 성능을 최적화하는 R-tree의 변형이 개발되었다. 이는 노드의 크기를 캐시 라인 크기의 수 배로 하고 MBR에 저장되는 키를 압축하여 노드 하나에 더 많은 엔트리를 저장함으로써 성능을 높였다. 그러나, 디스크 최적 R-tree와 캐시 최적 R-tree의 노드 크기 사이에는 수십-수백 바이트와 수-수십 킬로바이트라는 큰 차이가 있으므로, I/O 최적 R-tree는 캐시 성능이 나쁘고 캐시 최적 R-tree는 디스크 I/O 성능이 나쁜 문제점을 가지고 있다. 이 논문에서는 CPU 캐시와 디스크 I/O에 모두 최적인 R-tree, PR-tree를 제안한다. 캐시 성능을 위해 PR-tree 노드의 크기를 캐시 라인 크기보다 크게 만든 다음 CPU의 선반입(prefetch) 명령어를 이용하여 캐시 실패 횟수를 줄이고, 트리 노드를 디스크 페이지에 낭비가 적도록 배치함으로써 디스크 I/O 성능도 향상시킨다. 또한, 이 논문에서는 PR-tree에서 검색 연산을 수행하는데 드는 캐시 실패 비용을 계산하는 분석 방법을 제시하고, 최적의 캐시와 I/O 성능을 보이는 PR-tree를 구성하기 위해, 가능한 크기의 내부 단말 노드, 중간 노드를 갖는 PR-tree 생성하여 성능을 비교하였다. PR-tree는 디스크 최적 R-tree보다 삽입 연산은 3.5에서 15.1배, 삭제 연산은 6.5에서 15.1배, 범위 질의는 1.3에서 1.9배, k-최근접 질의는 2.7에서 9.7배의 캐시 성능 향상이 있었다. 모든 실험에서 매우 작은 I/O 성능 저하만을 보였다.

베이지안 망에 기초한 불임환자 임상데이터의 분석 (Bayesian Network-Based Analysis on Clinical Data of Infertility Patients)

  • 정용규;김인철
    • 정보처리학회논문지B
    • /
    • 제9B권5호
    • /
    • pp.625-634
    • /
    • 2002
  • 본 논문에서는 베이지안 망을 기초로 불임환자의 임상 데이터에 대한 다양한 분석 실험을 전개하였다. 이 실험을 통해 임신여부에 영향을 주는 요인들간의 상호의존성을 분석해보고, 또 NBN, BAN, GBN 등 제약조건이 다른 다양한 유형의 베이지안 망 분류기들의 분류성능을 서로 비교해보았다. 그리고 우리는 이와 같은 실험을 통해 임신가능여부(Clin)에 직접적인 영향을 미치는 중요한 요인들로 증상(IND), 약물치료법(stimulation), 여성의 나이(FA), 미세조작 난자의 수(ICT), Wallace 사용여부(ETM) 등 5개의 특성들을 가려낼 수 있었고, 이 요인들간의 상호 의존성도 찾아낼 수 있었다. 또 서로 다른 유형의 베이지안 망 분류기들 중에서 요인들간의 상호의존관계를 허용하는 좀 더 일반적인 BAN과 GBN 등이 그렇지 못한 NBN에 비해 상대적으로 더 높은 분류 성능을 보여준다는 것을 확인하였다. 또 결정트리와 k-최근접 이웃과 같은 다른 분류기들과의 성능 비교를 통해, 임상 데이터의 특성상 확률적 표현과 추론에 기초한 베이지안 망 분류기들이 보다 높은 성능을 보여준다는 사실도 확인할 수 있었다. 또 본 논문에서는 클래스 노드의 Markov blanket에 속한 특성들로 특성집합을 축소하는 것을 제안하고, 실험을 통해 이 특성 축소방법이 베이지안 망 분류기들의 성능을 높여 줄 수 있는지 알아보았다.

비유사도-기반 분류를 위한 차원 축소방법의 비교 실험 (A Comparative Experiment on Dimensional Reduction Methods Applicable for Dissimilarity-Based Classifications)

  • 김상운
    • 전자공학회논문지
    • /
    • 제53권3호
    • /
    • pp.59-66
    • /
    • 2016
  • 이 논문에서는 비유사도-기반 분류(dissimilarity-based classifications: DBC)를 효율적으로 수행할 수 있는 차원 축소 방법들을 비교 평가한 실험 결과를 보고한다. DBC에선 분류를 위해 대상 물체를 측정한 결과 값들(특징 요소들의 집합)을 이용하는 대신에 각 대상 물체들 사이의 비유사도를 측정하여 분류한다. 현재 DBC와 관련된 이슈들 중의 하나는 대규모 데이터를 취급할 경우에 비유사도 공간의 차원이 고차원으로 되는 문제가 있다. 이 문제를 해결하기 위하여 현재 프로토타입 선택(prototype selection: PS)방법이나 차원 축소(dimension reduction: DR)방법을 이용하고 있다. PS는 전체 학습 데이터에서 프로토타입을 추출하여 비유사도 공간을 구성하는 방법이고, DR은 전체 학습 데이터로 먼저 비유사도 공간을 구성한 다음 이 공간의 차원을 축소하는 방법이다. 이 논문에서는 PS이나 DR 대신에, 학습 데이터에 대한 주성분 분석으로 적절한 차원의 고유 공간 (Eigen space: ES)을 구성한 다음, 이 고유 공간으로 매핑 된 벡터들 사이의 $l_p$-놈(norm) 거리를 비유사도 거리로 측정하여 이용하는 DBC를 제안한다. 인터넷에 공개된 인공 및 실세계 데이터를 이용하여 최 근방 이웃 분류규칙으로 ES에서 수행한 DBC의 분류 성능을 측정한 결과, 고유공간의 차원을 적절하게 선정하였을 경우 PS와 DR를 이용한 DBC보다 분류 성능이 더 향상되었음을 확인하였다.

머신러닝 기법을 이용한 유량 자료 생산 방법 (Estimation of River Flow Data Using Machine Learning)

  • 강노을;이지훈;이정훈;이충대
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.261-261
    • /
    • 2020
  • 물관리의 기본이 되는 연속적인 유량 자료 확보를 위해서는 정확도 높은 수위-유량 관계 곡선식 개발이 필수적이다. 수위-유량 관계곡선식은 모든 수문시설 설계의 기초가 되며 홍수, 가뭄 등 물재해 대응을 위해서도 중요한 의미를 가지고 있다. 그러나 일반적으로 유량 측정은 많은 비용과 시간이 들고, 식생성장, 단면변화 등의 통제특성(control)이 변함에 따라 구간분리, 기간분리와 같은 비선형적인 양상이 나타나 자료 해석에 어려움이 존재한다. 특히, 국내 하천의 경우 자연적 및 인위적인 환경 변화가 다양하여 지점 및 기간에 따라 세밀한 분석이 요구된다. 머신러닝(Machine Learning)이란 데이터를 통해 컴퓨터가 스스로 학습하여 모델을 구축하고 성능을 향상시키는 일련의 과정을 뜻한다. 기존의 수위-유량 관계곡선식은 개발자의 판단에 의해 데이터의 종류와 기간 등을 설정하여 회귀식의 파라미터를 산출한다면, 머신러닝은 유효한 전체 데이터를 이용해 스스로 학습하여 자료 간 상관성을 찾아내 모델을 구축하고 성능을 지속적으로 향상 시킬 수 있다. 머신러닝은 충분한 수문자료가 확보되었다는 전제 하에 복잡하고 가변적인 수자원 환경을 반영하여 유량 추정의 정확도를 지속적으로 향상시킬 수 있다는 이점을 가지고 있다. 본 연구는 머신러닝의 대표적인 알고리즘들을 활용하여 유량을 추정하는 모델을 구축하고 성능을 비교·분석하였다. 대상지역은 안정적인 수량을 확보하고 있는 한강수계의 거운교 지점이며, 사용자료는 2010~2018년의 시간, 수위, 유량, 수면폭 등 이다. 프로그램은 파이썬을 기반으로 한 머신러닝 라이브러리인 사이킷런(sklearn)을 사용하였고 알고리즘은 랜덤포레스트 회귀, 의사결정트리, KNN(K-Nearest Neighbor), rgboost을 적용하였다. 학습(train) 데이터는 입력자료 종류별로 조합하여 6개의 세트로 구분하여 모델을 구축하였고, 이를 적용해 검증(test) 데이터를 RMSE(Roog Mean Square Error)로 평가하였다. 그 결과 모델 및 입력 자료의 조합에 따라 3.67~171.46로 다소 넓은 범위의 값이 도출되었다. 그 중 가장 우수한 유형은 수위, 연도, 수면폭 3개의 입력자료를 조합하여 랜덤포레스트 회귀 모델에 적용한 경우이다. 비교를 위해 동일한 검증 데이터를 한국수문조사연보(2018년) 내거운교 지점의 수위별 수위-유량 곡선식을 이용해 유량을 추정한 결과 RMSE가 3.76이 산출되어, 머신러닝이 세분화된 수위-유량 곡선식과 비슷한 수준까지 성능을 내는 것으로 확인되었다. 본 연구는 양질의 유량자료 생산을 위해 기 구축된 수문자료를 기반으로 머신러닝 기법의 적용 가능성을 검토한 기초 연구로써, 국내 효율적인 수문자료 측정 및 수위-유량 곡선 산출에 도움이 될 수 있을 것으로 판단된다. 향후 수자원 환경 및 통제특성에 영향을 미치는 다양한 영향변수를 파악하기 위해 기상자료, 취수량 등의 입력 자료를 적용할 필요가 있으며, 머신러닝 내 비지도학습인 딥러닝과 같은 보다 정교한 모델에 대한 추가적인 연구도 수행되어야 할 것이다.

  • PDF

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

임상도와 Landsat TM 위성영상을 이용한 산림탄소저장량 추정 방법 비교 연구 (Comparison of Forest Carbon Stocks Estimation Methods Using Forest Type Map and Landsat TM Satellite Imagery)

  • 김경민;이정빈;정재훈
    • 대한원격탐사학회지
    • /
    • 제31권5호
    • /
    • pp.449-459
    • /
    • 2015
  • 기존의 국가산림자원조사(National Forest Inventory, NFI)에 의한 산림탄소저장량 추정 방법은 국가 규모의 평균 탄소저장량 추정에는 충분하지만 표본점 개수가 부족한 시 군 단위의 세밀한 추정은 어렵다. 본 연구에서는 시 군별 산림탄소저장량 추정을 위해 공간 자료를 보조 자료로 이용하고 2가지 업스케일링 방법을 적용하여 격자별 산림탄소저장량 정보를 가진 산림탄소지도를 제작하였다. 대상지역은 충청남도로 2가지 방법 모두 제 5차 NFI(2006~2009) 자료를 활용하였다. 방법 1은 임상도를 보조 자료로 선택하고 NFI 기반 산림탄소저장량 회귀모델을 이용하였다. 방법 2는 위성영상을 보조 자료로 선택하고 k-NN을 이용하여 산림탄소저장량을 추정하였다. 불확실성을 고려하기 위해 200회 몬테카를로 시뮬레이션을 수행하여 최종 AGB 탄소지도를 산출하였다. 방법 1에서는 충청남도의 총 산림탄소저장량이 22,948,151 tonC으로 기존의 현지조사표본 기반 추정치(21,136,911 tonC)에 비해 과대추정을, 방법 2에서는 19,750,315 tonC로 과소추정되는 경향을 나타내었다. 독립검증 지점(n=186)의 탄소저장량에 대한 대응표본 T-검정 결과, 방법 2의 평균 추정치와 NFI 표본 기반 평균 추정치는 통계적으로 유의한 차이가 있는 반면(p<0.01), 방법 1의 평균 추정치는 NFI 표본 기반 평균 추정치와 통계적으로 유의한 차이가 없는 것으로 평가되었다(p>0.01). 특히, 방법 2의 경우 k-NN의 스무딩 효과 및 몬테카를로 시뮬레이션을 통해 위성영상과 표본점의 mis-registration 오차가 추정오차에 큰 영향을 미칠 수 있음이 발견되었다. 임상도를 활용한 방법 1이 임분 구조가 복잡한 우리나라 산림의 탄소량 추정에 효과적일 수 있지만, 미조사 지점의 주기적인 갱신 및 대면적 추정에 유리한 위성영상의 활용은 여전히 필수적이다, 따라서 시공간적인 확장과 함께 보다 신뢰할 수 있는 산림탄소저장량 추정을 위해 다양한 위성영상 자료 및 활용 기법에 관한 연구가 필요할 것으로 사료된다.

기후변화 시나리오를 활용한 미래 한반도 물수급 전망 (Water Balance Projection Using Climate Change Scenarios in the Korean Peninsula)

  • 김초롱;김영오;서승범;최수웅
    • 한국수자원학회논문집
    • /
    • 제46권8호
    • /
    • pp.807-819
    • /
    • 2013
  • 본 연구에서는 기존의 기후변화를 고려한 물수급 분석 방법론의 문제점을 개선하기 위해 GCM 미래 유량 시나리오를 물수급 모형에 직접 입력하는 대신 과거 유량 시나리오의 가중값(재현확률)을 부여하는 새로운 물수급 전망기법을 제안하고자 한다. GCM 미래 기후자료를 TANK 모형에 입력하여 중권역별 미래 유량을 모의하였으며 모의결과에 대한 편이보정을 위해 Quantile Mapping 기법을 적용하였다. 이러한 미래 유량 전망결과를 반영하여 각각의 입력자료에 대한 가중값(재현확률)을 새롭게 산정함으로써 미래 목표 전망구간에 대한 물부족량을 산정하였다. 물수급 모형의 입력자료에 대한 가중값 산정을 위해K-nn 알고리즘을 적용하였으며 비홍수기(10~6월) 유량을 가중값 산정을 위한 기준유량으로 결정하였다. 기후 변화의 불확실성을 고려하고자 4개의 GCM과 3개의 AR4 SRES 온실가스 배출 시나리오를 앙상블 조합하여 생성한 기후변화 시나리오를 활용하였다. 본 연구에서제시한 방법론을 한반도 4대강 유역에 적용한 결과, 기후변화를 고려한 한반도 미래 평균 물부족량은 2020s (2010~2039년)에는 과거에 비해 10~32% 정도 증가할 것으로 전망되었다. 또한, 한반도 4대강 유역의 경우 먼 미래로 갈수록 비홍수기 유량이 점차 감소할 것으로 전망됨에 따라 2080s (2070~2099년)에는 과거 대비 평균 물부족량이 최대 97%(약 516.5백만 $m^3$/년) 증가할 것으로 전망되었다. 기존의 기후변화 연구 방법론의 전망결과를 비교분석한 결과, 기존 방법론은 매우 극적인 물부족량 증가를 전망하고 있는 반면 본 연구에서 제안한 기법은 상대적으로 보수적인 변화를 전망하였다. 본 연구는 물수급 분석시기 후 변화를 고려하되 기존 국가계획 방법론의 틀을 최대한 유지하고 있다는 점에서 국가수자원계획 수립에 있어 정책결정권자들의 혼돈을 줄여줄 수 있는 방법론이 될 수 있다고 판단된다.

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.