• 제목/요약/키워드: K-nearest neighbor algorithm

검색결과 265건 처리시간 0.027초

완전 자율주행을 위한 도로 상태 기반 제동 강도 계산 시스템 (The Road condition-based Braking Strength Calculation System for a fully autonomous driving vehicle)

  • 손수락;정이나
    • 인터넷정보학회논문지
    • /
    • 제23권2호
    • /
    • pp.53-59
    • /
    • 2022
  • 3단계 자율주행 차량 이후, 4, 5단계의 자율주행 기술은 차량의 완벽한 주행뿐만 아니라 탑승객의 상태를 최적으로 유지하기 위해 노력하고 있다. 그러나 현재 자율주행 기술은 LiDAR, 전방 카메라 등 시각적 정보에 과하게 의존하기 때문에 지정된 도로 이외의 도로에서 완벽하게 자율주행을 실행하기 힘들다. 따라서 본 논문은 차량이 시각 정보 외의 데이터를 사용하여 도로의 상태를 분류하고, 도로 상태와 주행 상태에 따라 최적의 제동 강도를 계산하는 BSCS (Braking Strength Calculation System)를 제안한다. 본 논문에서 제안하는 BSCS는 KNN 알고리즘을 기반으로 도로의 상태를 분류하는 RCDM (Road Condition Definition Module)과 RCDM의 결과와 현재 주행 상태를 통해 주행 중 최적의 제동 강도를 계산하는 BSCM (Braking Strength Calculation Module)로 구성된다. 본 논문의 실험 결과, KNN 알고리즘에 가장 적합한 K의 수를 찾을 수 있었고, 비지도 학습인 K-means 알고리즘보다 본 논문에서 제안한 RCDM이 더 정확한 것이 증명되었다. 해당 논문의 BSCS는 시각 정보뿐만 아니라 서스펜션에 가해지는 진동 데이터를 사용함으로써, 시각 정보가 제한되는 여러 환경에서 자율주행 차량의 제동을 더 원활하게 만들 수 있다.

원격탐사와 GIS 기반의 산림탄소저장량 추정에 관한 주요국 연구동향 개관 (Overview of Research Trends in Estimation of Forest Carbon Stocks Based on Remote Sensing and GIS)

  • 김경민;이정빈;김은숙;박현주;노영희;이승호;박기호;신휴석
    • 한국지리정보학회지
    • /
    • 제14권3호
    • /
    • pp.236-256
    • /
    • 2011
  • 토지이용변화에 따른 산림탄소저장량 변화는 기후변화협약에서 요구하는 주요 자료 중 하나이다. IPCC 우수실행지침(intergovernmental panel on climate change good practice guidance, IPCC GPG) 수준 3에 근거하여 공간적으로 명확한 산림탄소저장량을 추정하게 되면 높은 신뢰도를 확보할 수 있다. 그러나 기존의 추정 방법은 표본점(sample plot) 단위의 국가산림자원조사 (national forest inventory, NFI) 자료만을 이용하여 행정구역별 평균을 집계하는 것으로 폴리곤 혹은 셀 단위의 상세한 탄소저장량을 파악할 수 없었다. 이를 보완하기 위해 유럽, 북미 등에서는 NFI 자료, 원격탐사 및 GIS 기술을 결합하여 산림탄소저장량을 추정하기 위한 노력이 활발히 이루어져왔다. 주요국의 연구 동향을 활용 기법에 따라 분류해보면 원격탐사, GIS, 지구통계 및 환경변수 모델링 등 크게 4가지 범주로 나눌 수 있다. 이 중 가장 손쉽게 국내 적용을 고려해 볼 수 있는 방법은 NFI 자료와 임상도를 결합하는 GIS 기반의 방법이다. 특히, 복잡한 수종 구성을 가지고 있는 국내 산림 환경 특성을 고려할 때 국지적 변이 추정에 유용한 지구통계 기법의 활용성이 기대된다. 아울러, 고해상도 영상의 활용은 산림탄소저장량 추정의 검증 및 탄소배출권 확보를 위한 CDM(clean development mechanism, 청정개발체제) 사업 적지 선정 등에 유용할 것으로 판단된다. 국내 관련 연구는 아직 초기 단계로 최근린 기법(k-nearest neighbor, k-NN)의 적용성을 검토하는 연구가 주를 이루고 있으나 국내 산림 환경에 적합한 방법론의 선정을 위해서는 보다 다양한 공간 자료와 알고리즘의 적용성이 검토되고 방법론 간의 비교 연구가 필요하다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

머신 러닝을 활용한 과학 논변 구성 요소 코딩 자동화 가능성 탐색 연구 (Exploratory Research on Automating the Analysis of Scientific Argumentation Using Machine Learning)

  • 이경건;하희수;홍훈기;김희백
    • 한국과학교육학회지
    • /
    • 제38권2호
    • /
    • pp.219-234
    • /
    • 2018
  • 본 연구에서는 국내 교육학 연구에서 거의 사용되지 않던 머신 러닝 기술을 과학 교육 연구에 접목하여, 학생들의 과학 논변 활동에서 나타나는 논변의 구성 요소를 분석하는 과정을 자동화할 수 있는 가능성을 탐색해보았다. 학습 데이터로는 Toulmin이 제안하였던 틀에 따라 학생들의 과학 논변 구성 요소를 코딩한 국내 선행 문헌 18건을 수합하고 정리하여 990개의 문장을 추출하였으며, 테스트 데이터로는 실제 교실 환경에서 발화된 과학 논변 전사 데이터를 사용하여 483개의 문장을 추출하고 연구자들이 사전 코딩을 수행하였다. Python의 'KoNLPy' 패키지와 '꼬꼬마(Kkma)' 모듈을 사용한 한국어 자연어 처리(Natural Language Processing, NLP)를 통해 개별 논변을 구성하는 단어와 형태소를 분석하였으며, 연구자 2인과 국어교육 석사학위 소지자 1인의 검토 과정을 거쳤다. 총 1,473개의 문장에 대한 논변-형태소:품사 행렬을 만든 후에 다섯 가지 방법으로 머신 러닝을 수행하고 생성된 예측 모델과 연구자의 사전 코딩을 비교한 결과, 개별 문장의 형태소만을 고려하였을 때에는 k-최근접 이웃 알고리즘(KNN)이 약 54%의 일치도(${\kappa}=0.22$)를 보임으로써 가장 우수하였다. 직전 문장이 어떻게 코딩되어 있는지에 관한 정보가 주어졌을 때, k-최근접 이웃 알고리즘(KNN)이 약 55%의 일치도(${\kappa}=0.24$)를 보였으며 다른 머신 러닝 기법에서도 전반적으로 일치도가 상승하였다. 더 나아가, 본 연구의 결과는 과학 논변 활동의 분석에서 개별문장을 고려하는 단순한 방법이 어느 정도 유용함과 동시에, 담화의 맥락을 고려하는 것 또한 필요함을 데이터에 기반하여 보여주었다. 또한 머신 러닝을 통해 교실에서 한국어로 이루어진 과학 논변 활동을 분석하여 연구자와 교사들에게 유용하게 사용될 수 있는 가능성을 보여준다.

지상부 바이오매스 탄소저장량의 추정에 위치 오차가 미치는 영향 (Effect of Location Error on the Estimation of Aboveground Biomass Carbon Stock)

  • 김상필;허준;정재훈;유수홍;김경민
    • 한국측량학회지
    • /
    • 제29권2호
    • /
    • pp.133-139
    • /
    • 2011
  • 산림의 바이오매스 탄소저장량을 추정하는 것은 산림의 공익적인 가치를 평가하기 위해 선행되어야 하는 연구이다. 하지만 기존의 바이오매스 탄소저장량 추정에 관한 연구는 대부분 결정론적 모델이 사용되어 오차에 의한 영향을 알 수 없다는 한계를 가진다. 본 연구에서는 단양군의 지상부 바이오매스 탄소저장량 추정의 경우를 대상으로 몬테카를로 시뮬레이션을 통해 위치 오차에 의한 추정오차의 영향을 분석하고자 하였다. 기본적인 추정 방법으로는 kNN 알고리즘이 사용되었으며, 표본점의 위치에 우연오차 및 계통오차를 추가하여 RMSE의 변화를 통해 추정오차에 미치는 영향을 분석하였다. 분석결과 일반적인 위성영상에서 발생 할 수 있는 0.5~1 영상소의 위치오차에 의해 추정의 평균 RMSE가 24.8 tonC/ha에서 26 tonC/ha로 증가하는 것으로 확인되었으며, 추정 오차의 범위는 23.8 tonC/ha에서 28.1 tonC/ha로 나타났다. 하지만, 대상지역의 특성에 의해 0.8 영상소 이상의 우연오차에 대해서는 더 이상의 RMSE 증가가 없이 수렴하는 것으로 확인되었다. 방향을 고려한 계통오차에 대한분석의 경우 실험자료에서 특정한 경향은 발견되지 않았다.

사례기반추론의 유사 임계치 및 커버리지 최적화 (Optimizing Similarity Threshold and Coverage of CBR)

  • 안현철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권8호
    • /
    • pp.535-542
    • /
    • 2013
  • 사례기반추론(CBR)은 많은 장점으로 인해 지금까지 의료진단, 생산계획, 고객분류 등 다양한 분야의 의사결정 지원에 적용되어 왔다. 그러나, 효과적인 CBR 시스템을 설계, 구축하기 위해서는 연구자가 직관적으로 설정해야 할 많은 설계요소들이 존재한다. 본 연구에서는 이러한 CBR의 여러 설계요소들 중 사례 검색 단계에서 결합할 이웃 사례들을 보다 효과적으로 선정할 수 있는 새로운 모형을 제시한다. 기존 연구에서는 결합할 이웃 사례를 선정하는 방법으로 사전에 정해진 이웃사례의 수(k-NN의 k)를 적용하든가, 혹은 최대 유사도의 상대적 비율을 임계치로 사용하는 방식을 적용해 왔다. 하지만, 본 연구에서는 결합할 유사사례를 선택하는 새로운 기준으로 0에서 1사이의 값을 갖는 절대적 유사 임계치를 사용할 것을 제안한다. 이 경우, 임계치 값이 과도하게 작아지게 되면, 예측결과의 생성이 잘 이루어지지 않을 수 있는 문제가 발생할 수 있다. 이에, 전체 학습사례들 중에서 예측결과가 생성된 사례의 비중을 커버리지(coverage)로 정의하고, 이를 유사 임계치 최적화 시 제약조건으로 설정함으로서, 사용자가 원하는 수준의 커버리지는 유지한 상태에서 가장 효과적인 유사 사례를 찾아 추론할 수 있도록 모형을 설계하였다. 제안 모형의 유용성을 검증하기 위해, 본 연구에서는 이 모형을 실존하는 국내 한 온라인 쇼핑몰의 표적 마케팅 사례에 적용하였다. 그 결과, 제안 모형이 CBR의 예측 성과를 유의미하게 개선시킬 수 있음을 확인할 수 있었다.

DBSCAN을 이용한 등부표 위치 데이터 Clustering 연구(I) (A Study on Data Clustering of Light Buoy Using DBSCAN(I))

  • 최광영;김소라;박상원;송재욱
    • 한국항해항만학회지
    • /
    • 제47권4호
    • /
    • pp.231-238
    • /
    • 2023
  • 등부표는 조류, 바람 등 외력에 영향을 받아 위치가 항상 유동적이고 위치는 항로표지용 AIS 또는 RTU를 통해 확인할 수 있다. 위치 확인이 가능한 등부표의 최근 5년간(2017~2021년) 위치 데이터 분석 결과 위치 오류 데이터는 평균 15.4%로 나타났으며 항해 안전사고예방 및 관리를 위해서는 위치 오류 데이터를 검출하고 정제된 위치 데이터 획득이 필요하다. 본 연구에서는 항로표지용 AIS 또는 RTU를 통해 획득한 위치 데이터를 DBSCAN Clustering하여 위치 오류 데이터를 검출하고 정제된 위치 데이터를 획득하고자 한다. 이를 위하여 위치 오류가 가장 많은 서해 해역 중 RTU가 설치된 군산항 1호 등부표의 21년도 위치 데이터를 Python library를 사용하여 DBSCAN Clustering 하였다. DBSCAN Clustering에 필요한 minPts는 2차원 데이터에 일반적으로 사용하는 값을 적용하였고 epsilon은 k-NN(최근접 이웃)알고리즘을 사용하여 값을 산출 및 적용하였다. DBSCAN Clustering 결과 minPts와 epsilon을 만족하지 못하는 위치 오류 데이터를 검출하였고 정제된 위치 데이터를 획득할 수 있었다. 본 연구는 항로표지용 AIS 또는 RTU가 설치된 등부표의 신뢰성 있는 위치 데이터를 획득할 수 있는 기초 자료로 활용할 수 있으며 항해 안전사고 예방에도 큰 도움이 될 것으로 판단된다.

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

불균형 데이터 환경에서 변수가중치를 적용한 사례기반추론 기반의 고객반응 예측 (Response Modeling for the Marketing Promotion with Weighted Case Based Reasoning Under Imbalanced Data Distribution)

  • 김은미;홍태호
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.29-45
    • /
    • 2015
  • 고객반응 예측모형은 마케팅 프로모션을 제공할 목표고객을 효과적으로 선정할 수 있도록 하여 프로모션의 효과를 극대화 할 수 있도록 해준다. 오늘날과 같은 빅데이터 환경에서는 데이터 마이닝 기법을 적용하여 고객반응 예측모형을 구축하고 있으며 본 연구에서는 사례기반추론 기반의 고객반응 예측모형을 제시하였다. 일반적으로 사례기반추론 기반의 예측모형은 타 인공지능기법에 비해 성과가 낮다고 알려져 있으나 입력변수의 중요도에 따라 가중치를 상이하게 적용함으로써 예측성과를 향상시킬 수 있다. 본 연구에서는 프로모션에 대한 고객의 반응여부에 영향을 미치는 중요도에 따라 입력변수의 가중치를 산출하여 적용하였으며 동일한 가중치를 적용한 예측모형과의 성과를 비교하였다. 목욕세제 판매데이터를 사용하여 고객반응 예측모형을 개발하고 로짓모형의 계수를 적용하여 입력변수의 중요도에 따라 가중치를 산출하였다. 실증분석 결과 각 변수의 중요도에 기반하여 가중치를 적용한 예측모형이 동일한 가중치를 적용한 예측모형보다 높은 예측성과를 보여주었다. 또한 고객 반응예측 모형과 같이 실생활의 분류문제에서는 두 범주에 속하는 데이터의 수가 현격한 차이를 보이는 불균형 데이터가 대부분이다. 이러한 데이터의 불균형 문제는 기계학습 알고리즘의 성능을 저하시키는 요인으로 작용하며 본 연구에서 제안한 Weighted CBR이 불균형 환경에서도 안정적으로 적용할 수 있는지 검증하였다. 전체데이터에서 100개의 데이터를 무작위로 추출한 불균형 환경에서 100번 반복하여 예측성과를 비교해 본 결과 본 연구에서 제안한 Weighted CBR은 불균형 환경에서도 일관된 우수한 성과를 보여주었다.

임상도와 Landsat TM 위성영상을 이용한 산림탄소저장량 추정 방법 비교 연구 (Comparison of Forest Carbon Stocks Estimation Methods Using Forest Type Map and Landsat TM Satellite Imagery)

  • 김경민;이정빈;정재훈
    • 대한원격탐사학회지
    • /
    • 제31권5호
    • /
    • pp.449-459
    • /
    • 2015
  • 기존의 국가산림자원조사(National Forest Inventory, NFI)에 의한 산림탄소저장량 추정 방법은 국가 규모의 평균 탄소저장량 추정에는 충분하지만 표본점 개수가 부족한 시 군 단위의 세밀한 추정은 어렵다. 본 연구에서는 시 군별 산림탄소저장량 추정을 위해 공간 자료를 보조 자료로 이용하고 2가지 업스케일링 방법을 적용하여 격자별 산림탄소저장량 정보를 가진 산림탄소지도를 제작하였다. 대상지역은 충청남도로 2가지 방법 모두 제 5차 NFI(2006~2009) 자료를 활용하였다. 방법 1은 임상도를 보조 자료로 선택하고 NFI 기반 산림탄소저장량 회귀모델을 이용하였다. 방법 2는 위성영상을 보조 자료로 선택하고 k-NN을 이용하여 산림탄소저장량을 추정하였다. 불확실성을 고려하기 위해 200회 몬테카를로 시뮬레이션을 수행하여 최종 AGB 탄소지도를 산출하였다. 방법 1에서는 충청남도의 총 산림탄소저장량이 22,948,151 tonC으로 기존의 현지조사표본 기반 추정치(21,136,911 tonC)에 비해 과대추정을, 방법 2에서는 19,750,315 tonC로 과소추정되는 경향을 나타내었다. 독립검증 지점(n=186)의 탄소저장량에 대한 대응표본 T-검정 결과, 방법 2의 평균 추정치와 NFI 표본 기반 평균 추정치는 통계적으로 유의한 차이가 있는 반면(p<0.01), 방법 1의 평균 추정치는 NFI 표본 기반 평균 추정치와 통계적으로 유의한 차이가 없는 것으로 평가되었다(p>0.01). 특히, 방법 2의 경우 k-NN의 스무딩 효과 및 몬테카를로 시뮬레이션을 통해 위성영상과 표본점의 mis-registration 오차가 추정오차에 큰 영향을 미칠 수 있음이 발견되었다. 임상도를 활용한 방법 1이 임분 구조가 복잡한 우리나라 산림의 탄소량 추정에 효과적일 수 있지만, 미조사 지점의 주기적인 갱신 및 대면적 추정에 유리한 위성영상의 활용은 여전히 필수적이다, 따라서 시공간적인 확장과 함께 보다 신뢰할 수 있는 산림탄소저장량 추정을 위해 다양한 위성영상 자료 및 활용 기법에 관한 연구가 필요할 것으로 사료된다.