• 제목/요약/키워드: k-Nearest Neighbors

검색결과 206건 처리시간 0.023초

The National Forest Inventory of the United States of America

  • McRoberts, Ronald E.
    • Journal of Forest and Environmental Science
    • /
    • 제24권3호
    • /
    • pp.127-135
    • /
    • 2008
  • The mission of the Forest Inventory and Analyis (FIA) program of the Forest Service, U.S. Department of Agriculture, is to conduct the national forest inventory of the United States of America for purposes of estimating the area of forest land; the volume, growth, and removal of forest resources; and the health of the forest. Users of FIA data, estimates, and related products include land managers, policy and decision-makers, forest industry, environmental organizations, and university researchers. To accomplish its mission, the FIA program has established a sampling design with an intensity of approximately one permanent plot per 2,400 ha across the entire country. Depending on the region of the country, each plot is remeasured at intervals of five or 10 years. The program releases data annually and reports estimates at the county level for each state every five years. Due to budgetary constraints and natural variability among plot observations, sufficient numbers of plots cannot be measured to satisfy precision guidelines for the estimates of many variables unless the estimation process is enhanced using ancillary data. Classified satellite imagery has been demonstrated to be a source of ancillary data that can be used with stratified estimation techniques to increase the precision of estimates with little corresponding increase in costs. A crucial factor restricting the utility of FIA data is that the exact locations of inventory plots cannot be released to the public. Thus, users are generally not able to obtain estimates for small areas or for their own areas of interest if exact plot locations are required. To compensate, satellite imagery, inventory plot data, and the k-Nearest Neighbors technique are being used to construct Internet-based maps of forest attributes from which estimates for arbitrary user-defined areas of interest may be obtained.

  • PDF

공간의존 파론도 게임의 재분배 모형 (A redistribution model for spatially dependent Parrondo games)

  • 이지연
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권1호
    • /
    • pp.121-130
    • /
    • 2016
  • N명의 게임자들이 둥글게 둘러앉아 공간의존 파론도 게임 B를 실시한다. 게임 B는 여러 명의 게임자들 중에서 한 명을 임의로 선택하고, 선택된 게임자는 양 옆에 있는 두 명의 게임자들의 상태에 따라 앞면이 나올 확률이 달라지는 동전을 던져서 앞면이 나오면 1원을 얻고 뒷면이 나오면 1원을 잃는다. 게임 A'은 임의로 선택된 게임자가 나머지 N - 1명의 게임자들 중에서 한 명을 임의로 선택하여 본인의 상금 1원을 전달하는 게임으로 전체 게임자들의 총 상금에는 변함이 없으므로 전체 게임자들에게는 항상 공정한 게임이다. 만약 게임 B가 지는 게임인 반면에 두 게임 A'와 B를 결합한 혼합게임 C는 이기는 게임이 되면 파론도 효과가 존재하고, 게임 B가 이기는 게임이고 혼합게임 C는 지는 게임이면 역파론도 효과가 존재한다고 한다. 먼저 마코프 체인의 상태공간의 축소를 위한 lumpability 조건이 게임 A', B 그리고 혼합게임 C에 대해 만족함을 보이고, 축소된 상태공간에서 게임 B와 C의 기대상금을 계산한다. 이를 이용하여 파론도 효과와 역파론도 효과의 존재를 확인하고, 특별히 $3{\leq}N{\leq}6$의 경우에는 파론도 효과와 역파론도 효과가 존재하는 확률 모수의 영역을 도식화 한다.

지도학습 알고리즘 기반 3D 노지 작물 구분 모델 개발 (Development of 3D Crop Segmentation Model in Open-field Based on Supervised Machine Learning Algorithm)

  • 정영준;이종혁;이상익;오부영;;서병훈;김동수;서예진;최원
    • 한국농공학회논문집
    • /
    • 제64권1호
    • /
    • pp.15-26
    • /
    • 2022
  • 3D open-field farm model developed from UAV (Unmanned Aerial Vehicle) data could make crop monitoring easier, also could be an important dataset for various fields like remote sensing or precision agriculture. It is essential to separate crops from the non-crop area because labeling in a manual way is extremely laborious and not appropriate for continuous monitoring. We, therefore, made a 3D open-field farm model based on UAV images and developed a crop segmentation model using a supervised machine learning algorithm. We compared performances from various models using different data features like color or geographic coordinates, and two supervised learning algorithms which are SVM (Support Vector Machine) and KNN (K-Nearest Neighbors). The best approach was trained with 2-dimensional data, ExGR (Excess of Green minus Excess of Red) and z coordinate value, using KNN algorithm, whose accuracy, precision, recall, F1 score was 97.85, 96.51, 88.54, 92.35% respectively. Also, we compared our model performance with similar previous work. Our approach showed slightly better accuracy, and it detected the actual crop better than the previous approach, while it also classified actual non-crop points (e.g. weeds) as crops.

Intelligent System for the Prediction of Heart Diseases Using Machine Learning Algorithms with Anew Mixed Feature Creation (MFC) technique

  • Rawia Elarabi;Abdelrahman Elsharif Karrar;Murtada El-mukashfi El-taher
    • International Journal of Computer Science & Network Security
    • /
    • 제23권5호
    • /
    • pp.148-162
    • /
    • 2023
  • Classification systems can significantly assist the medical sector by allowing for the precise and quick diagnosis of diseases. As a result, both doctors and patients will save time. A possible way for identifying risk variables is to use machine learning algorithms. Non-surgical technologies, such as machine learning, are trustworthy and effective in categorizing healthy and heart-disease patients, and they save time and effort. The goal of this study is to create a medical intelligent decision support system based on machine learning for the diagnosis of heart disease. We have used a mixed feature creation (MFC) technique to generate new features from the UCI Cleveland Cardiology dataset. We select the most suitable features by using Least Absolute Shrinkage and Selection Operator (LASSO), Recursive Feature Elimination with Random Forest feature selection (RFE-RF) and the best features of both LASSO RFE-RF (BLR) techniques. Cross-validated and grid-search methods are used to optimize the parameters of the estimator used in applying these algorithms. and classifier performance assessment metrics including classification accuracy, specificity, sensitivity, precision, and F1-Score, of each classification model, along with execution time and RMSE the results are presented independently for comparison. Our proposed work finds the best potential outcome across all available prediction models and improves the system's performance, allowing physicians to diagnose heart patients more accurately.

머신러닝 및 딥러닝을 활용한 강우침식능인자 예측 평가 (Evaluation of Rainfall Erosivity Factor Estimation Using Machine and Deep Learning Models)

  • 이지민;이서로;이관재;김종건;임경재
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.450-450
    • /
    • 2021
  • 기후변화 보고서에 따르면 집중 호우의 강도 및 빈도 증가가 향후 몇 년동안 지속될 것이라 제시하였다. 이러한 집중호우가 빈번히 발생하게 된다면 강우 침식성이 증가하여 표토 침식에 더 취약하게 발생된다. Universal Soil Loss Equation (USLE) 입력 매개 변수 중 하나인 강우침식능인자는 토양 유실을 예측할때 강우 강도의 미치는 영향을 제시하는 인자이다. 선행 연구에서 USLE 방법을 사용하여 강우침식능인자를 산정하였지만, 60분 단위 강우자료를 이용하였기 때문에 정확한 30분 최대 강우강도 산정을 고려하지 못하는 한계점이 있다. 본 연구의 목적은 강우침식능인자를 이전의 진행된 방법보다 더 빠르고 정확하게 예측하는 머신러닝 모델을 개발하며, 총 월별 강우량, 최대 일 강우량 및 최대 시간별 강우량 데이터만 있어도 산정이 가능하도록 하였다. 이를 위해 본 연구에서는 강우침식능인자의 산정 값의 정확도를 높이기 위해 1분 간격 강우 데이터를 사용하며, 최근 강우 패턴을 반영하기 위해서 2013-2019년 자료로 이용했다. 우선, 월별 특성을 파악하기 위해 USLE 계산 방법을 사용하여 월별 강우침식능인자를 산정하였고, 국내 50개 지점을 대상으로 계산된 월별 강우침식능인자를 실측 값으로 정하여, 머신러닝 모델을 통하여 강우침식능인자 예측하도록 학습시켜 분석하였다. 이 연구에 사용된 머신러닝 모델들은 Decision Tree, Random Forest, K-Nearest Neighbors, Gradient Boosting, eXtreme Gradient Boost 및 Deep Neural Network을 이용하였다. 또한, 교차 검증을 통해서 모델 중 Deep Neural Network이 강우침식능인자 예측 정확도가 가장 높게 산정하였다. Deep Neural Network은 Nash-Sutcliffe Efficiency (NSE) 와 Coefficient of determination (R2)의 결과값이 0.87로서 모델의 예측성을 입증하였으며, 검증 모델을 테스트 하기 위해 국내 6개 지점을 무작위로 선별하여 강우침식능인자를 분석하였다. 본 연구 결과에서 나온 Deep Neural Network을 이용하면, 훨씬 적은 노력과 시간으로 원하는 지점에서 월별 강우침식능인자를 예측할 수 있으며, 한국 강우 패턴을 효율적으로 분석 할 수 있을 것이라 판단된다. 이를 통해 향후 토양 침식 위험을 지표화하는 것뿐만 아니라 토양 보전 계획을 수립할 수 있으며, 위험 지역을 우선적으로 선별하고 제시하는데 유용하게 사용 될 것이라 사료된다.

  • PDF

희소주성분분석을 이용한 텍스트데이터의 단어선택 (Feature selection for text data via sparse principal component analysis)

  • 손원
    • 응용통계연구
    • /
    • 제36권6호
    • /
    • pp.501-514
    • /
    • 2023
  • 텍스트데이터는 일반적으로 많은 단어로 이루어져 있다. 텍스트데이터와 같이 많은 변수로 구성된 데이터의 경우 과적합 등의 문제로 분석에 있어서의 정확성이 떨어지고, 계산과정에서의 효율성에도 문제가 발생하는 경우를 흔히 볼 수 있다. 이렇게 변수가 많은 데이터를 분석하기 위해 특징선택, 특징추출 등의 차원 축소 기법이 자주 사용되고 있다. 희소주성분분석은 벌점이 부여된 최소제곱법 중 하나로 엘라스틱넷 형태의 목적함수를 사용하여 유용하지 않은 주성분을 제거하고 각 주성분에서도 중요도가 큰 변수만 식별해내기 위해 활용되고 있다. 이 연구에서는 희소주성분분석을 이용하여 많은 변수를 가진 텍스트데이터를 소수의 변수만으로 요약하는 절차를 제안한다. 이러한 절차를 실제 데이터에 적용한 결과, 희소주성분분석을 이용하여 단어를 선택하는 과정을 통해 목표변수에 대한 정보를 이용하지 않고도 유용성이 낮은 단어를 제거하여 텍스트데이터의 분류 정확성은 유지하면서 데이터의 차원을 축소할 수 있음을 확인하였다. 특히 차원축소를 통해 고차원 데이터 분석에서 분류 정확도가 저하되는 KNN 분류기 등의 분류 성능을 개선할 수 있음을 알 수 있었다.

In-depth exploration of machine learning algorithms for predicting sidewall displacement in underground caverns

  • Hanan Samadi;Abed Alanazi;Sabih Hashim Muhodir;Shtwai Alsubai;Abdullah Alqahtani;Mehrez Marzougui
    • Geomechanics and Engineering
    • /
    • 제37권4호
    • /
    • pp.307-321
    • /
    • 2024
  • This paper delves into the critical assessment of predicting sidewall displacement in underground caverns through the application of nine distinct machine learning techniques. The accurate prediction of sidewall displacement is essential for ensuring the structural safety and stability of underground caverns, which are prone to various geological challenges. The dataset utilized in this study comprises a total of 310 data points, each containing 13 relevant parameters extracted from 10 underground cavern projects located in Iran and other regions. To facilitate a comprehensive evaluation, the dataset is evenly divided into training and testing subset. The study employs a diverse array of machine learning models, including recurrent neural network, back-propagation neural network, K-nearest neighbors, normalized and ordinary radial basis function, support vector machine, weight estimation, feed-forward stepwise regression, and fuzzy inference system. These models are leveraged to develop predictive models that can accurately forecast sidewall displacement in underground caverns. The training phase involves utilizing 80% of the dataset (248 data points) to train the models, while the remaining 20% (62 data points) are used for testing and validation purposes. The findings of the study highlight the back-propagation neural network (BPNN) model as the most effective in providing accurate predictions. The BPNN model demonstrates a remarkably high correlation coefficient (R2 = 0.99) and a low error rate (RMSE = 4.27E-05), indicating its superior performance in predicting sidewall displacement in underground caverns. This research contributes valuable insights into the application of machine learning techniques for enhancing the safety and stability of underground structures.

Corpus of Eye Movements in L3 Spanish Reading: A Prediction Model

  • Hui-Chuan Lu;Li-Chi Kao;Zong-Han Li;Wen-Hsiang Lu;An-Chung Cheng
    • 아시아태평양코퍼스연구
    • /
    • 제5권1호
    • /
    • pp.23-36
    • /
    • 2024
  • This research centers on the Taiwan Eye-Movement Corpus of Spanish (TECS), a specially created corpus comprising eye-tracking data from Chinese-speaking learners of Spanish as a third language in Taiwan. Its primary purpose is to explore the broad utility of TECS in understanding language learning processes, particularly the initial stages of language learning. Constructing this corpus involves gathering data on eye-tracking, reading comprehension, and language proficiency to develop a machine-learning model that predicts learner behaviors, and subsequently undergoes a predictability test for validation. The focus is on examining attention in input processing and their relationship to language learning outcomes. The TECS eye-tracking data consists of indicators derived from eye movement recordings while reading Spanish sentences with temporal references. These indicators are obtained from eye movement experiments focusing on tense verbal inflections and temporal adverbs. Chinese expresses tense using aspect markers, lexical references, and contextual cues, differing significantly from inflectional languages like Spanish. Chinese-speaking learners of Spanish face particular challenges in learning verbal morphology and tenses. The data from eye movement experiments were structured into feature vectors, with learner behaviors serving as class labels. After categorizing the collected data, we used two types of machine learning methods for classification and regression: Random Forests and the k-nearest neighbors algorithm (KNN). By leveraging these algorithms, we predicted learner behaviors and conducted performance evaluations to enhance our understanding of the nexus between learner behaviors and language learning process. Future research may further enrich TECS by gathering data from subsequent eye-movement experiments, specifically targeting various Spanish tenses and temporal lexical references during text reading. These endeavors promise to broaden and refine the corpus, advancing our understanding of language processing.

위성영상과 머신러닝 모델을 이용한 폭염기간 고해상도 기온 추정 연구 (A Study for Estimation of High Resolution Temperature Using Satellite Imagery and Machine Learning Models during Heat Waves)

  • 이달근;이미희;김보은;유정흠;오영주;박진이
    • 대한원격탐사학회지
    • /
    • 제36권5_4호
    • /
    • pp.1179-1194
    • /
    • 2020
  • 본 연구에서는 지상기상센서가 설치되지 않은 미 관측지점의 기온정보를 추정하기 위하여 K-최근접 이웃, 랜덤 포레스트, 신경망 알고리즘을 대상으로 위성영상을 이용하여 기온자료를 산출하고 그 정확성을 평가·분석하고자 하였다. 위성영상자료는 2019년에 취득된 Landsat-8과 MODIS Aqua/Terra을 이용하였으며, 기상자료는 기상청과 산림청의 AWS/ASOS 자료를 이용하였다. 또한 추정 정확도를 향상시키기 위하여 수치표면 모델, 일사량, 경사방향, 경사도를 생성하여 이용하였다. 머신러닝 알고리즘 정확도 비교는 10-fold 교차검증을 통하여 R2(결정계수) 및 RMSE(평균제곱근오차)의 통계량을 계산하여 대상지역별 추정결과를 비교하였다. 그 결과 신경망 알고리즘이 R2=0.805, RMSE=0.508로 세 알고리즘 중 가장 안정적인 결과를 나타내었다. 신경망 알고리즘을 구축된 위성영상 데이터셋에 적용하여 2019년 6월부터 9월까지의 평균기온 지도를 생성할 수 있었으며 세밀한 기온 정보를 관측할 수 있음을 확인하였다. 연구 성과는 폭염 대응 정책, 열섬완화 연구 등 국가재난안전 관리에 활용 될 수 있을 것으로 기대된다.

EIS 기반 전압신호 분석을 통한 당뇨병 진단 가능성 평가 (Diagnosis of Diabetes Using Voltage Analysis Based on EIS (Electro Interstitial Scan))

  • 배장한;김수찬;카니티카 케오칸네트;전민호;김재욱
    • 전자공학회논문지
    • /
    • 제53권11호
    • /
    • pp.114-122
    • /
    • 2016
  • EIS (Electro interstitial scan, 전기체간스캔법)는 전극을 이용해 미세전류를 인체에 인가하고 그에 따른 전기적 반응을 분석하여 생리적인 정보를 얻는 방법으로, 비침습적이고 간단한 검사가 가능하다는 장점이 있다. 특히 당뇨병 진단을 위한 스크린용으로 적합하다는 연구들이 진행되어 왔으나 대부분 진단 원리에 대한 구체적인 논의가 이루어지지 않았다. 본 연구에서는 EIS 방법이 당뇨병 스크리닝 및 임상에 유용하게 활용될 수 있을지 분석해 보기위해 당뇨병 환자와 정상인을 대상으로 EIS 장비의 원 신호인 전압 변동 데이터를 특정경로에서 측정하였다. 전압 신호의 특징점을 추출하고 두 그룹 사이의 AUC (Area under the curve)를 계산한 결과 7개의 변수들이 60% 이상의 분류 정확도를 보였다. 또한 이 변수들을 k-NN 분류기로 학습한 결과, 왼쪽 손에서의 전압 변동 크기를 기준으로 분석했을 때 분류 정확도를 76.2%까지 높일 수 있었다. EIS 기반의 전압신호 분석법으로 비침습적인 당뇨병 스크리닝의 가능성을 보였다.