• 제목/요약/키워드: nearest-neighbor analysis

검색결과 257건 처리시간 0.023초

이동 평균 기반 동적 시간 와핑 기법을 이용한 시계열 키워드 데이터의 분류 성능 개선 방안 (Enhancing Classification Performance of Temporal Keyword Data by Using Moving Average-based Dynamic Time Warping Method)

  • 정도헌
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.83-105
    • /
    • 2019
  • 본 연구는 시계열 특성을 갖는 데이터의 패턴 유사도 비교를 통해 유사 추세를 보이는 키워드를 자동 분류하기 위한 효과적인 방법을 제안하는 것을 목표로 한다. 이를 위해 대량의 웹 뉴스 기사를 수집하고 키워드를 추출한 후 120개 구간을 갖는 시계열 데이터를 생성하였다. 제안한 모델의 성능 평가를 위한 테스트 셋을 구축하기 위해, 440개의 주요 키워드를 8종의 추세 유형에 따라 수작업으로 범주를 부여하였다. 본 연구에서는 시계열 분석에 널리 활용되는 동적 시간 와핑(DTW) 기법을 기반으로, 추세의 경향성을 잘 보여주는 이동평균(MA) 기법을 DTW에 추가 적용한 응용 모델인 MA-DTW를 제안하였다, 자동 분류 성능 평가를 위해 k-최근접 이웃(kNN) 알고리즘을 적용한 결과, ED와 DTW가 각각 마이크로 평균 F1 기준 48.2%와 66.6%의 최고 점수를 보인 데 비해, 제안 모델은 최고 74.3%의 식별 성능을 보여주었다. 종합 성능 평가를 통해 측정된 모든 지표에서, 제안 모델이 기존의 ED와 DTW에 비해 우수한 성능을 보임을 확인하였다.

블록의 속성과 질감특징을 이용한 문서영상의 블록분류 (Block Classification of Document Images by Block Attributes and Texture Features)

  • 장영내;김중수;이철희
    • 한국멀티미디어학회논문지
    • /
    • 제10권7호
    • /
    • pp.856-868
    • /
    • 2007
  • 본 논문에서는 블록의 속성과 질감특징을 이용하여 효과적인 블록 분류 방법을 제안하였다. 제안한 방법에서는 먼저 명암도 문서영상을 이진화한 후, 평활화 기법을 적용하여 블록의 위치정보와 본 논문에서 사용할 특징 중에 하나인 각 블록의 내부에 있는 작은 블록들의 최대 높이 값을 구하였다. 이 위치정보들을 이용하여 문서영상을 각 블록으로 분할한다. 이 블록의 명암도 블록영상에서 문서의 속성이 잘 반영된 (0,1) 방향의 공간 명암도 의존 행렬을 구하여 7가지 질감특징을 구하였다. 먼저 블록의 속성을 최소거리 규칙(Nearest Neighbor Rule)에 입력하여 문자와 비문자 영역으로, 상세분류를 위하여 7가지 질감특징을 이용하여 큰 문자, 작은 문자, 표, 그래픽 및 사진 등으로 구분함으로써 문서인식을 위한 구조 해석뿐만 아니라 다양한 응용 분야에 효과적으로 이용될 수 있도록 하였다.

  • PDF

페이지랭크를 이용한 암환자의 이질적인 예후 유전자 식별 및 예후 예측 (Identification of Heterogeneous Prognostic Genes and Prediction of Cancer Outcome using PageRank)

  • 최종환;안재균
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.61-68
    • /
    • 2018
  • 암환자의 예후 예측에 기여하는 유전자를 찾는 것은 환자에게 보다 적합한 치료를 제공하기 위한 도전 과제 중 하나이다. 예후 유전자를 찾기 위해 유전자 발현 데이터를 이용한 분류 모델 개발 연구가 많이 이루어지고 있다. 하지만 암의 이질성으로 인해 예후 예측의 정확도 향상에 한계가 있다는 문제가 있다. 본 논문에서는 유방암을 비롯한 6개의 암에 대한 암환자의 마이크로어레이 데이터와 생물학적 네트워크 데이터를 이용하여 페이지랭크 알고리즘을 통해 예후 유전자들을 식별하고, K-Nearest Neighbor 알고리즘을 사용하여 암 환자의 예후를 예측하는 모델을 제안한다. 그리고 페이지랭크를 사용하기 전에 K-Means 클러스터링으로 유전자 발현 패턴이 비슷한 샘플들을 나누어 이질성을 극복하고자 한다. 본 논문에서 제안한 방법은 기존의 유전자 바이오마커를 찾는 알고리즘보다 높은 예측 정확도를 보여 주었으며, GO 검증을 통해 클러스터에 특이적인 생물학적 기능을 확인하였다.

공간 패널 회귀모형을 이용한 양파 생산량 추정 (Onion yield estimation using spatial panel regression model)

  • 최성천;백장선
    • 응용통계연구
    • /
    • 제29권5호
    • /
    • pp.873-885
    • /
    • 2016
  • 노지에서 재배되는 양파 생산량은 기후환경에 의하여 영향을 받으며, 특정 지역에서 많이 생산되는 지역적인 특성을 가지고 있다. 따라서 생산량 예측시 기상과 지역을 동시에 고려하는 접근이 필요하다. 본 논문에서는 공간 패널 회귀모형을 이용하여 기상변화에 따른 생산량을 추정하였다. 양파 주산지 13곳에 대한 2006년부터 2015년까지의 기상 패널자료를 사용하여, 공간시차를 반영한 공간자기회귀(spatial autoregressive)모형을 사용하였다. 공간가중치 행렬은 임계치 설정방법과 최근거리 설정방법으로 나누어 분석하여, 최근 3곳까지 거리 설정방법을 사용한 모형이 최종 모형으로 선택되었으며, 자기상관성이 유의함을 보였다. 하우스만 검정을 통해 채택된 확률효과모형으로 분석한 결과 누적일조시간(1월), 평균상대습도(4월), 평균최저기온(6월), 누적강수량(11월) 등이 양파 생산량 예측에 유의한 변수로 나타났다.

Genetic Algorithm과 다중부스팅 Classifier를 이용한 암진단 시스템 (Cancer Diagnosis System using Genetic Algorithm and Multi-boosting Classifier)

  • 온승엽;지승도
    • 한국시뮬레이션학회논문지
    • /
    • 제20권2호
    • /
    • pp.77-85
    • /
    • 2011
  • 생물 및 의학계에서는 생물정보학(bioinformatics)의 데이터 중 혈청 단백질(proteome)에서 추출한 데이터가 질병의 진단에 관련된 정보를 가지고 있고, 이 데이터를 분류 분석함으로 질병을 조기에 진단 할 수 있다고 믿고 있다. 본 논문에서는 혈청 단백질(2-D PAGE: Two-dimensional polyacrylamide gel electrophoresis)로부터 암과 정상을 판별하는 새로운 복합분류기를 제안한다. 새로운 복합 분류기에서는 support vector machine(SVM)와 다층 퍼셉트론(multi-layer perceptron: MLP)와 k-최근 접 이웃(k-nearest neighbor: k-NN)분류기를 앙상블(ensemble) 방법으로 통합하는 동시에 다중 부스팅(boosting) 방법으로 각 분류기를 확장하여 부분류기(subclassifier)의 배열(array)으로서 복합분류기를 구성하였다. 각 부분류기에서는 최적 특성 집합 (feature set)을 탐색하기 위하여 유전 알고리즘(genetic algorithm: GA)를 적용하였다. 복합분류기의 성능을 측정하기 위하여 암연구에서 얻어진 임상 데이터를 복합분류기에 적용하였고 결과로서 단일 분류기 보다 높은 분류 정확도와 안정성을 보여 주었다.

3축 가속도 센서와 족압 감지 시스템을 활용한 보행 모니터링 시스템 개발 (Development of Gait Monitoring System Based on 3-axis Accelerometer and Foot Pressure Sensors)

  • 유인환;이선우;정현기;변기훈;권장우
    • 재활복지공학회논문지
    • /
    • 제10권3호
    • /
    • pp.199-206
    • /
    • 2016
  • 대부분의 한국인은 오랜 좌식생활 때문에 팔자 걸음이나 안짱 걸음을 걷는 경우가 많고, 오늘날에는 보행 중 스마트폰 사용으로 인하여 올바른 자세의 보행이 더욱 어려워지고 있다. 본 연구는 현대 한국인의 걸음 실태를 쉽게 분석하고 사용자로 하여금 이를 알 수 있도록 하는 간편한 시스템을 구현하는 데 목적이 있다. 본 연구는 보행 유형을 분류하기 위하여 3축 가속도 센서와 족압 감지 시스템을 활용한 보행 모니터링 시스템을 개발하였다. 개발된 시스템은 걸을 때 발생하는 발의 압력(foot pressure)과, 상반신의 기울어진 정도를 각각 압력 센서(pressure sensor)와 3축 가속도계(3-axis accelerometer)를 통해 걷는 자세의 데이터를 취득할 수 있다. 이를 통해 몇 가지 보행 유형과 센서 데이터 간의 상관관계를 분석하였다. 그 결과 상체 자세 판별에는 통계적 모수인 제곱평균제곱근과 표준편차가, 보행 유행 판별에는 k-최근접 이웃 알고리즘이 적합하다는 사실을 확인하였다. 고안된 시스템은 저비용의 의학, 체육 분야에 응용될 수 있다.

공작기계의 절삭용 인서트의 잔여 유효 수명 예측 모형 (Machine Learning Model for Predicting the Residual Useful Lifetime of the CNC Milling Insert)

  • 최원근;김흥섭;고봉진
    • 한국항행학회논문지
    • /
    • 제27권1호
    • /
    • pp.111-118
    • /
    • 2023
  • 스마트팩토리의 구축을 위해서는 제조환경에서 여러 센서 및 기기 등을 연결하여 데이터를 수집하고, 데이터 분석을 통해 생산설비 등의 장애를 진단하거나 예측하여야 한다. 본 논문에서는 공작기계에서 제품을 가공하기 위해 사용되는 절삭용 인서트의 잔여 유효 수명을 예측하기 위해 진동 신호를 기반으로 한 가중화 k-최근접이웃(Weighted k-NN) 알고리즘, 의사결정나무(Decision Tree), 서포트벡터회귀(SVM), XGBoost, 랜덤포레스트(Random forest), 1차원 합성곱신경망(1D-CNN), 그리고 진동 신호를 FFT한 주파수 스펙트럼에 대해 알아보았다. 연구결과, 주파수 스펙트럼으로는 잔여 유효수명의 정확한 예측에 대해서는 신빙성있는 기준을 제공하지 못한다는 것을 알수 있었고, 예측 모델 중 가중화 k-최근접이웃 알고리즘이 MAE가 0.0013, MSE가 0.004, RMSE가 0.0192로 가장 우수한 성능을 나타내었다. 이는 가중화 k-최근접이웃 알고리즘에 의해 예측되는 인서트의 잔여 유효 수명의 오차가 0.001초 수준으로 평가되어, 실제 산업현장에 적용이 가능한 수준으로 사료된다.

격자 기반 침수위험지도 작성을 위한 기계학습 모델별 성능 비교 연구 - 2016 태풍 차바 사례를 중심으로 - (Performance Comparison of Machine Learning Models for Grid-Based Flood Risk Mapping - Focusing on the Case of Typhoon Chaba in 2016 -)

  • 한지혜;곽창재;김구윤;이미란
    • 대한원격탐사학회지
    • /
    • 제39권5_2호
    • /
    • pp.771-783
    • /
    • 2023
  • This study aims to compare the performance of each machine learning model for preparing a grid-based disaster risk map related to flooding in Jung-gu, Ulsan, for Typhoon Chaba which occurred in 2016. Dynamic data such as rainfall and river height, and static data such as building, population, and land cover data were used to conduct a risk analysis of flooding disasters. The data were constructed as 10 m-sized grid data based on the national point number, and a sample dataset was constructed using the risk value calculated for each grid as a dependent variable and the value of five influencing factors as an independent variable. The total number of sample datasets is 15,910, and the training, verification, and test datasets are randomly extracted at a 6:2:2 ratio to build a machine-learning model. Machine learning used random forest (RF), support vector machine (SVM), and k-nearest neighbor (KNN) techniques, and prediction accuracy by the model was found to be excellent in the order of SVM (91.05%), RF (83.08%), and KNN (76.52%). As a result of deriving the priority of influencing factors through the RF model, it was confirmed that rainfall and river water levels greatly influenced the risk.

낙동강 주요지점에서 유량-수질의 관련특성에 관한 연구 (A Study on the Related Characteristics of Discharge-Water Quality in Nakdong River)

  • 조현경
    • 한국환경과학회지
    • /
    • 제20권3호
    • /
    • pp.373-384
    • /
    • 2011
  • This study aims at the examination of the relative characteristics of discharge and water quality in river basins using statistical methods. For it, water quality and discharge data was collected in observed stations of Nakdong river and carried out correlation analysis, regression analysis, factor analysis and cluster analysis. And it was investigated the applicability of water quality prediction using Nearest-neighbor method. As a result, it grasped a trenditional characteristics and mutual relations between discharge an water quality data. Therefore, this results were suggested the comprehensive data and methods for a management of water quality, effective operation and policy development in Nakdong river basin.

A Classification Method Using Data Reduction

  • Uhm, Daiho;Jun, Sung-Hae;Lee, Seung-Joo
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제12권1호
    • /
    • pp.1-5
    • /
    • 2012
  • Data reduction has been used widely in data mining for convenient analysis. Principal component analysis (PCA) and factor analysis (FA) methods are popular techniques. The PCA and FA reduce the number of variables to avoid the curse of dimensionality. The curse of dimensionality is to increase the computing time exponentially in proportion to the number of variables. So, many methods have been published for dimension reduction. Also, data augmentation is another approach to analyze data efficiently. Support vector machine (SVM) algorithm is a representative technique for dimension augmentation. The SVM maps original data to a feature space with high dimension to get the optimal decision plane. Both data reduction and augmentation have been used to solve diverse problems in data analysis. In this paper, we compare the strengths and weaknesses of dimension reduction and augmentation for classification and propose a classification method using data reduction for classification. We will carry out experiments for comparative studies to verify the performance of this research.