• 제목/요약/키워드: K-Nearest Neighbor 알고리즘

검색결과 204건 처리시간 0.03초

microRNA 발현 데이터의 상관관계 분석을 통한 microRNA Functional Family 탐색 (Defining microRNA functional families through correlation analysis of microRNA microarray data)

  • 남진우;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.13-15
    • /
    • 2006
  • microRNA는 유전자의 전사 후 과정에서 negative regulation을 담당하는 small noncoding RNA의 한 증류이다. 최근까지 330여개의 인간 microRNA가 발견되었지만 그들의 기능이 밝혀진 것은 소수에 불과하다. microRNA의 기능은 3'UTR에 불완전 상보결합을 통해 negative regulation을 받게 되는 유전자의 기능으로부터 유추되는 것이 일반적이다. 특별히 유전체상에 군집화 된 microRNA들은 하나의 전사체로부터 발현되는 것으로 판단되며, 같은 또는 관련된 기능을 하거나 같은 목표 유전자를 조절하기 위한 functional family일 가능성이 높다. 또한 이러한 functional family는 하나의 전사체로부터 발현되기 때문에, 조직별로 조건별로 같은 발현 패턴을 보여야 한다. 본 연구에서는 발현데이터로부터 microRNA functional family를 탐색하기 위해, 5개의 연구 그룹에서 공개한 조직별 microRNA 발현데이터를 표준화 작업을 거친 후 통합하고 k-nearest neighbor 알고리즘을 이용해 결측치를 보정한 후 microRNA 발현사이의 correlation을 계산한다. 이때 데이터 통합에서 생기는 문제에 robust한 결과를 얻기 위해 실제 발현데이터가 아닌 rank 데이터부터 correlation을 측정한다. 계산된 spearman ranked correlation 결과와 microRNA의 genomic coordination 정보로부터 34개의 functional family를 정의할 수 있었다.

  • PDF

시계열 위성영상과 머신러닝 기법을 이용한 산림 바이오매스 및 배출기준선 추정 (Machine-learning Approaches with Multi-temporal Remotely Sensed Data for Estimation of Forest Biomass and Forest Reference Emission Levels)

  • 이용규;이정수
    • 한국산림과학회지
    • /
    • 제111권4호
    • /
    • pp.603-612
    • /
    • 2022
  • 본 연구는 다중시기 위성영상과 머신러닝 알고리즘을 이용하여 준국가수준의 시계열 산림바이오매스량을 추정하였으며, 이를 바탕으로 산림배출기준선 설정하여 비교·분석하였다. 머신러닝기반의 산림바이오매스 추정 모델을 구축하기 위하여 Landsat TM 위성영상과 유럽항공우주국에서 제공하는 Biomass Climate Change Initiative 정보를 이용하였으며, 머신러닝 알고리즘은 비모수 학습모델인 k-Nearest Neighbor(kNN)과 의사결정나무 기반의 Random Forest(RF)를 적용하였다. 또한, 추정된 산림바이오매스량은 Forest reference emission levels(FREL) 자료와 비교하였다. 머신러닝 알고리즘 별 산림바이오매스 추정 모델을 비교해보면, 최적의 kNN 모델과 RF 모델의 Root Mean Square Error (RMSE)는 각각 35.9와 34.41였으며, RF모델이 kNN모델보다 상대적으로 우수하였다. 또한, FREL, kNN, RF 모델 별 산림배출기준선의 기울기는 각각 약 -33천ton, -253천ton, -92천ton으로 설정되었다.

사각형 특징 기반 분류기와 클래스 매칭을 이용한 실시간 얼굴 검출 및 인식 (Real Time Face Detection and Recognition using Rectangular Feature based Classifier and Class Matching Algorithm)

  • 김종민;강명아
    • 한국콘텐츠학회논문지
    • /
    • 제10권1호
    • /
    • pp.19-26
    • /
    • 2010
  • 본 논문은 사각형 특징 기반 분류기를 제안하여 실시간으로 얼굴 영역을 검출하며, 계산의 효율성과 검출 성능을 동시에 만족시키는 강인한 검출 알고리즘을 구현하고자 한다. 제안한 알고리즘은 특징 생성, 분류기 학습, 실시간 얼굴 영역 검출의 세 단계로 구성된다. 특징 생성은 제안된 5개의 사각형 특징으로 특징 집합을 구성하며, SAT(Summed-Area Tables)를 이용하여 특징 값을 효율적으로 계산한다. 분류기 학습은 AdaBoost 알고리즘을 이용하여, 분류기를 계층적으로 생성한다. 또한 중요한 얼굴 패턴은 다음 레벨에 반복적으로 적용함으로써 우수한 검출 성능을 가진다. 실시간 얼굴 영역 검출은 생성된 사각형 특징 기반 분류기를 통해, 빠르고 효율적으로 얼굴 영역을 찾아낸다. 또한 얼굴 영역을 검출한 영역을 인식의 입력 영상으로 사용하여 PCA와 KNN 알고리즘을 이용하여 기존의 매칭 방법인 Point to point 방법이 아닌 Class to Class 방식을 이용하여 인식률을 향상시켰다.

일반적인 GPU 트리 탐색과의 비교실험을 통한 GPU 기반 병렬 Shifted Sort 알고리즘 분석 (Analysis of GPU-based Parallel Shifted Sort Algorithm by comparing with General GPU-based Tree Traversal)

  • 김희수;박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권6호
    • /
    • pp.1151-1156
    • /
    • 2017
  • 일반적으로 GPU 기반 트리 탐색을 수행할 경우 병렬 처리 속도가 생각보다 크게 향상되지 않는 경우가 대부분이다. 본 논문에서는 이러한 원인을 분석하고 그 분석 결과로 GPU 병렬 처리 하드웨어 아키텍처 내 최소 물리적 스레드 실행 단위인 warp 내에서 분기문(if문)으로 인한 warp divergence가 일어나기 때문임을 제시한다. 또한 이러한 warp divergence를 최소화할 수 있는 병렬 shifted sort 알고리즘과의 비교를 통해 shifted sort 알고리즘이 일반적인 GPU 내 트리 탐색에 비해 우수한 성능을 보이는 구조임을 제시하였다. 분석 결과 GPU 기반 kd-tree 탐색에 비해 warp divergence가 발생하지 않은 shifted sort 탐색은 3차원 공간에서 데이터나 쿼리의 수가 $2^{23}$개 일 때 16배 이상의 빠른 처리 속도를 보였으며 이 성능 차이는 데이터나 쿼리의 개수가 증가함에 따라 더 커지는 경향을 보였다.

수중 선박엔진 음향 변환을 위한 향상된 CycleGAN 알고리즘 (Improved CycleGAN for underwater ship engine audio translation)

  • 아쉬라프 히나;정윤상;이종현
    • 한국음향학회지
    • /
    • 제39권4호
    • /
    • pp.292-302
    • /
    • 2020
  • 기계학습 알고리즘은 소나 및 레이더를 포함한 다양한 분야에서 사용되고 있다. 최근 개발된 GAN(Generative Adversarial Networks)의 변형인 Cycle-Consistency Generative Adversarial Network(CycleGAN)은 쌍을 이루지 않은 이미지-이미지 변환에 대해 검증된 네트워크이다. 본 논문에서는 높은 품질로 수중 선박 엔진음을 변환시킬 수 있는 변형된 CycleGAN을 제안한다. 제안된 네트워크는 수중 음향을 기존영역에서 목표영역으로 변환시키는 생성자 모델과 데이터를 참과 거짓으로 구분하는 개선된 식별자 그리고 변환된 수환 일관성(Cycle Consistency) 손실함수로 구성된다. 제안된 CycleGAN의 정량 및 정성분석은 공개적으로 사용 가능한 수중 데이터 ShipsEar을 사용하여 기존 알고리즘들과 Mel-cepstral분포, 구조적 유사 지수, 최소 거리 비교, 평균 의견 점수를 평가 및 비교함으로써 수행되었고, 분석결과는 제안된 네트워크의 유효성을 입증하였다.

공간 네트워크에서 이동객체의 위치정보 관리를 위한 동적 분산 그리드 기법 (Dynamic Distributed Grid Scheme to Manage the Location-Information of Moving Objects in Spatial Networks)

  • 김영창;홍승태;조경진;장재우
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권12호
    • /
    • pp.948-952
    • /
    • 2009
  • 최근 공간 네트워크에서 대용량 이동객체의 위치정보를 관리하기 위한 DS-GRID(distributed S-GRID)가 제안되었다[1]. 그러나 DS-GRID는 균일 크기의 그리드 셀을 이용하기 때문에, 실제 응용에서 빈번히 발생하는 이동 객체의 쏠림 현상을 효율적으로 관리하지 못하는 단점을 지닌다. 이를 해결하기 위해, 본 논문에서는 이동객체의 밀도에 따라 그리드 셀을 동적으로 분할하는 동적 분산 그리드 기법을 제안한다. 아울러 이를 위한 k-최근접 질의처리 알고리즘을 제안한다. 마지막으로 성능 평가를 통해 이동객체의 쏠림 현상이 발생하였을 경우, 제안하는 동적 분산 그리드 기법이 검색 및 업데이트 성능 측면에서 DS-GRID 보다 우수함을 입증한다.

디지털영상 국부정규화처리의 영역분할 구도 (Region-Segmental Scheme in Local Normalization Process of Digital Image)

  • 황중원;황재호
    • 대한전자공학회논문지SP
    • /
    • 제44권4호통권316호
    • /
    • pp.78-85
    • /
    • 2007
  • 영역들로 구성된 영상의 국부정규화처리 알고리즘에 내재된 분할 구도를 소개한다. 이동창에서 산출되는 국부통계치에 근거한 정규화적 접근은 선형 또는 비선형함수를 발생시켜 잡음 오염된 영역들의 화소분포와 근접유사 유형을 변형한다. 현재와 정규화된 영상신호 사이의 최근접 화소 이격거리에 대하여 평균과 표준편차를 조정하고 국부통계치와 파리미터 변동을 연계하여 영역간 분할 상태를 변화시킨다. 이러한 특성에 대하여 기존의 정규화 기법들과 본 연구에서 새로 고안한 국부정규화 기법이 비교 고찰된다. 그리고 실험결과는 국부정규화처리 실현에 의한 영역분할 성능을 보였다.

3차원 알고리듬을 이용한 랜덤(or s-랜덤) 인터리버를 적용한 터보코드의 성능분석 (Performance Analysis of Turbo-Code with Random (and s-random) Interleaver based on 3-Dimension Algorithm)

  • 공형윤;최지웅
    • 정보처리학회논문지A
    • /
    • 제9A권3호
    • /
    • pp.295-300
    • /
    • 2002
  • 본 논문에서는 3차원 입출력 알고리즘을 랜덤 인터리버와 s-랜덤 인터리버에 적용하였으며, 이를 터보코드 인터리버에 적용하여 성능을 분석하였다. 인터리버의 성능은 인접 데이터간 최소 거리에 의해 결정되어지므로, 인접 데이터간의 최소거리를 증가시키는 방법으로 인터리버의 성능을 향상 시켰다. 3차원 알고리즘을 적용한 인터리버는 3차원 저장공간을 이용해 입력 데이터를 저장하고 랜덤하게 추출하는 방식이다. 이러한 방식은 기존의 랜덤 인터리버와 s-랜덤 인터리버에 비해 인접 데이터간 최소거리와 평균거리를 증가시킨다. 컴퓨터 시뮬레이션을 이용하여 3차원 알고리듬을 적용한 터보코드의 성능을 분석하였으며, 전송 환경을 가우시안 채널로 설정하였다.

초분광영상과 머신러닝을 이용한 백제보 상류구간 조류 공간분포 특성분석 (Analysis of algal spatial distribution characteristics using hyperspectral images and machine learning in upstream reach of Baekje weir)

  • 장원진;김진욱;정지훈;박용은;김성준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.89-89
    • /
    • 2021
  • 부영양화된 호수나 유속이 느린 하천에서 발생하는 녹조의 과도한 발생은 하천 생태계 훼손, 동식물의 건강, 담수의 오염 등 환경 사회 경제적으로 큰 피해를 준다. 현재 수질 측정망은 정해진 지점에서 Chlorophyll-a(Chl-a), Phycocyanin(PC)을 대표농도로 산정하고 조류경보에 활용하고 있으나, 일주일에 한번씩 샘플링을 통해 Chl-a 및 PC를 측정하여 시공간적인 신뢰성의 문제가 제기될 수 있다. 본 연구에서는 기존 점단위 조류 모니터링의 한계점을 개선하기 위해 초분광영상 자료를 머신러닝 기법에 적용하여 Chl-a 및 PC 산정 알고리즘을 개발하였다. 이를 위해 Chl-a와 PC의 최대 흡수, 반사 파장대, 주요 물 흡수 파장대 자료를 조합하여 9개의 파장비를 구축하였으며, 기존 연구에서 활용한 머신러닝 기법인 Partial Least Square, Random Forest, Gradient Boosting, Support Vector Machine, K-Nearest Neighbor, Artificial Neural Network를 검토하여 최적 모델을 선정하였다. 학습된 머신러닝의 성능을 R2, NSE, RMSE 목적함수를 이용해 평가하였으며, 그 결과 ANN이 각각 PC 0.801, 0.755, 11.774 mg/m3, Chl-a 0.733, 0.622, 8.736 mg/m3로 가장 우수한 성능을 보였다. 최적화 된 ANN 모델을 백제보 상류 2016-2017년 항공 초분광영상에 적용하여 시공간에 따른 조류 분포변화를 평가하고자 한다.

  • PDF

분류 알고리즘 기반 주문 불균형 정보의 단기 주가 예측 성과 (Classification Algorithm-based Prediction Performance of Order Imbalance Information on Short-Term Stock Price)

  • 김선웅
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.157-177
    • /
    • 2022
  • 투자자들은 증권회사가 제공하는 시세표인 Limit Order Book 정보를 통해 국내외 투자자들이 제출하는 주문 정보를 실시간으로 파악하면서 거래에 참여하고 있다. Limit Order Book에 실시간으로 공개되고 있는 주문 정보가 주가 예측에서 유용성이 있을까? 본 연구는 장 중 투자자들의 매수와 매도 주문이 어느 한쪽으로 쏠리면서 주문 불균형이 나타나는 경우 미래 주가 등락의 예측 변수로서 유의성이 있는지를 분석하는 것이다. 분류 알고리즘을 이용하여 주문 불균형 정보의 당일 종가 등락에 대한 예측 정확도를 높이고, 예측 결과를 이용한 데이트레이딩 전략을 제안하며 실증분석을 통해 투자 성과를 분석한다. 자료는 2004년 1월 19일부터 2022년 6월 30일까지의 4,564일 동안의 코스피200 주가지수선물 5 분 봉 주가를 분석하였다. 실증분석 결과는 다음과 같다. 첫째, 총매수 주문량과 총매도 주문량의 불균형 정도로 측정하는 주문 불균형지수와 주가는 유의적 상관성을 보인다. 둘째, 주문 불균형 정보는 당일 종가까지의 미래 주가 등락에 대해서도 유의적인 영향력이 나타났다. 셋째, 주문 불균형 정보를 이용한 당일 종가 등락의 예측 정확도는 Support Vector Machines 알고리즘이 54.1%로 가장 높게 나타났다. 넷째, 하루 중 이른 시점에서 측정한 주문 불균형지수가 늦은 시점에서 측정한 주문 불균형지수보다 예측 정확성이 더 높았다. 다섯째, 종가 등락 예측 결과를 이용한 데이트레이딩 전략의 투자 성과는 비교모형의 투자 성과보다 높게 나타났다. 여섯째, 분류 알고리즘을 이용한 투자 성과는 K-Nearest Neighbor 알고리즘을 제외하면 모두 비교모형보다 총수익 평균이 높게 나타났다. 일곱째, Logistic Regression, Random Forest, Support Vector Machines, XGBoost 알고리즘의 예측 결과를 이용한 데이트레이딩 전략의 투자 성과는 수익성과 위험성을 동시에 평가하는 샤프비율에서도 비교모형보다 높은 결과를 보여주었다. 본 연구는 Limit Order Book 정보 중 총매수 주문량과 총매도 주문량 정보의 경제적 가치가 존재함을 밝혔다는 점에서 기존의 연구와 학술적 차별점을 갖는다. 본 연구의 실증분석 결과는 시장 참여자들에게 투자 전략적 측면에서 함의가 있다고 판단된다. 향후 연구에서는 최근 활발히 연구가 진행되고 있는 딥러닝 모형 등으로의 확장을 통해 주가 예측의 정확도를 높임으로써 데이트레이딩 투자전략의 성과를 개선할 필요가 있다.