• 제목/요약/키워드: K-Nearest Neighbor

검색결과 644건 처리시간 0.027초

감정요소를 사용한 정보검색에 관한 연구 (A Study of using Emotional Features for Information Retrieval Systems)

  • 김명관;박영택
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.579-586
    • /
    • 2003
  • 감정요소를 사용한 정보검색시스템은 감정에 기반한 정보검색을 수행하기 위하여 감정시소러스를 구성하였으며 이를 사용한 감정요소추출기를 구현하였다. 감정요소추출기는 기본 5가지 감정 요소를 해당 문서에서 추출하여 문서를 벡터화시킨다. 벡터화시킨 문서들은 k-nearest neighbor, 단순 베이지안 및 상관계수기법을 사용한 2단계 투표방식을 통해 학습하고 분류하였다. 실험결과 분류 방식과 K-means를 이용한 클러스터링에서 감정요소에 기반한 방식이 더 우수하다는 결과와 5,000 단어 미만의 문서 검색에 감정기반 검색이 유리하다는 것을 보였다.

Relationship between hot gas halo and environmental factors of early-type galaxies

  • 김은빈;최윤영;김성수;박창범
    • 천문학회보
    • /
    • 제37권2호
    • /
    • pp.82.2-82.2
    • /
    • 2012
  • We present an investigation of X-ray hot gas halo in 21 early-type galaxies(ETGs) from cross-matched sample of XMM-Newton(2XMM-DR3 catalog) and SDSS DR 7(0.025 < z < 0.085 and Mr <-19.5). It has been controversial whether or not the environment affects X-ray luminosity of ETGs. In this research, we mainly considered how dense the surrounding galaxies of the target galaxy are and how isolated the target galaxy is from the nearest neighboring galaxy. It appears that the second environmental factor has more effects on X-ray luminosity (0.5-2 keV) of hot gas halo than the first one. We found that the closer a galaxy is to the nearest neighboring galaxy, the brighter it is when the galaxy is located within the neighbor galaxy's virial radius. However, when a galaxy is located outside the neighbor's virial radius, the luminosity does not show any trend. In this poster, we report preliminary results from our study.

  • PDF

k-NN을 활용한 터보팬 엔진의 잔여 유효 수명 예측 모델 제안 (A Proposal of Remaining Useful Life Prediction Model for Turbofan Engine based on k-Nearest Neighbor)

  • 김정태;서양우;이승상;김소정;김용근
    • 한국산학기술학회논문지
    • /
    • 제22권4호
    • /
    • pp.611-620
    • /
    • 2021
  • 정비 산업은 사후정비, 예방정비를 거쳐, 상태기반 정비를 중심으로 진행되고 있다. 상태기반 정비는 장비의 상태를 파악하여, 최적 시점에서의 정비를 수행한다. 최적의 정비 시점을 찾기 위해서는 장비의 상태, 즉 잔여 유효 수명을 정확하게 파악하는 것이 중요하다. 이에, 본 논문은 시뮬레이션 데이터(C-MAPSS)를 사용한 터보팬 엔진의 잔여 유효수명(RUL, Remaining Useful Life) 예측 모델을 제시한다. 모델링을 위해 C-MAPSS(Commercial Modular Aero-Propulsion System Simulation) 데이터를 전처리, 변환, 예측하는 과정을 거쳤다. RUL 임계값 설정, 이동평균필터 및 표준화를 통해 데이터 전처리를 수행하였고, 주성분 분석(Principal Component Analysis)과 k-NN(k-Nearest Neighbor)을 활용하여 잔여 유효 수명을 예측하였다. 최적의 성능을 도출하기 위해, 5겹 교차검증기법을 통해 최적의 주성분 개수 및 k-NN의 근접 데이터 개수를 결정하였다. 또한, 사전 예측의 유용성, 사후 예측의 부적합성을 고려한 스코어링 함수(Scoring Function)를 통해 예측 결과를 분석하였다. 마지막으로, 현재까지 제시되어온 뉴럴 네트워크 기반의 알고리즘과 예측 성능 비교 및 분석을 통해 k-NN 활용 모델의 유용성을 검증하였다.

맵리듀스를 이용한 그리드 기반 인덱스 생성 및 k-NN 조인 질의 처리 알고리즘 (Grid-based Index Generation and k-nearest-neighbor Join Query-processing Algorithm using MapReduce)

  • 장미영;장재우
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1303-1313
    • /
    • 2015
  • 맵리듀스는 대용량 데이터 처리를 위한 시스템 안정성과 유용성을 제공한다. 맵리듀스 기반 k-최근접점 조인 질의처리 알고리즘은 두 데이터 집합 R과 S를 기반으로 R의 모든 레코드에 대해 S의 데이터 중 가장 인접한 k개의 레코드를 탐색하는 알고리즘으로써, 대용량 데이터 분석을 위한 중요한 질의 처리 알고리즘이다. 그러나 기존 k-최근접점 조인 질의처리 알고리즘은 높은 인덱스 구축비용 문제로 인해 대용량 데이터 처리에 적합하지 않은 문제점을 지닌다. 따라서, 본 논문에서는 그리드 기반 인덱스 생성 및 k-최근접점 질의 처리 알고리즘을 제안한다. 제안하는 기법은 질의 셀로부터 인접한 데이터만을 찾아 맵리듀스 테스크에 전송함으로써 데이터 전송 및 k-최근접점 연산 오버헤드를 줄인다. 성능평가를 통해, 제안하는 기법이 정확 매칭 질의를 제공하는 동시에 기존 기법에 비해 질의 처리 시간 측면에서 최대 7배의 성능을 개선함을 보인다.

K 최대근접이웃 방법을 이용한 통행시간 예측에 대한 연구 (A Study of Travel Time Prediction using K-Nearest Neighborhood Method)

  • 임성한;이향미;박성룡;허태영
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.835-845
    • /
    • 2013
  • 통행시간은 교통정보 중에서 가장 대표적이고 이용자 선호도가 높은 정보이다. 본 연구에서는 일반국도를 대상으로 실시간 시스템에 적용 가능한 통행시간 예측 방법을 개발하고자 하였다. 통행시간 예측방법으로 비모수적 접근 방법인 K 최대근접이웃 방법을 적용하였다. K 최대근접이웃 방법은 데이터에 대한 특별한 가정이 필요 없고, 모수 추정 과정이 필요 없어 실시간 교통관리시스템에 적합하다. K 최대근접이웃 방법의 우수성을 평가하기 위해 교통 분야에서 많이 적용되고 있는 이력자료 평균방법과 칼만 필터방법을 선정하여 평균절대백분율오차와 변동계수를 통해 평가하였다. 평가 결과 K 최대근접이웃 방법이 이력자료 평균방법과 칼만 필터방법에 비해 우수한 것으로 분석되었다. 통행시간 정보 제공 시 본 연구에서 개발된 방법을 통해 도출된 통행시간과 구간검지기로부터 관측된 통행시간을 탄력적으로 적용함으로써 통행시간 정보의 신뢰도를 향상시킬 수 있을 것으로 기대된다.

A Study of Environmental Effects on Galaxy Spin Using MaNGA Data

  • Lee, Jong Chul;Hwang, Ho Seong;Chung, Haeun
    • 천문학회보
    • /
    • 제42권2호
    • /
    • pp.47.2-47.2
    • /
    • 2017
  • We investigate the environmental effects on galaxy spin using the sample of ~1100 galaxies from the first public data of MaNGA integral field unit survey. We determine the spin parameter ${\lambda}_{Re}$ of galaxies by analyzing the two-dimensional stellar kinematic measurements within the effective radius, and study its dependence on the large-scale (background mass density determined with 20 nearby galaxies) and small-scale (distance to and morphology of the nearest neighbor galaxy) environments. We first examine the mass dependence of galaxy spin, and find that the spin parameter decreases with stellar mass at log ($M_{\ast}/M_{\odot}$) > 10, consistent with previous studies. We then divide the galaxies into three subsamples using their stellar masses to minimize the mass effects on galaxy spin. The spin parameter of galaxies in each subsample does not change with the background density, but do change with the distance to and morphology of the nearest neighbor. The spin parameter increases when late-type neighbors are within the virial radius, and decreases when early-type neighbors are within the virial radius. These results suggest that the large-scale environments hardly affect the galaxy spin, but the effects of small-scale environments such as hydrodynamic galaxy-galaxy interactions are substantial.

  • PDF

고객 감성 분석을 위한 학습 기반 토크나이저 비교 연구 (Comparative Study of Tokenizer Based on Learning for Sentiment Analysis)

  • 김원준
    • 품질경영학회지
    • /
    • 제48권3호
    • /
    • pp.421-431
    • /
    • 2020
  • Purpose: The purpose of this study is to compare and analyze the tokenizer in natural language processing for customer satisfaction in sentiment analysis. Methods: In this study, a supervised learning-based tokenizer Mecab-Ko and an unsupervised learning-based tokenizer SentencePiece were used for comparison. Three algorithms: Naïve Bayes, k-Nearest Neighbor, and Decision Tree were selected to compare the performance of each tokenizer. For performance comparison, three metrics: accuracy, precision, and recall were used in the study. Results: The results of this study are as follows; Through performance evaluation and verification, it was confirmed that SentencePiece shows better classification performance than Mecab-Ko. In order to confirm the robustness of the derived results, independent t-tests were conducted on the evaluation results for the two types of the tokenizer. As a result of the study, it was confirmed that the classification performance of the SentencePiece tokenizer was high in the k-Nearest Neighbor and Decision Tree algorithms. In addition, the Decision Tree showed slightly higher accuracy among the three classification algorithms. Conclusion: The SentencePiece tokenizer can be used to classify and interpret customer sentiment based on online reviews in Korean more accurately. In addition, it seems that it is possible to give a specific meaning to a short word or a jargon, which is often used by users when evaluating products but is not defined in advance.

IEEE 754 부동 소수점 32비트 float 변수의 Morton Code 변환 분석 (Analysis of Morton Code Conversion for 32 Bit IEEE 754 Floating Point Variables)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.165-172
    • /
    • 2016
  • GPU 기반 병렬처리에서 대규모 데이터의 인접 정보 검색(nearest neighbor search)에서 Morton code의 역할이 점점 더 중요하게 부각되고 있으며 그 응용 사례도 점차 증가하고 있다. 본 논문에서는 Tero Karras가 제안한 float 형 변수에 기반한 $[0,1]^3$ 공간 내의 3차원 기하 정보를 32비트 unsigned int형 Morton code로 변경하는 기존의 방법을 논의하고 그 기하학적인 의미를 분석함으로써, 보다 높은 해상도를 구현할 수 있는 64비트 unsigned long long형의 Morton code 변환 알고리듬을 제안한다. 제안하는 알고리듬은 GPU에서 구현되었을 때 CPU에서 실행하는 것보다 약 1000배 수준의 성능 향상을 달성한다.

GPU 하드웨어 아키텍처 기반 sub-warp 단위 병렬 프리픽스(prefix) 연산의 정확한 구현 (Correct Implementation of Sub-warp Parallel Prefix Operations based on GPU Hardware Architecture)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.613-619
    • /
    • 2017
  • 본 논문에서는 대규모 데이터를 길이가 32 미만인 로컬 세그먼트 단위로 구분하고 이 로컬 세그먼트 내에서 정확한 GPU 병렬 프리픽스(prefix) 연산 결과를 출력하는 CUDA (Compute Unified Device Architecture) 코드를 제시한다. 이미 Mark Harris와 Michael Garland가 이러한 목적을 수행하기 위한 CUDA 코드를 이미 발표한 바 있으나 본 논문에서는 로컬 세그먼트의 길이가 32 미만일 때 기존 코드의 결과가 정확하지 않다는 사실을 살펴 보고 그 원인을 논의한 후, 정확한 결과를 출력하는 코드를 제안한다. 본 논문에서 다루는 로컬 세그먼트 단위의 병렬 프리픽스 연산은 최인접 요소 탐색(k-nearest neighbor search) 등은 물론 다양한 대규모 병렬 처리 알고리즘을 구성하는 기본 연산으로 활용 가능하다.

CUDA 를 이용한 실시간 Free Viewpoint TV System 구현 (Real-Time Free Viewpoint TV System Using CUDA)

  • 양윤모;이진혁;오병태
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 추계학술대회
    • /
    • pp.71-73
    • /
    • 2015
  • 본 논문에서는 여러 대의 Microsoft Kinect 와 NVidia 사의 GPGPU 라이브러리 CUDA 를 사용하여 실시간 Free Viewpoint TV System 을 제안한다. Kinect 로부터 얻어진 컬러 및 깊이 영상을 통하여 두 카메라 사이의 가상시점에서 영상을 실시간으로 출력하는 시스템을 설계한다. 이 과정에서 많은 연산량을 요구하는 좌표계 변환 과정과 IR 패턴의 간섭문제를 해결하기 위해 사용되는 Nearest Neighbor 홀 채움 방식을 CUDA 를 이용해 병렬화시켰다. 실험 결과 CUDA 를 이용해 구성한 시스템이 기존의 CPU 만을 이용해 구성한 시스템보다 같은 시간 동안 더 많은 합성영상을 만들 수 있었다.

  • PDF