• 제목/요약/키워드: 최근접 이웃

검색결과 187건 처리시간 0.023초

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

CCTV 영상 기반 강우강도 산정을 위한 실환경 실험 자료 중심 적정 강우 이미지 DB 구축 방법론 개발 (Rainfall image DB construction for rainfall intensity estimation from CCTV videos: focusing on experimental data in a climatic environment chamber)

  • 변종윤;전창현;김현준;이재준;박헌일;이진욱
    • 한국수자원학회논문집
    • /
    • 제56권6호
    • /
    • pp.403-417
    • /
    • 2023
  • 본 연구에서는 CCTV 영상 기반 강우강도 산정 시 필수적으로 요구되는 적정 강우 이미지 DB를 구축하기 위한 방법론을 개발하였다. 먼저, 실환경에서 불규칙적이고 높은 변동성을 보일 수 있는 변수들(바람으로 인한 빗줄기의 변동성, 녹화 환경에서 포함되는 움직이는 객체, 렌즈 위의 흐림 현상 등)에 대한 통제가 가능한 한국건설생활환경시험연구원 내 기후환경시험실에서 CCTV 영상 DB를 구축하였다. 서로 다른 5개의 실험 조건을 고려하여 이상적 환경에서 총 1,728개의 시나리오를 구성하였다. 본 연구에서는 1,920×1,080 사이즈의 30 fps (frame per second) 영상 36개에 대하여 프레임 분할을 진행하였으며, 총 97,200개의 이미지를 사용하였다. 이후, k-최근접 이웃 알고리즘을 기반으로 산정된 최종 배경과 각 이미지와의 차이를 계산하여 빗줄기 이미지를 분리하였다. 과적합 방지를 위해 각 이미지에 대한 평균 픽셀 값을 계산하고, 설정한 픽셀 임계치보다 큰 자료를 선별하였다. 180×180 사이즈로의 재구성을 위해서 관심영역을 설정하고 10 Pixel 단위로 이동을 진행하여 픽셀 변동성이 최대가 되는 영역을 산정하였다. 합성곱 신경망 모델의 훈련을 위해서 120×120 사이즈로 재변환하고 과적합 방지를 위해 이미지 증강 과정을 거쳤다. 그 결과, 이미지 기반 강우 강도 합성곱 신경망 모델을 통해 산정된 결과값과 우량계에서 취득된 강우자료가 전반적으로 유사한 양상을 보였으며, 모든 강우강도 실험 조건에 대해서 약 92%의 데이터의 PBIAS (percent bias)가 절댓값 범위 10% 이내에 해당하였다. 본 연구의 결과물과 전이학습 등의 방법을 연계하여 기존 실환경 CCTV의 한계점을 개선할 수 있을 것으로 기대된다.

기계학습을 이용한 단일 관련자극 P300기반 숨김정보검사 (One-probe P300 based concealed information test with machine learning)

  • 김혁;김현택
    • 인지과학
    • /
    • 제35권1호
    • /
    • pp.49-95
    • /
    • 2024
  • 국내 형사소송절차에서 진술의 진위여부 확인을 위해 사용하는 도구는 폴리그래프검사, 진술타당도분석, P300 기반 숨김정보검사 등이 있고, 이 중에서 폴리그래프검사의 사용빈도가 다른 도구들에 비하여 높다. 하지만, 검사결과를 뒷받침해 줄 수 있는 근거의 부족으로 인하여 재판과정에서 증거채택 가능성이 낮다. 폴리그래프검사를 뒷받침해 줄 수 있는 방법으로, 사전연구가 풍부한 P300기반 숨김정보검사가 주목을 받아 왔지만, 기존의 검사기법은 두 가지 제한점이 있어 실제 사건에서의 활용도는 낮은 편이다. 첫째, 검사에 필요한 관련자극만 3개 또는 6개 등, 사전에 노출되지 않은 정보가 다수 필요하기 때문에 실제 사건에서 사용 가능성이 낮다. 둘째, 기존의 P300기반 숨김정보검사 프로토콜에서는 관련자극과 무관련자극에 대한 P300요소 전위값을 명확하게 구분하기 위하여 오드볼패러다임을 사용하기 때문에 무관련자극에 대한 P300요소 전위값이 과소 추정될 가능성이 있다. 본 연구에서는 검사의 사용 가능성을 높이기 위하여 사전에 노출되지 않은 정보가 단 하나만 있어도 검사가 가능한 단일 관련자극을 사용하는 수정된 P300기반 숨김정보검사 프로토콜을 탐색하였고, 오드볼패러다임 사용으로 인한 무관련자극에 대한 P300요소 전위값이 과소 추정되는 문제를 보완하기 위하여 다양한 기계학습의 분류 알고리즘을 비교하였다. 연구결과 단일 관련자극으로 여성과 남성의 얼굴자극을 사용할 경우, 자극은 400ms 지속시간으로 60회 제시하고, 절단값을 유죄집단은 90%로 무죄집단은 30%로 하여 정점-정점 방법으로 P300요소 전위값을 분석하는 것이 적합함을 확인하였다. 단어자극의 경우, 지속시간을 300ms로 60회 제시하고, P300요소 전위값 분석방법은 얼굴자극과 동일하게 시행하는 것이 적합하다는 것을 확인하였다. 또한 관련자극과 무관련자극에 대한 정점-정점 P300요소 전위값을 6가지 기계학습 분류 알고리즘을 사용하여 분석한 결과, 로지스틱 회귀(LR), 선형 판별 분석(LDA), K-최근접 이웃(KNN) 알고리즘이 관련자극과 무관련자극의 분류에 적합하다는 것을 확인하였다.

초기 시청시간 패턴 분석을 통한 대흥행 드라마 예측 (Prediction of a hit drama with a pattern analysis on early viewing ratings)

  • 남기환;성노윤
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.33-49
    • /
    • 2018
  • TV 드라마는 타 장르에 비해 시청률과 채널 홍보 효과가 매우 크며, 한류를 통해 산업적 효과와 문화적 영향력을 확인시켜줬다. 따라서, 이와 같은 드라마의 흥행 여부를 예측하는 일은 방송 관련 산업에서 매우 중요한 부분임은 주지의 사실이다. 이를 위해서 본 연구에서는 2003년부터 2012년까지 10년간, 지상파 채널을 통해 방송된, 총 280개의 TV 미니시리즈 드라마를 분석하였다. 이들 드라마 중 평균 시청률 상위 45개, 하위 시청률 45개를 선정하여 흥행 드라마의 시청시간 분포 (5%~100%, 11-Step) 모형을 만들었다. 이들 기준 모형과 신규 드라마의 시청시간 분포와의 이격 거리를 Euclidean/Correlation으로 측정한 유사도(Similarity)를 통해, 시청자의 초기(1~5회) 시청시간 분포로 신규 드라마의 성패 여부를 예측하는 모델을 만들었다. 또한 총 방송 시간 중 70% 이상 시청한 시청자를 열혈 시청층(이하 열혈층) 으로 분류하고, 상위/하위 드라마의 평균값과 비교하여, 신규 드라마의 흥행여부를 판별할 수 있도록 설계하였다. 연구 결과 드라마의 초반 시청자 충성도(시청시간)는 드라마의 대흥행 여부를 예측하는데 중요한 요소임을 밝혔으며, 최대 75.47%의 확률로 대흥행 드라마의 탄생을 예측할 수 있었다.

무인기 기반 초분광영상을 이용한 배나무 엽록소 함량 추정 (Estimation of Chlorophyll Contents in Pear Tree Using Unmanned AerialVehicle-Based-Hyperspectral Imagery)

  • 강예성;박기수;김은리;정종찬;유찬석;조정건
    • 대한원격탐사학회지
    • /
    • 제39권5_1호
    • /
    • pp.669-681
    • /
    • 2023
  • 과일 나무의 생육을 평가하는 중요한 지표인 엽록소 함량을 추정하는데 비교적 많은 노동력의 투입이 요구되고 오랜 시간이 소요되는 기존의 파괴 조사 대신 비파괴적 조사 방식인 원격탐사기술을 적용하기 위한 연구가 시도되고 있다. 이 연구에서는 2년(2021, 2022) 간 무인기 기반의 초분광 영상을 이용하여 배나무 잎의 엽록소 함량을 비파괴적으로 추정하는 연구를 수행하였다. 영상 처리로 추출된 배나무 캐노피(canopy)의 단일 band 반사율은 시간 변화에 따라 불안정한 복사 효과를 최소화하기 위해 밴드비화(band rationing) 되었다. 밴드비(band ratios)를 입력 변수로 머신러닝 알고리즘인 elastic-net, k-nearest neighbors (KNN)과 support vector machine을 사용하여 추정(calibration, validation) 모델들을 개발하였다. Full band ratios 기반 추정 모델들의 성능과 비교하여 계산 비용 절감과 재현성 향상에 유리한 key band ratios를 선정하였다. 결과적으로 모든 머신러닝 모델에서 full band ratios를 이용한 calibration에 coefficient of determination (R2)≥0.67, root mean squared error (RMSE)≤1.22 ㎍/cm2, relative error (RE)≤17.9%)와 validation에 R2≥0.56, RMSE≤1.41 ㎍/cm2, RE≤20.7% 성능을 비교하였을 때, key band ratios 네 개가 선정되었다. 머신러닝 모델들 사이에 validation 성능에는 비교적 큰 차이가 없어 calibration 성능이 가장 높았던 KNN 모델을 기준으로 삼았으며, 그 key band ratios는 710/714, 718/722, 754/758, 758/762 nm가 선정되었다. Calibration에서 R2=0.80, RMSE=0.94 ㎍/cm2, RE=13.9%와 validation에서 R2=0.57, RMSE=1.40 ㎍/cm2, RE=20.5%를 나타내었다. Validation의 기준으로 한 성능 결과는 배나무 잎 엽록소 함량을 추정하기에 충분하지 않았지만, 앞으로의 연구에 기준이 될 key band ratios를 선정했다는 것에 의미가 있다. 추후 연구에서는 추정 성능을 향상하기 위해 지속적으로 추가 데이터세트를 확보하여 선정된 key band ratios의 신뢰성 검증과 함께 실제 과원에 재현 가능한 추정 모델로 고도화할 필요가 있다.

네트워크 중심성 척도가 추천 성능에 미치는 영향에 대한 연구 (A Study on the Effect of Network Centralities on Recommendation Performance)

  • 이동원
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.23-46
    • /
    • 2021
  • 개인화 추천에서 많이 사용되는 협업 필터링은 고객들의 구매이력을 기반으로 유사고객을 찾아 상품을 추천할 수 있는 매우 유용한 기법으로 인식되고 있다. 그러나, 전통적인 협업 필터링 기법은 사용자 간에 직접적인 연결과 공통적인 특징을 기반으로 유사도를 계산하는 방식으로 인해 신규 고객 혹은 상품에 대해 유사도를 계산하기 힘들다는 문제가 제기되어 왔다. 이를 극복하기 위하여, 다른 기법을 함께 사용하는 하이브리드 기법이 고안되기도 하였다. 이런 노력의 하나로서, 사회연결망의 구조적 특성을 적용하여 이런 문제를 해결하려는 시도가 있었다. 이는, 직접적으로 유사성을 찾기 힘든 사용자 간에도 둘 사이에 놓인 유사한 사용자 또는 사용자들을 통해 유추해내는 방식으로 상호 간의 유사성을 계산하는 방식을 적용한 것이다. 즉, 구매 데이터를 기반으로 사용자의 네트워크를 생성하고 이 네트워크 내에서 두 사용자를 간접적으로 이어주는 네트워크의 특성을 기반으로 둘 사이의 유사도를 계산하는 것이다. 이렇게 얻은 유사도는 추천대상 고객이 상품의 추천에 대한 수락여부를 결정하는 척도로 활용될 수 있다. 서로 다른 중심성 척도는 추천성과에 미치는 영향이 서로 다를 수 있다는 점에서 중요한 의미를 갖는다 할 수 있다. 이런 유사도의 계산을 위해서 네트워크의 중심성을 활용할 수 있다. 본 연구에서는 여기서 더 나아가 이런 중심성이 추천성과에 미치는 영향이 추천 알고리즘에 따라서도 다를 수 있다는 데에서 주목하여 수행되었다. 또한, 이런 네트워크 분석을 활용한 추천기법은 신규 고객 혹은 상품뿐만 아니라 전체 고객 혹은 상품으로 그 대상을 넓히더라도 추천 성능을 높이는 데 기여할 것을 기대할 수 있을 것이다. 이런 관점에서 본 연구는 네트워크 모형에서 연결선이 생성되는 것을 이진 분류의 문제로 보고, 추천 모형에 적용할 분류 기법으로 의사결정나무, K-최근접이웃법, 로지스틱 회귀분석, 인공신경망, 서포트 벡터 머신을 선택하고, 온라인 쇼핑몰에서 4년2개월간 수집된 구매 데이터로 실험을 진행하였다. 사회연결망에서 측정된 중심성 척도를 각 분류 기법에 적용하여 생성한 모형을 비교 실험한 결과, 각 모형 별로 중심성 척도의 추천성공률이 서로 다르게 나타남을 확인할 수 있었다.