• 제목/요약/키워드: 1-nearest neighbor

검색결과 270건 처리시간 0.025초

CCTV 영상 기반 강우강도 산정을 위한 실환경 실험 자료 중심 적정 강우 이미지 DB 구축 방법론 개발 (Rainfall image DB construction for rainfall intensity estimation from CCTV videos: focusing on experimental data in a climatic environment chamber)

  • 변종윤;전창현;김현준;이재준;박헌일;이진욱
    • 한국수자원학회논문집
    • /
    • 제56권6호
    • /
    • pp.403-417
    • /
    • 2023
  • 본 연구에서는 CCTV 영상 기반 강우강도 산정 시 필수적으로 요구되는 적정 강우 이미지 DB를 구축하기 위한 방법론을 개발하였다. 먼저, 실환경에서 불규칙적이고 높은 변동성을 보일 수 있는 변수들(바람으로 인한 빗줄기의 변동성, 녹화 환경에서 포함되는 움직이는 객체, 렌즈 위의 흐림 현상 등)에 대한 통제가 가능한 한국건설생활환경시험연구원 내 기후환경시험실에서 CCTV 영상 DB를 구축하였다. 서로 다른 5개의 실험 조건을 고려하여 이상적 환경에서 총 1,728개의 시나리오를 구성하였다. 본 연구에서는 1,920×1,080 사이즈의 30 fps (frame per second) 영상 36개에 대하여 프레임 분할을 진행하였으며, 총 97,200개의 이미지를 사용하였다. 이후, k-최근접 이웃 알고리즘을 기반으로 산정된 최종 배경과 각 이미지와의 차이를 계산하여 빗줄기 이미지를 분리하였다. 과적합 방지를 위해 각 이미지에 대한 평균 픽셀 값을 계산하고, 설정한 픽셀 임계치보다 큰 자료를 선별하였다. 180×180 사이즈로의 재구성을 위해서 관심영역을 설정하고 10 Pixel 단위로 이동을 진행하여 픽셀 변동성이 최대가 되는 영역을 산정하였다. 합성곱 신경망 모델의 훈련을 위해서 120×120 사이즈로 재변환하고 과적합 방지를 위해 이미지 증강 과정을 거쳤다. 그 결과, 이미지 기반 강우 강도 합성곱 신경망 모델을 통해 산정된 결과값과 우량계에서 취득된 강우자료가 전반적으로 유사한 양상을 보였으며, 모든 강우강도 실험 조건에 대해서 약 92%의 데이터의 PBIAS (percent bias)가 절댓값 범위 10% 이내에 해당하였다. 본 연구의 결과물과 전이학습 등의 방법을 연계하여 기존 실환경 CCTV의 한계점을 개선할 수 있을 것으로 기대된다.

교통사고 데이터의 마이닝을 위한 연관규칙 학습기법과 서브그룹 발견기법의 비교 (Comparison of Association Rule Learning and Subgroup Discovery for Mining Traffic Accident Data)

  • 김정민;류광렬
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.

부채살 SPECT 데이터를 위한 정칙화된 기댓값 최대화 재구성기법 개발 (Development of Regularized Expectation Maximization Algorithms for Fan-Beam SPECT Data)

  • 김수미;이재성;이수진;김경민;이동수
    • 대한핵의학회지
    • /
    • 제39권6호
    • /
    • pp.464-472
    • /
    • 2005
  • 목적: 부채살 단일광자단층촬영(SPECT)은 공간분해능과 민감도를 개선하는 것으로 알려져 있다. 보다 정확한 영상을 얻고 인체에 대한 SPECT의 영상화 과정을 정확하게 묘사하기 위하여 평행 데이터로 재배열하는 과정 없이 직접 부채살 데이터를 이용하여 재구성하는 알고리즘이 필요하다. 본 연구는 다양한 부채살 재구성 알고리즘을 구현하였고 각 방법의 성능을 비교하였다. 대상 및 방법: 선추적법을 적용하여 부채살 투사기와 이로부터 얻은 데이터를 직접 재구성할 수 있는 FBP, EM, OS-EM과 MAP-EM OSL 알고리즘을 구현하였다. OSL 알고리즘의 경우에는 membrane과 thin plate prior를 사용하였다. 직접 부채살 데이터를 재구성하는 방법의 성능을 평가하기 위해 양방향 최근접 이웃, 양방향 1차와 양방향 3차 보간법을 사용하여 재배열된 평행 데이터를 얻었고 이 데이터를 기존의 평행 데이터에 대한 EM 알고리즘을 사용하여 재구성하였다. Hoffman 두뇌와 Shepp/Logan 팬텀으로부터 얻은 잡음 없는 데이터와 잡음 있는 데이터는 각 방법으로 재구성하였으며 퍼센트 오차를 계산하여 각 재구성된 영상을 비교하였다. 결과: Thin-plate 사전 분포함수를 사용한 OSL 방법이 가장 낮은 오차를 가지며 잡음으로 인한 결과 영상의 불안정성을 효과적으로 제어함을 확인할 수 있었다. 부채살 데이터를 평행 데이터로 재배열시 양방향 1차 보간법이 정확성과 계산 시간 측면에서 가장 효율적인 방법임을 확인하였다. 재배열된 평행 데이터의 EM결과에 비해 직접 부채살 데이터를 재구성하여 얻은 결과영상이 더 정확하게 재구성되었다. 결론: 본 연구에서는 평행 데이터로 재배열한 경우에 비하여 보다 정확한 영상을 재구성하는 직접 부채살 재구성 알고리즘을 구현하였으며 이는 정량적으로 월등히 개선된 결과를 제공함을 확인하였다.

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

경관지수를 활용한 식생군락 모자이크화 분석법 (Development of an Approach for Analysing Vegetation Community Mosaic Using Landscape Metrics)

  • 이상훈;정종철
    • 지적과 국토정보
    • /
    • 제47권1호
    • /
    • pp.161-178
    • /
    • 2017
  • 한국 국토의 60% 이상을 차지하고 있는 산림지역에 대한 개발과 이용의 수요가 증가하고 있지만, 개발사업의 허가는 산림생태계의 보전보다는 국토 이용 중심의 평가로 이루어지고 있다. 대규모 산림지역을 평가할 경우 산림의 구조를 중심으로 분석하기 때문에 산림 내부의 변화를 관찰하고 분석하는데 한계가 있다. 따라서 본 연구에서는 충청남도 식생군락의 현존식생도와 FRAGSTATS 4.2를 이용하여 경관지수를 산출하고 식생 모자이크를 분석해 보았다. 식생 군락은 주요 자생 수종을 중심으로 대표군락과 세부군락으로 구분하였고, 군락별 차이를 분석하기 위해 분포면적(CA), 분포면적비율(PLAND), 패치개수(NP) 등의 10가지 경관지수가 선택되었다. 충청남도 식생의 대표군락과 세부군락은 소나무군락, 상수리나무군락 및 소나무와 참나무류 수종의 조합이 우세하게 나타났으며, 소나무군락의 면적이 상당히 높게 나타났다. 소나무군락과 참나무류군락의 경쟁의 경우, 대표군락의 경우 소나무군락이 전체 분포면적은 3배 가량 넓으나 작은 패치로 나뉘어져 모자이크화 정도는 참나무류 군락이 작은 것으로 판단되었다. 세부군락의 경우에는 소나무 중심의 군락에서는 소나무-신갈나무군락이, 상수리나무 중심 군락에서는 상수리나무군락이, 굴참나무 중심의 군락에서는 굴참나무-소나무군락이, 신갈나무 중심의 군락에서는 신갈나무군락이, 곰솔 중심의 군락에서는 곰솔군락이, 졸참나무 중심의 군락에서는 졸참나무-상수리나무군락이 넓은 분포면적과 동시에 모자이크화도 심한 것으로 나타났다. 전체적인 모자이크화 양상은 수치로 표현될 수 있어 모니터링 단계에서 문제가 있는 식생군락을 판별할 때 유용할 것으로 판단되었다. 모자이크화의 원인과 천이의 방향성 예측을 통한 관리 방안 마련을 위해서는 각 군락의 생태적인 특성에 대한 연구가 추가적으로 필요할 것으로 판단되었다.

불균형 데이터 환경에서 변수가중치를 적용한 사례기반추론 기반의 고객반응 예측 (Response Modeling for the Marketing Promotion with Weighted Case Based Reasoning Under Imbalanced Data Distribution)

  • 김은미;홍태호
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.29-45
    • /
    • 2015
  • 고객반응 예측모형은 마케팅 프로모션을 제공할 목표고객을 효과적으로 선정할 수 있도록 하여 프로모션의 효과를 극대화 할 수 있도록 해준다. 오늘날과 같은 빅데이터 환경에서는 데이터 마이닝 기법을 적용하여 고객반응 예측모형을 구축하고 있으며 본 연구에서는 사례기반추론 기반의 고객반응 예측모형을 제시하였다. 일반적으로 사례기반추론 기반의 예측모형은 타 인공지능기법에 비해 성과가 낮다고 알려져 있으나 입력변수의 중요도에 따라 가중치를 상이하게 적용함으로써 예측성과를 향상시킬 수 있다. 본 연구에서는 프로모션에 대한 고객의 반응여부에 영향을 미치는 중요도에 따라 입력변수의 가중치를 산출하여 적용하였으며 동일한 가중치를 적용한 예측모형과의 성과를 비교하였다. 목욕세제 판매데이터를 사용하여 고객반응 예측모형을 개발하고 로짓모형의 계수를 적용하여 입력변수의 중요도에 따라 가중치를 산출하였다. 실증분석 결과 각 변수의 중요도에 기반하여 가중치를 적용한 예측모형이 동일한 가중치를 적용한 예측모형보다 높은 예측성과를 보여주었다. 또한 고객 반응예측 모형과 같이 실생활의 분류문제에서는 두 범주에 속하는 데이터의 수가 현격한 차이를 보이는 불균형 데이터가 대부분이다. 이러한 데이터의 불균형 문제는 기계학습 알고리즘의 성능을 저하시키는 요인으로 작용하며 본 연구에서 제안한 Weighted CBR이 불균형 환경에서도 안정적으로 적용할 수 있는지 검증하였다. 전체데이터에서 100개의 데이터를 무작위로 추출한 불균형 환경에서 100번 반복하여 예측성과를 비교해 본 결과 본 연구에서 제안한 Weighted CBR은 불균형 환경에서도 일관된 우수한 성과를 보여주었다.

초기 시청시간 패턴 분석을 통한 대흥행 드라마 예측 (Prediction of a hit drama with a pattern analysis on early viewing ratings)

  • 남기환;성노윤
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.33-49
    • /
    • 2018
  • TV 드라마는 타 장르에 비해 시청률과 채널 홍보 효과가 매우 크며, 한류를 통해 산업적 효과와 문화적 영향력을 확인시켜줬다. 따라서, 이와 같은 드라마의 흥행 여부를 예측하는 일은 방송 관련 산업에서 매우 중요한 부분임은 주지의 사실이다. 이를 위해서 본 연구에서는 2003년부터 2012년까지 10년간, 지상파 채널을 통해 방송된, 총 280개의 TV 미니시리즈 드라마를 분석하였다. 이들 드라마 중 평균 시청률 상위 45개, 하위 시청률 45개를 선정하여 흥행 드라마의 시청시간 분포 (5%~100%, 11-Step) 모형을 만들었다. 이들 기준 모형과 신규 드라마의 시청시간 분포와의 이격 거리를 Euclidean/Correlation으로 측정한 유사도(Similarity)를 통해, 시청자의 초기(1~5회) 시청시간 분포로 신규 드라마의 성패 여부를 예측하는 모델을 만들었다. 또한 총 방송 시간 중 70% 이상 시청한 시청자를 열혈 시청층(이하 열혈층) 으로 분류하고, 상위/하위 드라마의 평균값과 비교하여, 신규 드라마의 흥행여부를 판별할 수 있도록 설계하였다. 연구 결과 드라마의 초반 시청자 충성도(시청시간)는 드라마의 대흥행 여부를 예측하는데 중요한 요소임을 밝혔으며, 최대 75.47%의 확률로 대흥행 드라마의 탄생을 예측할 수 있었다.

사례기반 추론기법과 인공신경망을 이용한 서비스 수요예측 프레임워크 (A Hybrid Forecasting Framework based on Case-based Reasoning and Artificial Neural Network)

  • 황유섭
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.43-57
    • /
    • 2012
  • 제조업에 있어서 판매 후 서비스 건수와 내용 등은 향후 서비스 제공을 위한 자원배분의 효율성 증진과 서비스 품질 향상을 위해서도 매우 중요한 정보이다. 따라서 기업들은 향후 발생하는 판매 후 서비스에 대해 정확히 예측하고 그에 따라 적절히 대처하는 능력을 확보할 필요성이 제조업을 중심으로 증가하고 있다. 그러나 실제로 이들 기업들이 활용하고 있는 서비스 수요예측 방법들은 전통적인 통계적인 예측기법이거나, 시뮬레이션을 기반한 기법들이다. 예를 들면, 전통적인 통계적인 예측기법으로는 회귀분석(regression analysis)의 경우, 다양한 제품모델에 대한 판매 후 서비스 발생 패턴이 선형적인 관계가 매우 적음에도 불구하고 선형으로 가정하여 추정한다는 점과 적정한 회귀식을 가정하여야 되며, 이러한 가정이 실제 경영환경에서는 매우 어렵다는 점 등이 기존의 예측기법들의 한계점으로 지적되고 있다. 본 연구에서는 디지털 TV 모델을 생산 판매 하는 A사의 사례연구를 통하여 최근 인공지능연구에서 각광을 받고 있는 사례기반추론(case-based reasoning; CBR) 기법을 활용한 서비스 수요예측 프레임워크를 제안하고자 한다. 또한, 사례기반추론에서 핵심적인 역할 중 하나인 유사 사례추출 방법에 있어서 가장 일반적인 nearest-neighbor 방법 이외의 유사 사례추출 방법을 제안하고자 한다. 특히, 본 연구에서 제안하는 유사 사례추출 방법은 인공신경망(artificial neural network)을 활용한 자기조직화지도(Self-Organizing Maps : SOM) 군집화 기법을 활용한 유사 사례추출 방식으로 이를 활용한 서비스 수요예측 프레임워크에 구현하고, 실제 기업의 판매 후 서비스 데이터를 활용하여 본 연구에서 제안하는 서비스 수요 예측 프레임워크의 유효성을 실증적으로 검증하고자 한다.

Overcoming taxonomic challenges in DNA barcoding for improvement of identification and preservation of clariid catfish species

  • Piangjai Chalermwong;Thitipong Panthum;Pish Wattanadilokcahtkun;Nattakan Ariyaraphong;Thanyapat Thong;Phanitada Srikampa;Worapong Singchat;Syed Farhan Ahmad;Kantika Noito;Ryan Rasoarahona;Artem Lisachov;Hina Ali;Ekaphan Kraichak;Narongrit Muangmai;Satid Chatchaiphan6;Kednapat Sriphairoj;Sittichai Hatachote;Aingorn Chaiyes;Chatchawan Jantasuriyarat;Visarut Chailertlit;Warong Suksavate;Jumaporn Sonongbua;Witsanu Srimai;Sunchai Payungporn;Kyudong Han;Agostinho Antunes;Prapansak Srisapoome;Akihiko Koga;Prateep Duengkae;Yoichi Matsuda;Uthairat Na-Nakorn;Kornsorn Srikulnath
    • Genomics & Informatics
    • /
    • 제21권3호
    • /
    • pp.39.1-39.15
    • /
    • 2023
  • DNA barcoding without assessing reliability and validity causes taxonomic errors of species identification, which is responsible for disruptions of their conservation and aquaculture industry. Although DNA barcoding facilitates molecular identification and phylogenetic analysis of species, its availability in clariid catfish lineage remains uncertain. In this study, DNA barcoding was developed and validated for clariid catfish. 2,970 barcode sequences from mitochondrial cytochrome c oxidase I (COI) and cytochrome b (Cytb) genes and D-loop sequences were analyzed for 37 clariid catfish species. The highest intraspecific nearest neighbor distances were 85.47%, 98.03%, and 89.10% for COI, Cytb, and D-loop sequences, respectively. This suggests that the Cytb gene is the most appropriate for identifying clariid catfish and can serve as a standard region for DNA barcoding. A positive barcoding gap between interspecific and intraspecific sequence divergence was observed in the Cytb dataset but not in the COI and D-loop datasets. Intraspecific variation was typically less than 4.4%, whereas interspecific variation was generally more than 66.9%. However, a species complex was detected in walking catfish and significant intraspecific sequence divergence was observed in North African catfish. These findings suggest the need to focus on developing a DNA barcoding system for classifying clariid catfish properly and to validate its efficacy for a wider range of clariid catfish. With an enriched database of multiple sequences from a target species and its genus, species identification can be more accurate and biodiversity assessment of the species can be facilitated.

사용자 행동 기반의 사회적 관계를 결합한 사용자 협업적 여과 방법 (Incorporating Social Relationship discovered from User's Behavior into Collaborative Filtering)

  • 타이쎄타;하인애;조근식
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.1-20
    • /
    • 2013
  • 소셜 네트워크는 사용자들의 공통된 관심사, 경험, 그리고 일상 생활들을 함께 공유하기 위해 소셜 네트워크 상 사람들을 서로 연결시켜주는 거대한 커뮤니케이션 플랫폼이다. 소셜 네트워크상의 사용자들은 포스팅, 댓글, 인스턴스 메시지, 게임, 소셜 이벤트 외에도 다양한 애플리케이션을 통해 다른 사용자들과 소통하고 개인 정보 관리하는데 많은 시간을 소비한다. 소셜 네트워크 상의 풍부한 사용자 정보는 추천시스템이 추천 성능을 향상시키기 위해 필요한 큰 잠재력이 되었다. 대부분의 사용자들은 어떤 상품을 구매하기 전 가까운 관계이거나 같은 성향을 가진 사람들의 의견을 반영하여 의사 결정을 하게 된다. 그러므로 소셜 네트워크에서의 사용자 관계는 추천시스템을 위한 사용자 선호도 예측을 효율적으로 높이는데 중요한 요소라 할 수 있다. 일부 연구자들은 소셜 네트워크에서의 사용자와 다른 사용자들 사이의 상호작용 즉, 소셜 관계(social relationship)와 같은 소셜 데이터가 추천시스템에서 추천의 질에 어떠한 영향을 미치는가를 연구하고 있다. 추천시스템은 아마존, 이베이, Last.fm과 같은 큰 규모의 전자상거래 사이트 또한 채택하여 사용되는 시스템으로, 추천시스템을 위한 방법으로는 협업적 여과 방법과 내용 기반 여과 방법이 있다. 협업적 여과 방법은 사용자들의 선호도 학습에 의해 사용자가 아직 평가하지 않은 아이템 중 선호할 수 있는 아이템을 정확하게 제안하기 위한 추천시스템 방법 중 하나이다. 협업적 여과는 사용자들의 데이터에 초점을 맞춘 방법으로 유사한 배경과 선호도를 가지는 사용자들로부터 정보를 수집하여 사용자들의 선호도 예측을 자동으로 발생시킨다. 특히 협업적 여과는 근접한 이웃 사용자들에 의해서 목적 사용자가 선호할 수 있는 아이템을 제시하는 것으로 유사한 이웃 사용자를 찾는 것이 중요하다. 좋은 이웃 사용자 발견은 사용자와 아이템을 고려하는 방법이 일반적이다. 각 사용자는 아이템 즉, 영화, 상품, 책 등에 자신의 선호도를 나타내기 위하여 평가 값을 입력하고, 시스템은 이를 바탕으로 사용자-평가 행렬을 구축한다. 이 사용자-평가 행렬은 목적 사용자와 유사하게 아이템을 평가한 사용자 그룹을 찾기 위한 것으로, 목적 사용자가 아직 평가하지 않은 아이템에 대하여 사용자-평가 매트릭스를 통해 그 평가 값을 예측한다. 현재 이 협업적 여과 방법은 전자상거래와 정보 검색에서 적용되어 개인화 시스템에 효율적으로 사용되고 있다. 하지만 초기 사용자 문제, 데이터 희박성 문제와 확장성 그리고 예측 정확도 향상 등 해결해야 할 과제가 여전히 남아 있다. 이러한 문제들을 해소하기 위해 많은 연구자들은 하이브리드, 신뢰기반, 소셜 네트워크 기반 협업적 여과와 같은 다양한 방법을 제안하였다. 본 논문에서는 전통적인 협업적 여과 방식의 예측 정확도와 추천 성능을 향상시키기 위해 소셜 네트워크에 존재하는 소셜 관계를 이용한 협업적 여과 시스템을 제안한다. 소셜 관계는 소셜 네트워크 서비스 중 하나인 페이스북 사용자들이 남긴 포스팅과 사용자의 소셜 네트워크 친구와 의견 교류 중 남긴 코멘트와 같은 사용자 행동을 기반으로 정의된다. 소셜 관계를 구축하기 위해 소셜 네트워크 사용자의 포스팅과 댓글을 추출하고, 추출된 텍스트에 불용어 및 특수 기호 제거와 스테밍 등 전처리를 수행하였다. 특징 벡터는 TF-IDF를 이용하여 전처리된 텍스트에 나타난 각 단어에 대한 특징 점수를 계산함으로써 구축된다. 본 논문에서 이웃 사용자를 결정하기 위해 사용되는 사용자 간 유사도는 특징 벡터를 이용한 사용자 행동 유사도와 사용자의 영화 평가를 기반으로 한 전통적 방법의 유사도를 결합하여 계산된다. 제안하는 시스템은 목표 사용자와 제안한 방법을 통해 결정된 이웃 사용자 집단을 기반으로 목표 사용자가 평가하지 않은 아이템에 대한 선호도를 예측하고 Top-N 아이템을 선별하여 사용자에게 아이템을 추천하게 된다. 본 논문에서 제안하는 방법을 확인하고 평가하기 위하여 IMDB에서 제공하는 영화 정보 기반으로 영화 평가 시스템을 구축하였다. 예측 정확도를 평가하기 위해 MAE 값을 이용하여 제안하는 알고리즘이 얼마나 정확한 추천을 수행하는지에 대한 예측 정확도를 측정하였다. 그리고 정확도, 재현율 및 F1값 등을 활용하여 시스템의 성능을 평가하였으며, 시스템의 추천 품질은 커버리지를 이용하여 평가되었다. 실험 결과로부터 본 논문에서 제안한 시스템이 보다 더 정확하고 좋은 성능으로 사용자에게 아이템을 추천하는 것을 볼 수 있었다. 특히 소셜 네트워크에서 사용자 행동을 기반으로 한 소셜 관계를 이용함으로써 추천 정확도를 6% 향상시킴을 보였다. 또한 벤치마크 알고리즘과의 성능비교 실험을 통해 7% 향상된 추천 성능의 결과를 보여준다. 그러므로 사용자의 행동으로부터 관찰된 소셜 관계를 CF방법과 결합한 제안한 방법이 정확한 추천시스템을 위해 유용하며, 추천시스템의 성능과 품질을 향상시킬 수 있음을 알 수 있다.