• 제목/요약/키워드: K-means 알고리즘

검색결과 771건 처리시간 0.032초

딥러닝의 모형과 응용사례 (Deep Learning Architectures and Applications)

  • 안성만
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.127-142
    • /
    • 2016
  • 딥러닝은 인공신경망(neural network)이라는 인공지능분야의 모형이 발전된 형태로서, 계층구조로 이루어진 인공신경망의 내부계층(hidden layer)이 여러 단계로 이루어진 구조이다. 딥러닝에서의 주요 모형은 합성곱신경망(convolutional neural network), 순환신경망(recurrent neural network), 그리고 심층신뢰신경망(deep belief network)의 세가지라고 할 수 있다. 그 중에서 현재 흥미로운 연구가 많이 발표되어서 관심이 집중되고 있는 모형은 지도학습(supervised learning)모형인 처음 두 개의 모형이다. 따라서 본 논문에서는 지도학습모형의 가중치를 최적화하는 기본적인 방법인 오류역전파 알고리즘을 살펴본 뒤에 합성곱신경망과 순환신경망의 구조와 응용사례 등을 살펴보고자 한다. 본문에서 다루지 않은 모형인 심층신뢰신경망은 아직까지는 합성곱신경망 이나 순환신경망보다는 상대적으로 주목을 덜 받고 있다. 그러나 심층신뢰신경망은 CNN이나 RNN과는 달리 비지도학습(unsupervised learning)모형이며, 사람이나 동물은 관찰을 통해서 스스로 학습한다는 점에서 궁극적으로는 비지도학습모형이 더 많이 연구되어야 할 주제가 될 것이다.

180일령 넙치 Paralichthys oilvaceus의 성장형질에 대한 유전모수 추정 및 유전능력평가 재현성 검정 (Estimation of Genetic Parameters and Reproductivity Test of Genetic Evaluation for Growth-related Traits of olive Flounder Paralichthys olivaceus at 180 Days of Age)

  • 김현철;노재구;이정호;김종현;박철지;강정하;김경길;이정규;명정인
    • 한국양식학회지
    • /
    • 제21권4호
    • /
    • pp.317-324
    • /
    • 2008
  • 본 연구는 2005년에 생산한 넙치 선발 1세대의 초기 성장에 대한 유전모수 및 유전능력평가 결과의 재현성을 검정하기 위해 부화 후 180일령 넙치의 성장형질 측정치를 EM-REML 알고리즘(Misztal, 2001)을 이용하여 유전모수와 육종가를 추정하였으며, 추정된 육종가를 기준으로 선발된 우량 친어와 열등한 친어간의 교배에 의해 2006년에 생산된 가계를 이용하여 유전 능력평가의 재현성을 검정하였다. 넙치 선발 1세대의 부화 후 180일령 체중, 전장, 체고, 체형 지수 및 비만도의 유전력은 각각 0.564, 0.590, 0.588, 0.306, 0.332로 추정되었다. 체중 및 전장의 각 교매그룹별 최소자승평균치에 있어서 우량친어간의 교배에 의해 생산된 가계($S{\times}S$)가 각각 $145.6{\pm}1.8\;g$, $22.4{\pm}0.1\;cm$로 나타났고, 우량친어와 열등친어간의 교배에 의해 생산된 가계($S{\times}I$)가 각각 $133.2{\pm}2.5\;g$, $22.1{\pm}0.1\;cm$로 나타났으며, 열등친어간의 교배에 의해 생산된 가계($I{\times}I$)가 각각 $114.0{\pm}2.1\;g$, $21.1{\pm}0.1\;cm$로 나타났다. 체형 관련 형질인 체형지수와 비만도의 각 교배그룹별 최소자승평균치에 있어서, $S{\times}S$ 가계가 각각 $2.756{\pm}0.005$, $12.74{\pm}0.04$로 나타났고, $S{\times}I$가계가 각각 $2.817{\pm}0.008$, $12.20{\pm}0.06$으로 나타났며, $I{\times}I$가계가 각각 $2.863{\pm}0.007$, $11.90{\pm}0.05$로 나타났다. 이상의 결과에서 넙치의 성장초기인 부화 후 180일령의 유전력은 대체적으로 높게 추정되어 선발육종 대상어종으로 적합한 것으로 판단되며, 유전능력평가의 재현성도 높은 것으로 나타났다.

Spine SBRT 치료시 Coaxial MLC VMAT plan의 유용성 평가 (Evaluating efficiency of Coaxial MLC VMAT plan for spine SBRT)

  • 손상준;문준기;김대호;유숙현
    • 대한방사선치료학회지
    • /
    • 제26권2호
    • /
    • pp.313-320
    • /
    • 2014
  • 목 적 : Spine SBRT 치료 시 보편적인 치료방법인 콜리메이터 각도 $30^{\circ}$$330^{\circ}$를 각각 사용한 2회전 치료계획 (이하 Universal MLC VMAT)과 MLC 운동 방향과 척수 또는 마미 (이하 OAR)의 장축을 일치시킨 콜리메이터 각도 $273^{\circ}$$350^{\circ}$를 사용한 2회전 치료계획 (이하 Coaxial MLC VMAT) 유용성을 비교, 평가하고자 한다. 대상 및 방법 : 본원에서 Varian TBX을 이용하여, Coaxial MLC VMAT 치료 계획으로 치료 받은 spine SBRT환자 10명을 대상으로 하였다. 전산화치료계획은 Eclipse (ver 10.0.42, Varian, USA), PRO3 (Progressive Resolution Optimizer 10.0.28), AAA (Anisotropic Analytic Algorithm Ver 10.0.28) 알고리즘을 이용하였다. 치료계획은 VMAT로 겐트리 회전반경이 각각 $360^{\circ}$인 두 개의 ARC, 10MV FFF (Flattening Filter Free)를 이용하여 수립하였고, 각 ARC는 콜리메이터 각도 $273^{\circ}$, $350^{\circ}$로 설정하였다. 기존 치료계획을 바탕으로 실험군인 Universal MLC VMAT 치료계획을 수립하였다. 콜리메이터 각도를 제외한 모든 조건은 동일하게 설정하였으며, 특히 최적화 (VMAT optimization) 과정에서 무작위하게 나타나는 선량차이를 최소화하기 위해 각각 2회의 최적화, 선량 계산 과정을 거쳤다. 계산 grid 는 0.2 cm, normalization은 타겟 $V_{100%}=90%$로 설정하였다. OAR의 선량 $V_{10Gy}$, $D_{0.03cc}$, Dmean, 타겟의 H.I (Homogeneity index) 그리고 각 치료 계획의 Total MU를 평가 지표로 설정하였고, Mapcheck2 (Sun Nuclear Co., USA) 와 Mapphan (Sun Nuclear Co., USA) 그리고 SNC patient (Sun Nuclear Co., USA Ver 6.1.2.18513) 를 이용하여 Coaxial MLC VMAT 계획의 임상 적용 가능 여부 확인을 위한 IMRT verification QA (gamma test)를 실시하였다. 결 과 : 두 치료계획을 비교한 결과 OAR의 $V_{10Gy}$차이는 최대 4.1%, 최소 0.4%, 평균 1.9%로, $D_{0.03cc}$ 는 최대 83.5 cGy, 최소 2.2 cGy, 평균 33.3 cGy로 Coaxial MLC VMAT plan 이 더 낮은 것으로 나타났다. Dmean 또한 최대 34.8 cGy, 최소 -13.0 cGy, 평균 9.6 cGy로 Coaxial MLC VMAT plan 이 낮은 것으로 나타났다. H.I. 는 최대 0.04, 최소 0.01로 Coaxial MLC VMAT plan 이 평균 0.02 낮은 것으로 나타났으며, Total MU의 평균값을 비교한 결과 Coaxial MLC VMAT plan 이 평균 74.1 MU 더 낮게 나타났다. Coaxial MLC VMAT plan에 대한 IMRT verification gamma test 결과는 1 mm / 2%, pass rate 90.0% 기준을 모두 통과하였다. 결 론 : Coaxial MLC VMAT 치료계획은 Universal MLC VMAT 치료계획에 비해 대부분의 평가지표에서 유리한 것으로 나타냈으며 특히 OAR의 선량 $V_{10Gy}$을 낮추는데 있어 탁월한 것으로 사료된다. 실험결과를 바탕으로 두 치료 계획을 비교해 볼 때, 같은 MU를 사용한다면 Coaxial MLC VMAT 치료계획이 Universal MLC VMAT 치료계획에 비해 효율적이라 사료된다.

다중 플랫폼(위성, 무인기, AIS, HF 레이더)에 기반한 시나리오별 선박탐지 모니터링 (Operational Ship Monitoring Based on Multi-platforms (Satellite, UAV, HF Radar, AIS))

  • 김상완;김동한;이윤경;이임평;이상호;김정훈;김근용;유주형
    • 대한원격탐사학회지
    • /
    • 제36권2_2호
    • /
    • pp.379-399
    • /
    • 2020
  • 불법 선박 탐지는 해양 감시 체계 구축에서 중요한 요소 중 하나이다. 효과적인 해양 감시를 위해서는 광역적이고 지속적인 해상 감시 수단이 요구된다. 본 연구에서는 인공위성 SAR, HF 레이더, 무인기 그리고 AIS 통합 기반의 선박탐지 모니터링을 가능성을 검토하였다. 각 플랫폼별 시·공간 관측 특성을 고려하여 선박감시 시나리오는 HF 레이더 자료와 AIS 자료를 이용한 상시감시 시스템과 인공위성과 무인기를 활용한 이벤트 감시 시스템으로 구성되었다. 상시감시 시스템은 아직까지 HF 레이더 자료의 낮은 공간해상도로 인한 탐지 가능 선박크기 제한 및 정확도의 한계가 있다. 그러나, 인공위성 SAR 자료를 사용한 이벤트 감시 시스템은 추출된 선박 위치와 AIS 자료를 이용한 불법 선박 탐지, 그리고 SAR 영상에서 추출된 선박속도, 이동방향에 대한 정보 또는 HF 레이더 자료를 이용한 선박 트래킹 정보는 무인기 감시체계로의 전환에 주요한 정보로 활용될 수 있다. 시나리오 구성을 위한 실험을 위해 2019년 6월 25일부터 6월 26일까지 2일간 충청남도 서천군 홍원항 서측에 위치한 연도를 중심으로 통합 현장 실험을 수행하였다. 이로부터 KOMPSAT-5 SAR 영상, 무인기 영상, HF 레이더 자료 및 AIS 자료가 성공적으로 수집되었고 각각 개발된 알고리즘을 적용하여 분석되었다. 개발된 선박감시 모니터링 시스템은 다중 플랫폼으로부터 수집된 자료 및 분석 결과의 가시화 뿐만 아니라 추후 상시 및 이벤트 선박감시 시나리오를 구현에 기반이 될 것이다.

불균형 데이터 환경에서 변수가중치를 적용한 사례기반추론 기반의 고객반응 예측 (Response Modeling for the Marketing Promotion with Weighted Case Based Reasoning Under Imbalanced Data Distribution)

  • 김은미;홍태호
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.29-45
    • /
    • 2015
  • 고객반응 예측모형은 마케팅 프로모션을 제공할 목표고객을 효과적으로 선정할 수 있도록 하여 프로모션의 효과를 극대화 할 수 있도록 해준다. 오늘날과 같은 빅데이터 환경에서는 데이터 마이닝 기법을 적용하여 고객반응 예측모형을 구축하고 있으며 본 연구에서는 사례기반추론 기반의 고객반응 예측모형을 제시하였다. 일반적으로 사례기반추론 기반의 예측모형은 타 인공지능기법에 비해 성과가 낮다고 알려져 있으나 입력변수의 중요도에 따라 가중치를 상이하게 적용함으로써 예측성과를 향상시킬 수 있다. 본 연구에서는 프로모션에 대한 고객의 반응여부에 영향을 미치는 중요도에 따라 입력변수의 가중치를 산출하여 적용하였으며 동일한 가중치를 적용한 예측모형과의 성과를 비교하였다. 목욕세제 판매데이터를 사용하여 고객반응 예측모형을 개발하고 로짓모형의 계수를 적용하여 입력변수의 중요도에 따라 가중치를 산출하였다. 실증분석 결과 각 변수의 중요도에 기반하여 가중치를 적용한 예측모형이 동일한 가중치를 적용한 예측모형보다 높은 예측성과를 보여주었다. 또한 고객 반응예측 모형과 같이 실생활의 분류문제에서는 두 범주에 속하는 데이터의 수가 현격한 차이를 보이는 불균형 데이터가 대부분이다. 이러한 데이터의 불균형 문제는 기계학습 알고리즘의 성능을 저하시키는 요인으로 작용하며 본 연구에서 제안한 Weighted CBR이 불균형 환경에서도 안정적으로 적용할 수 있는지 검증하였다. 전체데이터에서 100개의 데이터를 무작위로 추출한 불균형 환경에서 100번 반복하여 예측성과를 비교해 본 결과 본 연구에서 제안한 Weighted CBR은 불균형 환경에서도 일관된 우수한 성과를 보여주었다.

한우에서 전장의 유전체 정보를 활용한 연관불평형 및 유효집단크기 추정에 관한 연구 (Estimation of Linkage Disequilibrium and Effective Population Size using Whole Genome Single Nucleotide Polymorphisms in Hanwoo)

  • 조충일;이준호;이득환
    • 생명과학회지
    • /
    • 제22권3호
    • /
    • pp.366-372
    • /
    • 2012
  • 본 연구는 한우 유전체 전장에 존재하는 고밀도 단일염기다형을 DNA chip을 이용하여 각각의 유전자형을 구명하고, 동일염색체 내에 존재하는 각 표지인자쌍의 연관불평형을 성 염색체를 제외한 모든 상염색체에서 추정하여 물리적 거리별 연관불평형의 정도를 확인하고 이러한 결과를 이용하여 한우 집단의 유효집단 크기를 추정하기 위하여 실시하였다. 한우개량사업소에서 2005년부터 2008년까지 후대검정에 공시된 후보종모우 및 후대 검정우 288두에 대해 혈액을 채취하고 Bovine SNP 50 DNA Chip을 이용하여 유전자형을 분석하였으며, 총 51,582 표지인자 중 결측률이 10% 이상인 표지인자 1개 및 다형성이 없는 표지인자 10,730개에 대해 사전제거를 실시하고 남은 40,851개의 SNP표지인자를 본 분석에 활용하였다. 연구 결과, 성 염색체를 제외한 상 염색체의 총 SNP표지인자의 길이는 2,541.6 Mb였으며, 염색체별 평균 SNP표지인자간 거리는 0.55에서 0.74로 분포하였으며, EM알고리즘을 이용하여 염색체별 연관불평형을 추정해 보았을 때, 기존의 보고된 연구와 유사하게 표지인자간 거리가 짧을수록 높게 나타나는 지수형태의 그래프를 나타냈으며, SNP표지인자간 거리에 따른 $r^2$를 보면, 0 Mb에서 0.1 Mb일 때 0.136, 0.1-0.2 Mb에서 0.06로 나타났다. Luo (1998)의 연구결과를 한우에 적용시켰을 때, 전체분산의 5%이상 설명하는 양적형질좌위 발굴을 위해서 약 2,000두의 표현형 자료가 필요할 것으로 사료되었다. 또한 한우의 세대별 유효집단 크기에 대해 추정해 본 결과, 현재 한우의 유효집단크기는 84두로 추정되었고, 지금으로부터 약 50세대 이전의 유효집단 크기는 1,150두로 추정되었다. 가축에서 인공수정이 도입(1960년대)된 이 후 개량의 가속화로 인해 한우의 유효집단 크기가 급격히 감소한 것으로 사료되었다.

쇼핑몰 이미지 저작권보호를 위한 영상 워터마킹 (Image Watermarking for Copyright Protection of Images on Shopping Mall)

  • 배경율
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.147-157
    • /
    • 2013
  • 디지털 환경의 도래와 언제 어디서나 접근할 수 있는 고속 네트워크의 도입으로 디지털 콘텐츠의 자유로운 유통과 이용이 가능해졌다. 이러한 환경은 역설적으로 다양한 저작권 침해를 불러 일으키고 있으며, 온라인 쇼핑몰에서 사용하는 상품 이미지의 도용이 빈번하게 발생하고 있다. 인터넷 쇼핑몰에 올라오는 상품 이미지와 관련해서는 저작물성에 대한 시비가 많이 일어나고 있다. 2001년 대법원 판결에 의하면 햄 광고를 위하여 촬영한 사진은 단순히 제품의 모습을 전달하는 사물의 복제에 불과할 뿐 창작적인 표현이 아니라고 적시하였다. 다만 촬영자의 손해액에 대해서는 인정함으로써 광고사진 촬영에 소요되는 통상적인 비용을 손해액으로 산정하게 하였다. 상품 사진 이외의 실내사진이라 하여도 '한정된 공간에서 촬영되어 누가 찍어도 동일한 사진'이 나올 수 밖에 없는 경우에는 창작성을 인정하지 않고 있다. 2003년 서울지방법원의 판례는 쇼핑몰에 사용된 사진에서 피사체의 선정, 구도의 설정, 빛의 방향과 양의 조절, 카메라 각도의 설정, 셔터의 속도, 셔터찬스의 포착 기타 촬영방법, 현상 및 인화 등의 과정에서 촬영자의 개성과 창조성이 인정되면 저작권법에 의하여 보호되는 저작물에 해당한다고 선고하여 손해를 인정하였다. 결국 쇼핑몰 이미지도 저작권법상의 보호를 받기 위해서는 단순한 제품의 상태를 전달하는 것이 아니라 촬영자의 개성과 창조성이 인정될 수 있는 노력이 필요하다는 것이며, 이에 따라 쇼핑몰 이미지를 제작하는 비용이 상승하고 저작권보호의 필요성은 더욱 높아지게 되었다. 온라인 쇼핑몰의 상품 이미지는 풍경사진이나 인물사진과 같은 일반 영상과 달리 매우 독특한 구성을 갖고 있으며, 따라서 일반 영상을 위한 이미지 워터마킹 기술로는 워터마킹 기술의 요구사항을 만족시킬 수 없다. 쇼핑몰에서 주로 사용되는 상품 이미지들은 배경이 흰색이거나 검은색, 또는 계조(gradient)색상으로 이루어져 있어서 워터마크를 삽입할 수 있는 공간으로 활용이 어렵고, 약간의 변화에도 민감하게 느껴지는 영역이다. 본 연구에서는 쇼핑몰에 사용되는 이미지의 특성을 분석하고 이에 적합한 이미지 워터마킹 기술을 제안하였다. 제안된 이미지 워터마킹 기술은 상품 이미지를 작은 블록으로 분할하고, 해당 블록에 대해서 DCT 양자화 처리를 함으로써 워터마크 정보를 삽입할 수 있도록 하였다. 균일한 DCT 계수 양자화 값의 처리는 시각적으로 영상에 블록화 현상을 불러오기 때문에 제안한 알고리즘에서는 블록의 경계 면에 붙어있는 영상 값에 대해서는 양자화 값의 분배를 작게 하고, 경계 면에서 멀리 떨어져있는 영상 값에 대해서는 양자화 값의 분배를 크게 함으로써 영상의 객관적 품질뿐 아니라 시각적으로 느끼는 주관적 품질도 향상 시켰다. 제안한 알고리즘에 의해서 워터마크가 삽입된 쇼핑몰 이미지의 PSNR(Peak Signal to Noise Ratio)은 40.7~48.5[dB]로 매우 우수한 품질을 보였으며, 일반 쇼핑몰 이미지에서 많이 사용되는 JPEG 압축은 QF가 70 이상인 경우에는 BER이 0이 나왔다.

대표 패턴 마이닝에 활용되는 패턴 압축 기법들에 대한 분석 및 성능 평가 (Analysis and Performance Evaluation of Pattern Condensing Techniques used in Representative Pattern Mining)

  • 이강인;윤은일
    • 인터넷정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.77-83
    • /
    • 2015
  • 데이터 마이닝에서 활발히 연구되고 있는 주요 분야들 가운데 하나인 빈발 패턴 마이닝은 대규모의 데이터 집합 또는 데이터베이스로부터 숨겨진 유용한 패턴 정보를 추출하기 위한 방법이다. 또한 이 기법으로 얻을 수 있는 결과물을 통해 데이터베이스내의 다양하고 중요한 특징들을 더욱 손쉽게 자동적으로 분석할 수 있기 때문에 많은 응용영역에도 활발히 적용되고 있다. 하지만 이러한 데이터베이스로부터 단순히 사용자에 의해 설정된 최소 지지도 임계값만을 가지고 이를 만족하는 모든 패턴들을 추출하는 기존의 전통적인 빈발 패턴 마이닝 방식은 데이터베이스의 특성과 임계값 설정의 정도에 따라 극도로 많은 수의 결과 패턴을 생성하는 문제를 가지며, 이에 따른 시간 및 공간 자원의 낭비를 초래한다. 또한 과도하게 생성된 패턴에 대한 분석의 어려움 역시 심각한 문제가 된다. 기존의 빈발 패턴 마이닝 접근방법들이 직면한 이러한 문제를 해결하고자, 데이터베이스로부터 가능한 모든 빈발 패턴들을 마이닝하는 것이 아닌, 이들에 대한 대표 패턴들만은 선별적으로 추출할 수 있도록 하는 대표 패턴 마이닝의 개념과 다양한 관련 기법들이 제안되었다. 본 논문에서는 생성되는 각 패턴의 최대성 또는 폐쇄성을 고려하는 패턴 압축 기법들에 대한 특성들을 기술하고, 이에대한 비교 및 분석을 진행한다. 최대 빈발 패턴 혹은 닫힌 빈발 패턴들을 마이닝함으로써, 효과적인 패턴 압축이 가능하며, 더 적은 시공간 자원으로 마이닝 작업을 수행할 수 있다. 또한 압축된 패턴들은 필요시 다시 원래의 패턴 형태로 복구가 가능한 특징이 있으며, 특히 닫힌 패턴 접근 방법을 이용하면 패턴을 압축하고 다시 해제하는 과정에서 어떠한 정보의 손실도 일어나지 않는다. 본 논문에서는 같은 플랫폼 상에서 동일한 구현 수준의 알고리즘에 대해 실세계로부터 축적된 실 데이터셋들을 가지고 상기 기법들에 대한 성능평가를 진행함으로써, 각 기법이 패턴 생성, 수행 시간, 메모리 사용량과 같은 실제적인 마이닝 성능에 대해 어떠한 영향을 미치는지에 대한 심층적 분석결과를 보인다.

개인화된 뉴스 서비스를 위한 소셜 네트워크 기반의 콘텐츠 추천기법 (Content-based Recommendation Based on Social Network for Personalized News Services)

  • 홍명덕;오경진;가명현;조근식
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.57-71
    • /
    • 2013
  • 세계에는 수많은 사람들이 살아가고 있고, 사람들의 일상으로부터 매일, 매 시간 단위로 새로운 뉴스가 발생한다. 발생되는 뉴스는 예정된 일과 예상하지 못한 일들을 포함하고 있다. 발생하는 뉴스의 거대한 양과 이를 전달하는 수많은 미디어들로 인해 사람들은 뉴스 콘텐츠를 이용하는데 많은 시간을 소비하게 된다. 하지만 미디어에 시시각각 나타나는 속보와 실시간 이슈의 대부분이 가십 기사로 이루어져 있어 사용자들이 자신의 성향에 맞는 뉴스를 선별하고, 뉴스로부터 정보를 획득하는 것은 쉽지 않은 일이다. 또한 사용자의 관심사가 시간에 따라 변하기 때문에 뉴스 제공에 있어 사용자의 변하는 관심사를 반영하는 것이 요구된다. 본 논문에서는 사용자의 최근 관심사를 기반으로 사용자 선호도에 맞는 뉴스를 제공하기 위한 콘텐츠 기반의 추천 기법 및 시스템을 제안한다. 사용자의 최근 선호도를 파악하기 위하여 소셜 네트워크 서비스인 Facebook 사용자의 정보와 최근 게시글을 이용하여 동적으로 사용자 프로파일을 생성하여 이를 뉴스 서비스에 활용하고, 사용자 선호도에 적합한 뉴스를 추출하기 위해서 뉴스 콘텐츠의 분석을 요구한다. 뉴스 콘텐츠 분석을 위해 미디어에서 제공되는 뉴스의 카테고리를 사용하고, 뉴스 방송원고의 분석 및 주요 키워드 추출을 통해 뉴스 프로파일을 생성한다. 사용자 프로파일과 뉴스 프로파일 간의 유사도 측정을 위해서는 두 프로파일 간 형식의 일치화가 요구되므로 사용자 프로파일을 뉴스 프로파일과 동일한 형태로 생성한다. 사용자가 시스템에 접속하면 시스템은 사용자 프로파일에 명시된 선호도를 기반으로 뉴스 프로파일과의 유사도를 측정하고, 사용자 선호도에 가장 적합한 뉴스들을 제공하게 된다. 또한 사용자에게 제공된 뉴스 프로파일과 다른 뉴스 프로파일들 간에 유사도를 측정하여 유사도가 높은 관련된 뉴스들을 제공하게 된다. 제안한 개인화된 뉴스 서비스의 성능을 평가하기 위해 사용자에게 추천된 뉴스에 대한 사용자 평가와 시스템 예측값의 오차를 기반으로 6Sub-Vectors 벤치마크 알고리즘과 성능 평가를 수행하였고, 실험 결과를 통해 제안한 시스템의 우수성을 입증하였다.

네트워크 중심성 척도가 추천 성능에 미치는 영향에 대한 연구 (A Study on the Effect of Network Centralities on Recommendation Performance)

  • 이동원
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.23-46
    • /
    • 2021
  • 개인화 추천에서 많이 사용되는 협업 필터링은 고객들의 구매이력을 기반으로 유사고객을 찾아 상품을 추천할 수 있는 매우 유용한 기법으로 인식되고 있다. 그러나, 전통적인 협업 필터링 기법은 사용자 간에 직접적인 연결과 공통적인 특징을 기반으로 유사도를 계산하는 방식으로 인해 신규 고객 혹은 상품에 대해 유사도를 계산하기 힘들다는 문제가 제기되어 왔다. 이를 극복하기 위하여, 다른 기법을 함께 사용하는 하이브리드 기법이 고안되기도 하였다. 이런 노력의 하나로서, 사회연결망의 구조적 특성을 적용하여 이런 문제를 해결하려는 시도가 있었다. 이는, 직접적으로 유사성을 찾기 힘든 사용자 간에도 둘 사이에 놓인 유사한 사용자 또는 사용자들을 통해 유추해내는 방식으로 상호 간의 유사성을 계산하는 방식을 적용한 것이다. 즉, 구매 데이터를 기반으로 사용자의 네트워크를 생성하고 이 네트워크 내에서 두 사용자를 간접적으로 이어주는 네트워크의 특성을 기반으로 둘 사이의 유사도를 계산하는 것이다. 이렇게 얻은 유사도는 추천대상 고객이 상품의 추천에 대한 수락여부를 결정하는 척도로 활용될 수 있다. 서로 다른 중심성 척도는 추천성과에 미치는 영향이 서로 다를 수 있다는 점에서 중요한 의미를 갖는다 할 수 있다. 이런 유사도의 계산을 위해서 네트워크의 중심성을 활용할 수 있다. 본 연구에서는 여기서 더 나아가 이런 중심성이 추천성과에 미치는 영향이 추천 알고리즘에 따라서도 다를 수 있다는 데에서 주목하여 수행되었다. 또한, 이런 네트워크 분석을 활용한 추천기법은 신규 고객 혹은 상품뿐만 아니라 전체 고객 혹은 상품으로 그 대상을 넓히더라도 추천 성능을 높이는 데 기여할 것을 기대할 수 있을 것이다. 이런 관점에서 본 연구는 네트워크 모형에서 연결선이 생성되는 것을 이진 분류의 문제로 보고, 추천 모형에 적용할 분류 기법으로 의사결정나무, K-최근접이웃법, 로지스틱 회귀분석, 인공신경망, 서포트 벡터 머신을 선택하고, 온라인 쇼핑몰에서 4년2개월간 수집된 구매 데이터로 실험을 진행하였다. 사회연결망에서 측정된 중심성 척도를 각 분류 기법에 적용하여 생성한 모형을 비교 실험한 결과, 각 모형 별로 중심성 척도의 추천성공률이 서로 다르게 나타남을 확인할 수 있었다.