• 제목/요약/키워드: Pearson similarity

검색결과 79건 처리시간 0.033초

협업 필터링 추천에서 대응평균 알고리즘의 예측 성능에 관한 연구 (A study on the Prediction Performance of the Correspondence Mean Algorithm in Collaborative Filtering Recommendation)

  • 이석준;이희춘
    • 경영정보학연구
    • /
    • 제9권1호
    • /
    • pp.85-103
    • /
    • 2007
  • 본 연구의 목적은 좀 더 정확한 고객 선호도 예측을 위한 협업 필터링 알고리즘의 예측 성능을 평가하기 위한 것이다. 고객 선호도 예측의 정확도를 비교하기 위하여 이웃 기반의 협업 필터링 알고리즘과 대응평균 알고리즘에 의한 고객 선호도 예측의 MAE를 비교하였다. 예측 알고리즘의 정확성을 분석하기 위하여 MovieLens 1 Million dataset을 이용하여 실험을 하였다. 각 예측 알고리즘에 사용된 유사도 가중치는 일반적으로 이용되는 피어슨 상관계수와 벡터 유사도를 이용하였으며 분석결과 대응평균 알고리즘의 예측 정확도가 이웃 기반의 협업 필터링 알고리즘의 예측 정확도 보다 우수한 것으로 나타났다. 두 알고리즘에 사용된 유사도 가중치인 피어슨 상관계수와 벡터 유사도는 두 고객이 특정 상품에 대하여 공통으로 평가한 선호도 평가치를 이용하여 계산된다. 이때 공통으로 평가한 선호도 평가치의 개수가 적으면 계산된 유사도 가중치가 과대 평가된다. 과대 평가된 유사도 가중치를 보정하여 고객 선호도 예측의 정확도를 높이기 위하여 기존의 연구에서 고려한 공통 평가 영화의 개수 보다 확대된 범위를 적용하였으며 각 예측 방법에 따라 서로 다른 개선 경향을 파악할 수 있었다.

상관계수과 거리계수의 조합형 척도를 이용한 영상인식 (Image Recognition by Using Hybrid Coefficient Measure of Correlation and Distance)

  • 홍성준;조용현
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.343-347
    • /
    • 2010
  • 본 논문에서는 상관계수와 거리계수의 조합형 유사성 척도에 기반을 둔 효과적인 영상인식 방법을 제안하였다. 여기서 상관계수는 Pearson coefficient에 의한 통계적 유사성을 측정하기 위함이고, 거리계수는 city-block에 의한 공간적인 유사성을 측정하기 위함이다. 또한 영상사이의 전체 유사성은 각 영상이 가지는 특징사이의 유사성으로 계산되며, 영상의 특징은 PCA와 ICA로 각각 추출하였다. 제안된 방법을 40*50 픽셀의 960(30명*4표정*2조명*4포즈)개 다른 표정영상을 대상으로 실험한 결과, ICA 기반 조합형 척도를 이용하는 것이 PCA 기반 조합형 척도보다 우수한 인식률을 가지며, 또한 조명과 같은 주변 환경에도 강건한 인식성능이 있음을 확인하였다.

사용자 기반의 협력필터링 시스템을 위한 유사도 측정의 최적화 (Optimization of the Similarity Measure for User-based Collaborative Filtering Systems)

  • 이수정
    • 컴퓨터교육학회논문지
    • /
    • 제19권1호
    • /
    • pp.111-118
    • /
    • 2016
  • 협력 필터링 기반의 추천시스템에서 유사도 측정은 시스템의 성능에 큰 영향을 미치는데, 이는 유사한 다른 사용자들로부터 항목을 추천받기 때문이다. 본 연구에서는 전통적인 유사도 측정 방법의 가장 큰 문제인 데이터 희소성을 극복하기 위해, 기존의 유사도 측정값과 공통평가항목수의 반영값을 최적으로 결합하는 새로운 유사도 측정방식을 제안한다. 제안 방식의 성능 평가를 위해 다양한 조건으로 실험한 결과 기존 방식들보다 우수한 예측 정확도를 나타냈으며, 구체적으로 전통적인 피어슨 상관보다 최대 약 7%, 코사인 유사도보다는 최대 약 4% 향상된 결과를 보였다.

Improving Performance of Jaccard Coefficient for Collaborative Filtering

  • Lee, Soojung
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권11호
    • /
    • pp.121-126
    • /
    • 2016
  • In recommender systems based on collaborative filtering, measuring similarity is very critical for determining the range of recommenders. Data sparsity problem is fundamental in collaborative filtering systems, which is partly solved by Jaccard coefficient combined with traditional similarity measures. This study proposes a new coefficient for improving performance of Jaccard coefficient by compensating for its drawbacks. We conducted experiments using datasets of various characteristics for performance analysis. As a result of comparison between the proposed and the similarity metric of Pearson correlation widely used up to date, it is found that the two metrics yielded competitive performance on a dense dataset while the proposed showed much better performance on a sparser dataset. Also, the result of comparing the proposed with Jaccard coefficient showed that the proposed yielded far better performance as the dataset is denser. Overall, the proposed coefficient demonstrated the best prediction and recommendation performance among the experimented metrics.

이웃 선정 조건에 따른 협력 필터링의 성능 향상 분석 (Analysis of Performance Improvement of Collaborative Filtering based on Neighbor Selection Criteria)

  • 이수정
    • 컴퓨터교육학회논문지
    • /
    • 제18권4호
    • /
    • pp.55-62
    • /
    • 2015
  • 협력 필터링을 통한 추천 시스템은 정보 검색 편의성을 제공함으로써 다방면에서 성공적으로 활용되어왔다. 유사도 측정은 추천인들의 범위를 결정하는 기준이 되기 때문에 이러한 시스템의 성능을 좌우하는 결정적 요소이다. 본 연구에서는 기존의 유사도 측정 공식에서 산출되는 유사도값의 분포를 분석하고, 유사도값과 공통평가항목수와의 관계를 조사하였다. 이를 통해 발견된 문제점을 보완하기 위하여 유사도값의 제한을 통하여 신뢰할 만한 추천인들을 선정하는 방법을 제시하였다. 실험 결과, 유사도의 상한값과 하한값을 동시에 제한하는 방법이 기존보다 월등한 성능 향상을 가져왔다. 특히 적은 수의 최인접이웃을 참조했을 때 두드러졌는데, 코사인 유사도에 대해서는 최대 0.047, 피어슨에 대해서는 최대 0.03의 추천 성능 향상을 보였다. 이 결과는 피어슨과 코사인 유사도를 이용하는 협력필터링 시스템에서 매우 높거나 낮은 유사도의 이웃의 평가 등급은 참조하지 않는 것이 바람직함을 암시한다.

협업 필터링을 사용한 유사도 기법 및 커뮤니티 검출 알고리즘 비교 (Comparison of similarity measures and community detection algorithms using collaboration filtering)

  • 일홈존;홍민표;박두순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.366-369
    • /
    • 2022
  • The glut of information aggravated the process of data analysis and other procedures including data mining. Many algorithms were devised in Big Data and Data Mining to solve such an intricate problem. In this paper, we conducted research about the comparison of several similarity measures and community detection algorithms in collaborative filtering for movie recommendation systems. Movielense data set was used to do an empirical experiment. We applied three different similarity measures: Cosine, Euclidean, and Pearson. Moreover, betweenness and eigenvector centrality were used to detect communities from the network. As a result, we elucidated which algorithm is more suitable than its counterpart in terms of recommendation accuracy.

경량화된 심전도 측정 임베디드 장비에서 템플릿 기반 직선근사화를 이용한 통신오버헤드 감소 기법 (Communication-Power Overhead Reduction Method Using Template-Based Linear Approximation in Lightweight ECG Measurement Embedded Device)

  • 이승민;박길흠;박대진
    • 대한임베디드공학회논문지
    • /
    • 제15권5호
    • /
    • pp.205-214
    • /
    • 2020
  • With the recent development of hardware and software technology, interest in the development of wearable devices is increasing. In particular, wearable devices require algorithms suitable for low-power and low-capacity embedded devices. Among them, there is an increasing demand for a signal compression algorithm that reduces communication overhead, in order to increase the efficiency of storage and transmission of electrocardiogram (ECG) signals requiring long-time measurement. Because normal beats occupy most of the signal with similar shapes, a high rate of signal compression is possible if normal beats are represented by a template. In this paper, we propose an algorithm for determining the normal beat template using the template cluster and Pearson similarity. Also, the template is expressed effectively as a few vertices through linear approximation algorithm. In experiment of Datum 234 of MIT-BIH arrhythmia database (MIT-BIH ADB) provided by Physionet, a compression ratio was 33.44:1, and an average distribution of root mean square error (RMSE) was 1.55%.

분포유사도를 이용한 문헌클러스터링의 성능향상에 대한 연구 (Improving the Performance of Document Clustering with Distributional Similarities)

  • 이재윤
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.267-283
    • /
    • 2007
  • 이 연구에서는 분포 유사도를 문헌 클러스터링에 적용하여 전통적인 코사인 유사도 공식을 대체할 수 있는 가능성을 모색해보았다. 대표적인 분포 유사도인 KL 다이버전스 공식을 변형한 Jansen-Shannon 다이버전스, 대칭적 스큐 다이버전스, 최소스큐 다이버전스의 세 가지 공식을 문헌 벡터에 적용하는 방안을 고안하였다. 분포 유사도를 적용한 문헌 클러스터링 성능을 검증하기 위해서 세 실험 집단을 대상으로 두 가지 실험을 준비하여 실행하였다. 첫 번째 문헌클러스터링실험에서는 최소스큐다이버전스가 코사인 유사도 뿐만 아니라 다른 다이버전스공식의 성능도 확연히 앞서는 뛰어난 성능을 보였다. 두번째 실험에서는 피어슨 상관계수를 이용하여1차 유사도 행렬로부터2차 분포 유사도를 산출하여 문헌 클러스터링을 수행하였다. 실험결과는 2차 분포 유사도가 전반적으로더 좋은 문헌 클러스터링성능을 보이는 것으로 나타났다. 문헌클러스터링에서 처리 시간과 분류 성능을 함께 고려한다면 이 연구에서 제안한 최소 스큐 다이버전스 공식을 사용하고, 분류 성능만 고려할 경우에는 2차 분포 유사도 방식을 사용하는 것이 바람직하다고 판단된다.

개인화 추천 시스템의 예측 정확도 향상을 위한 사용자 유사도 가중치에 대한 비교 평가 (Comparative Evaluation of User Similarity Weight for Improving Prediction Accuracy in Personalized Recommender System)

  • 정경용;이정현
    • 전자공학회논문지CI
    • /
    • 제42권6호
    • /
    • pp.63-74
    • /
    • 2005
  • 전자상거래에서 최근 대부분의 개인화된 추천 시스템들은 협력적 필터링 기술을 적용하고 있다. 이 방법은 사용자의 성향에 맞는 아이템을 예측하고 추천하기 위하여 비슷한 선호도를 가지는 사용자들간의 유사도 가중치를 계산한다. 이때 일반적으로 피어슨 상관계수를 많이 사용한다. 그러나 이 방법은 두 사용자가 공통으로 선호도를 평가한 아이템들이 있을 때만 상관관계를 계산할 수 있으므로 예측의 정확도는 떨어진다. 사용자 유사도 가중치는 사용자의 성향에 맞는 아이템을 예측하는 경우 뿐만 아니라 개인화된 추천 시스템의 성능에 영향을 미칠 수 있다. 본 논문에서는 정보검색 분야의 벡터 유사도, 엔트로피, 역 사용자 빈도, 기본 선호도 평가를 적용하여 유사도 가중치 공식에 대해서 살펴보고, 추천 시스템의 예측 정확도 향상에 대해서도 실험을 통해 확인해 보았다. 실험 결과는 엔트로피를 이용한 유사도 가중치에 기본 선호도 평가를 결합하는 방법이 가장 성능이 우수함을 알 수 있다.

A Study on Word Vector Models for Representing Korean Semantic Information

  • Yang, Hejung;Lee, Young-In;Lee, Hyun-jung;Cho, Sook Whan;Koo, Myoung-Wan
    • 말소리와 음성과학
    • /
    • 제7권4호
    • /
    • pp.41-47
    • /
    • 2015
  • This paper examines whether the Global Vector model is applicable to Korean data as a universal learning algorithm. The main purpose of this study is to compare the global vector model (GloVe) with the word2vec models such as a continuous bag-of-words (CBOW) model and a skip-gram (SG) model. For this purpose, we conducted an experiment by employing an evaluation corpus consisting of 70 target words and 819 pairs of Korean words for word similarities and analogies, respectively. Results of the word similarity task indicated that the Pearson correlation coefficients of 0.3133 as compared with the human judgement in GloVe, 0.2637 in CBOW and 0.2177 in SG. The word analogy task showed that the overall accuracy rate of 67% in semantic and syntactic relations was obtained in GloVe, 66% in CBOW and 57% in SG.