• 제목/요약/키워드: 피어슨 상관계수

검색결과 275건 처리시간 0.038초

추천 시스템을 위한 고객 클러스터링 방법을 적용한 예측 알고리즘 (A Predictive Algorithm Applying Customer Clustering Method for Recommendation Systems)

  • 박지선;김택헌;류영석;양성봉
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.268-270
    • /
    • 2001
  • 전자상거래에서 최근 대부분의 개인화된 추천 에이전트 시스템들은 협동적 필터링 기술을 적용하고 있다. 이 방법은 고객의 취향에 맞는 상품을 예측하고 추천하기 위하여 비슷한 선호도를 가지는 다른 고객들과의 상관 관계를 구하기 위하여 일반적으로 피어슨 상관 계수를 이용한다. 그러나 이 방법은 오직 두 고객 사이에서 두 고객 모두 평가를 한 상품이 있을 때에만 상관 관계를 구할 수 있으므로 예측의 정확성이 떨어질 수 있다. 본 논문에서는 이러한 이웃 선정 방법에 대한 문제점을 보완하기 위하여 비슷한 선호 패턴을 가지는 고객들를 보다 적절히 군집화하여 이 군집에 속한 고객들의 평가를 기반으로 협동적 필터링 기술을 수행하는 방법을 제안하고, 기존의 협동적 필터링 기술과의 비교 실험을 통해 성능을 평가 하였다. 실험결과 본 논문에서 제안한 방법이 기존의 방법보다 우수함을 확인할 수 있었다.

  • PDF

공통 선택된 특징을 이용한 유전 발현 데이터의 분류 (Classification of Gene Expression Profiles Using Common Features Selected)

  • 박찬호;조성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.351-354
    • /
    • 2002
  • 최근 생명공학 기술과 분석화학 기술의 발달로 생물 유전 데이터를 대량으로 얻는 것이 가능하게 되었다. 아울러 이렇게 얻어진 데이터를 적절하게 처리하고 분석하는 방법들도 여러 가지가 소개되어 왔다. 본 논문에서는 DNA 마이크로어레이 정보를 분류하기 위하여 세 가지 데이터에 대하여 여러 가지 특징 전혀 방법으로 선택된 유전자들을 사용하여 신경망 분류기에 적용시켜 보았다. 실험 결과 백혈병 데이터의 경우 피어슨 상관계수를 이용한 분류가 97.1%로 가장 높은 인식률을 보여주었다. 한편 여러 가지 특징 선택 방법에 의하여 공통적으로 선택된 유전자를 사용하여 분류하면 더 높은 인식률이 나올 것 같았지만 실제로는 기대에 못 미치는 성과를 보여주었다. 따라서 무조건 여러 번 선택된 특징을 선택하기 보다는 특징들끼리의 상관관계를 고려하여 선택하는 방법이 필요할 것이다.

  • PDF

사용자 선호도를 사용한 군집 기반 추천 시스템 (Clustering-Based Recommendation Using Users' Preference)

  • 김영현;신원용
    • 한국정보통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.277-284
    • /
    • 2017
  • 사용자가 좋아할만한 콘텐츠를 정확하게 추천하는 것은 추천 시스템에서 매우 중요한 요소 중 하나이다. 원치 않는 콘텐츠를 추천하거나, 원하는 것을 추천하지 않는 것은 사용자 만족도 측면에서 안 좋은 영향을 끼친다. 본 연구에서는 콘텐츠의 정확한 추천을 위해 사용자 군집 기반 추천 시스템을 제안한다. 제안하는 알고리즘에서 사용자들의 실제 선호도 점수와 피어슨 상관 계수를 기반으로 사용자들을 여러 군집으로 나눈다. 이 후, 특정 사용자에게 어떤 콘텐츠의 추천 여부 결정은, 같은 군집 내에 있는 다른 사용자들의 해당 콘텐츠의 실제 선호도 점수를 근거로 정한다. 제안하는 알고리즘은 군집화를 사용하지 않는 아이템 기반 협력 필터링 알고리즘보다 정밀도, 재현율, F1 스코어와 같은 추천 정확도에 있어서 의미 있는 성능 향상을 보인다.

Sentinel-1 SAR 위성영상과 Water Cloud Model을 활용한 시공간 토양수분 산정 (Spatio-temporal soil moisture estimation using water cloud model and Sentinel-1 synthetic aperture radar images)

  • 정지훈;이용관;김세훈;장원진;김성준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.28-28
    • /
    • 2022
  • 본 연구는 용담댐유역을 포함한 금강 유역 상류 지역을 대상으로 Sentinel-1 SAR (Synthetic Aperture Radar) 위성영상을 기반으로 한 토양수분 산정을 목적으로 하였다. Sentinel-1 영상은 2019년에 대해 12일 간격으로 수집하였고, 영상의 전처리는 SNAP (SentiNel Application Platform)을 활용하여 기하 보정, 방사 보정 및 Speckle 보정을 수행하여 VH (Vertical transmit-Horizontal receive) 및 VV (Vertical transmit-Vertical receive) 편파 후방산란계수로 변환하였다. 토양수분 산정에는 Water Cloud Model (WCM)이 활용되었으며, 모형의 식생 서술자(Vegetation descriptor)는 RVI (Radar Vegetation Index)와 NDVI (Normalized Difference Vegetation Index)를 활용하였다. RVI는 Sentinel-1 영상의 VH 및 VV 편파자료를 이용해 산정하였으며, NDVI는 동기간에 대해 10일 간격으로 수집된 Sentinel-2 MSI (MultiSpectral Instrument) 위성영상을 활용하여 산정하였다. WCM의 검정 및 보정은 한국수자원공사에서 제공하는 10 cm 깊이의 TDR (Time Domain Reflectometry) 센서에서 실측된 6개 지점의 토양수분 자료를 수집하여 수행하였으며, 매개변수의 최적화는 비선형 최소제곱(Non-linear least square) 및 PSO (Particle Swarm Optimization) 알고리즘을 활용하였다. WCM을 통해 산정된 토양수분은 피어슨 상관계수(Pearson's correlation coefficient)와 평균제곱근오차(Root mean square error)를 활용하여 검증을 수행할 예정이다.

  • PDF

전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류 (Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method)

  • 유시호;조성배
    • 대한전자공학회논문지SP
    • /
    • 제41권3호
    • /
    • pp.83-92
    • /
    • 2004
  • 유전 발현 데이터는 생명체의 특정 조직에서 채취한 샘플을 마이크로어레이상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이터이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현 정도는 차이를 보이기 때문에 유전 발현 데이터를 통하여 암을 분류할 수 있다. 그러나 분류에 모든 유전자가 관여하지는 않으므로 효율적인 암의 분류를 위해서는 관련성 있는 소수의 유전자만을 선별해내는 작업인 특징선택 방법이 필요하다. 본 논문에서는 회귀분석의 변수선택방법중 하나인 전진 선택법(forward selection method)을 사용하여 유전자들을 선하고 분류하는 방법을 제안한다. 이 방법은 선택되는 유전자들의 중복된 정보를 최소화시켜 암의 분류에 있어 보다 효과적인 유전자 선택을 한다. 실험데이터는 대장암 데이터(Colon cancer dataset)를 사용하였고, 분류기는 k-최근접 이웃(KNN)을 사용하였다. 이 방법과 상관계수를 이용한 특징 선택방법인 피어슨 상관계수와 스피어맨 상관계수방법과 비교해본 결과 전진 선택법에 의한 특징선택 방법이 암의 분류에 있어서 더 효과적인 유전자 선택을 한다는 사실을 확인하였다. 실험결과 90.3%의 높은 인식률을 보였다. 추가적으로 림프종 데이터에 대한 실험을 하였고, 그 결과 전진 선택법의 유용성을 확인할 수 있었다.

부부의 사망시차 및 생존기간의 종속관계 분석 -국민연금의 유족연금 데이터를 이용한 연구- (Analysis of mortality after death of spouse in relation to duration of bereavement and dependence relation between married couple -using married couples data from survivor's pension of National Pension Service-)

  • 백혜연;한정림;이항석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권4호
    • /
    • pp.931-946
    • /
    • 2015
  • 부부 또는 가족 등의 혈연관계는 생활환경 및 방식이 유사하기 때문에 그들의 생존기간 간에 상관관계가 존재한다는 것을 짐작할 수 있다. 따라서 본 연구에서는 실제 부부 데이터를 이용하여 상관 분석을 위해 피어슨의 상관계수, 스피어만의 상관계수, 그리고 켄달의 타우를 계산해 본다. 또한, 부부 중 한 명이 사망 후 최종생존자가 사망할 때까지의 사망시차를 분석하여 부부의 사망 시점 간에 종속관계에 대하여도 분석하도록 한다. 실제로 보험에 함께 가입한 부부나 가족은 생존기간 또는 사망시점 간에 상관성이 존재하기 때문에 그들의 생존기간이 독립이라 가정하는 보험 실무 방법 대신 상관성을 고려하여 보험 상품의 가치를 평가하는 것이 더 타당할 수 있다. 본 연구를 통해 부부 중 한 명의 배우자의 사망으로 인한 최종생존자의 잔존생존기간의 변화를 분석하여 연생보험의 보험료 및 준비금 산출 등에 활용할 수 있는 근거를 제시해 보고자 한다.

K-최근접 이웃 추천 엔진에서의 벡터 유사도 사용에 대한 실험적 분석 (Empirical Analysis of K-Nearest Neighbor Recommendation Engine using Vector Similarity)

  • 김혜재;손기락
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.103-105
    • /
    • 2001
  • 인터넷 사용 인구의 폭증으로 인터넷 사이트가 경쟁적으로 유용한 각종 정보를 사용자들에게 제공하여 보다 많은 수의 회원을 확보하기 위해 노력하고 있지만 여러 사이트를 동시에 사용하고 있는 대부분의 인터넷 사용자들에게는 각 사이트에서 날아드는 정보를 매번 일일이 검색해야 하는 일이 여간 번거롭지 않을 뿐만 아니라 이런 무분별하고 획일적인 정보 서비스는 오히려 사용자들의 인터넷 사용을 불편하게 하며 더욱이 그 내용이 관심 밖의 것이 경우 네트워크의 효율적인 사용을 저해하는 정보공해에 지나지 않게 된다. 추천엔진은 기본으로 끊임없이 유입되는 다량의 정보 중에서 필요한 것을 추천해 주는 것이다. 이에 본 논문에서는 사용자들에게 필요한 정보만을 효율적으로 전달 해주기 위해서 먼저 개인화된 정보의 전달을 위해 사용자의취향을 파악하여 선택 가능성이 높은 항목을 예측할 수 있어야 한다. 그리고 사용자와 가까운 K 명의 사용자들을 효율적으로 검색하기 위해서 K-최근접 이웃 방식을 사용하고 인덱싱을 사용할 수 있는 세가지 벡터 유사도를 기존의 피어슨 상관계수(Pearson Correlation)와 비교하여 제안한다. 이를 통해 정보의 효율적인 제공방법, 즉 일반적인 검색으로 인한 정보의 제공이 아닌 일반 사용자들의 추천에 의해 정보를 제공하는 K-최근접 이웃 추천 엔진을 세가지 벡터 유사도를 이용해서 분석한다.

  • PDF

위성 야간광 자료를 이용한 북한의 발전량 예측 연구 (A Study on Predicting North Korea's Electricity Generation Using Satellite Nighttime Light Data)

  • 김봉찬;이슬기;이창욱
    • 대한원격탐사학회지
    • /
    • 제40권1호
    • /
    • pp.81-91
    • /
    • 2024
  • 전기 에너지는 현대 문명의 핵심 에너지원으로 발전량, 전력 소모량의 변화 추이는 산업 및 생활 전반과 밀접한 관계가 존재한다. 본 연구에서는 남한 지역의 발전량과 야간광 값 사이의 상관관계를 파악하고 이를 이용하여 북한 지역의 월간 발전량 추이를 예측하였다. 연구 결과 서울시의 경우 야간광과 발전량 사이에는 0.34의 낮은 피어슨(Pearson) 상관계수를 보였으나 월 평균 기온을 이용하여 서울시의 가중치가 적용된 야간광 값과 발전량 사이에는 0.79의 높은 피어슨 상관계수를 보였다. 평양시의 월 평균 기온을 이용한 서울시의 가중치가 적용된 야간광 값을 이용하여 북한 지역의 월간 발전량 추이를 예측한 결과 2020년, 2021년 12월의 전월 대비 발전량 상승폭보다 2022년 12월의 전월 대비 발전량 상승폭이 약 60% 높은 것으로 나타났다. 본 연구의 결과는 월간 발전량 자료가 존재하지 않아 기민한 산업 동향 등의 파악이 힘든 지역의 월간 발전량의 추이를 예측하는데 도움이 될 것으로 기대된다.

혼합자료에서 독립성 검정에 의한 연관성 측정 (A Unified Measure of Association for Complex Data Obtained from Independence Tests)

  • 이승천;허문열
    • 응용통계연구
    • /
    • 제16권1호
    • /
    • pp.151-167
    • /
    • 2003
  • 두 확률변수의 연관성을 측정하는 측도는 많이 있으나, 이러한 측도는 같은 유형인 변수들 간의 관계를 측정하기 위한 것으로 여러 가지 유형의 변수들이 혼재되어 있는 혼합자료에서 사용하기는 곤란하다 본 논문에서는 두 확률변수의 독립성 검정을 통해 구한 p-값으로 혼합자료에서 사용될 수 있는 새로운 연관성 측도를 구하였으며, 이렇게 구하여진 연관성 측도가 혼합자료에서 변수들 간의 연관성을 비교하는데 유용하게 사용될 수 있음을 보였다.

혼합자료에서 독립성검정에 의한 연관성 측정 (A unified measure of association for complex data obtained from independence tests)

  • 이승천;허문열
    • 응용통계연구
    • /
    • 제34권4호
    • /
    • pp.523-536
    • /
    • 2021
  • 두 확률변수의 연관성을 측정하는 측도는 많이 있으나, 이러한 측도는 같은 유형인 변수들 간의 관계를 측정하기 위한 것으로 여러 가지 유형의 변수들이 혼재되어 있는 혼합자료에서 사용하기는 곤란하다. 본 논문에서는 두 확률변수의 독립성 검정을 통해 구한 p-값으로 혼합자료에서 사용될 수 있는 새로운 연관성 측도를 구하였으며, 이렇게 구하여 진 연관성 측도가 혼합자료에서 변수들 간의 연관성을 비교하는데 유용하게 사용될 수 있음을 보였다.