• Title/Summary/Keyword: 피어슨 상관계수

Search Result 282, Processing Time 0.027 seconds

A Predictive Algorithm Applying Customer Clustering Method for Recommendation Systems (추천 시스템을 위한 고객 클러스터링 방법을 적용한 예측 알고리즘)

  • 박지선;김택헌;류영석;양성봉
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.268-270
    • /
    • 2001
  • 전자상거래에서 최근 대부분의 개인화된 추천 에이전트 시스템들은 협동적 필터링 기술을 적용하고 있다. 이 방법은 고객의 취향에 맞는 상품을 예측하고 추천하기 위하여 비슷한 선호도를 가지는 다른 고객들과의 상관 관계를 구하기 위하여 일반적으로 피어슨 상관 계수를 이용한다. 그러나 이 방법은 오직 두 고객 사이에서 두 고객 모두 평가를 한 상품이 있을 때에만 상관 관계를 구할 수 있으므로 예측의 정확성이 떨어질 수 있다. 본 논문에서는 이러한 이웃 선정 방법에 대한 문제점을 보완하기 위하여 비슷한 선호 패턴을 가지는 고객들를 보다 적절히 군집화하여 이 군집에 속한 고객들의 평가를 기반으로 협동적 필터링 기술을 수행하는 방법을 제안하고, 기존의 협동적 필터링 기술과의 비교 실험을 통해 성능을 평가 하였다. 실험결과 본 논문에서 제안한 방법이 기존의 방법보다 우수함을 확인할 수 있었다.

  • PDF

Classification of Gene Expression Profiles Using Common Features Selected (공통 선택된 특징을 이용한 유전 발현 데이터의 분류)

  • Park, Chan-Ho;Cho, Sung-Bae
    • Annual Conference of KIPS
    • /
    • 2002.11a
    • /
    • pp.351-354
    • /
    • 2002
  • 최근 생명공학 기술과 분석화학 기술의 발달로 생물 유전 데이터를 대량으로 얻는 것이 가능하게 되었다. 아울러 이렇게 얻어진 데이터를 적절하게 처리하고 분석하는 방법들도 여러 가지가 소개되어 왔다. 본 논문에서는 DNA 마이크로어레이 정보를 분류하기 위하여 세 가지 데이터에 대하여 여러 가지 특징 전혀 방법으로 선택된 유전자들을 사용하여 신경망 분류기에 적용시켜 보았다. 실험 결과 백혈병 데이터의 경우 피어슨 상관계수를 이용한 분류가 97.1%로 가장 높은 인식률을 보여주었다. 한편 여러 가지 특징 선택 방법에 의하여 공통적으로 선택된 유전자를 사용하여 분류하면 더 높은 인식률이 나올 것 같았지만 실제로는 기대에 못 미치는 성과를 보여주었다. 따라서 무조건 여러 번 선택된 특징을 선택하기 보다는 특징들끼리의 상관관계를 고려하여 선택하는 방법이 필요할 것이다.

  • PDF

A study on the relationship of the influencing factors on carbonation in tunnel concrete linings (터널 콘크리트 라이닝 탄산화 영향인자 관계성 분석)

  • Gyu-Phil Lee
    • Journal of Korean Tunnelling and Underground Space Association
    • /
    • v.26 no.5
    • /
    • pp.507-518
    • /
    • 2024
  • In general, the tunnel portal is constructed with reinforced concrete. And the carbonation of concrete can cause reinforcement corrosion, causing function failure and tunnel destruction. To establish management system such as tunnel inspection and rehabilitation, distance between tunnel portal and coast, service life and traffic were selected as carbonation influencing factors and correlation analysis with carbonation depth for each influencing factor was performed.

Clustering-Based Recommendation Using Users' Preference (사용자 선호도를 사용한 군집 기반 추천 시스템)

  • Kim, Younghyun;Shin, Won-Yong
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.2
    • /
    • pp.277-284
    • /
    • 2017
  • In a flood of information, most users will want to get a proper recommendation. If a recommender system fails to give appropriate contents, then quality of experience (QoE) will be drastically decreased. In this paper, we propose a recommender system based on the intra-cluster users' item preference for improving recommendation accuracy indices such as precision, recall, and F1 score. To this end, first, users are divided into several clusters based on the actual rating data and Pearson correlation coefficient (PCC). Afterwards, we give each item an advantage/disadvantage according to the preference tendency by users within the same cluster. Specifically, an item will be received an advantage/disadvantage when the item which has been averagely rated by other users within the same cluster is above/below a predefined threshold. The proposed algorithm shows a statistically significant performance improvement over the item-based collaborative filtering algorithm with no clustering in terms of recommendation accuracy indices such as precision, recall, and F1 score.

Spatio-temporal soil moisture estimation using water cloud model and Sentinel-1 synthetic aperture radar images (Sentinel-1 SAR 위성영상과 Water Cloud Model을 활용한 시공간 토양수분 산정)

  • Chung, Jeehun;Lee, Yonggwan;Kim, Sehoon;Jang, Wonjin;Kim, Seongjoon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.28-28
    • /
    • 2022
  • 본 연구는 용담댐유역을 포함한 금강 유역 상류 지역을 대상으로 Sentinel-1 SAR (Synthetic Aperture Radar) 위성영상을 기반으로 한 토양수분 산정을 목적으로 하였다. Sentinel-1 영상은 2019년에 대해 12일 간격으로 수집하였고, 영상의 전처리는 SNAP (SentiNel Application Platform)을 활용하여 기하 보정, 방사 보정 및 Speckle 보정을 수행하여 VH (Vertical transmit-Horizontal receive) 및 VV (Vertical transmit-Vertical receive) 편파 후방산란계수로 변환하였다. 토양수분 산정에는 Water Cloud Model (WCM)이 활용되었으며, 모형의 식생 서술자(Vegetation descriptor)는 RVI (Radar Vegetation Index)와 NDVI (Normalized Difference Vegetation Index)를 활용하였다. RVI는 Sentinel-1 영상의 VH 및 VV 편파자료를 이용해 산정하였으며, NDVI는 동기간에 대해 10일 간격으로 수집된 Sentinel-2 MSI (MultiSpectral Instrument) 위성영상을 활용하여 산정하였다. WCM의 검정 및 보정은 한국수자원공사에서 제공하는 10 cm 깊이의 TDR (Time Domain Reflectometry) 센서에서 실측된 6개 지점의 토양수분 자료를 수집하여 수행하였으며, 매개변수의 최적화는 비선형 최소제곱(Non-linear least square) 및 PSO (Particle Swarm Optimization) 알고리즘을 활용하였다. WCM을 통해 산정된 토양수분은 피어슨 상관계수(Pearson's correlation coefficient)와 평균제곱근오차(Root mean square error)를 활용하여 검증을 수행할 예정이다.

  • PDF

Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method (전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류)

  • 유시호;조성배
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.41 no.3
    • /
    • pp.83-92
    • /
    • 2004
  • Gene expression profile is numerical data of gene expression level from organism measured on the microarray. Generally, each specific tissue indicates different expression levels in related genes, so that we can classify cancer with gene expression profile. Because not all the genes are related to classification, it is needed to select related genes that is called feature selection. This paper proposes a new gene selection method using forward selection method in regression analysis. This method reduces redundant information in the selected genes to have more efficient classification. We used k-nearest neighbor as a classifier and tested with colon cancer dataset. The results are compared with Pearson's coefficient and Spearman's coefficient methods and the proposed method showed better performance. It showed 90.3% accuracy in classification. The method also successfully applied to lymphoma cancer dataset.

Analysis of mortality after death of spouse in relation to duration of bereavement and dependence relation between married couple -using married couples data from survivor's pension of National Pension Service- (부부의 사망시차 및 생존기간의 종속관계 분석 -국민연금의 유족연금 데이터를 이용한 연구-)

  • Baek, HyeYoun;Han, Jeonglim;Lee, Hangsuck
    • Journal of the Korean Data and Information Science Society
    • /
    • v.26 no.4
    • /
    • pp.931-946
    • /
    • 2015
  • Many multiple life insurance products consider benefits that are contingent on the combined survival status of two lives. To value premiums of the insurance products accurately, we need to consider the impact of the survivorship of one life on another. To show a dependence relation between married couple, we calculate correlation coefficients by using married couples data from National Pension Service and the results show some positive dependence between them. Moreover, by analyzing the death after bereavement, we find a evidence that mortality rates increase after the death of a spouse and, in addition, that this phenomenon, the broken-heart syndrome, diminishes over time. The results of this study can support the method to calculate the premium of multiple life insurance reflecting more realistic joint mortality rates.

Empirical Analysis of K-Nearest Neighbor Recommendation Engine using Vector Similarity (K-최근접 이웃 추천 엔진에서의 벡터 유사도 사용에 대한 실험적 분석)

  • 김혜재;손기락
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.103-105
    • /
    • 2001
  • 인터넷 사용 인구의 폭증으로 인터넷 사이트가 경쟁적으로 유용한 각종 정보를 사용자들에게 제공하여 보다 많은 수의 회원을 확보하기 위해 노력하고 있지만 여러 사이트를 동시에 사용하고 있는 대부분의 인터넷 사용자들에게는 각 사이트에서 날아드는 정보를 매번 일일이 검색해야 하는 일이 여간 번거롭지 않을 뿐만 아니라 이런 무분별하고 획일적인 정보 서비스는 오히려 사용자들의 인터넷 사용을 불편하게 하며 더욱이 그 내용이 관심 밖의 것이 경우 네트워크의 효율적인 사용을 저해하는 정보공해에 지나지 않게 된다. 추천엔진은 기본으로 끊임없이 유입되는 다량의 정보 중에서 필요한 것을 추천해 주는 것이다. 이에 본 논문에서는 사용자들에게 필요한 정보만을 효율적으로 전달 해주기 위해서 먼저 개인화된 정보의 전달을 위해 사용자의취향을 파악하여 선택 가능성이 높은 항목을 예측할 수 있어야 한다. 그리고 사용자와 가까운 K 명의 사용자들을 효율적으로 검색하기 위해서 K-최근접 이웃 방식을 사용하고 인덱싱을 사용할 수 있는 세가지 벡터 유사도를 기존의 피어슨 상관계수(Pearson Correlation)와 비교하여 제안한다. 이를 통해 정보의 효율적인 제공방법, 즉 일반적인 검색으로 인한 정보의 제공이 아닌 일반 사용자들의 추천에 의해 정보를 제공하는 K-최근접 이웃 추천 엔진을 세가지 벡터 유사도를 이용해서 분석한다.

  • PDF

A Correlation Analysis of the Relationship Between Walking and Lifespan (걷기와 수명 연관성에 대한 상관관계 분석)

  • Min An;Bong-Hyun Kim
    • Journal of Digital Policy
    • /
    • v.3 no.3
    • /
    • pp.1-7
    • /
    • 2024
  • The purpose of this study is to analyze the correlation between walking time and lifespan across individuals of various ages and weights to validate the health benefits of walking exercise. The research utilized Python and related libraries to collect and preprocess data, and then analyzed the relationship between walking time and lifespan using Pearson's correlation coefficient. The study was conducted over a period of six months. The analysis results showed a trend towards increased lifespan with longer walking times, which was similarly observed in data using vitamin B2 and folate intake as surrogate variables. These findings suggest that walking exercise may have a positive impact on health and lifespan, and can be used as foundational data for the development of personalized health management services and related policy formulation.

A Study on Predicting North Korea's Electricity Generation Using Satellite Nighttime Light Data (위성 야간광 자료를 이용한 북한의 발전량 예측 연구)

  • Bong Chan Kim;Seulki Lee;Chang-Wook Lee
    • Korean Journal of Remote Sensing
    • /
    • v.40 no.1
    • /
    • pp.81-91
    • /
    • 2024
  • Electrical energy is a key source of energy for modern civilization, and changes in electricity generation and consumption are closely related to industry and life in general. In this study, we identified the correlation between electricity generation and nighttime light values in South Korea and used it to predict monthly electricity generation trends in North Korea. The results of the study showed a low Pearson correlation coefficient of 0.34 between nighttime light and electricity generation in Seoul, but a high Pearson correlation coefficient of 0.79 between weighting for Seoul case nighttime light values and electricity generation using monthly average temperature. Using nighttime light values weighting for Seoul case by the average monthly temperature in Pyongyang to predict the monthly power generation trend in North Korea, we found that the month-on-month power generation increase in December 2022 was about 60% higher than the month-on-month power generation increase in December 2020 and 2021. The results of this study are expected to help predict monthly electricity generation trends in regions where monthly electricity generation data does not exist, making it difficult to identify timely industry trends.