• Title/Summary/Keyword: 상관 데이터

Search Result 2,827, Processing Time 0.049 seconds

A Study on PCA using Adaptive Correlation (적응적 상관도를 이용한 주성분 분석에 관한 연구)

  • Ko, Myung-Sook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.13-14
    • /
    • 2020
  • 고차원의 데이터를 처리하기 위해서는 데이터의 성질을 유지하면서 특징을 잘 반영할 수 있는 특징 추출 방법이 필요하며 주성분분석 방법은 대표적인 특징 추출 방법이다. 본 연구에서는 데이터가 고차원인 경우 데이터 특징 추출을 위한 주성분 분석의 주성분 변수 선정시 적응적 상관도(Correlation)를 기반으로 한 주성분 분석 방법을 제안한다. 제안하는 방법은 입력 데이터간의 상관관계를 기반으로 상관도를 적응적으로 반영하여 데이터의 주성분을 분석함으로써 실제 데이터의 특징을 나타내는 세분화 변수 선정 시 데이터 편향성의 영향을 줄이기 위한 방법이다.

A Study on Selecting Principle Component Variables Using Adaptive Correlation (적응적 상관도를 이용한 주성분 변수 선정에 관한 연구)

  • Ko, Myung-Sook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.3
    • /
    • pp.79-84
    • /
    • 2021
  • A feature extraction method capable of reflecting features well while mainaining the properties of data is required in order to process high-dimensional data. The principal component analysis method that converts high-level data into low-dimensional data and express high-dimensional data with fewer variables than the original data is a representative method for feature extraction of data. In this study, we propose a principal component analysis method based on adaptive correlation when selecting principal component variables in principal component analysis for data feature extraction when the data is high-dimensional. The proposed method analyzes the principal components of the data by adaptively reflecting the correlation based on the correlation between the input data. I want to exclude them from the candidate list. It is intended to analyze the principal component hierarchy by the eigen-vector coefficient value, to prevent the selection of the principal component with a low hierarchy, and to minimize the occurrence of data duplication inducing data bias through correlation analysis. Through this, we propose a method of selecting a well-presented principal component variable that represents the characteristics of actual data by reducing the influence of data bias when selecting the principal component variable.

Secure Multi-Party Computation of Correlation Coefficients (상관계수의 안전한 다자간 계산)

  • Hong, Sun-Kyong;Kim, Sang-Pil;Lim, Hyo-Sang;Moon, Yang-Sae
    • Journal of KIISE
    • /
    • v.41 no.10
    • /
    • pp.799-809
    • /
    • 2014
  • In this paper, we address the problem of computing Pearson correlation coefficients and Spearman's rank correlation coefficients in a secure manner while data providers preserve privacy of their own data in distributed environment. For a data mining or data analysis in the distributed environment, data providers(data owners) need to share their original data with each other. However, the original data may often contain very sensitive information, and thus, data providers do not prefer to disclose their original data for preserving privacy. In this paper, we formally define the secure correlation computation, SCC in short, as the problem of computing correlation coefficients in the distributed computing environment while preserving the data privacy (i.e., not disclosing the sensitive data) of multiple data providers. We then present SCC solutions for Pearson and Spearman's correlation coefficients using secure scalar product. We show the correctness and secure property of the proposed solutions by presenting theorems and proving them formally. We also empirically show that the proposed solutions can be used for practical applications in the performance aspect.

Pattern Mining of Biological Data by Co-evolutionary Learning with Multi-populations (다중 개체 집단의 공진화적 학습에 의한 바이오 데이터의 패턴 마이닝)

  • Kim Soo-Jin;Joung Je-Gun;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.46-48
    • /
    • 2006
  • 현재 각 분야에서 다양한 실험 데이터가 산출되면서 이종(heterogeneous) 데이터간의 상관관계 분석에 대한 중요성이 더욱 부각되고 있다. 특히, 대규모 실험에 의해 급속하게 증가하고 있는 대량의 바이오 데이터에서 이런 문제를 해결하기 위한 새로운 데이터 마이닝 방법이 요구된다. 본 논문은 특성이 다른 두 데이터 셋에서 서로 상관관계가 있는 부분 패턴을 파악할 수 있는 새로운 알고리즘을 제안한다. 제안한 알고리즘은 다중 개체 집단을 유지하면서 상호간 공진화하는 확률적 진화컴퓨팅 방법에 기반하고, 전체의 탐색 포인트들을 분해하여 최적해를 찾는 점에서 장점을 가지고 있다. 실험 결과, 본 논문에서는 효모 유전자에 대한 발현 데이터와 모티프 데이터의 이종 데이터에 적용해 보았으며, 이러한 데이터에 있어서 주요 상관관계가 있는 패턴들을 추출한 결과를 제시한다.

  • PDF

Relationship of Pupil's Size and Gaze Frequency for Neuro Sports Marketing: Focusing on Sigma Analysis (뉴로 스포츠 마케팅을 위한 동공 확장과 주시빈도 간의 관계: 시그마 분석법을 적용하여)

  • Ko, Eui-Suk;Song, Ki-Hyeon;Cho, Soo-Hyun;Kim, Jong-Ha
    • Science of Emotion and Sensibility
    • /
    • v.20 no.3
    • /
    • pp.39-48
    • /
    • 2017
  • In order to verify the effectiveness of marketing in the basketball stadium, this study measured and analyzed the gaze frequency and interest when the pupil was expanded by using the eye-tracking technology among various neuro marketing techniques of marketing. To analyze the section where the pupil size get expanded, interval of pupil size was higher than 2.275% (2 sigma data) and higher than 0.135% high (3 sigma data). Overall the valid data was analyzed by inflection points according to gaze frequency. We also analyzed the correlation between overall valid data and the ranges where the pupil size was significantly increased. The result showed that the correlation between overall valid data and pupil size 2 sigma data showed the highest correlation with 0.805. The pupil size 2 sigma data and pupil size 3 sigma data showed a correlation with 0.781, overall the valid data and pupil size 2 sigma data showed a correlation with 0.683. Therefore, it is concluded that, the section where the pupil size was expanded and the section at which gaze frequency is higher in the eye-tracking data were similar. However, the correlation between data of pupil size is determined to be significantly expanded and overall the valid data is decreased.

A Study on Correlation Processing Method of Multi-Polarization Observation Data by Daejeon Correlator (대전상관기의 다중편파 관측데이터 상관처리 방법에 관한 연구)

  • Oh, Se-Jin;Yeom, Jae-Hwan;Roh, Duk-Gyoo;Jung, Dong-Kyu;Hwang, Ju-Yeon;Oh, Chungsik;Kim, Hyo-Ryoung
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.19 no.2
    • /
    • pp.68-76
    • /
    • 2018
  • In this paper, we describe the correlation processing method of multi-polarization observation data of the Daejeon Correlator. VLBI observations include single or multiple polarized observations depending on the type of object. Polarization observations are performed to observe the characteristics of the object. During the observations of the celestial object, polarization measurements are also performed to determine the delay values and causes of changes in the object. Correlation processing of polarization observation data of the Daejeon correlator is proposed by OCTAVIA of a synchronous reproduction processing apparatus that outputs data input to each antenna unit by using an output bit selection function to convert bits and the order of the data streams is changed, And the input of the Daejeon correlator is configured to perform the polarization correlation processing by conducting correlation processing by setting the existing stream number to be the same. Correlation processing is conducted on the test data observed for the polarization correlation processing and it is verified through experiments that the polarization correlation processing method of the proposed Daejeon correlator is effective.

Classification of Lymphoma Dataset with Combinatorially Correlated Feature Set (통합 상관된 특징 집합을 이용한 림프종 데이터의 분류)

  • Park, Chan-Ho;Cho, Sung-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.321-324
    • /
    • 2003
  • 근래, DNA microarray와 관련된 기술의 발달은 한번에 수천 개 이상의 유전자발현데이터를 얻을 수 있게 해주었고, 많은 연구기관에서 이를 이용한 질병 분류에 관하여 연구를 진행하고 있다. 하지만 수천 개의 유전자 모두가 암에 관계된 것은 아니기 때문에, 관련 유전자의 선별 작업을 먼저 수행하는 것이 필요하며, 이를 위하여 통계기반 방법, 정보이론기반 방법 등 다양한 방법이 사용되고 있다. 본 논문에서는 의미 있는 유전자를 선택하는 방법으로서, 일반적인 순위-기반 방법이 양의 상관관계만 이용한다는 점을 보완하여, 유전자와 학습데이터 사이의 음의 상관관계까지도 고려한 방법을 제시하였다. 제안한 방법의 성능을 검증하고자 잘 알려진 암 관련 유전자발현데이터이인 림프종 데이터에 대하여, MLP와 KNN을 이용한 분류를 해 보았다. 실험 걸과 총합 상관관계를 가지는 특징 집합이 일반적인 순위-기반 방식의 특징 집합에 비하여 높은 분류 인식률을 보여주었다.

  • PDF

네트워크 코딩을 이용한 손실내성 지연민감데이터의 전송과 근사복호법

  • Gwon, Min-Hye;Park, Hyeong-Gon;Choe, Yun-Sik
    • Information and Communications Magazine
    • /
    • v.29 no.3
    • /
    • pp.68-74
    • /
    • 2012
  • 본 논문은 네트워크 코딩을 이용하여 멀티미디어와 같은 지연 민감성 손실 내성 데이터를 전송하는데 있어서 효율적인 방안으로 제시된 근사복호법에 관하여 알아 본다. 네트워크 코딩은 채널 환경과 같은 외적 요인에 의하여 패킷손실이 발생할 경우, 함께 인코딩된 모든 원전 데이터 복구가 불가능 할 수 있다는 한계점이 존재한다. 근사복호법은 네트워크 코딩된 데이터를 원천 데이터의 상관성을 이용하여 디코딩하는 해법으로, 손실내성 지연민감성데이터의 실시간 전송 문제의 해결책으로 제시하였다. 본 논문에서는 근사복호법에 대하여 알아보고, 여러 원천 데이터 상관 모델 중 선형상관관계를 가진 원천 데이터에 근사복호법을 적용하는 방법에 대하여 알아본다.

Correlation Analysis of forest fire data based on Clustering Method (클러스터링 기법을 이용한 산불 데이터의 상관관계 분석)

  • Kim, Eun-Hee;Chi, Jeong-Hee;Shon, Ho-Sun;Ryu, Keun-Ho;Lee, Chung-Ho
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2005.11a
    • /
    • pp.81-86
    • /
    • 2005
  • 이 논문에서는 산불 발생의 패턴을 예측하기 위해 데이터 마이닝의 클러스터링 기법을 이용하여 산불 데이터를 그룹화하고 그 결과를 이용하여 산불 데이터의 상관관계를 분석하는 방법을 제안하였다. 즉, 클러스터링 기법을 이용하여 산불 데이터를 사용자가 원하는 수의 그룹으로 분류하고, 생성된 산불 데이터 클러스터 모델을 이용하여 새로운 유형의 산불패턴을 예측 할 수 있도록 하였다. 또한 결과 클러스터의 생성을 위해 이전의 산불 분포 데이터를 저장 관리하여 클러스터 간의 상관관계 분석을 통해 시퀀스를 생성하였고, 생성된 각각의 클러스터 시퀀스를 통합하여 클러스터들의 시퀀스를 추출하여 산불이 발생한 이후의 향후 발생 가능한 산불 유형을 예측하기 위한 방법을 제공하였다. 이는 과거에 발생된 산불의 유형뿐만 아니라 새로운 형태의 산불 유형 분류나 분석에 이용 가능하다.

  • PDF

The Correlation Of Weather And Hanhwa Eagles (날씨와 한화 이글스의 상관관계)

  • Heo, Tai-Sung;Kang, Ha-Ram
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.237-238
    • /
    • 2021
  • 야구는 데이터 스포츠라 불릴 만큼 경기마다 많은 데이터가 생성되며, 이를 바탕으로 경기를 진행한다. 본 연구는 한국 프로야구 구단인 한화 이글스의 승률 및 타자의 성적과 날씨 사이의 상관관계를 분석하였다. 이를 위하여 한화 이글스의 승률과 타자의 성적을 한국프로야구(KBO) 공식 홈페이지 및 야구 기록 통계사이트 스탯티즈(statiz)에서 수집하였으며, 날씨 데이터는 온도와 습도를 고려한 불쾌지수 데이터를 기상청으로 부터 수집하였다. 파이선의 pandas 라이브러리를 사용하여 데이터 전처리를 실행하였다. 이후 파이선의 matplotlib 라이브러리를 이용하여 데이터 분석 및 시각화를 진행하였다. 본 연구의 분석 결과로는 불쾌지수가 보통일 때 승률이 가장 크고 높음일 때 가장 낮음을 확인할 수 있었다. 또한, 타자들의 평균 성적을 분석한 결과 보통과 매우 높음은 전체적인 타격 지수가 비슷하나 높음일 때 부진한 것으로 나왔다.

  • PDF