• 제목/요약/키워드: 상관 데이터

검색결과 2,830건 처리시간 0.031초

적응적 상관도를 이용한 주성분 분석에 관한 연구 (A Study on PCA using Adaptive Correlation)

  • 고명숙
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.13-14
    • /
    • 2020
  • 고차원의 데이터를 처리하기 위해서는 데이터의 성질을 유지하면서 특징을 잘 반영할 수 있는 특징 추출 방법이 필요하며 주성분분석 방법은 대표적인 특징 추출 방법이다. 본 연구에서는 데이터가 고차원인 경우 데이터 특징 추출을 위한 주성분 분석의 주성분 변수 선정시 적응적 상관도(Correlation)를 기반으로 한 주성분 분석 방법을 제안한다. 제안하는 방법은 입력 데이터간의 상관관계를 기반으로 상관도를 적응적으로 반영하여 데이터의 주성분을 분석함으로써 실제 데이터의 특징을 나타내는 세분화 변수 선정 시 데이터 편향성의 영향을 줄이기 위한 방법이다.

적응적 상관도를 이용한 주성분 변수 선정에 관한 연구 (A Study on Selecting Principle Component Variables Using Adaptive Correlation)

  • 고명숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권3호
    • /
    • pp.79-84
    • /
    • 2021
  • 고차원의 데이터를 처리하기 위해서는 데이터의 성질을 유지하면서 특징을 잘 반영할 수 있는 특징 추출 방법이 필요하다. 주성분분석 방법은 고차원 데이터에 포함된 정보를 저차원의 데이터로 변환하여 원래 데이터의 변수 수보다 적은 수의 변수로 고차원 데이터를 표현 할 수 있는 방법으로서 데이터의 특징 추출을 위한 대표적인 방법이다. 본 연구에서는 데이터가 고차원인 경우 데이터 특징 추출을 위한 주성분 분석에 있어서 주성분 변수 선정 시 적응적 상관도를 기반으로 한 주성분 분석 방법을 제안한다. 제안하는 방법은 입력 데이터간의 상관 관계를 기반으로 상관도를 적응적으로 반영하여 데이터의 주성분을 분석함으로써 다른 여러 변수에 중복적으로 상관도가 높은 변수와 주성분을 유도하는데 연관성이 적은 변수를 주성분 변수 후보 대상에서 제외시키고자 한다. 고유벡터 계수 값에 의한 주성분 위계를 분석하고 위계가 낮은 주성분이 변수로 선정이 되는 것을 막고 또한 상관 분석을 통하여 데이터의 중복 발생이 데이터 편향을 유도하는 것을 최소화하 하고자 한다. 이를 통하여 주성분 변수 선정 시 데이터 편향성의 영향을 줄임으로써 실제 데이터의 특징을 잘 나타내는 주성분 변수를 선정하는 방법을 제안하고자 한다.

상관계수의 안전한 다자간 계산 (Secure Multi-Party Computation of Correlation Coefficients)

  • 홍선경;김상필;임효상;문양세
    • 정보과학회 논문지
    • /
    • 제41권10호
    • /
    • pp.799-809
    • /
    • 2014
  • 본 논문에서는 분산 컴퓨팅 환경에서 데이터 제공자들이 각자 소유한 데이터의 프라이버시는 보호하면서도 피어슨(Pearson) 상관계수와 스피어만(Spearman)의 순위상관계수를 안전하게 계산하는 해결책을 각각 제안한다. 분산 컴퓨팅 환경에서 마이닝(또는 데이터 분석)을 수행하기 위해서는 원본 데이터를 상대방에게 제공해야 한다. 그러나, 원본 데이터는 민감한 정보를 포함하는 경우가 많고, 이때 데이터 제공자(소유자)는 프라이버시 보호를 이유로 정확한 값을 직접 노출하기를 원하지 않는다. 본 논문에서는 분산 컴퓨팅 환경의 데이터 제공자들이 각자 소유한 데이터는 상대방에게 공개하지 않으면서 상관관계를 계산하는 문제, 즉 안전한 상관관계 계산(SCC: Secure Correlation Computation) 문제를 정형적으로 정의한다. 그리고, 임의 행렬 기반 안전한 스칼라 곱을 사용하여 피어슨 상관계수와 순위상관계수에 대한 SCC 문제를 해결하는 방법을 각각 제안한다. 제안한 해결책이 바르게 수행함을 보이기 위해, 정확성과 안전성을 정리로 제시하고 증명한다. 또한, 실험을 통해 제안한 기법이 수행 시간 측면에서도 실용적인 방법임을 보인다.

다중 개체 집단의 공진화적 학습에 의한 바이오 데이터의 패턴 마이닝 (Pattern Mining of Biological Data by Co-evolutionary Learning with Multi-populations)

  • 김수진;정제균;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.46-48
    • /
    • 2006
  • 현재 각 분야에서 다양한 실험 데이터가 산출되면서 이종(heterogeneous) 데이터간의 상관관계 분석에 대한 중요성이 더욱 부각되고 있다. 특히, 대규모 실험에 의해 급속하게 증가하고 있는 대량의 바이오 데이터에서 이런 문제를 해결하기 위한 새로운 데이터 마이닝 방법이 요구된다. 본 논문은 특성이 다른 두 데이터 셋에서 서로 상관관계가 있는 부분 패턴을 파악할 수 있는 새로운 알고리즘을 제안한다. 제안한 알고리즘은 다중 개체 집단을 유지하면서 상호간 공진화하는 확률적 진화컴퓨팅 방법에 기반하고, 전체의 탐색 포인트들을 분해하여 최적해를 찾는 점에서 장점을 가지고 있다. 실험 결과, 본 논문에서는 효모 유전자에 대한 발현 데이터와 모티프 데이터의 이종 데이터에 적용해 보았으며, 이러한 데이터에 있어서 주요 상관관계가 있는 패턴들을 추출한 결과를 제시한다.

  • PDF

뉴로 스포츠 마케팅을 위한 동공 확장과 주시빈도 간의 관계: 시그마 분석법을 적용하여 (Relationship of Pupil's Size and Gaze Frequency for Neuro Sports Marketing: Focusing on Sigma Analysis)

  • 고의석;송기현;조수현;김종하
    • 감성과학
    • /
    • 제20권3호
    • /
    • pp.39-48
    • /
    • 2017
  • 이 연구는 농구 경기장내 마케팅의 효용성을 확인하기 위해서 마케팅의 여러 연구 기법들 중 시선추적 기술을 이용하여 동공이 확장 되었을 때의 시선 관찰 및 관심도를 측정하고 비교 분석하였다. 특히 동공이 확장된 구간을 산출하기 위해 유효테이터를 중심으로 동공의 크기가 2시그마 범위 상위 2.275%일 때의 구간별 데이터를 정리하고 이전 연구에서 산출된 3시그마의 상위 0.135%일 때의 구간별 데이터와 전체 유효 데이터를 주시 빈도에 따른 변곡점으로 구분하여 분석하였다. 또한 전체 유효 데이터와 동공의 크기가 유의미하게 커졌다고 판단되는 범위들 간의 상관도를 분석하였다. 그 결과 가장 시선이 많이 머무른 구간과 동공이 크기가 유의미하게 커진 부분은 완전히 일치하지는 않았으나, 전체 유효 데이터와 동공크기 2시그마 상위 데이터의 상관분석은 .805로 가장 높은 상관관계를 나타내었으며, 동공크기 2시그마 상위 데이터와 동공크기 3시그마 상위 데이터의 상관분석은 .781의 상관관계를 보였고 전체 유효데이터와 동공크기 3시그마 상위 데이터 상관분석은 .683의 상관관계를 보였다. 따라서 동공의 크기가 확장 되어진 구간과 시선추적 데이터에서 시선이 많이 머무른 구간이 유사함을 알 수 있었으나, 동공의 크기가 유의미하게 확장되었다고 판단되어지는 구간의 데이터 일수록 전체 데이터와의 상관도가 떨어지는 것을 알 수 있었다.

대전상관기의 다중편파 관측데이터 상관처리 방법에 관한 연구 (A Study on Correlation Processing Method of Multi-Polarization Observation Data by Daejeon Correlator)

  • 오세진;염재환;노덕규;정동규;황주연;오충식;김효령
    • 융합신호처리학회논문지
    • /
    • 제19권2호
    • /
    • pp.68-76
    • /
    • 2018
  • 본 논문에서는 대전상관기의 다중 편파 관측데이터의 상관처리 방법에 대해 기술한다. VLBI 관측에는 천체의 종류에 따라 단일 또는 다중 편파 관측이 있는데, 천체의 특성을 잘 관찰하기 위해 편파관측을 수행한다. 그리고 천체를 관측하는 동안 관측장치에 포함된 지연값과 천체의 변동원인을 확인하기 위해서도 편파관측을 수행한다. 대전상관기의 편파관측 데이터의 상관처리는 각 안테나 유닛에 입력되는 데이터를 출력하는 동기재생처리장치의 OCTAVIA에서 출력비트 선택 기능을 활용하여 비트를 변환하고, 이때 데이터 스트림(Stream)의 순서가 변경되며, 대전상관기의 입력은 기존의 스트림 번호는 동일하게 설정하여 상관처리를 수행하면 편파상관처리를 할 수 있는 구성을 제안하였다. 편파상관처리를 위해 관측한 시험데이터를 대상으로 상관처리를 수행하였으며, 본 연구에서 제안한 대전상관기의 편파상관처리 방법이 유효하게 동작하고 있음을 실험을 통하여 확인하였다.

통합 상관된 특징 집합을 이용한 림프종 데이터의 분류 (Classification of Lymphoma Dataset with Combinatorially Correlated Feature Set)

  • 박찬호;조성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.321-324
    • /
    • 2003
  • 근래, DNA microarray와 관련된 기술의 발달은 한번에 수천 개 이상의 유전자발현데이터를 얻을 수 있게 해주었고, 많은 연구기관에서 이를 이용한 질병 분류에 관하여 연구를 진행하고 있다. 하지만 수천 개의 유전자 모두가 암에 관계된 것은 아니기 때문에, 관련 유전자의 선별 작업을 먼저 수행하는 것이 필요하며, 이를 위하여 통계기반 방법, 정보이론기반 방법 등 다양한 방법이 사용되고 있다. 본 논문에서는 의미 있는 유전자를 선택하는 방법으로서, 일반적인 순위-기반 방법이 양의 상관관계만 이용한다는 점을 보완하여, 유전자와 학습데이터 사이의 음의 상관관계까지도 고려한 방법을 제시하였다. 제안한 방법의 성능을 검증하고자 잘 알려진 암 관련 유전자발현데이터이인 림프종 데이터에 대하여, MLP와 KNN을 이용한 분류를 해 보았다. 실험 걸과 총합 상관관계를 가지는 특징 집합이 일반적인 순위-기반 방식의 특징 집합에 비하여 높은 분류 인식률을 보여주었다.

  • PDF

네트워크 코딩을 이용한 손실내성 지연민감데이터의 전송과 근사복호법

  • 권민혜;박형곤;최윤식
    • 정보와 통신
    • /
    • 제29권3호
    • /
    • pp.68-74
    • /
    • 2012
  • 본 논문은 네트워크 코딩을 이용하여 멀티미디어와 같은 지연 민감성 손실 내성 데이터를 전송하는데 있어서 효율적인 방안으로 제시된 근사복호법에 관하여 알아 본다. 네트워크 코딩은 채널 환경과 같은 외적 요인에 의하여 패킷손실이 발생할 경우, 함께 인코딩된 모든 원전 데이터 복구가 불가능 할 수 있다는 한계점이 존재한다. 근사복호법은 네트워크 코딩된 데이터를 원천 데이터의 상관성을 이용하여 디코딩하는 해법으로, 손실내성 지연민감성데이터의 실시간 전송 문제의 해결책으로 제시하였다. 본 논문에서는 근사복호법에 대하여 알아보고, 여러 원천 데이터 상관 모델 중 선형상관관계를 가진 원천 데이터에 근사복호법을 적용하는 방법에 대하여 알아본다.

클러스터링 기법을 이용한 산불 데이터의 상관관계 분석 (Correlation Analysis of forest fire data based on Clustering Method)

  • 김은희;지정희;손호선;류근호;이충호
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2005년도 추계학술대회
    • /
    • pp.81-86
    • /
    • 2005
  • 이 논문에서는 산불 발생의 패턴을 예측하기 위해 데이터 마이닝의 클러스터링 기법을 이용하여 산불 데이터를 그룹화하고 그 결과를 이용하여 산불 데이터의 상관관계를 분석하는 방법을 제안하였다. 즉, 클러스터링 기법을 이용하여 산불 데이터를 사용자가 원하는 수의 그룹으로 분류하고, 생성된 산불 데이터 클러스터 모델을 이용하여 새로운 유형의 산불패턴을 예측 할 수 있도록 하였다. 또한 결과 클러스터의 생성을 위해 이전의 산불 분포 데이터를 저장 관리하여 클러스터 간의 상관관계 분석을 통해 시퀀스를 생성하였고, 생성된 각각의 클러스터 시퀀스를 통합하여 클러스터들의 시퀀스를 추출하여 산불이 발생한 이후의 향후 발생 가능한 산불 유형을 예측하기 위한 방법을 제공하였다. 이는 과거에 발생된 산불의 유형뿐만 아니라 새로운 형태의 산불 유형 분류나 분석에 이용 가능하다.

  • PDF

날씨와 한화 이글스의 상관관계 (The Correlation Of Weather And Hanhwa Eagles)

  • 허태성;강하람
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.237-238
    • /
    • 2021
  • 야구는 데이터 스포츠라 불릴 만큼 경기마다 많은 데이터가 생성되며, 이를 바탕으로 경기를 진행한다. 본 연구는 한국 프로야구 구단인 한화 이글스의 승률 및 타자의 성적과 날씨 사이의 상관관계를 분석하였다. 이를 위하여 한화 이글스의 승률과 타자의 성적을 한국프로야구(KBO) 공식 홈페이지 및 야구 기록 통계사이트 스탯티즈(statiz)에서 수집하였으며, 날씨 데이터는 온도와 습도를 고려한 불쾌지수 데이터를 기상청으로 부터 수집하였다. 파이선의 pandas 라이브러리를 사용하여 데이터 전처리를 실행하였다. 이후 파이선의 matplotlib 라이브러리를 이용하여 데이터 분석 및 시각화를 진행하였다. 본 연구의 분석 결과로는 불쾌지수가 보통일 때 승률이 가장 크고 높음일 때 가장 낮음을 확인할 수 있었다. 또한, 타자들의 평균 성적을 분석한 결과 보통과 매우 높음은 전체적인 타격 지수가 비슷하나 높음일 때 부진한 것으로 나왔다.

  • PDF