• 제목/요약/키워드: Curse of dimensionality

검색결과 58건 처리시간 0.019초

데이터 마이닝을 위한 고차원 클러스터링 기법에 관한 비교 분석 연구 (A Comparison and Analysis on High-Dimensional Clustering Techniques for Data Mining)

  • 김홍일;이혜명
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.887-900
    • /
    • 2003
  • 데이터베이스의 많은 응용분야에서 대용량 고차원 데이터의 클러스터링을 요구하고 있다. 이에 따라 클러스터링 알고리즘에 대한 많은 연구가 이루어지고 있으나 기존의 알고리즘들은 “차원의 저주”에 기인하여 고차원 공간에서 효과적 및 효율적으로 수행하지 못하는 경향이 있다. 더욱이, 고차원 데이터는 상당한 양의 잡음 데이터를 포함하고 있으므로 알고리즘의 효과성 문제를 야기한다. 그러므로 고차원 데이터의 구조와 다양한 특성을 지원하는 적합한 클러스터링 알고리즘이 개발되어야 한다. 본 논문에서는 지금까지 연구된 고차원 클러스터링 기법을 조사한 후, 각 기법의 장단점과 적합한 응용 분야에 대한 비교 및 분석을 통하여 분류한다. 특히 본 논문에서는 최근의 연구를 통하여 개발한 점진적 프로젝션 기반의 클러스터링 알고리즘인 CLIP의 성능을 기존의 알고리즘과 비교 분석함으로써 그 효율성 및 효과성을 입증한다. 이러한 알리즘들의 소개 및 분류를 통하여 향후의 더욱 향상된 클러스터링 알고리즘 개발에 기반이 되고자 한다.

  • PDF

복수카메라 및 Ray-based Importance Sampling을 이용한 실시간 비행체 추적 (Real-Time Quad-Copter Tracking With Multi-Cameras and Ray-based Importance Sampling)

  • 김룡해;정문호;이기서
    • 한국전자통신학회논문지
    • /
    • 제8권6호
    • /
    • pp.899-905
    • /
    • 2013
  • 본 논문은 복수카메라 기반 실시간 비행체 검출 및 추적하는 방법에 대해서 설명한다. 정밀하게 가공된 보정체를 필요로 하지 않는 복수카메라 자기보정 기법에 스케일을 추가하여, 간편하게 각 카메라 내부변수와 카메라 사이의 상대위치 관계를 구하는 복수카메라 보정기법을 제시한다. 비행체 검출 및 추적은 파티컬 필터링 기법을 적용하여 수행하는데, 적은수의 샘플로도 비행체 검출을 빠르고 정확하게 할 수 있도록 하는 Ray-based Importance Sampling을 고안했다. 3차원 공간을 일정한 크기의 격자구조로 나누고, 영상 특징점과 사영기하학을 이용하여 이 격자구조 위에 비행체의 이산적인 분포를 구한다. 이 분포에 따라 격자를 샘플링하고, 또 다시, 격자의 중심을 평균으로 하는 가우시안 분포로부터 비행체의 위치를 샘플링 한다. 이 두 단계의 샘플링을 통해 비행체가 있을 가능성이 높은 영역에 샘플을 집중적으로 분포시킬 수가 있다. 그리고, 복수의 카메라 영상으로부터 실시간으로 동기화된 영상 특징점을 검출하기 위하여 GPGPU를 이용한 병렬 영상처리 시스템을 구현하였다. 실험을 통해 제안한 방법의 유효성을 확인할 수 있었다.

심층 컨볼루션 신경망을 사용한 초분광 영상의 공간 분광학적 분류 기법 (HyperConv: spatio-spectral classication of hyperspectral images with deep convolutional neural networks)

  • 고세윤;전구;원중호
    • 응용통계연구
    • /
    • 제29권5호
    • /
    • pp.859-872
    • /
    • 2016
  • 초분광 영상 데이터는 픽셀마다 수백 개의 스펙트럼 밴드에 대한 정보가 주어지는 고차원 데이터로, 농업, 식품처리, 광물학, 물리학, 환경학, 지리학 등 광범위한 분야에 활용되고 있다. 그 중 하나는 토지 피복의 분류 문제인데, 이는 자연 재해 예방, 자연 자원 감시, 환경에 대한 정보 수집에 있어서 중요한 문제이다. 하지만 차원의 저주, 시공간적 변동성, 레이블된 데이터의 부족 때문에 토지 피복의 정확한 분류에는 어려움이 따른다. 이 논문에서는 이러한 문제를 해결하기 위해 컨볼루션 신경망에 기반한 새로운 심층 학습 구조를 제안한다. 제안된 구조는 원하는 지점 주변 픽셀의 정보를 컨볼루션 신경망을 통해 처리하고, 그 지점의 스펙트럼 정보를 강조하기 위해 컨볼루션 층의 출력과 스펙트럼 정보를 함께 소프트맥스 분류기의 입력으로 사용한다. 이 구조는 추가적인 특징 추출 과정을 필요로 하지 않고, 그래픽 처리 장치 등을 이용한 병렬화가 간편하다는 점에서 기존 방법들보다 유리하다. 실험 결과, 제안된 구조는 기존에 가장 좋은 성능을 보인 분류기와 비슷하거나 더 좋은 분류 정확도를 보여 좋은 일반화 성능을 보이는 것을 확인할 수 있었다.

다차원 데이타를 위한 공간 분할 및 적응적 비트 할당 기반 색인 구조 (An Index Structure based on Space Partitions and Adaptive Bit Allocations for Multi-Dimensional Data)

  • 복경수;김은재;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권5호
    • /
    • pp.509-525
    • /
    • 2005
  • 본 논문에서는 다차원 데이타의 유사도 검색을 효율적으로 지원하기 위한 벡터 근사 기반의 색인 구조를 제안한다. 제안하는 색인 구조는 공간 분할 방식으로 영역을 분할하고 실제 데이타들이 존재하는 영역에 대해 동적 비트를 할당하여 영역을 표현한다. 따라서, 분할된 영역들 사이에 겹침이 발생하지 않으며 하나의 중간 노드에 많은 영역 정보를 저장할 수 있어 트리의 깊이를 감소시킨다. 또한, 특정 영역에 군집화되어 있는 데이타에 대해서 효과적인 표현 기법을 제공하며 자식 노드의 영역 정보는 부모 노드의 영역 정보를 이용하여 상대적으로 표현함으로써 영역 표현에 대한 정확성을 보장한다. 이를 통해 검색성능 향상을 제공한다. 제안하는 색인 구조의 우수성을 보이기 위해 기존에 제안된 다차원 색인 구조와의 다양한 실험을 통하여 성능의 우수성을 입증한다. 성능 평가 결과를 통해 제안하는 색인 구조가 기존 색인 구조보다 $40\%$정도 검색 성능이 향상됨을 증명한다.

중도절단 회귀모형에서 역절단확률가중 방법 간의 비교연구 (A comparison study of inverse censoring probability weighting in censored regression)

  • 신정민;김형우;신승준
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.957-968
    • /
    • 2021
  • 역중도절단확률가중(inverse censoring probability weighting, ICPW)은 생존분석에서 흔히 사용되는 방법이다. 중도절단 회귀모형과 같은 ICPW 방법의 응용에 있어서 중도절단 확률의 정확한 추정은 핵심적인 요소라고 할 수 있다. 본 논문에서는 중도절단 확률의 추정이 ICPW 기반 중도절단 회귀모형의 성능에 어떠한 영향을 주는지 모의실험을 통하여 알아보았다. 모의실험에서는 Kaplan-Meier 추정량, Cox 비례위험(proportional hazard) 모형 추정량, 그리고 국소 Kaplan-Meier 추정량 세 가지를 비교하였다. 국소 KM 추정량에 대해서는 차원의 저주를 피하기 위해 공변량의 차원축소 방법을 추가적으로 적용하였다. 차원축소 방법으로는 흔히 사용되는 주성분분석(principal component analysis, PCA)과 절단역회귀(sliced inverse regression)방법을 고려하였다. 그 결과 Cox 비례위험 추정량이 평균 및 중위수 중도절단 회귀모형 모두에서 중도절단 확률을 추정하는 데 가장 좋은 성능을 보여주었다.

타임스탬프를 갖는 이벤트 시퀀스의 인덱스 기반 검색 (Index-based Searching on Timestamped Event Sequences)

  • 박상현;원정임;윤지희;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.468-478
    • /
    • 2004
  • 시퀀스 데이타베이스로부터 원하는 질의 패턴과 일치하는 모든 서브 시퀀스를 검색하는 것은 데이타 마이닝이나 바이오 인포매틱스 등 응용 분야에서 필수적인 연산이다. 예를 들어, 특정한 이벤트가 발생할 때마다 이벤트의 유형과 발생 시각을 기록하는 네트웍 이벤트 관리 시스템에서 네트웍 이벤트들의 연관 관계를 발견하기 위한 전형적인 질의 형태는 다음과 같다: 'CiscoDCDLinkUp이 발생한 후 MLMStatusUP과 TCPConnectionClose가 각각 20초 이내와 40초 이내에 순차적으로 발생하는 모든 경우를 검색하라.' 본 논문에서는 대규모 이벤트 시퀀스 데이타베이스를 대상으로 하여 위와 같은 질의를 효율적으로 처리할 수 있는 인덱싱 방법을 제안한다. 기존의 방법들이 비효율적인 순차적 검색이나 페이지화 하기 어려운 인덱스 구조에 의존하는데 반하여, 제안하는 방법은 저장 및 검색 효율이 입증된 다차원 공간 인덱스를 사용하여 질의를 만족하는 모든 서브 시퀀스를 착오 기각(false dismissal) 없이 신속하게 검색한다. 다차원 공간 인덱스의 입력은 이벤트 시퀀스 데이타베이스 상의 슬라이딩 윈도우 내에서 각 이벤트 유형이 최초로 발생한 시각을 기록한 n 차원 벡터가 된다. 여기서 n은 발생 가능한 이벤트 유형의 수이다. n이 큰 경우는 차원 저주(dimensionality curse) 문제가 발생할 수 있으므로 차원 선택이나 이벤트유형 그루핑을 이용하여 차원을 축소한다. 실험 결과에 의하면 제안된 방법은 순차적 검색이나 ISO-Depth 인덱스 기법에 비하여 몇 배에서 몇 십 배의 성능 향상 효과를 갖는 것으로 나타났다. 것으로 나타났다.예측치가 비교적 유사한 것으로 나타났으며, 평균 절도오차도 10% 수준이었다.HNP 처리구에서 가장 많았던 것으로 나타났다. 지상부 식생에 대한 총 양분함량은(N+P+K+Ca+Mg) 리기다소 나무가 703kg/ha 그리고 낙엽송이 869kg/ha였다.여 주었다.능성을 시도하였고, 그 결과는 다음과 같다. 1. Cholesterol을 제거한 cheese의 제조에서 최적조건은 균질압력 1200psi(70kg$cm^2$), 균질온도 $70^{\circ}$, $\beta$-cyclodextrin 첨가량 2%였으며, 이때 우유의 cholesterol의 제거율이 86.05%로 가장 높게 나타났다. 2. Cholesterol을 제거한 cheese들의 수율은 모두 12.53%(control 10.54%) 이상으로 균질 처리가 cheese의 수율을 18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한 치즈에서 2.25cm(control 3.34cm)로 가장 낮았으며,

비실험 자료로부터의 인과 추론: 핵심 개념과 최근 동향 (Causal inference from nonrandomized data: key concepts and recent trends)

  • 최영근;유동현
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.173-185
    • /
    • 2019
  • 과학적 연구에서 핵심적인 연구 주제 또는 가설은 대부분 인과적 질문(causal question)을 포함한다. 예를 들어, 전염병 예방을 위한 치료법의 효과 연구, 특정 정책의 시행으로 인한 효용(utility)의 평가에 대한 연구, 특정 사용자를 대상으로 노출된 광고의 종류에 따른 광고의 효과성에 대한 연구는 모두 인과 관계(causal relationship)의 추론이 요구된다. 이러한 인과 관계를 다루는 통계적 인과 추론(statistical causal inference)의 주요 관심사 중 하나는 모집단에 일종의 개입(정책 혹은 처치)을 적용한 후 개입의 효과를 정확하게 추정하는 것이다. 인과 추론은 임상실험과 정책결정에서 주로 이용되었으나, 이른바 빅데이터 시대의 도래로 가용한 관측자료가 폭발적으로 증가하였고 이로 인하여 인과 추론에 대한 잠재적 응용가치와 수요가 지속적으로 증가하고 있다. 하지만 가용한 대부분의 자료는 임의실험 기반의 자료와 달리 개입이 임의로 분배되지 않은 비실험 관측자료이다. 따라서, 본 논문은 비실험 관측자료로부터 개입의 효과를 추정하기 위한 인과 추론의 핵심 개념과 최근의 연구동향을 소개하고자 한다. 이를 위하여 본문에서는 먼저 개입의 효과를 Neyman-Rubin의 잠재 결과(potential outcome) 모형으로 나타내고, 개입의 효과를 추정하는 여러 접근법 중 특히 성향점수(propensity score) 기반 추정법과 회귀모형 기반 추정법을 중점적으로 소개한다. 최근 연구동향으로는 (1) 평균 효과 크기 추정을 넘어선 개인별 효과 크기의 추정, (2) 효과크기 추정에 있어서 자료 규모의 증대로 인한 차원의 저주가 야기하는 난제들과 이에 대한 해결방안들, (3) 복합적 인과관계를 반영하기 위한 Pearl의 구조적 인과 모형(structural causal model) 및 잠재 결과 모형과의 비교의 3가지 주제로 구분하여 소개한다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.