• Title/Summary/Keyword: 고차원 데이터

Search Result 251, Processing Time 0.034 seconds

A Clustering using Two-Dimensional Projection in High-Dimensional Data (고차원 데이터에서 2차원 프로젝션을 이용한 클러스터링)

  • 장미희;이혜명;박영배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.16-18
    • /
    • 2001
  • 데이터마이닝 기법 중의 하나인 플러스터링은 대용량 데이터베이스에서 유사한 특징을 가진 객체들을 집단화하는데 사용되는 매우 유용한 분석방법이다. 그러나 대부분의 클러스터링 알고리즘들은 고차원 데이터에서는 성능이 급격히 저하된다. 이것은 고차원 데이터 집합이 상당한 양의 잡음을 포함하고 있기 때문이며 고차원 데이터 고유의 희소성에 기인한다. 이에 따라 고차원 데이터의 구조와 특성을 지원하는데 적합한 클러스터링 기법이 개발되고 있다. 본 논문에서는 고차원 클러스터링에서 잡음 데이터를 효과적으로 제거하기 위한 새로운 알고리즘을 제안하는데, 이 일고리즘은 고차원 데이터의 저차원으로의 변환에 기초한다. 저 차원으로 변환을 위해 2차원 프로젝션을 이용하며, 반복적으로 2차원 프로젝션을 적용하여 잡음을 단계적으로 최소화한다. 이와 같은 2차원 프로젝션은 잡음을 점차적으로 줄여줄 뿐 아니라, 데이터 분포에 대한 시각화 작업에도 용이하다.

  • PDF

Analysis of High Dimensional Data using Low Dimensional Summary Tables (저차원 집계 테이블들을 사용한 고차원 데이터의 온라인 분석)

  • Choi, Hae-Jung;Kim, Myung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.16-18
    • /
    • 2002
  • 다차원 데이터를 온라인으로 분석하기 위해서는 사전에 집계 테이블들을 계산해 둔다. 대용량 고차원 데이터의 경우는 집계 테이블의 분량이 천문학적으로 방대하기 때문에 사전 집계 계산이 현실적으로 불가능한 경우가 많다. 고차원 데이터 처리에 관한 연구로는 데이터의 차원 수를 감소시키거나 인덱스를 압축하여 질의처리 시간을 단축하려는 연구를 들 수 있는데, 이러한 방법들은 고차원 데이터의 온라인 분석시에 발생하는 데이터 폭발 현상을 근본적으로 해결하지는 못한다. 본 연구에서는 고차원 데이터가 분석될 때 실제로 저차원 집계 테이블들이 주로 사용된다는 점에 착안하여 데이터 폭발 현상을 감소시키면서 데이터를 분석하는 방안을 제시한다 이 방법은 사전 집계 연산을 할 때 크기가 방대한 고차원 집계 테이블들의 생성을 생략하고, 3-6차원 또는 그 이하 차원의 집계 테이블들만을 고속으로 동시에 생성하는 방법이다.

  • PDF

High Dimensional Index Information Management for Data Availability (데이터의 가용성을 보장하는 고차원 색인 정보 관리)

  • Choi, Hyun-Hwa;Lee, Mi-Young;Lee, Kyu-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.874-877
    • /
    • 2010
  • 웹 서비스 혹은 클라우드 컴퓨팅 서비스로써 대용량의 멀티미디어 데이터에 대한 내용 기반 검색을 지원하기 위하여, 분산 고차원 색인 구조에 대한 연구가 활발하게 이뤄지고 있다. 이러한 고차원 데이터의 색인 구조에 대한 연구와 달리, 고차원 색인 데이터의 저장 및 관리에 대한 연구는 거의 전무한 것이 현실이다. 지금껏 대부분의 색인 데이터는 빠른 접근을 위하여 트랜잭션 관리 및 데이터의 복구를 제공하지 않은 파일 시스템에서 관리되어 왔다. 그러나, 파일 시스템에 저장된 색인 데이터는 이를 서비스하는 노드의 장애 발생 시에 일부 혹은 전체 데이터에 대한 검색이 이뤄지지 않는 문제점이 있다. 서비스의 가용성 여부가 중요한 요소인 웹 서비스와 클라우드 컴퓨팅 서비스를 위하여, 본 논문에서는 고차원 색인 데이터를 데이터베이스를 통해 관리하여, 안정성 및 가용성을 보장하면서, 고차원 데이터의 색인 및 검색의 성능을 보장하는 방법을 제안하고자 한다.

Dimension Reduction Methods on High Dimensional Streaming Data with Concept Drift (개념 변동 고차원 스트리밍 데이터에 대한 차원 감소 방법)

  • Park, Cheong Hee
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.8
    • /
    • pp.361-368
    • /
    • 2016
  • While dimension reduction methods on high dimensional data have been widely studied, research on dimension reduction methods for high dimensional streaming data with concept drift is limited. In this paper, we review incremental dimension reduction methods and propose a method to apply dimension reduction efficiently in order to improve classification performance on high dimensional streaming data with concept drift.

Design and Performance Analysis of Signature-Based Hybrid Spill-Tree for Indexing High Dimensional Vector Data (고차원 벡터 데이터 색인을 위한 시그니쳐-기반 Hybrid Spill-Tree의 설계 및 성능평가)

  • Lee, Hyun-Jo;Hong, Seung-Tae;Na, So-Ra;Jang, You-Jin;Chang, Jae-Woo;Shim, Choon-Bo
    • Journal of Internet Computing and Services
    • /
    • v.10 no.6
    • /
    • pp.173-189
    • /
    • 2009
  • Recently, video data has attracted many interest. That is the reason why efficient indexing schemes are required to support the content-based retrieval of video data. But most indexing schemes are not suitable for indexing a high-dimensional data except Hybrid Spill-Tree. In this paper, we propose an efficient high-dimensional indexing scheme to support the content-based retrieval of video data. For this, we extend Hybrid Spill-Tree by using a newly designed clustering technique and by adopting a signature method. Finally, we show that proposed signature-based high dimensional indexing scheme achieves better retrieval performance than existing M-Tree and Hybrid Spill-Tree.

  • PDF

Design of High-dimensional Index Structures for SAN Environment (SAN 환경에 적합한 고차원 색인 구조 설계)

  • 박춘서;신재룡;송석일;복경수;유재수;신범주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.86-88
    • /
    • 2000
  • SAN(Storage Area Network)이 최근 대용량 데이터를 효율적으로 관리하기 위한 차세대 저장 장치로 각광받고 있다. 이 SAN에는 이미지, 동영상, 지도, 캐드 데이터와 같은 대용량의 고차원 특징을 갖는 데이터들이 저장되어 관리 될 것이다. 따라서 SAN 환경에서 이들을 보다 빠르고 정확하게 검색할 수 있는 효율적인 고차원 색인구조가 필요하다. SAN 환경은 저장 장치를 공유하는 형태의 병렬 환경이라 볼 수 있다. 이 논문에서는 SAN의 병렬성을 충분히 이용해서 고차원 데이터를 색인할 수 있는 방법을 제안한다. 제안하는 고차원 색인 구조는 하나의 노드를 여러 디스크에 분산시켜 팬-아웃을 증가시키고 트리의 높이를 줄임으로서 검색성능을 향상시킨다. 또한 범위 질의와 K-최근접 질의 수행시 병렬성을 최대화하는 방법을 제안한다.

  • PDF

Development of Core Components of Projected Clustering for High-Dimensional Categorical Data (고차원 범주형 데이터를 위한 투영 군집화 기법의 핵심 요소 개발)

  • Kim Min-Ho;Ramakrishna R.S.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.181-183
    • /
    • 2006
  • 본 논문은 고차원의 범주형 데이터에 대한 군집화에 대해서 다룬다. 기존의 범주형 데이터 객체를 위한 유사성(상이성) 계측들의 기저에 깔려 있는 한계점은 수치형 데이터에서와 같은 순서화 (ordering)의 부재와 데이터의 고차원성과 희소성에 기인하는데, 이를 효과적으로 극복할 수 있는 기법이 투영 군집화이다. 본 논문에서는 고차원의 범주형 데이터를 효과적으로 처리할 수 있는 투영 군집화를 다루며 핵심 요소인 군집 차원의 정의와 군집 응집도를 제안한다.

  • PDF

Extended High Dimensional Clustering using Iterative Two Dimensional Projection Filtering (반복적 2차원 프로젝션 필터링을 이용한 확장 고차원 클러스터링)

  • Lee, Hye-Myeong;Park, Yeong-Bae
    • The KIPS Transactions:PartD
    • /
    • v.8D no.5
    • /
    • pp.573-580
    • /
    • 2001
  • The large amounts of high dimensional data contains a significant amount of noises by it own sparsity, which adds difficulties in high dimensional clustering. The CLIP is developed as a clustering algorithm to support characteristics of the high dimensional data. The CLIP is based on the incremental one dimensional projection on each axis and find product sets of the dimensional clusters. These product sets contain not only all high dimensional clusters but also they may contain noises. In this paper, we propose extended CLIP algorithm which refines the product sets that contain cluster. We remove high dimensional noises by applying two dimensional projections iteratively on the already found product sets by CLIP. To evaluate the performance of extended algorithm, we demonstrate its effectiveness through a series of experiments on synthetic data sets.

  • PDF

A product recommendation system based on sequence pattern mining for smartphone customers (스마트폰 고객들을 위한 데이터 마이닝 기반의 제품 추천 시스템)

  • Jin, Se-Hun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.204-206
    • /
    • 2012
  • 스마트폰 시장의 확대로 인한 스마트폰 고객의 증가와 스마트폰을 이용한 제품 구매 활동이 급격하게 증가하고 있다. 이러한 추세에 따라 스마트폰 고객 추천 시스템에 관한 연구가 활발히 진행되고 있다. 하지만 기존의 스마트폰 고객 추천 시스템의 경우 고객들의 고차원 데이터를 효율적으로 처리하는데 어려움이 있다. 따라서 이 논문에서는 스마트폰 고객들의 고차원 데이터를 효율적으로 처리할 수 있는 부분 공간 군집화 기법과 순차 패턴 알고리즘을 이용한 제품 추천 시스템을 제안한다. 이 시스템은 스마트폰 고객들의 고차원 데이터를 기반으로 세분화된 고객들의 부분 군집화를 한다. 이들 군집화를 기반으로 순차적 패턴 알고리즘을 이용한 고객들의 제품 구매 패턴을 추출한다. 이 연구를 통해 스마트폰 고객들의 다양한 고차원 데이터를 이용한 제품 추천 시스템은 기업의 제품 판매 및 고객 마케팅에 긍정적인 도움을 줄 수 있을 것으로 기대된다.

Multiple testing and its applications in high-dimension (고차원자료에서의 다중검정의 활용)

  • Jang, Woncheol
    • Journal of the Korean Data and Information Science Society
    • /
    • v.24 no.5
    • /
    • pp.1063-1076
    • /
    • 2013
  • The power of modern technology is opening a new era of big data. The size of the datasets affords us the opportunity to answer many open scientific questions but also presents some interesting challenges. High-dimensional data such as microarray are common in big data. In this paper, we give an overview of recent development of multiple testing including global and simultaneous testing and its applications to high-dimensional data.