• Title/Summary/Keyword: 데이터 클러스터링

Search Result 1,054, Processing Time 0.032 seconds

Metro Station Clustering based on Travel-Time Distributions (통행시간 분포 기반의 전철역 클러스터링)

  • Gong, InTaek;Kim, DongYun;Min, Yunhong
    • The Journal of Society for e-Business Studies
    • /
    • v.27 no.2
    • /
    • pp.193-204
    • /
    • 2022
  • Smart card data is representative mobility data and can be used for policy development by analyzing public transportation usage behavior. This paper deals with the problem of classifying metro stations using metro usage patterns as one of these studies. Since the previous papers dealing with clustering of metro stations only considered traffic among usage behaviors, this paper proposes clustering considering traffic time as one of the complementary methods. Passengers at each station were classified into passengers arriving at work time, arriving at quitting time, leaving at work time, and leaving at quitting time, and then the estimated shape parameter was defined as the characteristic value of the station by modeling each transit time to Weibull distribution. And the characteristic vectors were clustered using the K-means clustering technique. As a result of the experiment, it was observed that station clustering considering pass time is not only similar to the clustering results of previous studies, but also enables more granular clustering.

Clustering Method for Reduction of Cluster Center Distortion (클러스터 중심 왜곡 저감을 위한 클러스터링 기법)

  • Jeong, Hye-C.;Seo, Suk-T.;Lee, In-K.;Kwon, Soon-H.
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.3
    • /
    • pp.354-359
    • /
    • 2008
  • Clustering is a method to classify the given data set with same property into several classes. To cluster data, many methods such as K-Means, Fuzzy C-Means(FCM), Mountain Method(MM), and etc, have been proposed and used. But the clustering results of conventional methods are sensitively influenced by initial values given for clustering in each method. Especially, FCM is very sensitive to noisy data, and cluster center distortion phenomenon is occurred because the method dose clustering through minimization of within-clusters variance. In this paper, we propose a clustering method which reduces cluster center distortion through merging the nearest data based on the data weight, and not being influenced by initial values. We show the effectiveness of the proposed through experimental results applied it to various types of data sets, and comparison of cluster centers with those of FCM.

Multi-Dimension Visualization Proposition and Clustering of Remote Sensing Data Using Star Coordinates Technique (Star Coordinates 기법을 이용한 원격탐사 데이터의 다차원 시각화 제안 및 클러스터링)

  • Kim, Dae-Sung;Kim, Yong-Il;Yu, Ki-Yun
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2005.05a
    • /
    • pp.313-318
    • /
    • 2005
  • 단 밴드 영상과는 달리 다차원 데이터는 분광적인 특성을 이용한 자동화된 영상 분석을 수행하는 장점이 있는 반면, 3차원 이상의 데이터를 분광차익 상에 시각화 하는데 어려움이 따른다. 클러스터링 기법을 이용한 영상 정보 추출은 자동화된 영상 분석적인 측면에서 중요한 분야 중 하나로서, 분광차원에서 구 형태의 조밀한 클러스터를 분리하는데 효과적인 방법으로 알려져 있지만 부정형(不定形)의 클러스터를 추출하는 방법에는 한계를 가진다. 따라서 본 연구는 모든 차원의 데이터를 2차원 상에 시각화하여 화소간 인접성을 개략적으로 확인할 수 있는 Star Coordinates 기법을 제안한다. 데이터의 다차원 시각화를 통해, 부정형 클러스터를 제거하여 다음 단계의 영상 분석 시 발생할 수 있는 오류를 방지할 수 있고, 명확한 클러스터를 확인 지정하여 클러스터링 정확도를 골일 수 있을 것으로 기대된다. 부가적인 연구고서, Star Coordinates 기법을 적용하여 Plot된 영상 데이터를 K-Means 알고리즘을 이용한 무감독 분류를 수행하여 그 결과를 확인하였다.

  • PDF

Online Scaling Consious Online Reorganization of $CSB^+$ tree Index in a Database Cluster (클러스터링 데이터베이스에서 온라인 확장을 고려한 $CSB^+$ 트리 색인의 온라인 재구성 기법)

  • 심태정;이충호;이순조;배해영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.196-198
    • /
    • 2002
  • 클러스터링 데이터베이스는 높은 가용성과 확장성을 갖으며, 예상치 못한 클라이언트 질의의 증가나 질의 패턴의 변경에 따른 작업부하의 편중에 효율적으로 대처할 수 있는 구조이다. 특히 온라인 확장 기법은 트랜잭션 처리를 중지하지 않고 새로운 노드를 클러스터에 추가하여 데이터를 재구성함으로써 임의의 노드에 질의가 집중되는 문제를 해결할 수 있다. 정적으로 구성된 시스템만으로는 두 대 이상의 서버에 작업량이 집중될 경우 재배치 시 서버 간의 데이터 이동의 반복 현상이 발생되며. 이로 인해 네트웍의 부하와 함께 실시간 트랜적션의 처리에 있어서 응답 시간이 지연되는 문제점이 발생한다. 따라서 본 논문에서는 데이터 이동의 반복 현상을 해결하기 위해 클러스터링 데이터베이스에서 온라인 확장을 고려한 CSB+ 트리 색인의 온라인 재구성 기법을 제안한다. 제안된 기법은 온라인 확장을 통한 동구 노드의 확장으로 데이터 이동의 반복을 막고 새롭게 추가된 노드를 통해 빠르고 효율적인 데이터의 분산을 수행한다 또한 각 시스템의 내부를 CS$B^{+}$ 트리로 구성하여 데이터의 재주성시에도 실시간 트랜잭션에 대한 빠른 응답 시간을 보장한다.

  • PDF

A New Clustering Method for Minimum Classification Error (분류 오류 최소화를 위한 클러스터링 기법)

  • Heo, Gyeong-Yong;Kim, Seong-Hoon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.19 no.7
    • /
    • pp.1-8
    • /
    • 2014
  • Clustering is one of the most popular unsupervised learning methods, which is widely used to form clusters with homogeneous data. Clustering was used to extract contexts corresponding to clusters and a classification method was applied to each context or cluster individually. However, it is difficult to say that the unsupervised clustering is the best context forming method from the view of classification. In this paper, a new clustering method considering classification was proposed. The proposed method tries to minimize classification error in each cluster when a classification method is applied to each context locally. For this purpose, the proposed method adds constraints forcing two data points belong to the same class to have small distances, and two data points belong to different classes to have large distances in each cluster like in linear discriminant analysis. The usefulness of the proposed method is confirmed by experimental results.

Aggregation Techniques for Alert Data of Intrusion Detection System using Data Mining (데이터마이닝을 이용한 침입 탐지 시스템의 경보데이터 축약기법)

  • Hu, Moon-Heang
    • Proceedings of the KAIS Fall Conference
    • /
    • 2009.05a
    • /
    • pp.764-767
    • /
    • 2009
  • 이 논문에서는 데이터마이닝의 클러스터링을 이용한 경보 데이터 축약기법을 제안한다. 제안된 클러스터링 기반 경보데이터 축약기법은 데이터간의 유사성을 이용한 경보 데이터의 그룹화를 통해 생성된 모델을 이용하여 새로운 경보 데이터에 대한 분류를 자동화할 수 있다. 이것은 과거에 탐지된 공격의 형태뿐만 아니라 새로운 혹은 변형된 경보의 분류나 분석에도 이용할 수 있다. 또한 생성된 클러스터의 생성 원인의 분석을 이용한 클러스터 간의 시퀀스의 추출을 통해 사용자가 공격의 순차적인 구조나 그 이면에 감추어진 전략을 이해하는데 도움을 주며, 현재의 경보 이후에 발생 가능한 경보들을 예측할 수 있다.

  • PDF

데이터 클러스터링 기법을 이용한 퍼지 질의 처리

  • 김태희;김선경
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 1997.03a
    • /
    • pp.129-139
    • /
    • 1997
  • 다양한 실세계의 표현은 주관적인 의미가 내포되어 있어 데이터의 모델링 과정이 보다 중요하며 이 과정에서 데이터 손실을 최소화시켜야 한다. 이러한 성향의 모든 데이터를 수용하기위한 퍼지데이터베이스 시스템 구축시에는 데이터가 퍼지 집합으로 표현되어야 하고 불확실하고 다양한 형태의 질의가 가능하며 신뢰성 있는 응답 제시되어야 한다. 본 논문에서는 불활실함의 의미를 최대한 반영하여 표현을 다양화 시키고 사용자의 주관적인 인식수용을 위한 데이터의 개별화와 레벨의 다양화를 위한 클러스터링(clustering)기법을 보인다. 이를 통해 영역구조를 병합 분리시켜 데이터베이스의 릴레이션에서의 도메인요소의 첨가와 삭제를 통하여 자유로운 질의에 대한 불확실성이 감소된 응답과 융통성이 부여된 퍼지질의 처리를 보여준다.

R-Trees construction using clustering (클러스터링을 이용한 R-Trees 구축방법)

  • 차정숙;이기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.171-173
    • /
    • 1999
  • 공간 데이터베이스에서 사용되는 데이터는 그 양이 방대하고 복잡하여 이를 효율적으로 저장, 관리하는 색인이 필요하다. 여러 공간 색인 방법들 중에서 R-tree는 삽입과 삭제가 빈번히 발생하는 동적인 환경에서 효율적인 질의 성능을 보이는 것으로 알려져 있다. R-tree는 삽입되는 데이터의 순서에 따라 트리의 구조가 달라질 수 있는데, 주어진 데이터가 수정이 자주 발생하지 않는다며 데이터 입력 순서를 결정하여 질의 성능이 가장 좋은 트리를 구성할 수 있다. 본 논문에서는 데이터가 자주 수정되지 않는 환경에서 노드간의 중첩을 가장 최소화 할 수 있는 데이터 입력 순서를 결정하기 위해 클러스터링을 이용한 새로운 방법인 CSR-tree를 제안하고자 한다. CSR-tree는 일반 R-tree와 hilbert packed R-tree 방법보다 향상된 질의 성능을 보인다.

  • PDF

Design of Deduplication Supported Clustering Backup System using File Finger Printing (파일 지문으로 중복 파일을 제거한 클러스터링 백업 시스템 설계)

  • Jeong, Ho-Min;Ko, Young-Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.737-740
    • /
    • 2007
  • 기존의 백업시스템에서는 데이터의 중복을 고려하지 않고 백업 데이터 전부를 저장하기 때문에 저장용량 공간을 많이 차지하는 문제점이 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 백업 데이터의 각 파일에 대해서 일정한 크기의 블록 단위로 파일지문을 부여하고 파일지문이 동일할 경우 하나의 사본만을 공유하는 방법으로 백업 데이터의 용량을 감소시키는 방법을 도입하였다. 제안하는 백업 시스템은 중복되어 발생하는 데이터에 대해 하나의 사본만 백업함으로써 백업되는 데이터의 양을 효과적으로 감소시켰다. 또한 백업되는 파일 블록에 대해서 클러스터링 기술을 사용함으로서 입출력 성능 향상을 고려하였다.

  • PDF

Video Story Segmentation using Nearest Neighbor Clustering Method (Nearest Neighbor 클러스터링 방법을 이용한 비디오 스토리 분할)

  • 이해만;최영우;정규식
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.101-104
    • /
    • 2000
  • 비디오 데이터의 효율적인 검색, 요약 등에 활용하기 위해서 대용량의 비디오 데이터를 프레임(Frame), 샷(Shot),스토리(Story)의 계층적인 구조로 표현하는 방법들이 요구되고 있으며, 이에 따라 비디오를 샷, 스토리 단위로 분할하는 연구들이 수행되고 있다. 본 논문은 비디오가 샷 단위로 분할되어 있다고 가정한 후, 인접한 샷들을 결합하여 의미 있는 최소 단위인 스토리를 분할하는 방법을 제안한다. 제안하는 방법은 각 샷에서 추출된 대표 프레임들을 비교하기 위한 CCV(Color Coherence Vector) 영상 특징을 추출한다. CCV 특징의 시각적인 유사도의 초기임계값과 일정한 시간 안에 반복되는 프레임들을 찾기 위한 시간적인 유사도의 시간 임계값을 설정하여NN(Nearest Neighbor) 클러스터링 방법을 이용하여 클러스터링을 한다. 클러스터링된 정보와 같은 장면이 한번이상 반복되는 스토리의 특성을 이용해 비디오를 스토리로 분할한다. 영화 비디오 데이터를 이용한 실험을 통해 제안하는 방법의 유효성을 검증하였다.

  • PDF