• 제목/요약/키워드: Data Clustering

검색결과 2,747건 처리시간 0.034초

확장된 시퀀스 요소 기반의 유사도를 이용한 계층적 클러스터링 알고리즘 (A Hierarchical Clustering Algorithm Using Extended Sequence Element-based Similarity Measure)

  • 오승준
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.321-327
    • /
    • 2006
  • 최근 들어 상업적이거나 과학적인 데이터들의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 항목들 간의 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 그러나 항목들 간의 순서적인 면을 고려한 클러스터링 연구는 많지 않다. 본 논문에서는 이들 시퀀스 데이터들 간의 유사도를 계산하는 방법과 클러스터링 방법을 연구한다. 특히 다양한 조건을 고려한 확장된 유사도 계산 방법을 제안한다. splice 데이터 셋을 이용하여 본 논문에서 제안하는 클러스터링 방법이 기존 방법 보다 우수하다는 것을 보여준다.

  • PDF

A Clustering Protocol with Mode Selection for Wireless Sensor Network

  • Kusdaryono, Aries;Lee, Kyung-Oh
    • Journal of Information Processing Systems
    • /
    • 제7권1호
    • /
    • pp.29-42
    • /
    • 2011
  • Wireless sensor networks are composed of a large number of sensor nodes with limited energy resources. One critical issue in wireless sensor networks is how to gather sensed information in an energy efficient way, since their energy is limited. The clustering algorithm is a technique used to reduce energy consumption. It can improve the scalability and lifetime of wireless sensor networks. In this paper, we introduce a clustering protocol with mode selection (CPMS) for wireless sensor networks. Our scheme improves the performance of BCDCP (Base Station Controlled Dynamic Clustering Protocol) and BIDRP (Base Station Initiated Dynamic Routing Protocol) routing protocol. In CPMS, the base station constructs clusters and makes the head node with the highest residual energy send data to the base station. Furthermore, we can save the energy of head nodes by using the modes selection method. The simulation results show that CPMS achieves longer lifetime and more data message transmissions than current important clustering protocols in wireless sensor networks.

Improvement of Self Organizing Maps using Gap Statistic and Probability Distribution

  • Jun, Sung-Hae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제8권2호
    • /
    • pp.116-120
    • /
    • 2008
  • Clustering is a method for unsupervised learning. General clustering tools have been depended on statistical methods and machine learning algorithms. One of the popular clustering algorithms based on machine learning is the self organizing map(SOM). SOM is a neural networks model for clustering. SOM and extended SOM have been used in diverse classification and clustering fields such as data mining. But, SOM has had a problem determining optimal number of clusters. In this paper, we propose an improvement of SOM using gap statistic and probability distribution. The gap statistic was introduced to estimate the number of clusters in a dataset. We use gap statistic for settling the problem of SOM. Also, in our research, weights of feature nodes are updated by probability distribution. After complete updating according to prior and posterior distributions, the weights of SOM have probability distributions for optima clustering. To verify improved performance of our work, we make experiments compared with other learning algorithms using simulation data sets.

Improvement of Support Vector Clustering using Evolutionary Programming and Bootstrap

  • Jun, Sung-Hae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제8권3호
    • /
    • pp.196-201
    • /
    • 2008
  • Statistical learning theory has three analytical tools which are support vector machine, support vector regression, and support vector clustering for classification, regression, and clustering respectively. In general, their performances are good because they are constructed by convex optimization. But, there are some problems in the methods. One of the problems is the subjective determination of the parameters for kernel function and regularization by the arts of researchers. Also, the results of the learning machines are depended on the selected parameters. In this paper, we propose an efficient method for objective determination of the parameters of support vector clustering which is the clustering method of statistical learning theory. Using evolutionary algorithm and bootstrap method, we select the parameters of kernel function and regularization constant objectively. To verify improved performances of proposed research, we compare our method with established learning algorithms using the data sets form ucr machine learning repository and synthetic data.

Semantic-Based K-Means Clustering for Microblogs Exploiting Folksonomy

  • Heu, Jee-Uk
    • Journal of Information Processing Systems
    • /
    • 제14권6호
    • /
    • pp.1438-1444
    • /
    • 2018
  • Recently, with the development of Internet technologies and propagation of smart devices, use of microblogs such as Facebook, Twitter, and Instagram has been rapidly increasing. Many users check for new information on microblogs because the content on their timelines is continually updating. Therefore, clustering algorithms are necessary to arrange the content of microblogs by grouping them for a user who wants to get the newest information. However, microblogs have word limits, and it has there is not enough information to analyze for content clustering. In this paper, we propose a semantic-based K-means clustering algorithm that not only measures the similarity between the data represented as a vector space model, but also measures the semantic similarity between the data by exploiting the TagCluster for clustering. Through the experimental results on the RepLab2013 Twitter dataset, we show the effectiveness of the semantic-based K-means clustering algorithm.

Course Variance Clustering for Traffic Route Waypoint Extraction

  • ;김광일
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.277-279
    • /
    • 2022
  • Rapid Development and adoption of AIS as a survailance tool has resulted in widespread application of data analysis technology, in addition to AIS ship trajectory clustering. AIS data-based clustering has become an increasingly popular method for marine traffic pattern recognition, ship route prediction and anomaly detection in recent year. In this paper we propose a route waypoint extraction by clustering ships CoG variance trajectory using Density-Based Spatial Clustering of Application with Noise (DBSCAN) algorithm in both port approach channel and coastal waters. The algorithm discovers route waypoint effectively. The result of the study could be used in traffic route extraction, and more-so develop a maritime anomaly detection tool.

  • PDF

단일세포 RNA-SEQ의 유전자 발현 군집화를 위한 변이 자동인코더 기반의 차원감소와 군집화 (Variational Autoencoder Based Dimension Reduction and Clustering for Single-Cell RNA-seq Gene Expression)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제25권11호
    • /
    • pp.1512-1518
    • /
    • 2021
  • 단일세포 RNA-Seq 은 개별 세포의 유전자 발현을 제공하므로 세포마다 차등적인 고해상도 정보를 준다. 단일세포 RNA-Seq 자료에 대하여 군집화는 세포의 유형과 고수준의 생물 과정을 이해하기 위하여 수행된다. 매우 고차원이고 대용량인 단일세포 RNA-Seq을 효과적으로 처리하기 위하여, 본 논문은 변이 자동인코더를 사용하여 고차원의 자료공간을 저차원의 잠재공간으로 변환하여, 보다 정확한 군집화를 수행할 수 있는 특징공간을 만든다. 차원이 축소된 잠재공간에 다양한 군집화 방법을 적용하는 접근을 다양한 전통적인 단일세포 RNA-Seq 군집화 방법과 성능을 비교하였다. 군집화 실험을 통하여, 제안한 방법은 기존 방법들보다 다양한 군집화 성능기준에서 성능이 개선되었다.

다차원 색인을 이용한 하향식 계층 클러스터링 (Top-down Hierarchical Clustering using Multidimensional Indexes)

  • 황재준;문양세;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권5호
    • /
    • pp.367-380
    • /
    • 2002
  • 최근 공간 데이타 분석, 영상 분석 등과 같은 대용량 데이타를 관리하는 다양한 응용 업무들이 증가함에 따라, 대용량의 데이타베이스를 위한 클러스터링 기법이 많이 연구되고 있다. 그 중에서도 계층 클러스터링 기법은 데이타베이스의 계층 분할을 표현하는 계층 트리를 생성하고 이를 이용하여 효율적인 클러스터링을 수행하는 방법으로서, 지금까지는 주로 트리를 하위 계층으로부터 상위 계층으로 생성해 가는 상향식(bottom-up) 계층 클러스터링 기법들이 연구되었다. 이러한 상향식 클러스터링 방법은 트리를 생성하기 위하여 전체 데이타베이스를 한 번 이상 액세스하여야 할 뿐만 아니라, 하위 계층에서부터 검색을 시작하기 때문에 트리의 많은 부분을 검색하여야 하는 문제점이 있다. 본 논문에서는 대부분의 데이타베이스 응용에서 이미 유지하고 있는 다차원 색인을 이용하여 클러스터링을 수행하는 새로운 하향식(top-down) 계층 클러스터링 기법을 제안한다. 일반적으로 다차원 색인에서는 가까운 객체들이 동일한 (혹은 인접한) 페이지에 저장될 가능성이 큰 클러스터링 성질을 가진다. 이러한 다차원 색인의 클러스터링 성질을 사용하면 각 객체들간의 거리를 일일이 계산하지 않고도 이웃한 객체들을 식별할 수 있다. 우선 객체들의 밀도에 기반하여 클러스터를 정형적으로 정의한다. 이를 위하여, 객체를 포함하는 영역의 밀도를 이용한 영역 대조 분할(region contrast partition) 개념을 사용한다. 또, 클러스터링 알고리즘에서의 빠른 검색을 위하여 분기 한정(branch-and-bound) 알고리즘을 사용하며, 여기서의 한계값(bound)을 제안하고 이의 정확성을 이론적으로 증명한다. 실험 결과, 제안한 방법은 상향식 계층 클러스터링 방법인 BIRCH와 비교하여, 정확성 측면에서 우수하거나 유사한 것으로 나타났으며, 데이타 페이지 액세스 횟수를 데이타베이스 크기에 따라 최고 26~187배까지 감소시킨 것으로 나타났다. 이 같은 결과로 볼 때, 제안한 방법은 대용량 데이타베이스에서의 클러스터링 성능을 크게 향상시키는 기법으로서, 일반 데이타베이스 응용에 실용적으로 적용 가능하다고 판단된다.

레이더 데이터 분석을 위한 Fuzzy Logic 기반 클러스터링 기법에 관한 연구 (A Study on Fuzzy Logic based Clustering Method for Radar Data Analysis)

  • 이한수;김은경;김성신
    • 한국지능시스템학회논문지
    • /
    • 제25권3호
    • /
    • pp.217-222
    • /
    • 2015
  • 클러스터링 기법은 탐색적 자료 분석 기법으로 알려진 중요한 데이터마이닝 기법 중 하나로서 패턴 인식, 원격 탐사 등의 분야에 사용되고 있다. 이 방법을 이용하여 데이터의 기본 구조를 추출하고, 개체의 군집화 혹은 군집의 계층을 조직한다. 기상 레이더는 대기 중에 존재하는 물체에서 반사되는 신호를 이용하여 관측을 수행하고, 해당 좌표에 데이터를 저장하는 원리로 동작하는데, 이를 분석하기 위해서는 흩어져있는 레이더 데이터를 유사도를 바탕으로 강수에코와 비강수에코를 구분하여 군집화 할 필요가 있다. 따라서 본 논문에서는 클러스터링 기법을 레이더 데이터에 적용하는 방법에 대한 연구를 수행하였다. 또한, 강수에코와 비강수에코가 인접해 있을 경우 발생할 수 있는 문제를 해결하기 위하여 퍼지 로직과 계층적 클러스터링 기법을 접목하여 유사도를 판별하는 방법에 대한 연구를 수행하였다. 실제 사례를 바탕으로 본 논문에서 제안한 클러스터링 기법을 적용한 결과, 강수에코와 비강수에코가 인접해 있는 경우 기존 기법보다 좋은 결과를 도출하는 것을 확인할 수 있었다.

데이타마이닝에서 고차원 대용량 데이타를 위한 셀-기반 클러스터 링 방법 (A Cell-based Clustering Method for Large High-dimensional Data in Data Mining)

  • 진두석;장재우
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.558-567
    • /
    • 2001
  • 최근 데이타마이닝 응용분야에서는 고차원 대용량 데이타가 요구되고 있다. 그러나 기존의 대부분의 데이타마이닝을 위한 알고리즘들은 소위 차원의 저주(dimensionality curse)[1] 문제점과 이용 가 능한 메모리의 한계 때문에 고차원 대용량 데이타에는 비효율적이다. 따라서, 본 논문에서는 이러한 문제 점을 해결하기 위해서 셀-기반 클러스터링 방법을 제안한다. 제안하는 진-기반 클러스터링 방법은 고차원 대용량 데이타를 효율적으로 처리하기 위한 셀 구성 알고리즘과 필터링에 기반한 저장인덱스 구조를 제공 한다. 본 논문에서 제안한 셀-기반 클러스터링 방법을 (CLQUE 방법과 클러스터링 시간, 정확율, 검색시 간 관점에서 성능을 비교한다. 마지막으로, 실험결과 제안하는 셀-기반 클러스터링 방법이 CLIQUE 방법 에 비해 성능이 우수함을 보인다

  • PDF