• 제목/요약/키워드: Density based clustering

검색결과 164건 처리시간 0.023초

화자분할을 위한 지역적 특성 기반 밀도 클러스터링 (Local Distribution Based Density Clustering for Speaker Diarization)

  • 노진상;손수원;김성수;이재원;고한석
    • 한국음향학회지
    • /
    • 제34권4호
    • /
    • pp.303-309
    • /
    • 2015
  • 화자 분할은 사전에 분류되지 않은 데이터를 각각의 화자로 분류하는 연구이며 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 간결함과 계산의 효율성으로 인해 화자분할 분야에 널리 사용되어 왔다. 그러나 클러스터의 데이터들이 공간적이지 않으며 서로 다른 클러스터가 근접하여 경계를 공유할 때 오버클러스터링 문제가 발생하여 DBSCAN의 성능이 하락한다. 본 논문에서는 DBSCAN과 문제점을 설명하고, 개체의 지역적 특성에 기반한 밀도 기반 클러스터링 알고리즘을 제안한다. 제안하는 알고리즘은 개체의 지역적 밀도와 분산의 정도에 따라 가변적인 판단 기준을 탐색에 이용한다. DBSCAN과 제안 기법의 실험을 통해 성능을 비교하고 제안 기법의 효용을 보인다. 실험 결과 제안한 방법은 오버클러스터링이 발생하지 않으며 DBSCAN에 비해 보다 높은 정확도를 보여 지역적 특성을 이용한 접근 방법이 효과적임을 증명한다.

장애물을 고려한 밀도 기반의 공간 클러스터링 기법 (Density Based Spatial Clustering Method Considering Obstruction)

  • 임현숙;김호숙;용환승;이상호;박승수
    • 한국멀티미디어학회논문지
    • /
    • 제6권3호
    • /
    • pp.375-383
    • /
    • 2003
  • 공간 마이닝에서 클러스터링은 오브젝트간의 거리나 연결 상태, 또는 공간상에서의 상대적인 밀도를 기반으로 서로 비슷한 오브젝트들을 하나의 그룹으로 묶는 과정이다. 실세계에서 공간 상에 분포하는 강이나 호수, 고속도로와 같은 장애물들은 클러스터링의 결과에 영향을 줄 수 있다. 본 논문은 장애물을 고려한 오브젝트 사이의 거리를 정의하고, 이를 이용하여 공간 오브젝트들을 밀도를 기반으로 클러스터링 하면서 동시에 공간상에 존재하는 장애물을 고려하는 새로운 공간 클러스터링 알고리즘(DBSCAN-O)을 제안한다. 또한 실험을 통해 DBSCAN-O가 기존의 밀도 기반 알고리즘인 DBSCAN에서 찾아내지 못한 새로운 형태의 클러스터링 결과를 도출하는 것을 보인다.

  • PDF

A Density Peak Clustering Algorithm Based on Information Bottleneck

  • Yongli Liu;Congcong Zhao;Hao Chao
    • Journal of Information Processing Systems
    • /
    • 제19권6호
    • /
    • pp.778-790
    • /
    • 2023
  • Although density peak clustering can often easily yield excellent results, there is still room for improvement when dealing with complex, high-dimensional datasets. One of the main limitations of this algorithm is its reliance on geometric distance as the sole similarity measurement. To address this limitation, we draw inspiration from the information bottleneck theory, and propose a novel density peak clustering algorithm that incorporates this theory as a similarity measure. Specifically, our algorithm utilizes the joint probability distribution between data objects and feature information, and employs the loss of mutual information as the measurement standard. This approach not only eliminates the potential for subjective error in selecting similarity method, but also enhances performance on datasets with multiple centers and high dimensionality. To evaluate the effectiveness of our algorithm, we conducted experiments using ten carefully selected datasets and compared the results with three other algorithms. The experimental results demonstrate that our information bottleneck-based density peaks clustering (IBDPC) algorithm consistently achieves high levels of accuracy, highlighting its potential as a valuable tool for data clustering tasks.

밀도 함수를 이용한 근사적 퍼지 클러스터링 (Approximate fuzzy clustering based on a density function)

  • 손세호;권순학;최윤혁
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 춘계학술대회 학술발표 논문집
    • /
    • pp.94-97
    • /
    • 2000
  • We introduce an approximate fuzzy clustering method, which is simple but computationally efficient, based on density functions in this paper. The density functions are defined by the number of data within the predetermined interval. Numerical examples are presented to show the validity of the proposed clustering method.

  • PDF

무선 센서네트워크에서 네트워크수명 극대화 방안 (A New Scheme for Maximizing Network Lifetime in Wireless Sensor Networks)

  • 김정삼
    • 디지털산업정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.47-59
    • /
    • 2014
  • In this paper, I propose a new energy efficient clustering scheme to prolong the network lifetime by reducing energy consumption at the sensor node. It is possible that a node determines whether to participate in clustering with certain probability based on local density. This scheme is useful under the environment that sensor nodes are deployed unevenly within the sensing area. By adjusting the probability of participating in clustering dynamically with local density of nodes, the energy consumption of the network is reduced. So, the lifetime of the network is extended. In the region where nodes are densely deployed, it is possible to reduce the energy consumption of the network by limiting the number of node which is participated in clustering with probability which can be adjusted dynamically based on local density of the node. Through computer simulation, it is verified that the proposed scheme is more energy efficient than LEACH protocol under the environment where node are densely located in a specific area.

대용량 공간데이터베이스를 위한 확장된 밀도-격자 기반의 공간 클러스터링 알고리즘 (An Enhanced Density and Grid based Spatial Clustering Algorithm for Large Spatial Database)

  • ;김호석;;김경배;배해영
    • 정보처리학회논문지D
    • /
    • 제13D권5호
    • /
    • pp.633-640
    • /
    • 2006
  • 공간 데이터마이닝 분야에서 객체간의 거리, 연결성, 상대적인 밀도를 기반으로 비슷한 객체들을 하나의 그룹으로 묶는 공간 클러스터링은 중요한 컴포넌트이다. 공간 클러스터링 알고리즘은 밀도 기반 클러스터링과 격자 기반 클러스터링 알고리즘 등으로 나눌 수 있다. 밀도 기반 클러스터링 알고리즘은 다양한 모양과 크기의 클러스터를 구분할 수 있으며, 잡음을 제거할 수 있는 장점을 가지고 있는 반면에, 격자 기반 클러스터링 처리속도가 빠르다는 장점을 가지고 있다. 하지만, 대량의 공간 데이터 집합을 클러스터링 하는 것은 데이터 처리 비용이 급격하게 증가하기 때문에 클러스터링 처리 결과에 큰 영향을 준다. 본 논문은 대용량의 공간 데이터베이스에서 공간 객체간의 고밀도 영역을 식별하여 잡음을 제거하기 위한 수치데이터 값과 기본 격자간격 개수를 정의하는 확장된 밀도-격자 기반 클러스터링 알고리즘을 제안한다. 제안 알고리즘은 고밀도 영역 식별을 위하여 threashold(DT)를 정의하였으며, 격자 및 밀도 기반 기법의 장점을 이용하여 임의의 객체 클러스터링을 식별할 수 있는 성능을 향상시켰다. 성능평가에서 기존의 클러스터링 알고리즘과의 다양한 비교 평가 실험을 통하여, 제안 알고리즘이 빠르고 정확한 데이터 클러스터링 결과를 나타냄을 보인다.

An Improved Automated Spectral Clustering Algorithm

  • Xiaodan Lv
    • Journal of Information Processing Systems
    • /
    • 제20권2호
    • /
    • pp.185-199
    • /
    • 2024
  • In this paper, an improved automated spectral clustering (IASC) algorithm is proposed to address the limitations of the traditional spectral clustering (TSC) algorithm, particularly its inability to automatically determine the number of clusters. Firstly, a cluster number evaluation factor based on the optimal clustering principle is proposed. By iterating through different k values, the value corresponding to the largest evaluation factor was selected as the first-rank number of clusters. Secondly, the IASC algorithm adopts a density-sensitive distance to measure the similarity between the sample points. This rendered a high similarity to the data distributed in the same high-density area. Thirdly, to improve clustering accuracy, the IASC algorithm uses the cosine angle classification method instead of K-means to classify the eigenvectors. Six algorithms-K-means, fuzzy C-means, TSC, EIGENGAP, DBSCAN, and density peak-were compared with the proposed algorithm on six datasets. The results show that the IASC algorithm not only automatically determines the number of clusters but also obtains better clustering accuracy on both synthetic and UCI datasets.

계층 발생 프레임워크를 이용한 군집 계층 시각화 (Visualizing Cluster Hierarchy Using Hierarchy Generation Framework)

  • 신동화;이세희;서진욱
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권6호
    • /
    • pp.436-441
    • /
    • 2015
  • 군집화 알고리즘은 그 종류에 따라 만들어낼 수 있는 군집의 종류와 보여줄 수 있는 정보의 수준이 차이가 난다. 밀도기반 군집화 알고리즘은 데이터 분포 상의 임의의 모양을 가진 군집을 잘 잡아내지만 보여줄 수 있는 계층정보가 매우 적거나 없는 수준이고, 반면 계층적 군집화 알고리즘은 자세한 계층 정보를 보여주지만 구 모양의 군집 외에는 잘 잡아내지 못한다. 이 논문에서는 이러한 두 군집화 방식의 대표적 알고리즘인 OPTICS와 응집 계층 군집화 알고리즘의 장점만을 취하는 계층 발생 프레임워크를 제시하고 이와 더불어 효과적 데이터 분석을 위한 여러 시각화, 상호작용 기법을 지원하는 시각적 분석 애플리케이션을 제공한다.

[Retracted]Hot Spot Analysis of Tourist Attractions Based on Stay Point Spatial Clustering

  • Liao, Yifan
    • Journal of Information Processing Systems
    • /
    • 제16권4호
    • /
    • pp.750-759
    • /
    • 2020
  • The wide application of various integrated location-based services (LBS social) and tourism application (app) has generated a large amount of trajectory space data. The trajectory data are used to identify popular tourist attractions with high density of tourists, and they are of great significance to smart service and emergency management of scenic spots. A hot spot analysis method is proposed, based on spatial clustering of trajectory stop points. The DBSCAN algorithm is studied with fast clustering speed, noise processing and clustering of arbitrary shapes in space. The shortage of parameters is manually selected, and an improved method is proposed to adaptively determine parameters based on statistical distribution characteristics of data. DBSCAN clustering analysis and contrast experiments are carried out for three different datasets of artificial synthetic two-dimensional dataset, four-dimensional Iris real dataset and scenic track retention point. The experiment results show that the method can automatically generate reasonable clustering division, and it is superior to traditional algorithms such as DBSCAN and k-means. Finally, based on the spatial clustering results of the trajectory stay points, the Getis-Ord Gi* hotspot analysis and mapping are conducted in ArcGIS software. The hot spots of different tourist attractions are classified according to the analysis results, and the distribution of popular scenic spots is determined with the actual heat of the scenic spots.

Approximate Clustering on Data Streams Using Discrete Cosine Transform

  • Yu, Feng;Oyana, Damalie;Hou, Wen-Chi;Wainer, Michael
    • Journal of Information Processing Systems
    • /
    • 제6권1호
    • /
    • pp.67-78
    • /
    • 2010
  • In this study, a clustering algorithm that uses DCT transformed data is presented. The algorithm is a grid density-based clustering algorithm that can identify clusters of arbitrary shape. Streaming data are transformed and reconstructed as needed for clustering. Experimental results show that DCT is able to approximate a data distribution efficiently using only a small number of coefficients and preserve the clusters well. The grid based clustering algorithm works well with DCT transformed data, demonstrating the viability of DCT for data stream clustering applications.