• 제목/요약/키워드: Non-clustering

검색결과 394건 처리시간 0.028초

Geodesic Clustering for Covariance Matrices

  • Lee, Haesung;Ahn, Hyun-Jung;Kim, Kwang-Rae;Kim, Peter T.;Koo, Ja-Yong
    • Communications for Statistical Applications and Methods
    • /
    • 제22권4호
    • /
    • pp.321-331
    • /
    • 2015
  • The K-means clustering algorithm is a popular and widely used method for clustering. For covariance matrices, we consider a geodesic clustering algorithm based on the K-means clustering framework in consideration of symmetric positive definite matrices as a Riemannian (non-Euclidean) manifold. This paper considers a geodesic clustering algorithm for data consisting of symmetric positive definite (SPD) matrices, utilizing the Riemannian geometric structure for SPD matrices and the idea of a K-means clustering algorithm. A K-means clustering algorithm is divided into two main steps for which we need a dissimilarity measure between two matrix data points and a way of computing centroids for observations in clusters. In order to use the Riemannian structure, we adopt the geodesic distance and the intrinsic mean for symmetric positive definite matrices. We demonstrate our proposed method through simulations as well as application to real financial data.

단세포 RNA 시퀀싱 데이터를 위한 가중변수 스펙트럼 군집화 기법 (One-step spectral clustering of weighted variables on single-cell RNA-sequencing data)

  • 박민영;박세영
    • 응용통계연구
    • /
    • 제33권4호
    • /
    • pp.511-526
    • /
    • 2020
  • 단세포 RNA 시퀀싱 데이터(single-cell RNA-sequencing data, 이하 단세포 RNA 데이터)는 세포 조직으로부터 추출한 각 단세포 별 유전자의 신호를 기록한 데이터로, 세포 간의 이질성을 파악하는 것을 주요 목적으로 한다. 그러나 단세포 RNA 데이터는 샘플링 및 기술적인 한계로 인해 결측비율이 높고, 노이즈가 크다. 이러한 이유 때문에 기존의 군집화 방법을 적용하는 데에 한계가 존재한다. 본 논문에서는 단세포 RNA 데이터 분석에서 모티브를 얻어 스펙트럼 군집화(spectral clustering) 기반의 방법을 제안한다. 특히 유사도 행렬(similarity matrix) 계산에서 유전자 별로 가중치를 부여하여 기존의 단세포 데이터 분석 방법과 차별화하였다. 제안하는 군집화 방법은 유전자별 가중치를 부여함과 동시에 세포를 군집화한다. 군집화는 반복 알고리즘을 통해 제안하는 비볼록식(non-convex optimization)을 풀어 진행한다. 또한 실데이터 적용과 시뮬레이션을 통해 제안하는 군집화 방법이 기존의 방법보다 군집을 잘 구분하는 것을 보인다.

단어-역문서 빈도 벡터화를 통한 한국 걸그룹의 음반 메타 정보 군집화 (Clustering Meta Information of K-Pop Girl Groups Using Term Frequency-inverse Document Frequency Vectorization)

  • 현준서;조재혁
    • Journal of Platform Technology
    • /
    • 제11권3호
    • /
    • pp.12-23
    • /
    • 2023
  • 2020 년대 K-Pop 시장은 보이그룹보다 걸그룹이, 3 세대보다 4 세대가 전반에서 주목받았다. 해당 논문은 걸그룹의 세대가 바뀌기 시작했는지 알아보고자 가사 군집화에 대한 방법과 결과를 제시한다. 2013 년부터 2022 년까지 발표된 47 개 그룹의 1469 곡에 대한 메타정보를 수집하여 가사 정보와 가사 외 메타정보로 분류하여 각각 수치화했다. 가사 정보는 선행연구를 기반으로 단어역문서 빈도 벡터화를 적용한 뒤 상위 벡터 값만 선정하는 전처리를 하였다. 가사 외 메타정보는 가사 정보만 사용했을 때의 편향성을 줄이고 더 좋은 군집화 결과를 보여주기 위해 One-Hot Encoding 으로 전처리하여 적용했다. 전처리된 데이터에 대한 군집화 성능은 Spherical K-Means 의 Silhouette Coefficient, Calinski-Harabasz Score 가 Hierarchical Clustering 에 비해 각각 129%, 45% 더 높았다. 본 연구는 한국 대중가요 발전사와 걸그룹 가사 분석 및 군집화 연구에 기여할 수 있을 것으로 기대된다.

  • PDF

가정방문을 통한 일 광역시 성인의 대사증후군 유병률 및 위험요인 조사 (Prevalence Rates and Risk Factors of Metabolic Disorder in Urban Adults assessed in Home Visits)

  • 김종임
    • 가정∙방문간호학회지
    • /
    • 제16권1호
    • /
    • pp.12-21
    • /
    • 2009
  • Purpose: The survey-based study aimed to determine the distribution and clustering tendency of metabolic syndrome risk factors in urban residents, and cluster odds ratios. Methods: Cluster sampling involved 827 urban participants and analysis of the collected data. Results: Regarding the prevalence of metabolic syndrome risk factors used for diagnosis, abdominal obesity was higher in women(69.5%) than in men(34.3%), high blood pressure was higher in men(57%) than in women(46.5%), and blood sugar was higher in men(6.9%) than in women(5.7%). Clustering increased with increasing body mass index(BMI), weight:height ratio(W/Ht) and abdominal obesity Risk factors for females were 1.7 times higher than for males. Participants with a family history of metabolic syndrome displayed related risk factors 1.5 times more than participants without a family history. Participants having a BMI ranking them as obese were 9.5 times more likely to display metabolic syndrome risk factors than non-obese participants. Obese participants were 20 times more likely to display risk factors than non-obese participants. Conclusion: BMI, W/Ht and abdominal obesity correlate with clustering of metabolic syndrome risk factors. The risk is increased by smoking and family history. Exercise weight control and non-smoking are recommended for comprehensive management of clustering of metabolic syndrome risk factors.

  • PDF

레이더 데이터 분석을 위한 Fuzzy Logic 기반 클러스터링 기법에 관한 연구 (A Study on Fuzzy Logic based Clustering Method for Radar Data Analysis)

  • 이한수;김은경;김성신
    • 한국지능시스템학회논문지
    • /
    • 제25권3호
    • /
    • pp.217-222
    • /
    • 2015
  • 클러스터링 기법은 탐색적 자료 분석 기법으로 알려진 중요한 데이터마이닝 기법 중 하나로서 패턴 인식, 원격 탐사 등의 분야에 사용되고 있다. 이 방법을 이용하여 데이터의 기본 구조를 추출하고, 개체의 군집화 혹은 군집의 계층을 조직한다. 기상 레이더는 대기 중에 존재하는 물체에서 반사되는 신호를 이용하여 관측을 수행하고, 해당 좌표에 데이터를 저장하는 원리로 동작하는데, 이를 분석하기 위해서는 흩어져있는 레이더 데이터를 유사도를 바탕으로 강수에코와 비강수에코를 구분하여 군집화 할 필요가 있다. 따라서 본 논문에서는 클러스터링 기법을 레이더 데이터에 적용하는 방법에 대한 연구를 수행하였다. 또한, 강수에코와 비강수에코가 인접해 있을 경우 발생할 수 있는 문제를 해결하기 위하여 퍼지 로직과 계층적 클러스터링 기법을 접목하여 유사도를 판별하는 방법에 대한 연구를 수행하였다. 실제 사례를 바탕으로 본 논문에서 제안한 클러스터링 기법을 적용한 결과, 강수에코와 비강수에코가 인접해 있는 경우 기존 기법보다 좋은 결과를 도출하는 것을 확인할 수 있었다.

Repeated Clustering to Improve the Discrimination of Typical Daily Load Profile

  • Kim, Young-Il;Ko, Jong-Min;Song, Jae-Ju;Choi, Hoon
    • Journal of Electrical Engineering and Technology
    • /
    • 제7권3호
    • /
    • pp.281-287
    • /
    • 2012
  • The customer load profile clustering method is used to make the TDLP (Typical Daily Load Profile) to estimate the quarter hourly load profile of non-AMR (Automatic Meter Reading) customers. This study examines how the repeated clustering method improves the ability to discriminate among the TDLPs of each cluster. The k-means algorithm is a well-known clustering technology in data mining. Repeated clustering groups the cluster into sub-clusters with the k-means algorithm and chooses the sub-cluster that has the maximum average error and repeats clustering until the final cluster count is satisfied.

Damage identification for high-speed railway truss arch bridge using fuzzy clustering analysis

  • Cao, Bao-Ya;Ding, You-Liang;Zhao, Han-Wei;Song, Yong-Sheng
    • Structural Monitoring and Maintenance
    • /
    • 제3권4호
    • /
    • pp.315-333
    • /
    • 2016
  • This study aims to perform damage identification for Da-Sheng-Guan (DSG) high-speed railway truss arch bridge using fuzzy clustering analysis. Firstly, structural health monitoring (SHM) system is established for the DSG Bridge. Long-term field monitoring strain data in 8 different cases caused by high-speed trains are taken as classification reference for other unknown cases. And finite element model (FEM) of DSG Bridge is established to simulate damage cases of the bridge. Then, effectiveness of one fuzzy clustering analysis method named transitive closure method and FEM results are verified using the monitoring strain data. Three standardization methods at the first step of fuzzy clustering transitive closure method are compared: extreme difference method, maximum method and non-standard method. At last, the fuzzy clustering method is taken to identify damage with different degrees and different locations. The results show that: non-standard method is the best for the data with the same dimension at the first step of fuzzy clustering analysis. Clustering result is the best when 8 carriage and 16 carriage train in the same line are in a category. For DSG Bridge, the damage is identified when the strain mode change caused by damage is more significant than it caused by different carriages. The corresponding critical damage degree called damage threshold varies with damage location and reduces with the increase of damage locations.

가변어휘 핵심어 검출 성능 향상을 위한 비핵심어 모델 (Non-Keyword Model for the Improvement of Vocabulary Independent Keyword Spotting System)

  • 김민제;이정철
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.319-324
    • /
    • 2006
  • 본 논문에서는 화자독립 가변어휘 핵심어 검출기의 성능을 개선하기 위하여 두 가지의 새로운 비핵심어 모델링 방법을 제안한다. 첫째는 K-means 알고리즘 기반 monophone 군집화 방법을 개선하기 위해 monophone을 state단위로 결정트리를 기반으로 군집화하여 비핵심어를 모델링하는 방법이다. 둘째는 single state multiple mixture 방법을 개선하기 위해 음절단위 multi-state multiple mixture 방법으로 모델링하는 방법이다. 실험에서 ETRI 표준 한국어 공통음성 단어 DB를 이용하여 트라이폰 모델을 훈련하였고, 훈련에 사용하지 않은 음성데이터를 이용하여 핵심어 검출closed 테스트를 수행하였다. 그리고 사무실 환경에서 4명의 화자가 각각 100문장씩 발성한 400문장의 음성데이터를 이용하여 100단어 핵심어 검출 open 테스트를 수행하였다. 실험 결과 결정트리기반 상태 군집화 방법이 기존의 K-means 알고리듬 기반 monophone clustering 방법보다 핵심어 검출 성능이 28%/29%(closed/open test) 향상되었다 그리고 음절단위 multi-state multiple mixture 방법이 비핵심어 전체를 single state 모델로 구성하는 방법보다 핵심어 검출 성능이 22%/2%(closed/open test) 향상됨으로써 본 논문에서 제안한 두 가지 알고리듬이 우수한 결과를 나타내었다

Performance evaluation of principal component analysis for clustering problems

  • Kim, Jae-Hwan;Yang, Tae-Min;Kim, Jung-Tae
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제40권8호
    • /
    • pp.726-732
    • /
    • 2016
  • Clustering analysis is widely used in data mining to classify data into categories on the basis of their similarity. Through the decades, many clustering techniques have been developed, including hierarchical and non-hierarchical algorithms. In gene profiling problems, because of the large number of genes and the complexity of biological networks, dimensionality reduction techniques are critical exploratory tools for clustering analysis of gene expression data. Recently, clustering analysis of applying dimensionality reduction techniques was also proposed. PCA (principal component analysis) is a popular methd of dimensionality reduction techniques for clustering problems. However, previous studies analyzed the performance of PCA for only full data sets. In this paper, to specifically and robustly evaluate the performance of PCA for clustering analysis, we exploit an improved FCBF (fast correlation-based filter) of feature selection methods for supervised clustering data sets, and employ two well-known clustering algorithms: k-means and k-medoids. Computational results from supervised data sets show that the performance of PCA is very poor for large-scale features.

Cluster Analysis of Incomplete Microarray Data with Fuzzy Clustering

  • Kim, Dae-Won
    • 한국지능시스템학회논문지
    • /
    • 제17권3호
    • /
    • pp.397-402
    • /
    • 2007
  • In this paper, we present a method for clustering incomplete Microarray data using alternating optimization in which a prior imputation method is not required. To reduce the influence of imputation in preprocessing, we take an alternative optimization approach to find better estimates during iterative clustering process. This method improves the estimates of missing values by exploiting the cluster Information such as cluster centroids and all available non-missing values in each iteration. The clustering results of the proposed method are more significantly relevant to the biological gene annotations than those of other methods, indicating its effectiveness and potential for clustering incomplete gene expression data.