• 제목/요약/키워드: statistical clustering method

검색결과 231건 처리시간 0.02초

HMM을 기본으로한 집단화 방법의 불특정화자 단어 인식에 응용 (The Application of an HMM-based Clustering Method to Speaker Independent Word Recognition)

  • 임현;박순영;방만원
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.5-10
    • /
    • 1995
  • 본 논문에서는 단어를 발음하는 방법 이 각각 다른 화자들의 변이성을 잘 흡수하도록 복수개의 통계적인 모델들을 구성하기 위하여 HMM을 기본으로 하는 집단화 방법을 제시한다. 또한 개발된 방법으로부터 얻어진 HMM집단화된 모델들이 불특정화자 고립단어 인식에 응용된다. HMM 집단화 방법은 학습용 데이타로부터 어떤 경계치 보다 낮은 유사도를 갖는 관측열들을 분리하여 새로운 집단을 만들고 이 집단내에 있는 관측열들을 이용하여 새로운 모델들을 학습시키는 방법이다. 집단화 과정은 반복되는데 최고의 유사도를 갖는 모델의 집단에 관측열들을 재분배하고 집단내 관측열들이 변화하면 새로운 모델을 재 추정하여 기존의 모델을 대신한다. 그러므로 이 집단화 방법은 집단화 과정과 파라미터 추정이 일체화되어 기존의 패턴에 의한 집단화 방법보다 더욱 효율적이 된다. 실험결과 HMM에 의한 집단화 방법이 기존의 패턴에 의한 집단화 방법보다. 고립 숫자음 인식에 있어서 $1.43\%$의 인식률을 향상시킬 수 있었으며 단일 모델의 사용보다는 $2.08\%$의 인식률이 향상되었다.

  • PDF

K-평균 군집방법을 이요한 가중커널분류기 (Kernel Pattern Recognition using K-means Clustering Method)

  • 백장선;심정욱
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.447-455
    • /
    • 2000
  • 본 논문에서는 커널분류기에 요구되는 다량의 계산량과 자료저장공간을 감소시키도록 고안된 최적군집방법을 적용한 K-평균 가중커널분류기법이 제안되었다. 이 방법은 원래의 훈련표본보다 작은 수의 참고벡터들과 그들의 가중값을 들을 찾아 원래 커널분류 기준을 근사화하여 패턴을 인식하는 것이다. K-평균 가중커널분류기법은 가중파젠윈도우(WPW)분류기법을 개량한 것으로서 참고벡터들을 계산하기 위한 초기 부적절하게 군집된 관측값들을 최적으로 재군집화 함으로써 WPW기법의 단범을 극복하였다. 실제자료들에 제안된 방법을 적용한 결과 WPW분류기법보다 참고벡터들의 대표성과 자료축소면에서 월등히 향상된 결과를 확인하였다

  • PDF

효모 마이크로어레이 유전자 발현 데이터에 대한 유전자 선별 및 군집분석 (Gene Screening and Clustering of Yeast Microarray Gene Expression Data)

  • 이경아;김태훈;김재희
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1077-1094
    • /
    • 2011
  • 마이크로어레이 유전자 발현 데이터인 yeast cdc15에 대해 시계열 데이터의 특성을 반영한 푸리에 계수를 이용한 검정통계량과 FDR 다중비교법을 이용하여 차별화된 유전자를 선별한 후 선별된 유전자들에 대해 모형기반 군집방법, K-평균법, PAM, SOM, 계층적 Ward 군집방법과 Fuzzy 군집방법을 실시하였다. 군집방법에 따른 특성을 알아보고 군집화 결과와 내부유효성 측도로 연결성 측도, Dunn 지수와 실루엣 값을 살펴본다. 또한 GO분석을 통한 생물학적 의미도 파악해본다.

시계열자료 눈집방법의 비교연구 (Comparison Study of Time Series Clustering Methods)

  • 홍한움;박민정;조신섭
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1203-1214
    • /
    • 2009
  • 본 논문에서는 시계열자료의 군집분석을 위해 시간영역과 진동수영역에서의 군집 방법들을 소개하고 각 방법들의 장단점에 대해 논의하였다. KOSPI 200에 속한 15개 기업의 일별 주가자료률 이용한 비교분석 결과 비모수적인 방법인 웨이블릿을 이용한 군집분석이 가장 좋은 결과를 보였다. 비정상 시계열자료의 경우 차분 보다는 EMD를 이용하여 추세를 제거하는 방법이 스펙트럼 밀도함수를 이용한 군집분석에 더 효율적이었다.

Compositional data analysis by the square-root transformation: Application to NBA USG% data

  • Jeseok Lee;Byungwon Kim
    • Communications for Statistical Applications and Methods
    • /
    • 제31권3호
    • /
    • pp.349-363
    • /
    • 2024
  • Compositional data refers to data where the sum of the values of the components is a constant, hence the sample space is defined as a simplex making it impossible to apply statistical methods developed in the usual Euclidean vector space. A natural approach to overcome this restriction is to consider an appropriate transformation which moves the sample space onto the Euclidean space, and log-ratio typed transformations, such as the additive log-ratio (ALR), the centered log-ratio (CLR) and the isometric log-ratio (ILR) transformations, have been mostly conducted. However, in scenarios with sparsity, where certain components take on exact zero values, these log-ratio type transformations may not be effective. In this work, we mainly suggest an alternative transformation, that is the square-root transformation which moves the original sample space onto the directional space. We compare the square-root transformation with the log-ratio typed transformation by the simulation study and the real data example. In the real data example, we applied both types of transformations to the USG% data obtained from NBA, and used a density based clustering method, DBSCAN (density-based spatial clustering of applications with noise), to show the result.

혼합형 데이터에 대한 나무형 군집화 (Tree-structured Clustering for Mixed Data)

  • 양경숙;허명회
    • 응용통계연구
    • /
    • 제19권2호
    • /
    • pp.271-282
    • /
    • 2006
  • 본 논문에서는 범주형과 연속형 변수들이 혼합된 데이터에 적용할 수 있는 나무형 군집화 알고리즘을 제안하였다. 특히 혼합된 변수들이 공통의 의미를 갖도록 하기 위해 범주형 변수들을 전처리하는 방법을 고안하였다. 수치 예로서 SPSS의 신용(credit) 데이터와 독일신용자료(German credit data)에 알고리즘을 적용하고 그 결과를 검토하였다.

Bootstrapping and DNA Marker Mining of ILSTS098 Microsatellite Locus in Hanwoo Chromosome 2

  • Lee, Jea-Young;Kwon, Jae-Chul
    • Communications for Statistical Applications and Methods
    • /
    • 제13권3호
    • /
    • pp.525-535
    • /
    • 2006
  • We describe tests for detecting and locating quantitative traits loci (QTL) for traits in Hanwoo. Lod scores and a permutation test have been described. From results of a permutation test to detect QTL, we select major DNA markers of ILSTS098 microsatellite locus in Hanwoo chromosome 2 for further analysis. K-means clustering analysis applied to four traits and eight DNA markers in ILSTS098 resulted in three cluster groups. We conclude that the major DNA markers of BMS1167 microsatellite locus in Hanwoo chromosome 2 are markers 105bp, 113bp and 115bp. Finally, bootstrap testing method has been adapted to calculate confidence intervals and for finding major DNA Markers.

L1-penalized AUC-optimization with a surrogate loss

  • Hyungwoo Kim;Seung Jun Shin
    • Communications for Statistical Applications and Methods
    • /
    • 제31권2호
    • /
    • pp.203-212
    • /
    • 2024
  • The area under the ROC curve (AUC) is one of the most common criteria used to measure the overall performance of binary classifiers for a wide range of machine learning problems. In this article, we propose a L1-penalized AUC-optimization classifier that directly maximizes the AUC for high-dimensional data. Toward this, we employ the AUC-consistent surrogate loss function and combine the L1-norm penalty which enables us to estimate coefficients and select informative variables simultaneously. In addition, we develop an efficient optimization algorithm by adopting k-means clustering and proximal gradient descent which enjoys computational advantages to obtain solutions for the proposed method. Numerical simulation studies demonstrate that the proposed method shows promising performance in terms of prediction accuracy, variable selectivity, and computational costs.

계층 구조 클러스터링 알고리즘 설계 및 그 응용 (Design of Hierarchically Structured Clustering Algorithm and its Application)

  • 방영근;박하용;이철희
    • 산업기술연구
    • /
    • 제29권B호
    • /
    • pp.17-23
    • /
    • 2009
  • In many cases, clustering algorithms have been used for extracting and discovering useful information from non-linear data. They have made a great effect on performances of the systems dealing with non-linear data. Thus, this paper presents a new approach called hierarchically structured clustering algorithm, and it is applied to the prediction system for non-linear time series data. The proposed hierarchically structured clustering algorithm (called HCKA: Hierarchical Cross-correlation and K-means clustering Algorithms) in which the cross-correlation and k-means clustering algorithm are combined can accept the correlationship of non-linear time series as well as statistical characteristics. First, the optimal differences of data are generated, which can suitably reveal the characteristics of non-linear time series. Second, the generated differences are classified into the upper clusters for their predictors by the cross-correlation clustering algorithm, and then each classified differences are classified again into the lower fuzzy sets by the k-means clustering algorithm. As a result, the proposed method can give an efficient classification and improve the performance. Finally, we demonstrates the effectiveness of the proposed HCKA via typical time series examples.

  • PDF

계층적 군집분석방법을 활용한 건물 부하의 전력수요예측 (Load Forecasting using Hierarchical Clustering Method for Building)

  • 황혜미;이성희;박종배;박용기;손성용
    • 전기학회논문지
    • /
    • 제64권1호
    • /
    • pp.41-47
    • /
    • 2015
  • In recent years, energy supply cases to take advantage of EMS(Energy Management System) are increasing according to high interest of energy efficiency. The important factor for essential and economical EMS operation is the supply and demand plan the hourly power demand of building load using the hierarchical clustering method of variety statistical techniques, and use the real historical data of target load. Also the estimated results of study are obtained the reliability through separate tests of validity.