• 제목/요약/키워드: supervised clustering

검색결과 112건 처리시간 0.189초

SUFFICIENT HMM 통계치에 기반한 UNSUPERVISED 화자 적응 (Unsupervised Speaker Adaptation Based on Sufficient HMM Statistics)

  • 고봉옥;김종교
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.127-130
    • /
    • 2003
  • This paper describes an efficient method for unsupervised speaker adaptation. This method is based on selecting a subset of speakers who are acoustically close to a test speaker, and calculating adapted model parameters according to the previously stored sufficient HMM statistics of the selected speakers' data. In this method, only a few unsupervised test speaker's data are required for the adaptation. Also, by using the sufficient HMM statistics of the selected speakers' data, a quick adaptation can be done. Compared with a pre-clustering method, the proposed method can obtain a more optimal speaker cluster because the clustering result is determined according to test speaker's data on-line. Experiment results show that the proposed method attains better improvement than MLLR from the speaker independent model. Moreover the proposed method utilizes only one unsupervised sentence utterance, while MLLR usually utilizes more than ten supervised sentence utterances.

  • PDF

유전자 온톨로지를 활용한 클러스터링 성능 향상 기법 (Improving Clustering Performance Using Gene Ontology)

  • 고송;강보영;김대원
    • 한국지능시스템학회논문지
    • /
    • 제19권6호
    • /
    • pp.802-808
    • /
    • 2009
  • 마이크로어레이 데이터의 클러스터링 성능을 향상시키기 위하여 유전자 온톨로지(GO)를 활용하는 연구가 최근 진행 중에 있다. 그 중 Biological Process(BP) GO를 활용한 Kustra et al.의 연구가 2006년에 소개된 바 있다. 본 연구는 Kustra et al.의 연구를 확장하여 일반적이고 실질적인 GO의 활용 방안을 위한 분석 결과를 제시하기 위하여 다양한 활용 방법을 적용한다. (1) GO의 거리를 측정하기 위하여 Lin et al, Resnik et al과 Jiang et al의 방법을 적용하였으며, (2) BP를 포함한 세 가지 GO 유형의 구조에 대해 적용하여 각 방법에 따른 성능 향상 정도를 분석한다. 각 방법에 대한 성능 분석 비교를 위하여 효모 유전자를 관측하여 형성한 데이터를 활용한다. 실험 결과를 통하여 GO 정보를 클러스터링에 적용하면 전반적으로 성능 향상을 유도하지만, 활용 방법에 따라서 성능 개선 정도의 차이가 발생한다. 그 중 Resnik의 거리 측정 척도와 BP GO를 활용하였을 때, 가장 개선된 성능을 유도함을 볼 수 있다.

폐암환자 생존분석에 대한 TNM 병기 군집분석 평가 (Accessing the Clustering of TNM Stages on Survival Analysis of Lung Cancer Patient)

  • 최철웅;김경백
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.126-133
    • /
    • 2020
  • 병원에서는 폐암 환자의 최종병기를 기준으로 치료방침 및 예후를 결정하고 있다. 폐암 환자의 최종병기는 미국 암 연합회(AJCC)에서 제공하는 TNM 분류방법을 바탕으로 7단계로 나누어 진단된다. 이런 접근 방법은 환자의 치료, 예후 및 생존일 예측 등 다양한 분야에서 사용하기에 한계가 있다. 이 논문에서는 데이터 과학적 접근을 통해 T, N, M병기를 사용하여 생존일수별 환자집단을 나눌 수 있는지 알아보기 위해 비지도 학습 중 하나인 군집분석(Clustering)을 진행한 후 군집분석의 결과를 Cox비례위험모형을 사용하여 비교 하였다. 환자들의 최종병기를 사용하지 않고, T, N, M병기 정보만 사용하였을 때 생존시간 예측정확도가 더 높은 것을 확인하였다. 특히, AJCC의 최종병기 7단계와 같이 군집의 개수를 7로 설정했을 때보다 군집의 수를 축소하거나 확장했을 때 T, N, M 병기 군집분석을 통한 생존시간 예측정확도가 향상하는 것을 확인하였다.

The classified method for overlapping data

  • Kruatrachue, Boontee;Warunsin, Kulwarun;Siriboon, Kritawan
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.2037-2040
    • /
    • 2004
  • In this paper we introduce a new prototype based classifiers for overlapping data, where training pattern can be overlap on the feature space. The proposed classifier is based on the prototype from neural network classifier (NNC)[1] for overlap data. The method automatically chooses the initial center and two radiuses for each class. The center is used as a mean representative of training data for each class. The unclassified pattern is classified by measure distance from the class center. If the distance is in the lower (shorter radius) the unknown pattern has the high percentage of being in this class. If the distance is between the lower and upper (further radius), the pattern has the probability of being in this class or others. But if the distance is outside the upper, the pattern is not in this class. We borrow the words upper and lower from the rough set to represent the region of certainty [3]. The training algorithm to find number of cluster and their parameters (center, lower, upper) is presented. The clustering result is tested using patterns from Thai handwritten letter and the clustering result is very similar to human eyes clustering.

  • PDF

사전정보를 활용한 앙상블 클러스터링 알고리즘 (An Ensemble Clustering Algorithm based on a Prior Knowledge)

  • 고송;김대원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권2호
    • /
    • pp.109-121
    • /
    • 2009
  • 사전정보는 클러스터링 성능을 유도할 수 있는 요인이지만, 활용 방법에 따라 차이는 발생한다. 특히, 사전정보를 초기 중심으로 활용할 때, 사전정보 간 유사도에 대해 고려하는 것이 필요하다. 레이블이 같더라도 낮은 유사도를 갖는 사전정보로 인해 초기 중심 설정 시 문제가 발생할 수 있기 때문에, 이들을 구분하여 활용하는 방법이 필요하다. 따라서 본 논문은 낮은 유사도를 갖는 사전정보를 구분하여 문제를 해결하는 방법을 제시한다. 또한 유사도에 의해 구분된 사전정보는 다양하게 활용함으로써 생성되는 다양한 클러스터링 결과를 연관규칙에 기반하여 앙상블 함으로써 통합된 하나의 분석 결과를 도출하여 클러스터링 분석 성능을 더욱 개선시킬 수 있다.

앙상블 모델 기반의 기계 고장 예측 방법 (An Ensemble Model for Machine Failure Prediction)

  • 천강민;양재경
    • 산업경영시스템학회지
    • /
    • 제43권1호
    • /
    • pp.123-131
    • /
    • 2020
  • There have been a lot of studies in the past for the method of predicting the failure of a machine, and recently, a lot of researches and applications have been generated to diagnose the physical condition of the machine and the parts and to calculate the remaining life through various methods. Survival models are also used to predict plant failures based on past anomaly cycles. In particular, special machine that reflect the fluid flow and process characteristics of chemical plants are connected to hundreds or thousands of sensors, so there are not many factors that need to be considered, such as process and material data as well as application of derivative variables. In this paper, the data were preprocessed through time series anomaly detection based on unsupervised learning to predict the abnormalities of these special machine. Next, clustering results reflecting clustering-based data characteristics were applied to produce additional variables, and a learning data set was created based on the history of past facility abnormalities. Finally, the prediction methodology based on the supervised learning algorithm was applied, and the model update was confirmed to improve the accuracy of the prediction of facility failure. Through this, it is expected to improve the efficiency of facility operation by flexibly replacing the maintenance time and parts supply and demand by predicting abnormalities of machine and extracting key factors.

새로운 지도 경쟁 학습 알고리즘의 개발과 전력계통 과도안정도 해석에의 적용 (A New Supervised Competitive Learning Algorithm and Its Application to Power System Transient Stability Analysis)

  • 박영문;조홍식;김광원
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1995년도 하계학술대회 논문집 B
    • /
    • pp.591-593
    • /
    • 1995
  • Artificial neural network based pattern recognition method is one of the most probable candidate for on-line power system transient stability analysis. Especially, Kohonen layer is an adequate neural network for the purpose. Each node of Kehonen layer competes on the basis of which of them has its clustering center closest to an input vector. This paper discusses Kohonen's LVQ(Learning Victor Quantization) and points out a defection of the algorithm when applied to the transient stability analysis. Only the clustering centers located near the decision boundary of the stability region is needed for the stability criterion and the centers far from the decision boundary are redundant. This paper presents a new algorithm ratted boundary searching algorithm II which assigns only the points that are near the boundary in an input space to nodes or Kohonen layer as their clustering centers. This algorithm is demonstrated with satisfaction using 4-generator 6-bus sample power system.

  • PDF

침입 탐지를 위한 효율적인 퍼지 분류 규칙 생성 (Generation of Efficient Fuzzy Classification Rules for Intrusion Detection)

  • 김성은;길아라;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권6호
    • /
    • pp.519-529
    • /
    • 2007
  • 본 논문에서는 효율적인 침입 탐지를 위해 퍼지 규칙을 이용하는 방법을 제안한다. 제안한 방법은 퍼지 의사결정 트리의 생성을 통해 침입 탐지를 위한 퍼지 규칙을 생성하고 진화 알고리즘을 사용하여 최적화한다. 진화 알고리즘의 효율적인 수행을 위해 지도 군집화를 사용하여 퍼지 규칙을 위한 초기 소속함수를 생성한다. 제안한 방법의 진화 알고리즘은 적합도 평가시 퍼지 규칙(퍼지 의사결정 트리)의 성능과 복잡성을 고려하여 평가한다. 또한 데이타 분할을 이용한 평가와 퍼지 의사결정 트리의 생성과 평가 시간을 줄이는 방법으로 소속정도 캐싱과 zero-pruning을 사용한다. 제안한 방법의 성능 평가를 위해 KDD'99 Cup의 침입 탐지 데이타로 실험하여 기존 방법보다 성능이 향상된 것을 확인하였다. 특히, KDD'99 Cup 우승자에 비해 정확도가 1.54% 향상되고 탐지 비용은 20.8% 절감되었다.

원격탐사 영상의 감독분류를 위한 개선된 하이브리드 c-Means 군집화 알고리즘 (Improved Algorithm of Hybrid c-Means Clustering for Supervised Classification of Remote Sensing Images)

  • 전영준;김진일
    • 융합신호처리학회논문지
    • /
    • 제8권3호
    • /
    • pp.185-191
    • /
    • 2007
  • 윈격탐사 영상은 파장대에 따라 나누어진 여러 개의 밴드로부터 수집된 다중분광 이미지 데이터이다. 위성영상 분류는 원격탐사 처리 과정에 있어서 가장 중요한 분석 기법으로써 영상을 구성하는 각각의 화소들 중 비슷한 분광 특성을 갖는 것끼리 집단화시켜주는 방법이다. 본 논문에서는 PFCM 알고리즘을 응용한 원격탐사 영상의 패턴분류 방법에 관하여 연구하였다. PFCM 알고리즘은 각 데이터와 특정 클러스터 중심과의 거리에 대한 소속정도를 고려한 FCM 클러스터링 알고리즘과 데이터와 해당 클러스터 중심과의 거리에 의존하여 패턴의 전형성(typicality)을 고려한 PCM 클러스터링 알고리즘을 결합한 방법이다. 본 연구에서는 분류 항목별 학습데이터를 선정한 후 이를 PFCM 알고리즘에 적용하여 감독분류를 수행하였다. Landsat TM과 IKONOS 원격탐사 위성영상을 이용하여 PFCM 알고리즘의 적용성을 검증하였다. PFCM 알고리즘을 이용한 감독분류는 PCM, FCM 분류방법보다 좋은 결과를 보여주었으며, 또한 전통적인 분류방법인 최대우도분류보다도 정확도가 더 높은 결과를 보여주었다.

  • PDF

Recognition of damage pattern and evolution in CFRP cable with a novel bonding anchorage by acoustic emission

  • Wu, Jingyu;Lan, Chengming;Xian, Guijun;Li, Hui
    • Smart Structures and Systems
    • /
    • 제21권4호
    • /
    • pp.421-433
    • /
    • 2018
  • Carbon fiber reinforced polymer (CFRP) cable has good mechanical properties and corrosion resistance. However, the anchorage of CFRP cable is a big issue due to the anisotropic property of CFRP material. In this article, a high-efficient bonding anchorage with novel configuration is developed for CFRP cables. The acoustic emission (AE) technique is employed to evaluate the performance of anchorage in the fatigue test and post-fatigue ultimate bearing capacity test. The obtained AE signals are analyzed by using a combination of unsupervised K-means clustering and supervised K-nearest neighbor classification (K-NN) for quantifying the performance of the anchorage and damage evolutions. An AE feature vector (including both frequency and energy characteristics of AE signal) for clustering analysis is proposed and the under-sampling approaches are employed to regress the influence of the imbalanced classes distribution in AE dataset for improving clustering quality. The results indicate that four classes exist in AE dataset, which correspond to the shear deformation of potting compound, matrix cracking, fiber-matrix debonding and fiber fracture in CFRP bars. The AE intensity released by the deformation of potting compound is very slight during the whole loading process and no obvious premature damage observed in CFRP bars aroused by anchorage effect at relative low stress level, indicating the anchorage configuration in this study is reliable.