• 제목/요약/키워드: Clustering test

검색결과 377건 처리시간 0.024초

Unbounded Johnson 분포를 이용한 GARCH 수익률 모형의 적용 (GARCH Model with Conditional Return Distribution of Unbounded Johnson)

  • 정승현;오정준;김성곤
    • 응용통계연구
    • /
    • 제25권1호
    • /
    • pp.29-43
    • /
    • 2012
  • 주식, 환율 등과 같은 금융자료의 수익률의 분포는 정규분포에 비해 꼬리가 두껍고, 좌우 비대칭성을 보인다. 조건부수익률이 정규분포를 따른다고 가정한 GARCH 모형을 이용하여 VaR을 추정하였을 때, 이러한 비정규성 때문에 적절한 추정이 이루어지지 않고, VaR을 초과하는 손실의 발생과정에 군집(clustering)현상이 발생하는 문제점이 있다. 이러한 문제를 해결하기 위해, 본 논문에서는 조건부수익률의 분포로 unbounded Johnson 분포를 이용한 GARCH 모형을 이용하여 VaR을 추정한다. 또한, 조건부수익률이 각각 정규분포, Student-t 분포를 따르는 GARCH 모형의 경우와 비교하였다. 초과손실 발생과정 자료를 이용하여 실패율검정과 군집성검정을 통해 조건부수익률 분포로 unbounded-Johnson 분포를 사용하는 방법의 타당성을 살펴보았다. Unbounded Johnson 분포가 조건부수익률 분포로 주어지는 GARCH 모형의 경우는 과소, 과대추정을 하지 않고, 군집현상 또한 발생하지 않아 적절한 추정을 하고 있음을 확인하였다.

가변어휘 핵심어 검출 성능 향상을 위한 비핵심어 모델 (Non-Keyword Model for the Improvement of Vocabulary Independent Keyword Spotting System)

  • 김민제;이정철
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.319-324
    • /
    • 2006
  • 본 논문에서는 화자독립 가변어휘 핵심어 검출기의 성능을 개선하기 위하여 두 가지의 새로운 비핵심어 모델링 방법을 제안한다. 첫째는 K-means 알고리즘 기반 monophone 군집화 방법을 개선하기 위해 monophone을 state단위로 결정트리를 기반으로 군집화하여 비핵심어를 모델링하는 방법이다. 둘째는 single state multiple mixture 방법을 개선하기 위해 음절단위 multi-state multiple mixture 방법으로 모델링하는 방법이다. 실험에서 ETRI 표준 한국어 공통음성 단어 DB를 이용하여 트라이폰 모델을 훈련하였고, 훈련에 사용하지 않은 음성데이터를 이용하여 핵심어 검출closed 테스트를 수행하였다. 그리고 사무실 환경에서 4명의 화자가 각각 100문장씩 발성한 400문장의 음성데이터를 이용하여 100단어 핵심어 검출 open 테스트를 수행하였다. 실험 결과 결정트리기반 상태 군집화 방법이 기존의 K-means 알고리듬 기반 monophone clustering 방법보다 핵심어 검출 성능이 28%/29%(closed/open test) 향상되었다 그리고 음절단위 multi-state multiple mixture 방법이 비핵심어 전체를 single state 모델로 구성하는 방법보다 핵심어 검출 성능이 22%/2%(closed/open test) 향상됨으로써 본 논문에서 제안한 두 가지 알고리듬이 우수한 결과를 나타내었다

클러스터 중심 결정 방법에 따른 문서 클러스터링 성능 분석 (Analysis of Document Clustering Varing Cluster Centroid Decisions)

  • 오형진;변동률;이신원;박순철;정성종;안동언
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(3)
    • /
    • pp.99-102
    • /
    • 2002
  • K-means clustering algorithm is a very popular clustering technique, which is used in the field of information retrieval. In this paper, We deal with the problem of K-means Algorithm from the view of creating the centroids and suggest a method reflecting document feature and considering the context of each document to determine the new centroids during the process of forming new centroids. For experiment, We used the automatic document summarizer to summarize the Reuter21578 newslire test dataset and achieved 20% improved results to the recall metrics.

  • PDF

Major DNA Marker Mining of Hanwoo Chromosome 6 by Bootstrap Method

  • Lee, Jea-Young;Lee, Yong-Won
    • Communications for Statistical Applications and Methods
    • /
    • 제11권3호
    • /
    • pp.657-668
    • /
    • 2004
  • Permutation test has been applied for the QTL(quantitative trait loci) analysis and we selected a major locus. K -means clustering analysis, for the major DNA Marker mining of ILSTS035 microsatellite loci in Hanwoo chromosome 6, has been described. Finally, bootstrap testing method has been adapted to calculate confidence intervals and for finding major DNA Markers.

The Effect of Bias in Data Set for Conceptual Clustering Algorithms

  • Lee, Gye Sung
    • International journal of advanced smart convergence
    • /
    • 제8권3호
    • /
    • pp.46-53
    • /
    • 2019
  • When a partitioned structure is derived from a data set using a clustering algorithm, it is not unusual to have a different set of outcomes when it runs with a different order of data. This problem is known as the order bias problem. Many algorithms in machine learning fields try to achieve optimized result from available training and test data. Optimization is determined by an evaluation function which has also a tendency toward a certain goal. It is inevitable to have a tendency in the evaluation function both for efficiency and for consistency in the result. But its preference for a specific goal in the evaluation function may sometimes lead to unfavorable consequences in the final result of the clustering. To overcome this bias problems, the first clustering process proceeds to construct an initial partition. The initial partition is expected to imply the possible range in the number of final clusters. We apply the data centric sorting to the data objects in the clusters of the partition to rearrange them in a new order. The same clustering procedure is reapplied to the newly arranged data set to build a new partition. We have developed an algorithm that reduces bias effect resulting from how data is fed into the algorithm. Experiment results have been presented to show that the algorithm helps minimize the order bias effects. We have also shown that the current evaluation measure used for the clustering algorithm is biased toward favoring a smaller number of clusters and a larger size of clusters as a result.

군집 알고리즘을 이용한 순차적 이상치 탐지법 (A sequential outlier detecting method using a clustering algorithm)

  • 서한손;윤민
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.699-706
    • /
    • 2016
  • 검정절차가 생략된 이상치 탐지법은 구조적으로 수렁효과나 가면효과에 취약하기 때문에 다수의 이상치를 제대로 탐지하지 못할 때가 있다. 본 연구에서는 군집화에 의하여 구분된 소수 관찰치군을 이상치로 판정하는 방법에 보완될 검정절차를 다룬다. 이에 관련된 일반적인 방법은 탐지된 이상치 후보군의 개별적인 관찰치에 대해 다양한 종류의 t-검정을 수행하는 것이다. 본 연구에서는 이상치 후보군에 대한 검정을 수행하고 군집나무의 절단기준을 변경시켜 새로운 이상치군을 탐색해 나가는 순차적인 방법을 제안한다. 예제와 모의실험을 통해 제시된 방법과 기존의 방법들을 비교한다.

정보기준과 다중 중심점을 활용한 클러스터별 예측 (Prediction on Clusters by using Information Criterion and Multiple Seeds)

  • 조영희;이계성
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권6호
    • /
    • pp.145-152
    • /
    • 2010
  • 본 연구에서는 시계열 자료를 베이지안 정보기준을 통해 클러스터링 한다. 보다 안정적인 클러스터를 생산하기 위해 다중 중심점을 모델링한 후 이를 이용하여 클러스터를 생성시킨다. 대상 시계열 자료에 대해 예측할 경우 클러스터에 속한 시계열 자료 중 가장 유사한 시계열 자료를 선택하여 모델링한다. 모델로부터 마코프 규칙을 유도해 내고 이 규칙을 이용해 예측정확도를 측정한다. 시계열 자료를 단독으로 모델링한 후 예측한 결과보다 클러스터에 속한 유사시계열 모델링을 통한 예측정확도가 좀 더 높았음을 확인하였다.

Clustering Techniques for XML Data Using Data Mining

  • Kim, Chun-Sik
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 2005년도 e-Biz World Conference 2005
    • /
    • pp.189-194
    • /
    • 2005
  • Many studies have been conducted to classify documents, and to extract useful information from documents. However, most search engines have used a keyword based method. This method does not search and classify documents effectively. This paper identifies structures of XML document based on the fact that the XML document has a structural document using a set theory, which is suggested by Broder, and attempts a test for clustering XML document by applying a k-nearest neighbor algorithm. In addition, this study investigates the effectiveness of the clustering technique for large scaled data, compared to the existing bitmap method, by applying a test, which reveals a difference between the clause based documents instead of using a type of vector, in order to measure the similarity between the existing methods.

  • PDF

BASIC 언어를 사용한 Hill-Sliding 무감독 분류법 Algorithm 개발 (Development of the Hill-Sliding Clustering Algorithm Using BASIC Language)

  • 鄭夢炫;崔圭弘;朴景允;Park, J.Kyoungyoon
    • 대한원격탐사학회지
    • /
    • 제1권1호
    • /
    • pp.89-97
    • /
    • 1985
  • Hill-Sliding Clustering이라는 다변량 자료의 무감독 분류 방법을 Apple II personal computer의 BASIC언어를 사용한 Algorithm으로 개발하였다. 이 Algorithm으로 다변량 multimode를 갖는 정규 분포 자료에서 사전 지식없이 자료를 집단화하여 구분해 낼 수 있게 되 었다. 한국 연안 지역의 Landsat(지구 자원 탐사 위성)의 다중, Spectrum 영상 자료에 적용한 시 험 결과, 매우 고무적 결론을 얻었다.

비지도학습 데이터의 정확성 측정을 위한 클러스터별 분류 평가 예측 모델에 대한 연구 (A Study on Classification Evaluation Prediction Model by Cluster for Accuracy Measurement of Unsupervised Learning Data)

  • 정세훈;김종찬;김치용;유강수;심춘보
    • 한국멀티미디어학회논문지
    • /
    • 제21권7호
    • /
    • pp.779-786
    • /
    • 2018
  • In this paper, we are applied a nerve network to allow for the reflection of data learning methods in their overall forms by using cluster data rather than data learning by the stages and then selected a nerve network model and analyzed its variables through learning by the cluster. The CkLR algorithm was proposed to analyze the reaction variables of clustering outcomes through an approach to the initialization of K-means clustering and build a model to assess the prediction rate of clustering and the accuracy rate of prediction in case of new data inputs. The performance evaluation results show that the accuracy rate of test data by the class was over 92%, which was the mean accuracy rate of the entire test data, thus confirming the advantages of a specialized structure found in the proposed learning nerve network by the class.