• Title/Summary/Keyword: 패턴-혼합 모델

Search Result 59, Processing Time 0.031 seconds

Pattern-Mixture Model of the Cox Proportional Hazards Model with Missing Binary Covariates (결측이 있는 이산형 공변량에 대한 Cox비례위험모형의 패턴-혼합 모델)

  • Youk, Tae-Mi;Song, Ju-Won
    • The Korean Journal of Applied Statistics
    • /
    • v.25 no.2
    • /
    • pp.279-291
    • /
    • 2012
  • When fitting a Cox proportional hazards model with missing covariates, it is inefficient to exclude observations with missing values in the analysis. Furthermore, if the missing-data mechanism is not Missing Completely At Random(MCAR), it may lead to biased parameter estimation. Many approaches have been suggested to handle the Cox proportional hazards model when covariates are sometimes missing, but they are based on the selection model. This paper suggest an approach to handle Cox proportional hazards model with missing covariates by using the pattern-mixture model (Little, 1993). The pattern-mixture model is expressed by the joint distribution of survival time and the missing-data mechanism. In the pattern-mixture model, many models can be considered by setting up various restrictions, and different results under various restrictions indicate the sensitivity of the model due to missing covariates. A simulation study was conducted to show the sensitivity of parameter estimation under different restrictions in a pattern-mixture model. The proposed approach was also applied to mouse leukemia data.

POS-Tagging Model Combining Rules and Word Probability (규칙과 어절 확률을 이용한 혼합 품사 태깅 모델)

  • Hwang, Myeong-Jin;Kang, Mi-Young;Kwon, Hyuk-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.11-15
    • /
    • 2006
  • 본 논문은, 긍정적 가중치와 부정적 가중치를 통해 표현되는 규칙에 기반을 둔 품사 태깅 모델과, 형태 소 unigram 정보와 어절 내의 카테고리 패턴에 기반하여 어절 확률을 추정하는 품사 태깅 모델의 장점을 취하고 단점을 보완할 수 있는 혼합 품사 태깅 모델을 제안한다. 이 혼합 모델은 먼저, 규칙에 기반한 품사 태깅을 적용한 후, 규칙이 해결하지 못한 결과에 대해서 통계적인 기법을 사용하여 품사 태깅을 한다. 본 연구는 어절 내 카테고리 패턴정보에 따른 파라미터 set과 형태소 unigram만을 이용해 어절 확률을 계산해 내므로 다른 통계기반 접근방법에서와는 달리 작은 크기의 통계사전만을 필요로 하며, 카테고리 패턴 정보를 사용함으로써 통계기반 접근 방법의 가장 큰 문제점인 data sparseness 문제 또한 줄일 수 있다는 이점이 있다. 특히, 본 논문에서 사용할 통계 모델은 어절 확률에 기반을 두고 있기 때문에 한국어의 특성을 잘 반영할 수 있다. 본 논문에서 제안한 혼합 모델은 규칙이 적용된 후에도 후보열이 둘 이상 남아 오류로 반환되었던 어절 중 24%를 개선한다.

  • PDF

A development of nonstationary rainfall frequency analysis model based on mixture distribution (혼합분포 기반 비정상성 강우 빈도해석 기법 개발)

  • Choi, Hong-Geun;Kwon, Hyun-Han;Park, Moon-Hyung
    • Journal of Korea Water Resources Association
    • /
    • v.52 no.11
    • /
    • pp.895-904
    • /
    • 2019
  • It has been well recognized that extreme rainfall process often features a nonstationary behavior, which may not be effectively modeled within a stationary frequency modeling framework. Moreover, extreme rainfall events are often described by a two (or more)-component mixture distribution which can be attributed to the distinct rainfall patterns associated with summer monsoons and tropical cyclones. In this perspective, this study explores a Mixture Distribution based Nonstationary Frequency (MDNF) model in a changing rainfall patterns within a Bayesian framework. Subsequently, the MDNF model can effectively account for the time-varying moments (e.g. location parameter) of the Gumbel distribution in a two (or more)-component mixture distribution. The performance of the MDNF model was evaluated by various statistical measures, compared with frequency model based on both stationary and nonstationary mixture distributions. A comparison of the results highlighted that the MDNF model substantially improved the overall performance, confirming the assumption that the extreme rainfall patterns might have a distinct nonstationarity.

Gaussian Mixture Model for Data Clustering using Fuzzy Entropy Measures (데이터 클러스터링을 위한 가우시안 혼합 모델을 이용할 퍼지 정보량 측정)

  • 임채주;최병인;이정훈
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.10a
    • /
    • pp.335-338
    • /
    • 2004
  • 본 논문에서는 기존의 정보량(Entropy) 기반 클러스터링 기법을 향상시키기 위한 방법으로서 퍼지 정보량을 이용하였다 가우시안 혼합 모델을 이용하면, 프로토타입의 목적 함수를 이용하는 클러스터링 기법보다 향상된 결과를 얻을 수 있고, Parameter의 조정이 요구되지 않는다. 그러나, 가우시안 혼합 모델의 사용은 주어진 패턴 집합을 클러스터링하는데 계산량의 증가를 초래하게 된다. 본 논문에서는 가우시안 혼합 모델의 정형화에 요구되는 계산량을 감소시키는 방법을 제시한다 또한 퍼지정보량(Fuzzy Entropy)을 적용하여 기존의 정보량 기반의 클러스터링 결과와 비교 분석하였다.

  • PDF

Mixture distribution based nonstationary frequency model using climate variables (기후 변수를 이용한 혼합분포 기반 비정상성 빈도 모델)

  • Choi, Hong-Geun;Kim, Jang-Gyeong;Kwon, Hyun-Han
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.338-338
    • /
    • 2019
  • 설계강우량 산정시, 일반적으로 극치자료를 활용하여 정상성 가정하에 빈도해석을 수행하고 있다. 그러나 종종 정상성으로 가정했던 기존 극치강우자료가 정상성 빈도해석 모형에서 효과적으로 모델링되지 않는 비정상성 특성을 나타내고 있다. 또한, 대부분의 극치강우 분포는 해마다 다른 규모로 발생하는 홍수와 태풍 등의 강우요인으로 인해 두 개의 첨두를 갖는 혼합분포 형태를 보인다. 이에 본 연구에서는 혼합분포 기반 비정상성 빈도모델(mixture distribution based nonstationary frequency model, MDNF)을 제시하였다. 제안된 모형의 입력자료로 기후변수(e.g. SSTs and SLPs)를 사용하여 두 개의 분포형으로 구성되는 극치강우의 혼합비(mixing ratio)에 대한 영향을 분석하였으며, 극치강우 패턴이 특정 기후변수의 영향을 받는 것을 확인하였다. 최종적으로 Bayesian 기법을 MDNF 모형에 연계하여 각 첨두에 해당하는 분포형의 매개변수들에 대한 불확실성 구간을 정량적으로 제시하였다. 본 연구를 통해 강우 패턴의 변동은 설계 강우량 추정에 영향을 미치며, 특정 기후변수와 강우 패턴이 상관성을 가지는 것을 확인함으로써 합리적인 설계 강우량 산정을 위한 중요한 근거를 제공할 것으로 사료된다.

  • PDF

A Study on the Mixed Model Approach and Symbol Probability Weighting Function for Maximization of Inter-Speaker Variation (화자간 변별력 최대화를 위한 혼합 모델 방식과 심볼 확률 가중함수에 관한 연구)

  • Chin Se-Hoon;Kang Chul-Ho
    • The Journal of the Acoustical Society of Korea
    • /
    • v.24 no.7
    • /
    • pp.410-415
    • /
    • 2005
  • Recently, most of the speaker verification systems are based on the pattern recognition approach method. And performance of the pattern-classifier depends on how to classify a variety of speakers' feature parameters. In order to classify feature parameters efficiently and effectively, it is of great importance to enlarge variations between speakers and effectively measure distances between feature parameters. Therefore, this paper would suggest the positively mixed model scheme that can enlarge inter-speaker variation by searching the individual model with world model at the same time. During decision procedure, we can maximize inter-speaker variation by using the proposed mixed model scheme. We also make use of a symbol probability weighting function in this system so as to reduce vector quantization errors by measuring symbol probability derived from the distance rate of between the world codebook and individual codebook. As the result of our experiment using this method, we could halve the Detection Cost Function (DCF) of the system from $2.37\%\;to\;1.16\%$.

Classification of Underwater Transient Signals Using Gaussian Mixture Model (정규혼합모델을 이용한 수중 천이신호 식별)

  • Oh, Sang-Hwan;Bae, Keun-Sung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.16 no.9
    • /
    • pp.1870-1877
    • /
    • 2012
  • Transient signals generally have short duration and variable length with time-varying and non-stationary characteristics. Thus frame-based pattern matching method is useful for classification of transient signals. In this paper, we propose a new method for classification of underwater transient signals using a Gaussian mixture model(GMM). We carried out classification experiments for various underwater transient signals depending upon the types of noise, signal-to-noise ratio, and number of mixtures in the GMM. Experimental results have verified that the proposed method works quite well for classification of underwater transient signals.

Clustering and classification to characterize daily electricity demand (시간단위 전력사용량 시계열 패턴의 군집 및 분류분석)

  • Park, Dain;Yoon, Sanghoo
    • Journal of the Korean Data and Information Science Society
    • /
    • v.28 no.2
    • /
    • pp.395-406
    • /
    • 2017
  • The purpose of this study is to identify the pattern of daily electricity demand through clustering and classification. The hourly data was collected by KPS (Korea Power Exchange) between 2008 and 2012. The time trend was eliminated for conducting the pattern of daily electricity demand because electricity demand data is times series data. We have considered k-means clustering, Gaussian mixture model clustering, and functional clustering in order to find the optimal clustering method. The classification analysis was conducted to understand the relationship between external factors, day of the week, holiday, and weather. Data was divided into training data and test data. Training data consisted of external factors and clustered number between 2008 and 2011. Test data was daily data of external factors in 2012. Decision tree, random forest, Support vector machine, and Naive Bayes were used. As a result, Gaussian model based clustering and random forest showed the best prediction performance when the number of cluster was 8.

Pattern Classification of Hard Disk Defect Distribution Using Gaussian Mixture Model (가우시안 혼합 모델을 이용한 하드 디스크 결함 분포의 패턴 분류)

  • Jun, Jae-Young;Kim, Jeong-Heon;Moon, Un-Chul;Choi, Kwang-Nam
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.482-486
    • /
    • 2008
  • 본 논문에서는 하드 디스크 드라이브(Hard Disk Drive, HDD) 생산 공정 과정에서 발생할 수 있는 불량 HDD의 결함 분포에 대해서 패턴을 자동으로 분류해주는 기법을 제시한다. 이를 위해서 표준 패턴 클래스로 분류되어 있는 불량 HDD의 각 클래스의 확률 모델을 GMM(Gaussian Mixture Model)로 가정한다. 실험은 전문가에 의해 분류된 실제 HDD 결함 분포로부터 5가지의 특징 값들을 추출한 후, 결함 분포의 클래스를 표현할 수 있는 GMM의 파라미터(Parameter)를 학습한다. 각 모델의 파라미터를 추정하기 위해 EM(Expectation Maximization) 알고리즘을 사용한다. 학습된 GMM의 분류 테스트는 학습에 사용되지 않은 HDD 결함 분포에서 5가지의 특징 값을 입력 값으로 추정된 모델들의 파라미터 값에 의해 사후 확률을 구한다. 계산된 확률 값 중 가장 큰 값을 갖는 모델의 클래스를 표준 패턴 클래스로 분류한다. 그 결과 제시된 GMM을 이용한 HDD의 패턴 분류의 결과 96.1%의 정답률을 보여준다.

  • PDF

A Non-stationary frequency analysis for annual daily maximum rainfalls(ADMRs) using mixed Gumbel distribution of bayesian approach (Bayesian 기법의 혼합 Gumbel 분포를 활용한 연최대일강우량에 대한 비정상성 빈도해석)

  • Choi, Hong-Geun;Yoo, Min-Seok;Han, Young-Cheon;Kwon, Hyun-Han
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.312-312
    • /
    • 2018
  • 우리나라의 기후 지형적 특성에 따라 연강수량의 50% 이상이 여름철에 내리며 이러한 짧은 기간에 집중적으로 내리는 강수패턴 조건하에서 수공구조물 설계시 대부분 극치빈도분석을 활용한다. 우리나라의 경우 단일 Gumbel 분포를 활용한 극치빈도분석을 많이 이용한다. 하지만, 최근 이상기후로 인하여 전세계적으로 강수패턴의 특징이 급격히 변하고 있으며, 우리나라의 강수패턴 또한 바뀌어가고 있다. 연강수량의 대부분은 태풍과 장마로 인한 강수량으로 이루어져 있고, 일반적으로 두 개의 모집단으로 이루어진 형태를 보인다. 앞선 연구에서 두 개 이상의 첨두를 가지는 형태의 연최대강수량 자료에 대해 8개의 지속시간별(1, 2, 3, 6, 9, 12, 18, 24hr)로 Bayesian 기법의 단일 Gumbel 분포형과 혼합 Gumbel분포형 기반의 극치빈도분석 결과를 비교하였고, 혼합 Gumbel 분포형이 이중첨두 부분의 거동을 효과적으로 모의하는 것을 확인하였다. 본 연구에서는 이상기후로 인한 강수량의 특징의 급격한 변화에 일정한 패턴이 있음을 가정하고 이중첨두의 연 최대일강수량 자료에 대해 혼합 Gumbel 분포형 기반 비정상성 빈도분석을 실시하였다. 정상성 빈도분석과의 비교를 위해 확률분포의 매개변수 산정시 우도함수를 Bayesian 기법을 통해 산정하여 각 분포형의 Bayesian information criterion(BIC) 값을 비교하였다. 비정상성일 경우의 BIC 값이 정상성일 경우 보다 작게 산정되었고, 강수패턴이 경향성을 가지는 것으로 판단할 수 있었다. 비정상성 혼합 Gumbel 분포형 모델은 최근 급격한 강수패턴의 변화에 대한 대응책으로서 활용성이 높을 것으로 기대된다.

  • PDF