• 제목/요약/키워드: 패턴-혼합 모델

검색결과 59건 처리시간 0.036초

결측이 있는 이산형 공변량에 대한 Cox비례위험모형의 패턴-혼합 모델 (Pattern-Mixture Model of the Cox Proportional Hazards Model with Missing Binary Covariates)

  • 육태미;송주원
    • 응용통계연구
    • /
    • 제25권2호
    • /
    • pp.279-291
    • /
    • 2012
  • 공변량에 결측이 발생한 Cox 비례위험 모형을 적합할 때, 결측이 발생하는 개체를 모두 제거한 후 분석을 실시한다면 정보 손실에 의해 비효율적이고 결측의 발생 메커니즘이 완전 임의 결측(missing completely at random; MCAR)이 아니라면 모수의 추정값에 편향이 발생할 수 있다. Cox 비례위험 회귀모형의 공변량에 결측이 있는 경우 적용할 수 있는 여러 가지 방법들이 제안되어져 왔으나 이 분석들은 선택모델(selection model)에 기반하고 있다. 본 연구에서는 Little (1993)이 제안한 패턴-혼합 모델(pattern-mixture model)을 사용하여 Cox 비례위험 회귀모형에서 생존시간과 결측 메커니즘의 결합분포를 모델화 하고, 여러 가지 제약에 근거한 생존 분석의 결과를 비교하였다. 모의실험을 통해서 패턴-혼합 모델의 제약(restrictions)에 따른 모수 추정의 민감도를 확인하였고 결측을 무시한 채 분석한 결과 및 선택모형에 근거한 분석결과와 비교하였다. 패턴-혼합 모델의 제약에 따라 공변량의 결측으로 인한 모수 추정의 민감성 정도를 쥐백혈병 자료 예제를 통해 설명하였다.

규칙과 어절 확률을 이용한 혼합 품사 태깅 모델 (POS-Tagging Model Combining Rules and Word Probability)

  • 황명진;강미영;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.11-15
    • /
    • 2006
  • 본 논문은, 긍정적 가중치와 부정적 가중치를 통해 표현되는 규칙에 기반을 둔 품사 태깅 모델과, 형태 소 unigram 정보와 어절 내의 카테고리 패턴에 기반하여 어절 확률을 추정하는 품사 태깅 모델의 장점을 취하고 단점을 보완할 수 있는 혼합 품사 태깅 모델을 제안한다. 이 혼합 모델은 먼저, 규칙에 기반한 품사 태깅을 적용한 후, 규칙이 해결하지 못한 결과에 대해서 통계적인 기법을 사용하여 품사 태깅을 한다. 본 연구는 어절 내 카테고리 패턴정보에 따른 파라미터 set과 형태소 unigram만을 이용해 어절 확률을 계산해 내므로 다른 통계기반 접근방법에서와는 달리 작은 크기의 통계사전만을 필요로 하며, 카테고리 패턴 정보를 사용함으로써 통계기반 접근 방법의 가장 큰 문제점인 data sparseness 문제 또한 줄일 수 있다는 이점이 있다. 특히, 본 논문에서 사용할 통계 모델은 어절 확률에 기반을 두고 있기 때문에 한국어의 특성을 잘 반영할 수 있다. 본 논문에서 제안한 혼합 모델은 규칙이 적용된 후에도 후보열이 둘 이상 남아 오류로 반환되었던 어절 중 24%를 개선한다.

  • PDF

혼합분포 기반 비정상성 강우 빈도해석 기법 개발 (A development of nonstationary rainfall frequency analysis model based on mixture distribution)

  • 최홍근;권현한;박문형
    • 한국수자원학회논문집
    • /
    • 제52권11호
    • /
    • pp.895-904
    • /
    • 2019
  • 극치 강우 자료는 정상성 빈도모델에서 효과적으로 구현되지 않는 비정상성 거동을 종종 보인다. 또한, 극치 사상의 확률밀도함수는 여름 장마와 태풍 등의 서로 다른 강우 패턴에 의해 2개 이상의 첨두를 가지는 혼합분포형태이다. 이러한 강우 패턴의 변화에 대해 Bayesian 이론을 활용한 비정상성 혼합분포(mixture distribution based nonstationary frequency, MDNF)모델을 제안하였다. 2개의 Gumbel 분포형이 혼합된 MDNF 모델은 Gumbel 분포형 매개변수 중 하나인 위치매개변수의 시변성을 효과적으로 설명한다. 제안한 모델의 성능평가를 위해 정상성 혼합분포모델과의 다양한 통계치 결과를 비교하였다. 정상성 혼합분포모델보다 전반적으로 향상된 성능을 보여주는 MDNF 모델을 통해 극치 강우 패턴이 비정상성을 보인다는 가정을 확인할 수 있다.

데이터 클러스터링을 위한 가우시안 혼합 모델을 이용할 퍼지 정보량 측정 (Gaussian Mixture Model for Data Clustering using Fuzzy Entropy Measures)

  • 임채주;최병인;이정훈
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 추계학술대회 학술발표 논문집 제14권 제2호
    • /
    • pp.335-338
    • /
    • 2004
  • 본 논문에서는 기존의 정보량(Entropy) 기반 클러스터링 기법을 향상시키기 위한 방법으로서 퍼지 정보량을 이용하였다 가우시안 혼합 모델을 이용하면, 프로토타입의 목적 함수를 이용하는 클러스터링 기법보다 향상된 결과를 얻을 수 있고, Parameter의 조정이 요구되지 않는다. 그러나, 가우시안 혼합 모델의 사용은 주어진 패턴 집합을 클러스터링하는데 계산량의 증가를 초래하게 된다. 본 논문에서는 가우시안 혼합 모델의 정형화에 요구되는 계산량을 감소시키는 방법을 제시한다 또한 퍼지정보량(Fuzzy Entropy)을 적용하여 기존의 정보량 기반의 클러스터링 결과와 비교 분석하였다.

  • PDF

기후 변수를 이용한 혼합분포 기반 비정상성 빈도 모델 (Mixture distribution based nonstationary frequency model using climate variables)

  • 최홍근;김장경;권현한
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.338-338
    • /
    • 2019
  • 설계강우량 산정시, 일반적으로 극치자료를 활용하여 정상성 가정하에 빈도해석을 수행하고 있다. 그러나 종종 정상성으로 가정했던 기존 극치강우자료가 정상성 빈도해석 모형에서 효과적으로 모델링되지 않는 비정상성 특성을 나타내고 있다. 또한, 대부분의 극치강우 분포는 해마다 다른 규모로 발생하는 홍수와 태풍 등의 강우요인으로 인해 두 개의 첨두를 갖는 혼합분포 형태를 보인다. 이에 본 연구에서는 혼합분포 기반 비정상성 빈도모델(mixture distribution based nonstationary frequency model, MDNF)을 제시하였다. 제안된 모형의 입력자료로 기후변수(e.g. SSTs and SLPs)를 사용하여 두 개의 분포형으로 구성되는 극치강우의 혼합비(mixing ratio)에 대한 영향을 분석하였으며, 극치강우 패턴이 특정 기후변수의 영향을 받는 것을 확인하였다. 최종적으로 Bayesian 기법을 MDNF 모형에 연계하여 각 첨두에 해당하는 분포형의 매개변수들에 대한 불확실성 구간을 정량적으로 제시하였다. 본 연구를 통해 강우 패턴의 변동은 설계 강우량 추정에 영향을 미치며, 특정 기후변수와 강우 패턴이 상관성을 가지는 것을 확인함으로써 합리적인 설계 강우량 산정을 위한 중요한 근거를 제공할 것으로 사료된다.

  • PDF

화자간 변별력 최대화를 위한 혼합 모델 방식과 심볼 확률 가중함수에 관한 연구 (A Study on the Mixed Model Approach and Symbol Probability Weighting Function for Maximization of Inter-Speaker Variation)

  • 진세훈;강철호
    • 한국음향학회지
    • /
    • 제24권7호
    • /
    • pp.410-415
    • /
    • 2005
  • 최근 대부분의 화자확인 시스템은 패턴 인식 접근방식에 기인하고 있다. 패턴 분류기의 성능은 화자의 특징 파라미터를 어떻게 분류하는가 하는 데에 기인한다. 그 특징 파라미터를 잘 분류하기 위해서는, 화자간 변이를 최대화하고 특징 파라미터 간 거리를 효과적으로 측정하는 것이 매우 중요하다. 따라서, 본 논문에서는 개인 모델과 월드 모델을 동시에 배치함으로써 화자간 변이를 최대화 할 수 있는 개선된 혼합 모델 구조를 제안한다. 결정 과정 시 제안한 혼합 모델 방식을 사용함으로써 화자간 변별력을 최대화 할 수 있었다. 또한, 입력데이터에 대한 개인 모델과 월드 모델의 거리비율에 따라 심볼 확률 값을 가중하여 벡터 양자화 에러를 줄이는 가중치 함수를 제안 한다. 실험 결과, 이두 가지 방법을 취함으로써 DCF (Detection Cost Function)를 $2.37\%$에서 $1.16\%$로 낮출 수 있었다.

정규혼합모델을 이용한 수중 천이신호 식별 (Classification of Underwater Transient Signals Using Gaussian Mixture Model)

  • 오상환;배건성
    • 한국정보통신학회논문지
    • /
    • 제16권9호
    • /
    • pp.1870-1877
    • /
    • 2012
  • 천이신호는 지속시간이 짧으면서 길이의 변화가 크고, 시변성 및 비정재성 특성을 갖는다. 이러한 천이신호의 식별에는 분석 프레임 단위로 참조신호에 대한 기준패턴을 만들어 입력신호와의 유사도를 비교하는 방법이 효과적일 수 있다. 본 연구에서는 참조신호의 기준패턴으로 프레임 기반의 특징벡터들에 대해 확률통계 모형인 정규혼합모델을 적용하는 방법을 제안하고, 다양한 수중 천이신호에 대한 식별 실험을 통해 제안한 방법의 타당성을 검증하였다.

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

가우시안 혼합 모델을 이용한 하드 디스크 결함 분포의 패턴 분류 (Pattern Classification of Hard Disk Defect Distribution Using Gaussian Mixture Model)

  • 전재영;김정헌;문운철;최광남
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.482-486
    • /
    • 2008
  • 본 논문에서는 하드 디스크 드라이브(Hard Disk Drive, HDD) 생산 공정 과정에서 발생할 수 있는 불량 HDD의 결함 분포에 대해서 패턴을 자동으로 분류해주는 기법을 제시한다. 이를 위해서 표준 패턴 클래스로 분류되어 있는 불량 HDD의 각 클래스의 확률 모델을 GMM(Gaussian Mixture Model)로 가정한다. 실험은 전문가에 의해 분류된 실제 HDD 결함 분포로부터 5가지의 특징 값들을 추출한 후, 결함 분포의 클래스를 표현할 수 있는 GMM의 파라미터(Parameter)를 학습한다. 각 모델의 파라미터를 추정하기 위해 EM(Expectation Maximization) 알고리즘을 사용한다. 학습된 GMM의 분류 테스트는 학습에 사용되지 않은 HDD 결함 분포에서 5가지의 특징 값을 입력 값으로 추정된 모델들의 파라미터 값에 의해 사후 확률을 구한다. 계산된 확률 값 중 가장 큰 값을 갖는 모델의 클래스를 표준 패턴 클래스로 분류한다. 그 결과 제시된 GMM을 이용한 HDD의 패턴 분류의 결과 96.1%의 정답률을 보여준다.

  • PDF

Bayesian 기법의 혼합 Gumbel 분포를 활용한 연최대일강우량에 대한 비정상성 빈도해석 (A Non-stationary frequency analysis for annual daily maximum rainfalls(ADMRs) using mixed Gumbel distribution of bayesian approach)

  • 최홍근;유민석;한영천;권현한
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.312-312
    • /
    • 2018
  • 우리나라의 기후 지형적 특성에 따라 연강수량의 50% 이상이 여름철에 내리며 이러한 짧은 기간에 집중적으로 내리는 강수패턴 조건하에서 수공구조물 설계시 대부분 극치빈도분석을 활용한다. 우리나라의 경우 단일 Gumbel 분포를 활용한 극치빈도분석을 많이 이용한다. 하지만, 최근 이상기후로 인하여 전세계적으로 강수패턴의 특징이 급격히 변하고 있으며, 우리나라의 강수패턴 또한 바뀌어가고 있다. 연강수량의 대부분은 태풍과 장마로 인한 강수량으로 이루어져 있고, 일반적으로 두 개의 모집단으로 이루어진 형태를 보인다. 앞선 연구에서 두 개 이상의 첨두를 가지는 형태의 연최대강수량 자료에 대해 8개의 지속시간별(1, 2, 3, 6, 9, 12, 18, 24hr)로 Bayesian 기법의 단일 Gumbel 분포형과 혼합 Gumbel분포형 기반의 극치빈도분석 결과를 비교하였고, 혼합 Gumbel 분포형이 이중첨두 부분의 거동을 효과적으로 모의하는 것을 확인하였다. 본 연구에서는 이상기후로 인한 강수량의 특징의 급격한 변화에 일정한 패턴이 있음을 가정하고 이중첨두의 연 최대일강수량 자료에 대해 혼합 Gumbel 분포형 기반 비정상성 빈도분석을 실시하였다. 정상성 빈도분석과의 비교를 위해 확률분포의 매개변수 산정시 우도함수를 Bayesian 기법을 통해 산정하여 각 분포형의 Bayesian information criterion(BIC) 값을 비교하였다. 비정상성일 경우의 BIC 값이 정상성일 경우 보다 작게 산정되었고, 강수패턴이 경향성을 가지는 것으로 판단할 수 있었다. 비정상성 혼합 Gumbel 분포형 모델은 최근 급격한 강수패턴의 변화에 대한 대응책으로서 활용성이 높을 것으로 기대된다.

  • PDF