• 제목/요약/키워드: EM 알고리즘

검색결과 236건 처리시간 0.031초

효율적인 통계 계산을 위한 파이썬 numba 라이브러리의 소개 (Introduction to numba library in Python for efficient statistical computing)

  • 조윤상;유동현;손원;박선철
    • 응용통계연구
    • /
    • 제33권6호
    • /
    • pp.665-682
    • /
    • 2020
  • 본 논문은 순수하게 파이썬 언어로 작성된 연산에 대하여 just-in-time (JIT) 컴파일을 적용하여 전체 계산 속도를 향상시킬 수 있는 numba 라이브러리에 대한 사용법과 응용에 대하여 소개한다. 실제 통계 계산 문제에 대한 numba 라이브러리의 적용에 대한 예제로 반복문 사용이 요구되는 통계 계산 문제들 중 순열 검정과 정규 혼합 분포의 모수 추정의 EM 알고리즘을 고려하였으며 순수한 파이썬 구문 및 반복문을 활용한 계산 시간과 numba를 활용한 계산 시간을 비교하여 numba 라이브러리 활용의 효율성을 수치적으로 제시하였다.

무응답모형에 기반한 출구조사의 예측 정확성 비교 연구 (A comparison study for accuracy of exit poll based on nonresponse model)

  • 곽정애;최보승
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.53-64
    • /
    • 2014
  • 조사를 통한 선거 예측을 수행하는 데 있어서 발생할 수 있는 문제점 가운데 하나는 무응답이라 할 수 있으며 무응답 대체에 대한 방법에 따라 예측 결과는 완전히 다른 결과를 생산해 낼 수 있다. 특히 대통령 선거와 같은 민감한 주제에 대한 선거에서는 무응답 대체가 더욱 더 중요하다. 본 연구에서는 무응답 대체의 방법으로 모형에 기반을 둔 대체 방법에 대하여 연구를 진행하였다. 모형에 기반을 둔 대체 방법에서는 무응답 체계의 가정에 따라 무응답 모형을 구축할 수 있으며 무응답 체계에 따라 각기 다른 대체 결과를 제공할 수 있다. 모형에 기반을 둔 무응답 대체 및 추정에서 적절한 무응답 체계의 가정은 정확한 모형 추정을 위한 매우 중요한 전제 조건이다. 그러나 무응답 체계의 가정에 대한 검증 절차는 아직 정확한 해법이 알려지지 않은 상황이다. 본 연구에서는 실제 자료를 이용한 모형적합을 통하여 무응답 체계 가정에 대한 정확도를 비교하고자 하였다. 2012년에 시행된 18대 대통령 선거과정에서 수행된 출구조사 결과를 이용하여 무응답 체계의 가정에 대한 검증과 모형에 의한 예측 정확도를 비교하였다. 무응답 모형의 추정과 무응답 대체를 위하여 EM 알고리즘에 기반을 둔 최대우도 추정방법을 이용하였으며 예측 결과를 비교하기 위하여 Bautista 등 (2007)이 제안한 MWPE(modified within precinct error)를 이용하였다.

경시적 영과잉 가산자료와 생존자료의 결합모형 (A joint modeling of longitudinal zero-inflated count data and time to event data)

  • 김동욱;천지훈
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1459-1473
    • /
    • 2016
  • 시간의 흐름에 따라 관측되는 경시적(longitudinal) 자료의 경우, 경시적 자료와 생존(survival) 자료가 종종 동시에 수집된다. 이 때 경시적 자료에서 발생하는 결측이 생존자료와의 연관성으로 인해 발생한 무시할 수 없는 결측(non-ignorable missing)이라면, 경시적 자료분석 방법만으로는 두 자료 간의 연관성을 고려하지 않아 독립변수에 대한 효과는 편향된 결과를 얻게 된다. 이러한 문제를 해결하기 위해서 결측의 원인이 생존시간과 연관되어 있으므로 생존모형을 고려하여 불편추정량을 얻기 위해 경시적 자료와 생존자료의 결합모형에 대한 연구가 이루어져 왔다. 본 논문은 경시적 자료의 형태가 영이 많이 존재하는 영과잉 가산자료(zero-inflated count data)와 생존자료의 결합모형을 연구하였다. 경시적 영과잉 가산자료와 생존자료는 각각 허들모형(hurdle model)과 비례위험모형(proportional hazards model)의 부 모형을 적용하였고, 두 부 모형들의 변량효과가 다변량 정규분포를 따른다는 가정을 통하여 결합하였다. 모수의 최우추정법으로 EM 알고리즘을 활용하였고, 추정된 표준오차를 계산하기 위해 프로파일 우도(profile likelihood)를 이용하였다. 최종적으로 모의실험을 통해 두 부 모형의 변량효과 간 상관관계가 존재하는 경우 결합모형이 개별적 모형보다 편의와 포함확률(coverage probability)의 측면에서 더 우수함을 보였다.

환경에 적응적인 얼굴 추적 및 인식 방법 (A New Face Tracking and Recognition Method Adapted to the Environment)

  • 주명호;강행봉
    • 정보처리학회논문지B
    • /
    • 제16B권5호
    • /
    • pp.385-394
    • /
    • 2009
  • 사람의 얼굴은 강체(Rigid object)가 아니기 때문에 얼굴을 추적하거나 인식하는 일은 쉽지 않다. 특히 얼굴의 포즈나 주변 조명의 변화에 따른 입력 영상의 차이는 얼굴 인식을 어렵게 하는 주된 원인이다. 본 논문에서는 비디오 영상으로부터 얼굴을 추적하고 인식할 때 발생하는 이 두 가지의 문제를 해결하기 위한 프레임웍과 전처리 방법을 제안한다. 얼굴 포즈의 변화에도 효과적으로 얼굴을 추적 및 인식하기 위해 먼저 학습 영상으로부터 주성분 분석법(Principal Component Analysis)을 이용하여 각 얼굴 포즈마다 하나의 독립된 가우시안 분포를 추정하고 이를 이용하여 각 사람마다 가우시안 혼합 모델(Gaussian Mixture Model)을 구성한다. 본 논문에서는 서로 다른 조명 상태를 가진 얼굴 영상을 처리하기 위해 먼저 입력된 얼굴 영상을 SSR(Single Scale Retinex) 모델을 이용하여 반사율(Reflectance)과 조도(Illuminance)로 분해한다. 반사율은 사전 정의된 범위 안에서 히스토그램 평활화를 수행함으로써 재조정되고 조도는 조명의 변화를 포함하고 있지 않은 영상들으로부터 학습된 매니폴드 모델로 다시 근사된다. 이 두 특징을 결합함으로써 실내 환경이나 실외 환경에서 촬영된 영상에서 효율적으로 얼굴을 추적 및 인식한다. 비디오 기반의 영상으로부터 보다 효율적으로 얼굴을 추적하기 위해 본 논문에서는 구성된 모델의 가중치를 각 프레임마다 이전 프레임의 추적 결과에 의해 EM 알고리즘을 이용하여 갱신함으로써 비디오 영상내의 연속적으로 변화하는 얼굴 포즈를 추정하였다. 본 논문에서 제안된 방법은 실내에서의 다양한 조명환경과 실외의 여러 장소에서 획득한 실험 영상을 이용하여 기존에 연구되어 온 다른 방법에 비해 우수한 성능을 보였다.

포아송 분포의 혼합모형을 이용한 기부 횟수 자료 분석 (The Analysis of the Number of Donations Based on a Mixture of Poisson Regression Model)

  • 김인영;박수범;김병수;박태규
    • 응용통계연구
    • /
    • 제19권1호
    • /
    • pp.1-12
    • /
    • 2006
  • 본 논문에서는 2002년에 (사)볼런티어21에서 실시한 설문조사 자료를 이용하여 2001년에 우리나라 개인들이 기부한 횟수에 영향을 주는 유의한 변수들을 식별하였다. 기부횟수의 경험적 분포로 미루어 모집단은 기부를 적게 하는 집단과 많이 하는 집단으로 구성되며 따라서 모집단 분포를 두개 포아송 분포의 혼합분포로 모형화하였다. 이 모형에 기초하여 기부횟수에 영향을 미치는 변수들을 식별하였다. EM알고리즘을 이용하여 모수를 추정하고 2.5%와 97.5%에 기초한 백분위수 신뢰구간을 보완한 BCa(bias-corrected and accelerated) 신뢰구간을 계산하여 유의한 변수들을 찾았다. 연구결과 혼합 포아송 회귀모형에서는 기부횟수가 적은 집단("작은 군")과 기부횟수가 많은 집단("큰 군") 모두에서 소득과 자원봉사의 경험 유무(1:예, 0:아니오)가 기부횟수에 유의적으로 영향을 주는 변수로 밝혀졌다. 또한 두 변수 각각에서 회귀계수가 양수로 나타나 소득이 많을수록, 혹은 자원봉사의 경험이 있는 사람일수록 기부횟수가 증가하는 것을 알 수 있다. 그러나 소득과 자원봉사 변수의 회귀계수는 "작은 군"이 "큰 군"에 비해 더욱 크게 나타나고 있다. "작은 군"보다 "큰 군"의 사람들에게 기부가 생활화되어 있고, 따라서 소득과 자원봉사의 경험 유무가 기부횟수에 미치는 영향이 상대적으로 적은 것으로 파악된다.

베이지안 네트워크를 이용한 단기 교통정보 예측모델 (A Short-Term Traffic Information Prediction Model Using Bayesian Network)

  • 유영중;조미경
    • 한국정보통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.765-773
    • /
    • 2009
  • 최근의 텔레매틱스 교통정보제공서비스는 지능형 교통시스템의 구축을 통한 실시간 교통정보 수집이 가능해짐에 따라 다양해지고 있다. 본 논문에서는 고품질의 다양한 교통정보제공을 위해 필요한 미래시간에 대한 단기 교통정보 예측 모델을 제안하고 개발하였다. 단기 예측 모델은 현재로부터 가까운 미래의 교통 상황을 예측하기 위한 교통 모델로 본 연구에서 제안한 예측 모델은 각 도로에 대하여 5분 이후부터 1시간 이전까지의 미래시간에 대한 차량 평균 속도를 예측 결과로 준다. 본 연구에서 제안한 예측 모델은 베이지안 네트워크에 기반을 두고 있으며 각 도로의 미래시간 교통상황에 영향을 줄 수 있는 요인들을 분석하여 베이지안 네트워크의 원인노드로 설정하였다. 설계된 베이지안 네트워크에 대하여 실시간 교통정보데이터를 이용하여 가우시안 혼합 분포를 가정한 베이지안 네트워크의 결합 확률 밀도 함수를 EM(Expectation Maximization) 알고리즘으로 구하여 미래시간의 교통정보를 예측하였다. 예측 모델의 정확도 검증을 위해 실시간 교통데이터로 다양한 실험을 수행하였다. 실험결과 제안된 모델은 현재 시간으로부터 10분 이후, 30분 이후, 60분 이후 예측 오차로 각각 4.5, 4.8, 5.2의 RMSE(Root Mean Square Error) 값을 주었다.

Monte-Carlo expectation-maximaization 방법을 이용한 무응답 모형 추정방법 (An estimation method for non-response model using Monte-Carlo expectation-maximization algorithm)

  • 최보승;유현상;윤용화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.587-598
    • /
    • 2016
  • 각종 선거를 앞두고 여러 여론조사 기관들은 다양한 방법으로 선거 결과를 예측한다. 조사를 통한 선거 예측을 수행하는 데 있어서 발생할 수 있는 문제점 중 하나는 무응답이며 무응답 대체 방법에 따라 예측 결과는 완전히 다른 결과를 생산해 낼 수 있다. 본 연구에서는 무응답 대체의 방법으로 모형을 기반으로 한 대체 방법에 대하여 연구하였다. 특히, 최대 우도 추정 방법을 적용했을 때 무시할 수 없는 무응답 (non-ignorable non-response) 체계 하에서 발생할 수 있는 변방 값 문제를 해결하기 위해 Wei와 Tanner (1990)가 제안한 Monte Carlo EM 알고리즘을 적용하였다. 모의 실험을 통하여 MCEM 방법과 기존의 최대 우도 추정 방법, 베이지안 추정 방법 사이의 비교 연구를 진행하였고 그 결과 MCEM 방법이 기존 방법들에 대한 대안 방법으로 이용될 수 있음을 보였다. 또한 2012년에 시행된 제18대 대통령 선거 당일의 출구조사 자료를 적용하여 실증 분석을 수행하였다. 예측 결과를 비교하기 위해 Bautista 등 (2007)이 제안한 MWPE (modified within precinct error)를 이용하였다.

잡음환경에서의 음성인식을 위한 모델 파라미터 변환 방식에 관한 연구 (A Study on a Model Parameter Compensation Method for Noise-Robust Speech Recognition)

  • 장육현;정용주;박성현;은종관
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.112-121
    • /
    • 1997
  • 본 논문에서는 잡음에 강한 음성 인식기를 위한 모델 파라미터 변환 방식에 관하여 살펴보았다. 모델 파라미터 변환에 있어서 잡음에 대한 어떠한 통계 모델도 사용하지 않고 각 단어 단위로 수행되어 실시간 음성 인식이 가능하도록 하였다. Parallel model combination(PCM)은 본 논문에서 제안한 방법과의 성능 비교를 위하여 cepstrum 영역에서 구현되었다. 본 논문에서 제안한 PCM 방법은 modified PCM(MPMC)라 하며, 이 방법은 각 hidden Markov mode(HMM)의 state별로 평균적인 가우시안 믹스처(Gaussian mixture)의 변화률과 개별적인 변화률간에 결합지수를 이용하여 평균을 재조정한다. 또한, vector Taylor series 근사화를 이용한 모델 파라미터 변환을 위하여 cepstrum 영역에서의 환경모델 예측을 위한 expectation-maximization(EM) 해를 유도하여 구현하였다. 본 논문에서 구현된 알고리즘들의 성능 위해 HMM 인식기를 이용한 화자독립 고립단어 인식을 수행하였다. 시용된 잡음은 가우시안 백색 잡음과 주행중에 녹음된 자동차 잡음이며, 각 잡음울 signal-to-noise ratio(SNR)별로 사용하였다. 잡음의 모델은 1 state HMM으로 단어시작 3 프레임(frame)을 이용하여 만들어졌다. 인식 결과는 VTS 접근방식을 이용하였을 경우 매우 우수한 인식률을 나타내었으며, MPMC의 경우도 기존의 PMC보다 인식률이 향상되었다. 특히, 영차 VTS의 경우는 단순히 평균만을 조정하였음에도 불구하고 PMC와 MPMC보다 인식률이 우수하게 나타났다.

  • PDF

다중빔 음향 탐사시스템(300 kHz)의 후방산란 자료를 이용한 해저면 퇴적상 분류에 관한 연구 (Surficial Sediment Classification using Backscattered Amplitude Imagery of Multibeam Echo Sounder(300 kHz))

  • 박요섭;이신제;서원진;공기수;한혁수;박수철
    • 자원환경지질
    • /
    • 제41권6호
    • /
    • pp.747-761
    • /
    • 2008
  • 다중빔 음향 탐사 시스템의 후방산란 자료를 대상으로 한 해저면 분류의 가능성을 평가하기 위하여, KONGSBERG SIMRAD EM3000(300kHz) 후방산란 신호를 분석하고 처리하는 소프트웨어를 구현하였다. 강원도 속초항 부근에서 취득한 음압 자료를 이용하여 모자익 영상을 제작하였다. 원격 분류 결과의 검증을 위해 영상 내에서 이질적인 음압 강도로 나타나는 지역에 대하여 잠수사에 의한 직접적인 표층 퇴적물 채취와 비디오 광학 영상을 취득한 후, 후방산란 음압과의 비교를 실시하였다. 연구 대상 지역의 수심은 5m에서 22.7m까지였으며, 모자이크 영상 내의 후방산란 강도 분포는 -15dB에서 -36dB까지 나타났다. 그리고 표층퇴적물 입도 분석 결과, 평균 입도 크기는 최대 $2.86{\phi}$에서 최대 $0.88{\phi}$까지 나타났다. 시료의 입도 분석 자료와 영상의 강도 변화 사이의 상관성을 비교해 본 결과, R값은 0.56으로 나왔다. 입도 분석 자료와 후방산란 음압 자료와의 상관성을 기반으로 구현한 해저면 자동분류 시스템의 인식정도를 정량화하기 위하여, GIS시스템으로 각 대상 자료를 통합하고, 면적비교 기능을 사용하여 평가를 수행하였다. 암반 지역을 사질지역으로, 사질 지역을 암반지역으로 교차 인식하는 오인식율은 약 8.95%로, 평균 입도가 낮은 지역의 인식 면적 차이는 사용자 분류를 기준으로 약 2.06%로 나타났다. 이러한 결과는 평균 입도 변화가 해저면 후방산란에 가장 큰 영향을 미치는 요인임을 지시하고 있다. 따라서 이러한 후방산란 음압을 평가하여 평균 입도 변화를 추적하는 알고리즘을 구현할 수 있었으며, 최종 모자이크 영상을 두 개의 퇴적체로 자동 분류하는 시스템을 구현하게 되었다.

라이다 파장 분석 방법론에 대한 연구 (Analysis Method for Full-length LiDAR Waveforms)

  • 정명희;윤의중;김천식
    • 전자공학회논문지CI
    • /
    • 제44권4호통권316호
    • /
    • pp.28-35
    • /
    • 2007
  • 최근 중요한 매핑기술이 된 LiDAR(Light Detection And Ranging)는 다른 수치표고자료 획득 기법에 비해 높은 정확도와 세밀한 밀도를 가지고 있어 3차원 모델링에 필요한 높이정보를 제공한다. 이러한 시스템의 가장 중요한 작업은 디지털화된 리턴 펄스의 모양을 이해하여 수신권내의 반사되어 오는 시간을 측정하여 이와 대응되는 표면 위치를 계산하고 이를 지리좌표와 연결시키는 것이다. 디지털화된 파형(waveform)은 수신권내의 지표 형태에 따라 다른데 처음 발생된 펄스와 같은 단일 모드이거나 수신권내에 여러 표면이 있는 경우 각 반사 표면에 해당하는 여러 모드로 구성된 복잡한 파형일 수 있다. 자료처리 과정에서 반사표면에 대해 일관성 있는 거리측정 지점을 찾기 위해서는 리턴 파장에서 각 모드의 중심위치나 피크 진폭의 위치를 찾아내는 방법이 필요하다. 복잡한 파장의 경우에는 여러 개의 반사지점에 대해 정확한 높이를 계산해 내는 것이 쉽지 않은데 이를 위해 각 모드가 수신권내의 반사 표면에서 레이저 에너지가 반사되는 분포를 나타낸다고 가정하고 리턴 파장을 각 구성 모드로 분해하는 방법이 제안되었다. 이때 분석을 단순화하기 위해 레이저 출력 펄스 모양이 가우시안 분포를 따른다고 가정하고 전체 리턴 파장을 다변량 가우시안(multivariate Gaussian) 분포를 이용하여 분석한다. 여기서는 혼합분포에서 정확한 피크 위치와 half-width와 같이 모형의 파라미터에 대한 추정치를 구하기 위해 EM 알고리즘을 적용하여 MLE 값을 구하였다. 그러나 실제 레이저 고도계에서 얻어진 데이터는 가우시안이 아닌 오른쪽으로 기울어진 분포를 보여주고 있어 응용분야에 따라 정확한 분석이 필요한 경우 이러한 펄스 모양을 고려한 방법이 필요하다. 본 연구에서는 이러한 펄스 모양을 처리하기 위한 새로운 방법론이 제시되어 있다.