• 제목/요약/키워드: markov models

검색결과 490건 처리시간 0.022초

다음 장소 예측을 위한 맵리듀스 기반의 이동 패턴 마이닝 시스템 설계 (Design of a MapReduce-Based Mobility Pattern Mining System for Next Place Prediction)

  • 김종환;이석준;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권8호
    • /
    • pp.321-328
    • /
    • 2014
  • 본 논문에서는 모바일 기기 사용자들의 다음 방문 장소를 효율적으로 예측할 수 있는 맵리듀스 기반의 이동 패턴 마이닝 시스템을 소개한다. 이 시스템은 대용량의 사용자 이동 궤적 데이터 집합으로부터 은닉 마코프 모델로 표현되는 각 사용자의 이동 패턴을 학습해내고, 이 모델을 현재 이동 궤적에 적용함으로써 다음 방문 장소를 예측한다. 본 시스템은 사용자별 이동 패턴 모델을 학습하는 후단부와 실시간으로 다음 방문 장소를 예측하는 전단부 등 크게 두 부분으로 구성된다. 이 중에서 후단부는 주요 장소 추출, 이동 궤적 변환, 이동 패턴 모델 학습 등 총 3개의 맵리듀스 작업 모듈들로 구성된다. 이에 반해, 본 시스템의 전단부는 이동 경로 후보군 생성, 다음 장소 예측 등 총 2개의 작업 모듈들로 구성된다. 그리고 본 시스템을 구성하는 각 작업 모듈의 맵과 리듀스 함수들은 하둡 인프라를 효과적으로 활용하여 병렬 처리를 극대화할 수 있도록 설계하였다. 대용량의 공개 벤치마크 데이터 집합인 GeoLife를 이용하여 본 논문에서 소개한 시스템의 성능을 분석하기 위한 실험들을 수행하였고, 실험 결과를 통해 본 시스템의 높은 성능을 확인할 수 있었다.

보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교 (Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data)

  • 이은희;황범석
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.131-146
    • /
    • 2022
  • 로지스틱 회귀 모형은 다양한 분야에서 범주형 종속 변수를 예측하거나 분류하기 위한 모형으로 많이 사용되고 있다. 로지스틱 회귀 모형에 대한 전통적인 베이지안 추론 기법으로 메트로폴리스-헤이스팅스 알고리즘이 많이 사용되었지만, 수렴의 속도가 느리고 제안 분포에 대한 적절성을 보장하기 어렵다. 따라서, 본 논문에서는 모형에 대한 베이지안 추론 방법으로 Frühwirth-Schnatter와 Frühwirth (2007)에서 제안된 보조 혼합 샘플링(auxiliary mixture sampling) 기법을 사용하였다. 이 방법은 모형의 선형성과 정규성을 만족시키기 위해 두 단계에 거쳐 잠재변수를 도입하며, 결과적으로 깁스 샘플링을 통한 추론을 가능하게 한다. 제안한 모형의 효과를 검증하기 위해 2020년 지역사회 건강조사 당뇨병 자료에 적용하여 메트로폴리스-헤이스팅스를 사용한 모형과 추론 결과를 비교 분석하였다. 또한, 다양한 분류 모형들과 본 논문에서 제안한 모형의 분류 성능을 비교한 결과 제안된 모형이 분류 분석에서도 좋은 성능을 보이는 것을 확인할 수 있었다.

의미 중의성을 고려한 온톨로지 기반 메타데이타의 자동 생성 (Ontology-based Automated Metadata Generation Considering Semantic Ambiguity)

  • 최정화;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권11호
    • /
    • pp.986-998
    • /
    • 2006
  • 인터넷의 발전으로 방대해진 정보를 컴퓨터가 이해하고 효율적으로 관리하기 위해서는 시맨틱 웹 기반의 메타데이타가 반드시 필요하다. 그러나 메타데이타 생성 시 의미 중의성을 가진 정보가 존재하며 이 문제의 해결책이 필요하다. 본 논문에서는 순차적으로 존재할 수 있는 단어들의 확률 모델을 이용하여 문서와 같은 정보에 포함된 의미가 애매한 단어를 관련성이 높은 모델의 개념으로 메타데이타를 생성하는 방법을 제안한다. 제안한 방법에서 메타데이타를 생성 할 때, 온톨로지에 정의된 개념들 간의 중의성을 고려하고 명칭(named entity)의 일부 단어에 대한 인식을 위해 은닉 마르코프 모델(Hidden Markov Model)을 사용한다. 먼저 온톨로지에 정의된 각 클래스(class)의 인스턴스(instance)를 인식하기 위한 마르코프 모델을 생성한다. 다음으로 문서로부터 의미가 애매한 단어의 의미를 파악할 수 있는 상황정보(Context)를 생성하고, 상황정보에 포함된 단어들의 순서에 대응하는 최적의 마르코프 모델을 찾아 메타데이타 생성시의 중의성 문제를 해결한다. 제안한 방법으로 전산학관련 논문에 대해 의미가 애매한 7개의 단어를 추출하여 실험하였다. 그 결과 상황정보에 존재하는 개체(entity)의 의미부류들 중 가장 빈번한 의미 부류로 애매한 단어의 의미를 선정한 SemTag보다 정확도 면에서 38%정도의 나은 성능을 나타내었다.

CA-Markov 기법을 이용한 기후변화에 따른 소양강댐 유역의 수문분석 (Analysis of Hydrological Impact Using Climate Change Scenarios and the CA-Markov Technique on Soyanggang-dam Watershed)

  • 임혁진;권형중;배덕효;김성준
    • 한국수자원학회논문집
    • /
    • 제39권5호
    • /
    • pp.453-466
    • /
    • 2006
  • 본 연구는 CCCma CGCM2 기후모형을 이용하여 SRES A2, B2 시나리오 모의를 통한 기후변화가 2050년, 2100년 소양강댐유역의 수문환경에 미치는 변화양상을 SLURP 수문모형을 이용하여 분석하는데 목적이 있다. 수문영향을 평가하기 위해 사용된 모형의 입력자료는 NDVI의 경우, 1998년부터 2002년까지 5개년에 걸친 월별 NDVI를 사용하여 기온-NVDI와의 선형회귀분석을 통해 A2, B2 각 시나리오별 NDVI 값을 추정하였으며 대상유역의 토지이용에 따른 각 항목의 경년변화를 분석하기 위해 Landsat TM 위성영상을 이용하여 1985년부터 2000년의 5년 시간간격을 갖는 4장의 토지피복도를 생성하였다. 생성된 토지피복도를 사용하여 CA-Markov 연쇄기법을 통한 향후 50년, 100년 후의 토지이용변화상태를 모의하였다. 각 시나리오별 50년, 100년 후의 추정된 기상, NDVI, 토지이용도를 통하여 SLURP 모형에 적용한 결과, 토지이용현황은 CA-Markov 연쇄기법을 통해 모의된 향후 50년, 100년의 이용현황은 산림의 분포면적은 감소하는 반면 주거지, 나지, 초지 등은 두드러지게 증가하였다. 또한, 연쇄기법의 모의 시간간격 이 관측값의 모집단의 시간해상도에 비해 지나치게 클 경우 각 항목별 추이경향은 일정부분에서 수렴되었다. 또한, 기후변화에 따른 수문영향을 분석하기 위해 가상시나리오에 대한 증발산량 평가를 실시하였다. 증발산량 평가는 FAO Penman-Monteith 산정 공식을 통하여 기온, 일사량, 풍속에 대한 가상시나리오를 적용하여 분석하였다. 기후변화와 가상시나리오에 따른 수문분석 결과, 모의유출량은 SRES A2, B2 시나리오상에서 현재의 관측자료보다 대략 50%의 감소를 보이고 있으며 토지이용변화가 현재와 동일할 경우 SRES 시나리오를 적용한 경우보다 약 3$\sim$5%가량 더 감소됨을 확인하였다.

한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구 (A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.9-15
    • /
    • 2001
  • 본 연구에서는 한국어 음성인식 성능향상을 위한 문맥의존 음향 모델을 개선하기 위하여 한국어 음성학적 지식과 결정트리를 접목한 음소결정트리 기반 상태분할 알고리즘으로 한국어에 적합한 문맥의존 음향 모델에 관해 고찰한다. HMM (Hidden Markov Model)의 각 상태를 네트워크로 연결하여 문맥의존 음향모델로 표현하는 HM-Net(Hidden Markov Network)이 있는데 이는 SSS(Successive State Splitting) 알고리즘으로 작성한다. 이 방법은 음향 모델의 상태공유관계와 모델의구조를 결정하는데 효율적이지만 모델을 학습할때 문맥환경에 따라 출현하지 않는 문맥이 존재하는 문제점이 있다 본 연구에서는 이러한 문제점을 해결하기 위해 2진 결정트리와 SSS 알고리즘의 장점을 결합하여 문맥방향 상태분할을 수행할 때 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어에 따라 상태분할 하는 방법으로서 PDT-SSS(Phonetic Decision Tree-based SSS) 알고리즘을 적용한다. 적용한 방법으로 작성한 문맥의존 음향 모델의 유효성을 확인하기 위해 국어공학센터 (KLE)m이 452 단어와 항공편 예약관련 200문장(YNU 200)에 대해 화자독립 음소, 단어 및 연속음성인식 실험을 수행하였다. 인식실험결과, 문맥 의존 음향모델에 대한 화자독립 음소, 단어 및 연속음성 인식실험에서 기존의 단일 HMM 모델보다 향상된 인식률을 보여, 한국어에 적합한 문맥의존 음향 모델을 작성하는데 한국어 음성학적 지식과 음소결정트리 기반 상태분할 알고리즘이 유효함을 확인하였다.

  • PDF

퍼지기법을 이용한 상수관로의 노후도예측 모델 연구 (Deterioration Prediction Model of Water Pipes Using Fuzzy Techniques)

  • 최태호;최민아;이현동;구자용
    • 상하수도학회지
    • /
    • 제30권2호
    • /
    • pp.155-165
    • /
    • 2016
  • Pipe Deterioration Prediction (PDP) and Pipe Failure Risk Prediction (PFRP) models were developed in an attempt to predict the deterioration and failure risk in water mains using fuzzy technique and the markov process. These two models were used to determine the priority in repair and replacement, by predicting the deterioration degree, deterioration rate, failure possibility and remaining life in a study sample comprising 32 water mains. From an analysis approach based on conservative risk with a medium policy risk, the remaining life for 30 of the 32 water mains was less than 5 years for 2 mains (7%), 5-10 years for 8 (27%), 10-15 years for 7 (23%), 15-20 years for 5 (17%), 20-25 years for 5 (17%), and 25 years or more for 2 (7%).

재경로 설정을 고려한 통신망의 신뢰도 분석 모델링 (Reliability Analysis Modeling of Communication Networks Considering Rerouting)

  • 노철우
    • 한국콘텐츠학회논문지
    • /
    • 제9권1호
    • /
    • pp.45-52
    • /
    • 2009
  • 본 논문에서는 통신망의 큐잉망 모델을 링크 고장을 고려한 신뢰도 모델과 함께 개발한다. 가상연결을 갖는 통신망에서 링크 고장시의 신뢰도 분석이 수행된다. 확장된 추계적 페트리 네트인 SRN은 시스템 분석을 위한 다양한 모델링 기능을 제공해 주며 적절한 보상율을 모델에 할당해 줌으로써 원하는 성능지표를 쉽게 구할 수 있다. 재경로를 갖는 신뢰도 분석을 위하여 모델 규격을 정하고 자동으로 모델을 생성하고 그 해를 구하는데 SRN 모델링이 적합함을 보여준다. 링크 고장에 따른 다양한 재경로 설정과 신뢰도 분석을 위하여 SRN을 이용한 마르코프 모델이 개발되고 그 해가 구해진다.

HMM을 이용한 보행자 인식 (HMM-Based Human Gait Recognition)

  • 신봉기;석흥일
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권5호
    • /
    • pp.499-507
    • /
    • 2006
  • 최근, 사람을 인식하는데 있어 걸음걸이가 기존에 사용되어 오던 많은 생체인식을 보완할 만한 것으로 등장하였다. 본 연구는 보행자 실루엣의 동적 특징과 은닉 마르코프 모델(HMM)을 이용한 보행자 인식 방법을 제안한다. 보행자의 보행 모델은 무한 순환 구조의 HMM 두 가지를 사용하였다. 하나는 자기 조직화 지도(SOM)를 벡터 양자화기로 하는 이산 HMM방식이고, 다른 하나는 주성분 분석(PCA) 공간으로 변환된 특징 벡터를 이용하는 연속 HMM방식이다. 실험 결과 HMM이 몇 가지 변수의 조정에 대해 일관성 있는 성능 변화를 보이며 최고 88.1%의 인식률을 기록하였다. 또한 기존 연구 결과와 비교하여 볼 때 특징과 제안 구조의 모델은 보행자 인식에 충분한 적용 가능성이 있으며, 나아가 걸음걸이가 생체 인식으로 이용되기에 좋은 지표가 될 수 있을 것으로 판단된다.

한국어 연속음성 인식을 위한 단어 결합 모델링에 관한 연구 (A Study on Word Juncture Modeling for Continuous Speech Recognition of Korean Language)

  • 최인정;은종관
    • 한국음향학회지
    • /
    • 제13권5호
    • /
    • pp.24-31
    • /
    • 1994
  • 본 논문에서는 단어 조음결합의 음성학적 모델을 이용한 한국어 연속음성 인식에 관해 연구한다. 조음결합 현상에 의한 성능 감소를 줄이기 위해 단어내에서의 전이뿐만 아니라 단어간의 전이를 모델링하는 context-dependent (CD)단위를 사용한다. 모든 경우에서 각 단어의 첫 음소는 앞에 올 수 있는 모든 단어의 마지막 음소에 의해 지정되며, 각 단어의 마지막 음소도 유사한 방법으로 지정된다. Hidden Markov model (HMM) 파라미터들의 강인성을 개선하기 위해 공분산 행렬을 평활화한다. 또한 음성 단위들 사이의 분별력을 높이기 위해 position-dependent 단위를 사용한다. 실험 결과들은 개선된 조음결합 모델을 사용함으로서 intra-word 단위만을 사용하는 기본 인식 시스템에 비해 성능을 상당히 개선할 수 있음을 보여 주었다.

  • PDF

Bayesian Variable Selection in the Proportional Hazard Model with Application to Microarray Data

  • Lee, Kyeong-Eun;Mallick, Bani K.
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 춘계 학술발표회 논문집
    • /
    • pp.17-23
    • /
    • 2005
  • In this paper we consider the well-known semiparametric proportional hazards models for survival analysis. These models are usually used with few covariates and many observations (subjects). But, for a typical setting of gene expression data from DNA microarray, we need to consider the case where the number of covariates p exceeds the number of samples n. For a given vector of response values which are times to event (death or censored times) and p gene expressions(covariates), we address the issue of how to reduce the dimension by selecting the significant genes. This approach enables us to estimate the survival curve when n ${\ll}$p. In our approach, rather than fixing the number of selected genes, we will assign a prior distribution to this number. The approach creates additional flexibility by allowing the imposition of constraints, such as bounding the dimension via a prior, which in effect works as a penalty To implement our methodology, we use a Markov Chain Monte Carlo (MCMC) method. We demonstrate the use of the methodology to diffuse large B-cell lymphoma (DLBCL) complementary DNA (cDNA) data and Breast Carcinomas data.

  • PDF