• 제목/요약/키워드: 확률 적합도 모델

검색결과 211건 처리시간 0.031초

대규모 데이터 분석을 위한 계층적 베이지안망 학습 (Hierarchical Bayesian Network Learning for Large-scale Data Analysis)

  • 황규백;김병희;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.724-726
    • /
    • 2005
  • 베이지안망(Bayesian network)은 다수의 변수들 사이의 확률적 관계(조건부독립성: conditional independence)를 그래프 구조로 표현하는 모델이다. 이러한 베이지안망은 비감독학습(unsupervised teaming)을 통한 데이터마이닝에 적합하다. 이를 위해 데이터로부터 베이지안망의 구조와 파라미터를 학습하게 된다. 주어진 데이터의 likelihood를 최대로 하는 베이지안망 구조를 찾는 문제는 NP-hard임이 알려져 있으므로, greedy search를 통한 근사해(approximate solution)를 구하는 방법이 주로 이용된다. 하지만 이러한 근사적 학습방법들도 데이터를 구성하는 변수들이 수천 - 수만에 이르는 경우, 방대한 계산량으로 인해 그 적용이 실질적으로 불가능하게 된다. 본 논문에서는 그러한 대규모 데이터에서 학습될 수 있는 계층적 베이지안망(hierarchical Bayesian network) 모델 및 그 학습방법을 제안하고, 그 가능성을 실험을 통해 보인다.

  • PDF

테이블 탑 디스플레이 기반의 온라인 필기 숫자 인식 (On-line Handwritten Numeral Recognition based on Table Top Display)

  • 김의철;김지웅;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.9-12
    • /
    • 2007
  • 테이블 탑 디스플레이는 사람에게 친숙한 상호작용의 매개체인 손을 입력장치로 이용하는 일종의 탁자형 멀티 터치스크린이라고 할 수 있다. 본 논문에서는 이러한 환경에서 손가락 제스쳐를 활용하여 필기 숫자를 인식하는 연구를 수행함으로써 테이블 탑 디스플레이에 적합한 필기 숫자 인식 기술을 개발하였고, 이로 인해 추후 진행될 연속 숫자 혹은 특수기호의 성공적인 인식 가능성을 확인하였다. 실험 과정은 테이블 탑 디스플레이의 표면을 통해 입력된 손가락 궤적을 잡음제거, 대표점 추출등의 전처리 과정을 거쳐 16-방향 체인코드로 변환하고, 변환된 체인코드의 학습 및 필기 숫자 인식에 확률 통계적 모델인 은닉 마르코프 모델을 이용하였다. 학습에는 총 300개 필기 숫자 데이터를 이용하였고, 인식 실험에 사용한 별도의 100개의 필기 숫자 데이터에 대해 97%의 정인식율을 보였다.

  • PDF

최대 엔트로피 모텔 기반 품사 태거의 성능 향상 기법 (Techniques for improving performance of POS tagger based on Maximum Entropy Model)

  • 조민희;김명선;박재한;박의규;나동열
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.73-81
    • /
    • 2004
  • 한국어에서의 품사 결정 문제는 형태론적 중의성 문제도 있지만, 영어에는 발생하지 않는 동품사 중의성 문제로 더 까다롭다. 이러한 문제들은 어휘 문맥을 고려하지 않고서는 해결하기 어렵다. 통계 자료 부족 문제에 쉽게 대처하는 모델이 필요하며 문맥에 따른 품사를 결정하고자 할 때 서로 다른 형태의 여러 가지 어휘 문맥 정보를 반영할 수 있는 모델이 필요하다. 본 논문에서는 이런 점에 가장 적합한 최대 엔트로피(maximum entropy : ME) 모델을 품사태깅 작업에 이용하는 문제에 대해 다룬다. 어휘 문맥 정보를 이용하기 위한 자질함수가 매우 많아지는 문제에 대처하기 위해 필요에 따라 어휘 문맥 정보를 사전화 한다. 본 시스템의 특징으로는 어절 단위 품사 태깅을 위한 처리 기법. 어절의 형태소 분석열에 대한 어절 내부 확률 계산. ME 모델의 정규화 과정 생략에 의한 성능 향상, 디코딩 경로의 확장과 같은 점들이 있다. 실험을 통하여 본 연구의 기법이 높은 성능의 시스템을 달성할 수 있음을 알게 되었다.

  • PDF

효율적 웰니스 관리를 위한 통합 온톨로지 상황모델의 구현 (An Implementation of Unified Ontology Context Model for Efficient Wellness Management)

  • 정장섭;기병욱;홍승택;방대욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.152-155
    • /
    • 2011
  • 최근 사회생활의 다변화로 인한 개인의 질환을 예방하고 건강을 증진시키기 위한 개인 웰니스 관리는 현대 사회의 성인에게는 필수적인 자기 관리에 해당된다. 본 논문는 이러한 웰니스 관리에 적절한 상황 모델로써 상황 데이터를 추론할 수 있는 SWRL 상황규칙과 불확실성을 표현한 베이지안 네트워크를 포함한 통합 온톨로지 기반 상황모델을 제시하였다. 제안한 상황모델에 포함된 추론 규칙은 웰니스 관리에 필요한 상황 서비스를 수행하는 액션들을 정의한다. 즉 상황 온톨로지에 SWRL 규칙을 포함함으로써 주로 웹 시멘틱에 사용되고 있는 OWL 언어를 상황인식 분야의 지식 베이스 구축에도 적합하도록 하였다. 그리고 웰니스 관리를 위해 상황 온톨로지로 표현되는 원시 상황 데이터는 센서 부정확성, 또는 개인 판단기준 차이로 인해 불확실성을 포함하므로, 어떤 논리적 상황 데이터는 불확실성을 고려하여 추론되어야 하기 때문에 본 논문은 상황 온톨로지 및 SWRL 규칙과 함께 베이지안 네트워크를 함께 표현할 수 있게 하여 OWL 상황 온톨로지 기반 규칙 추론뿐만 아니라 확률 추론을 용이하게 하였다.

한국어의 어순 구조를 고려한 Two-Path 언어모델링 (Two-Path Language Modeling Considering Word Order Structure of Korean)

  • 신중휘;박재현;이정태;임해창
    • 한국음향학회지
    • /
    • 제27권8호
    • /
    • pp.435-442
    • /
    • 2008
  • n-gram 모델은 영어와 같이 어순이 문법적으로 제약을 받는 언어에 적합하다. 그러나 어순이 비교적 자유로운 한국어에는 적합하지 않다. 기존 연구는 어절 간 어순의 고려가 어려운 한국어의 특성을 반영한 twoply HMM을 제안했으나, 인접 어절 간 어순 구조를 반영하지 못하였다. 본 논문에서는 용언형태소 사이에 나타나는 인접 어절 간에 어순 특성을 반영하기 위해 두 어절을 결합하는 세그먼트 단위를 정의하고, 제안한 세그먼트 단위에서 문맥에 따라 확률을 달리 추정하는 two-path 언어모델을 제안한다. 그 결과 기존 한국어 언어모델에 비해 제안하는 two-path 언어모델은 기존 연구보다 25.68% 혼잡도를 줄였으며, 어절 간에 결합이 일어나는 경계인 용언형태소에서는 94.03%의 혼잡도를 줄였다.

지구물리 자료의 고속 베이지안 역산 (Fast Bayesian Inversion of Geophysical Data)

  • 오석훈;권병두;남재철;이덕기
    • 지구물리
    • /
    • 제3권3호
    • /
    • pp.161-174
    • /
    • 2000
  • 베이지안 역산(Bayesian inversion)은 불충분한 자료를 가지고 지하구조를 추정해야 하는 지구물리자료의 해석에 있어서 안정적이고 신뢰를 줄 수 있는 방법 중의 하나이다. 관측 자료가 측정 과정부터 불확실성을 함유하고 있으며, 역산에 이용되는 이론 자료 또한 모델의 매개변수화에 따른 각종 불확실성을 포함하고 있다. 따라서 지구물리 자료의 역산은 확률적으로 접근하는 것이 가장 바람직하며 베이지안 역산은 이에 대한 처리뿐만 아니라, 추정에 대한 신뢰도와 불확실성에 대한 이론적 근거를 제공한다. 그러나 대부분의 베이지안 역산이 고차원의 적분을 필요로 하므로 몬테 카를로 방법과 같은 대규모의 계산이 요구되는 방법에 의해 사후 확률분포가 구해지는 경우가 많다. 이는 특히 지구물리 자료와 같이 고도의 비선형 자료에 대하여 매우 적합한 접근 방법이기는 하지만, 점차 현장화, 고속화되어가는 자료의 해석 경향에 맞추어 간략하게 사후 확률분포를 근사한 수 있는 기법의 연구 또한 필요하다. 따라서 이 연구에서는 관측자료와 사전 확률분포가 정규분포에 의해 근사 될 수 있는 지구물리자료에 대한 베이지안 역산에 대해 논의 하고자 한다. 사전 확률분포의 작성을 위해 지구통계학적 기법이 이용되었으며, 관측자료의 통계적 불화실성을 추정하기 위해 교차 검사(cross-validation) 방법을 이용하여 공분산(covariance)을 유도하고 그것에 의한 우도 함수(likelihood function)를 작성하였다. 베이지안 해석을 위해 두 확률분포를 곱하여 근사적인 사후 확률분포를 얻을 수 있었으며, 이에 대해 최적화(optimization) 기법을 이용하여 최대 사후 확률(Maximum a Posterior)을 따르는 지하 구조를 얻을 수 있었다. 또한 사후 확률 분포의 공분산 항을 이용하여 지하 비저항 구조를 시뮬레이션 하여 불확실성분석을 수행하였다.

  • PDF

한국어-영어/일본어-영어 교차언어정보검색에서 클러스터 분석을 통한 성능 향상 (Performance Improvement by Cluster Analysis in Korean-English and Japanese-English Cross-Language Information Retrieval)

  • 이경순
    • 정보처리학회논문지B
    • /
    • 제11B권2호
    • /
    • pp.233-240
    • /
    • 2004
  • 본 논문에서는 교차언어정보검색에서 점진적 클러스터링을 통해서 모호성을 묵시적으로 해소하는 방법을 제안한다. 연구 목적은 질의 번역에서 모호성이 크게 증가된 상태에서 문서 클러스터가 문서 문맥 역할과 모호성 해소 역할을 하는지를 보고자 하는 것이다. 제안하는 방법은 한국어/일본어 질의를 사전을 이용하여 영어로 번역을 하고, 번역된 영어 질의에 대해서 벡터공간검색모델이나 확률검색모델에 의해서 문서를 검색한다 검색된 문서의 순위대로 점진적 클러스터를 동적으로 생성하고, 이 클러스터 정보를 질의에 반영해서 문서의 순위를 다시 결정하는 것이다. TREC 테스트컬렉션을 이용한 실험에서 모호성 해소를 하지 않은 질의에 대해서, 제안한 방법은 한국어-영어 교차언어정보검색에서는 벡터공간검색모델에서 39.41%의 성능향상, 확률검색모델에서 36.79%의 성능향상을 보였다. 일-영 교차언어정보검색에서는 각각 17.59%와 30.46%의 성능향상을 보였다. 적합성 피드백 방법과의 비교에서는 모호성 해소를 하지 않은 경우 확률검색모델에서 12.30%의 성능향상을 보였다. 이를 통해, 클러스터 분석은 질의 모호성 해소에 도움을 주어서 검색성능 향상에 기여하였음을 알 수 있다.

확률론적 모델을 이용한 산사태 취약성 지도 분석: 한국 사천면과 주문진읍을 중심으로 (Landslide Susceptibility Apping and Comparison Using Probabilistic Models: A Case Study of Sacheon, Jumunzin Area, Korea)

  • 박성재;;이창욱
    • 대한원격탐사학회지
    • /
    • 제34권5호
    • /
    • pp.721-738
    • /
    • 2018
  • 이 연구의 목적은 확률모델의 2가지 방법인 Frequency Ratio(FR), Evidential Belief Functions(EBF) 모델을 사용하여 산사태 취약성을 작성하고 강릉시 사천면과 주문진읍에서의 결과 비교를 통해 각 지역에 적합한 모델을 선정하는 것이다. 사천면에서 762개, 주문진읍에서 548개의 산사태 위치를 항공 사진의 해석을 기반으로 작성되었다. 각각의 산사태 지점 중 절반을 모델링을 위해 무작위로 선택하였고 남은 산사태 지점은 검증 목적으로 사용하였다. 지형 요소, 수문 요소, 산림입지토양도(1:5,000), 임상도(1:5,000), 지질도(1:25,000)와 같은 5가지 범주로 분류된 20가지의 산사태 유발 요소가 연구에서 산사태 취약성 작성을 위해 고려되었다. 산사태 발생과 산사태 유발 요소 사이의 관계는 FR, EBF 모델을 사용하여 분석되었다. 그 후, 2 가지 모델을 AUC(curve under area) 방법을 사용하여 검증하였다. 검증 결과에 따르면 주문진읍에서 FR모델(AUC = 81.2%)이 EBF 모델(AUC = 78.9%)에 비해 정확도가 높았다. 사천면 지역에서는 EBF 모델(AUC = 83.6%)이 FR모델(AUC = 81.6%)보다 정확도가 높게 나타났다. 검증 결과 FR 모델과 EBF 모델은 정확도 80% 내외로 높은 정확도를 가지고 있음을 나타낸다.

풍하중을 고려한 확률론적 운동특성 평가기법 개발에 관한 연구 (Development of a Probabilistic Approach to Predict Motion Characteristics of a Ship under Wind Loads)

  • 이상의
    • 한국항해항만학회지
    • /
    • 제47권6호
    • /
    • pp.315-323
    • /
    • 2023
  • 지난 10년간, 복원력 상실로 인한 어선의 해양 사고는 지속해 증가하고 있다. 특히, 소형선박 사고의 대부분은 갑작스러운 바람이 주요 원인으로 지목되었다. 바람에 의한 소형선박의 갑작스러운 사고를 예방하기 위해서는 체계적인 분석기법 개발이 필요한 실정이다. 본 연구는 확률론적 극값 추정법을 기반으로 선박의 운동성능에 바람이 미치는 영향을 평가하는 데 그 목적이 있다. 이를 위해 운동 해석, 극값 추출, 운동 특성 분석 등의 연구를 수행하였다. 운동 해석은 Sea State 5의 파랑에서 파도, 파도와 균일 바람, 파도와 NPD풍속 모델 바람이 작용하는 3가지 조건을 적용하였다. 극값 추출은 Hysteresis 필터링 및 Peak-Valley 필터링 기법을 적용하였다. 추출된 극값을 이용하여 적합도 시험(Goodness of Fit Test)을 4가지 분포함수에 대해 수행하여 극값을 가장 잘 표현하는 최적의 분포함수를 선정하였다. 어선의 운동 특성은 3가지 주기 운동에 대하여 (Heave, Roll, Pitch)에 평가 후, 결과를 비교하였다. 선박의 운동성능 해석은 상용 솔버인 ANSYS-AQWA를 이용하였다.

풍향패턴에 따른 굼벨 모델 시뮬레이션에 의한 풍향풍속성의 적용율 평가에 관한 연구 (A Study on the Application ratio of Directional wind speeds Characteristics by Gumbel Model Simulation Using Directional wind Patterns)

  • 정영배
    • 한국강구조학회 논문집
    • /
    • 제22권6호
    • /
    • pp.573-580
    • /
    • 2010
  • 본 연구는 바람에 민감한 영향을 받는 건축물 또는 구조물에 있어서 풍향풍속을 고려하여 평가하는 방법을 제안하며 지역별 년 최대풍속에 따른 풍향풍속 특성에 대한 기초적인 결과를 정리한 것이다. 본 풍향풍속성 평가방법에서는 년최대풍속의 기상청 데이터를 기초로 하여 극치분포를 통해 적합성을 확인하였으며 풍향성을 고려하기 위하여 풍향풍속별 풍향패턴을 4그룹으로 구분하여 풍향풍속성 평가방법을 시도하여 제안하였다. 연구결과는 서울, 통영, 인천지역의 년최대풍속 기상데이터를 사용하여 전풍향풍속이 Gumbel분포에 의한 적합성을 확인하였으며, 이 전풍향풍속의 Gumbel model은 패턴별 4그룹 풍향풍속 Gumbel mode을 지배하는 독립된 확률특성을 가지므로 풍향패턴 4그룹 풍향풍속성의 평가를 통하여 적용율을 제안하였다. 연구결과는 년최대풍속에 의한 Gumbel분포의 적합성에 따른 서울, 통영, 인천 지역의 풍향패턴 4그룹 풍향풍속성을 고려한 새로운 적용율을 제안하였다.