• Title/Summary/Keyword: Bayesian validation method

검색결과 43건 처리시간 0.025초

소셜미디어 감성분석을 위한 베이지안 속성 선택과 분류에 대한 연구 (Investigating the Performance of Bayesian-based Feature Selection and Classification Approach to Social Media Sentiment Analysis)

  • 강창민;어균선;이건창
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.1-19
    • /
    • 2022
  • 온라인 사용자들이 소셜 미디어상에 올린 온라인 리뷰 속 숨겨진 감정을 분석하는 감성분석은 소셜미디어의 확산에 힘입어 많은 관심을 받고 있다. 본 연구는 기존 연구들과 차별화된 방법으로 감성분석을 시도하기 위하여 베이지안 네트워크에 기반한 감성 분석 모델을 제안한다. 모델에는 MBFS(Markov Blanket-based Feature Selection)가 속성 선택 기법으로 사용된다. MBFS의 성과를 실증적으로 증명하기 위하여 소셜미디어인 Yelp의 리뷰 데이터를 활용하였다. 벤치마킹 속성 선택 기법으로는 상관관계기반 속성 선택, 정보획득 속성 선택, 획득비율 속성 선택을 사용하였다. 한편, 해당 속성선택방법을 토대로 4개의 머신러닝 알고리즘을 이용하여 분류성과를 비교하였다. 나아가 MBFS로 선택된 속성들 간 인과관계를 확인하고자 베이지안 네트워크를 통해 What-if 분석을 실시하였다. 본 연구에서 택한 머신러닝 분류기는 베이지안 네트워크 기반의 TAN (Tree Augmented Naive Bayes), NB (Naive Bayes), S-Spouses(Sons & Spouses), A-markov (Augmented Markov Blanket)이다. 성과분석 결과 본 연구에서 제안한 MBFS 방법이 정확도, 정밀도, F1점수 측면에서 벤치마킹 방법보다 더 우수한 성과를 나타내었다.

증발산 산정을 위한 온도기반의 대체모형 개발 및 가뭄지수 적용성 평가 (Development of a surrogate model based on temperature for estimation of evapotranspiration and its use for drought index applicability assessment)

  • 김호준;김경욱;권현한
    • 한국수자원학회논문집
    • /
    • 제54권11호
    • /
    • pp.969-983
    • /
    • 2021
  • 수문기상인자 중 하나인 증발산은 수자원 계획 및 관리 시 고려되며, 특히 물수지모형 등 수문모형의 입력자료로 활용된다. FAO56 PM 방법은 기상인자로부터 기준증발산량(reference evapotranspiration, ET0)을 추정하며, 상대적으로 높은 정확성을 보여준다. 그러나 FAO56 PM 방법은 많은 기상인자가 필요하기 때문에 증발산 추정에 한계가 있다. 이러한 점에서 온도인자 기반의 Hargreaves 식의 매개변수를 Bayesian 모형을 통해 지역적으로 재추정하여 기준증발산량을 산정하였다. 통계 지표(CC, RMSE, IoA)를 활용하여 모형검증을 수행한 결과, 검증 기간에 대해 RMSE는 7.94 ~ 24.91 mm/month에서 6.77 ~ 12.94 mm/month로 기존 Hargreaves 식으로 추정된 증발산량에 비해 정확도가 크게 개선되었다. 본 연구에서는 산정된 기준증발산량을 활용해 증발 요구량(E0) 기반의 가뭄지수 EDDI (evaporative demand drought index)를 제시하였다. 가뭄지수로서 적용성을 확인하기 위해 강수량 및 SPI와 함께 최근 2014 ~ 2015년, 2018년 가뭄사상을 평가하였다. 한강유역에 위치한 춘천, 홍천의 2018년 가뭄 발생 당시, 주단위 EDDI가 2 이상까지 증가하였으며, 이를 통해 EDDI가 강수부족보다는 폭염에 대한 반응정도가 큰 것을 확인할 수 있었다. 가뭄지수 EDDI는 SPI와 함께 가뭄 분석 및 평가에 대해 활용성이 높은 것으로 사료된다.

최적의 유전자 클러스터 분석을 위한 퍼지 c-Means 알고리즘 기반의 베이지안 검증 방법 (Bayesian Validation Method based on Fuzzy c-Means Algorithm for Analysis of Optimal Gene Clustering)

  • 유시호;원홍희;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.736-738
    • /
    • 2003
  • 수천 개의 유전자 발현 정보를 가지고 있는 DNA 마이크로어레이 기술의 발달로 대량의 생물정보를 빠른 시간 내에 분석하는 것이 가능하게 되었다. 유전자를 분석하는 방법 중 하나인 클러스터링 방법은 비슷한 기능을 가진 유전자들을 집단화시켜서 집단내의 유전자들의 기능을 밝히거나, 미지의 유전자를 분석하는데 이용되고 있다. 본 논문에서는 유전자 데이터를 분석하기 위한 퍼지 클러스터링 방법과 이를 효과적으로 검증할 수 있는 베이지안 검증 방법을 제안한다. 퍼지 c-means 알고리즘을 사용하여 클러스터를 생성하고, 클러스터 결과를 기존의 퍼지 클러스터 검증 방법들과 본 논문에서 제안하는 베이지안 검증 방법을 사용하여 비교 평가한다. 베이지안 검증 방법은 각 유전자의 클러스터 멤버쉽을 확률로 이용하여 각 클러스터에 속할 확률을 계산하고, 이 값을 가장 크게 해주는 클러스터 집단을 선택한다. 이 방법은 기존의 퍼지 클러스터 검증 방법들과는 달리 클러스터 수에 무관한 평가가 가능한 장점을 가지고 있다. Serum과 Yeast 데이터에 대한 실험 결과, 베이지안 검증 방법의 유용성을 확인할 수 있었다.

  • PDF

유전자 발현 데이터의 퍼지 클러스터 평가를 위한 결정트리 기반의 베이지안 검증방법 (A Bayesian Validation Method based on Decision Tree for Evaluating Fuzzy Clusters of Gene Expression Data)

  • 유지호;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.262-264
    • /
    • 2004
  • 퍼지 클러스터링 방법은 일반적인 클러스터링 방법과는 달리 하나의 샘플이 다수의 집단에 속할 수 있으며 그 속하는 정도를 표현하여 보다 유연한 클러스터 분할의 분석을 가능하게 한다. 유전자 발현 데이터는 노이즈가 많고 공통된 기능을 가진 유전자들의 집단이 존재하기 때문에 퍼지 클러스터링을 사용하면 더욱 효율적으로 분석할 수 있다. 이러한 퍼지 클러스터링 방법에 있어서 중요한 것은 얼마나 분할이 정확하게 이루어졌으며 실제 데이터가 가지고 있는 분할과 결과가 얼마나 유사한가이다. 본 논문에서는 효과적인 유전자 클러스터의 평가를 위하여 베이지안 검증 방법을 제시하고, 결정트리로 생성된 규칙에 의하여 각 데이터의 특성에 따라 유연하게 검증하는 방법을 제안한다. 다양한 유전자 발현 데이터를 퍼지 c-means 알고리즘을 이용하여 클러스터링하고 제안하는 방법으로 검증한 결과, 그 유용성을 확인할 수 있었다.

  • PDF

상업용 토지 가격의 베이지안 추정: 주관적 사전지식과 크리깅 기법의 활용을 중심으로 (A Bayesian Estimation of Price for Commercial Property: Using subjective priors and a kriging technique)

  • 이창로;엄영섭;박기호
    • 대한지리학회지
    • /
    • 제49권5호
    • /
    • pp.761-778
    • /
    • 2014
  • 본 논문은 거래빈도가 낮아 지금껏 적극적으로 시도되지 못한 상업용 토지의 가격을 정확히 추정하고자 하였다. 서울시 상업용 토지 실거래가 자료를 대상으로 선형 결합 형태의 평균 구조(전역적 경향), 지수 형태의 공분산함수 그리고 순수 오차항을 구성요소로 하는 모형을 구축 및 적용하였다. 상권별로 가격수준이 차별적으로 형성되는 상업용 토지 가격의 특성을 감안하여 대표적 공간보간기법인 크리깅 방법을 적용함으로써 지가의 공간적 상관성을 명시적으로 고려하였다. 더 나아가 희소한 자료의 한계를 극복하기 위해 전문가 지식을 사전 확률분포의 형태로 모형에 반영할 수 있는 베이지안 크리깅 방법을 활용하였다. 적용한 모형의 성능은 적합 과정에 사용되지 않은 검증 자료를 대상으로 검토하였으며, 전문가 지식의 반영과 공간적 상관성의 명시적 고려를 통해 가격 추정의 정확성이 높아진 사실을 확인하였다. 본 논문은 베이지안 크리깅 기법을 토지 가격 추정에 적용하되, 전문가의 주관적 지식을 명시적으로 모형에 반영하였다는 점 등에서 기존 연구와 차별성을 갖는다. 본 논문의 결과는 거래 자료가 희소한 상황에서도 신뢰성 있게 부동산 가격을 추정해야하는 경우에 유용하게 활용될 수 있을 것으로 기대된다.

  • PDF

Comparison of genome-wide association and genomic prediction methods for milk production traits in Korean Holstein cattle

  • Lee, SeokHyun;Dang, ChangGwon;Choy, YunHo;Do, ChangHee;Cho, Kwanghyun;Kim, Jongjoo;Kim, Yousam;Lee, Jungjae
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제32권7호
    • /
    • pp.913-921
    • /
    • 2019
  • Objective: The objectives of this study were to compare identified informative regions through two genome-wide association study (GWAS) approaches and determine the accuracy and bias of the direct genomic value (DGV) for milk production traits in Korean Holstein cattle, using two genomic prediction approaches: single-step genomic best linear unbiased prediction (ss-GBLUP) and Bayesian Bayes-B. Methods: Records on production traits such as adjusted 305-day milk (MY305), fat (FY305), and protein (PY305) yields were collected from 265,271 first parity cows. After quality control, 50,765 single-nucleotide polymorphic genotypes were available for analysis. In GWAS for ss-GBLUP (ssGWAS) and Bayes-B (BayesGWAS), the proportion of genetic variance for each 1-Mb genomic window was calculated and used to identify informative genomic regions. Accuracy of the DGV was estimated by a five-fold cross-validation with random clustering. As a measure of accuracy for DGV, we also assessed the correlation between DGV and deregressed-estimated breeding value (DEBV). The bias of DGV for each method was obtained by determining regression coefficients. Results: A total of nine and five significant windows (1 Mb) were identified for MY305 using ssGWAS and BayesGWAS, respectively. Using ssGWAS and BayesGWAS, we also detected multiple significant regions for FY305 (12 and 7) and PY305 (14 and 2), respectively. Both single-step DGV and Bayes DGV also showed somewhat moderate accuracy ranges for MY305 (0.32 to 0.34), FY305 (0.37 to 0.39), and PY305 (0.35 to 0.36) traits, respectively. The mean biases of DGVs determined using the single-step and Bayesian methods were $1.50{\pm}0.21$ and $1.18{\pm}0.26$ for MY305, $1.75{\pm}0.33$ and $1.14{\pm}0.20$ for FY305, and $1.59{\pm}0.20$ and $1.14{\pm}0.15$ for PY305, respectively. Conclusion: From the bias perspective, we believe that genomic selection based on the application of Bayesian approaches would be more suitable than application of ss-GBLUP in Korean Holstein populations.

변동진폭하중 하에서 균열성장 예측의 실험적 검증 (Experimental Validation of Crack Growth Prognosis under Variable Amplitude Loads)

  • 임상혁;안다운;임체규;황웅기;최주호
    • 한국전산구조공학회논문집
    • /
    • 제25권3호
    • /
    • pp.267-275
    • /
    • 2012
  • 본 연구에서는 모드 I의 변동진폭하중 하에서 평판의 두께관통 균열성장을 예측하고 예측결과를 실험을 통해 검증하였다. 균열성장 모델을 위해 과하중으로 인한 균열가속과 지연효과를 고려하는 Huang의 모델식을 이용하였다. 실험적 검증을 위해 Al6016-T6 평판 균열을 제작하여 변동하중을 부여하고 균열길이를 일정 주기로 육안 측정하였다. 측정데이터로부터 모델 변수를 추정하기 위해 베이지안 접근법에 기반한 파티클 필터 방법을 이용하였고, 이를 통해 위험크기까지의 미래 거동 및 잔존수명을 확률적으로 예측하였으며, 이를 실제 실험한 결과와 비교하였다. 그 결과 변동하중에 의한 균열지연이 잘 예측됨을 확인하였고, 측정 데이터가 증가할수록 예측된 중앙값(median)이 실제와 점점 더 일치하였다.

통계적모형을 통한 고해상도 일별 평균기온 산정 (Generating high resolution of daily mean temperature using statistical models)

  • 윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권5호
    • /
    • pp.1215-1224
    • /
    • 2016
  • 고해상도 격자 단위 기후정보는 농업, 관광학, 생태학, 질병학 등 다양한 분야의 현상을 설명하는 중요 요인이다. 고해상도 기후정보는 동적 모형과 통계적 모형을 통해 얻을 수 있다. 통계적 모형은 동적 모형에 비해 계산 시간이 저렴하여 시공간 해상도가 높은 기후자료 생성에 주로 이용한다. 본 연구에서는 2003년부터 2012년까지 1월에 관측된 일 평균기온자료를 토대로 통계적 모형의 일 평균 기온을 생성하였다. 통계적 모형으로 선형모형을 기반으로한 일반선형모형, 일반화가법모형, 공간선형모형, 베이지안공간선형모형을 고려하였다. 예측성능평가를 위해 60개소의 지상관측소에서 관측된 일 평균기온을 모형적합 자료로 사용하여 352개소의 자동기상관측의 일 평균기온을 검증하였다. 평균제곱오차와 상관계수를 보면 베이지안공간모형의 예측성능이 다른 모형에 비해 상대적으로 우수하였다. 최종적으로 $1km{\times}1km$ 격자 단위 일 평균기온 지도를 생성하였다.

타브 숫자 인식을 위한 기계 학습 알고리즘의 성능 비교 (Performance Comparison of Machine Learning Algorithms for TAB Digit Recognition)

  • 허재혁;이현종;황두성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.19-26
    • /
    • 2019
  • 본 논문에서는 기타 타브 악보에서 추출한 프렛 번호를 대상으로 학습 알고리즘의 분류 성능을 비교한다. 타브 악보로부터 세그먼트를 통해 추출된 타브 숫자 데이터는 타브 선과 악보 기호가 포함하기 때문에 레이블링 기법과 비선형 필터를 이용하여 프렛 숫자를 추출한다. 추가적인 데이터 확보를 위해 전처리가 수행된 데이터에 대해 4 방향으로 이동 연산을 수행한다. 선택된 학습 모델은 베이지안 분류기, 지지벡터기기, 프로토타입 기반 학습, 다층 신경망 그리고 합성곱 신경망 모델 등이다. 실험 결과 베이지안 분류기는 85.0% 평균 정확도를 보였고 나머지 분류기는 99.0% 이상의 평균 정확도를 보였다. 일반화 성능과 전처리 단계를 고려 시 합성곱 신경망이 다른 학습 모델들보다 우수하다.

진화연산과 적응적 ${\alpha}$-cut 기반 평가를 이용한 유전자 발현 데이타의 퍼지 클러스터 분석 (Fuzzy Cluster Analysis of Gene Expression Profiles Using Evolutionary Computation and Adaptive ${\alpha}$-cut based Evaluation)

  • 박한샘;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권8호
    • /
    • pp.681-691
    • /
    • 2006
  • 유전자 데이타의 클러스터링은 방대한 유전자 정보를 발현 정도에 따라 비슷한 그룹으로 나누어 분석하는 방법으로 유전자의 기능을 분석하는데 사용되어 왔다. 클러스터링의 한 종류인 퍼지 클러스터링은 하나의 샘플이 소속정도에 따라 여러 그룹에 동시에 소속되도록 나누는 방법으로, 하나의 유전자 데이타는 여러가지 유전 정보를 가칠 수 있기 때문에 유전자 발현 데이타의 분석에 보다 적절한 방법이다. 그러나 보통 클러스터링 방법은 초기 값에 민감하고, 지역해에 빠질 수 있는 단점을 갖는다. 이런 단점을 해결하기 위해 본 논문에서는 진화 연산을 이용한 퍼지 클러스터링 방법을 제안한다. 이때, 적합도 평가를 위해서 모든 데이타에 대해 동일한 기준을 적용하는 베이지안 검증방법의 단점을 개선하여, 데이타의 특성 을 고려하여 결정된 적용적 ${\alpha}$-cut 기반 평가방법을 사용한다. SRBCT 데이타와 효모 세포주기 데이타를 이용해 실험을 하고 결과를 분석하여 제안하는 방법의 유용성을 확인하였다.