• 제목/요약/키워드: Biased sampling

검색결과 43건 처리시간 0.022초

현장 조사 자료를 이용한 GIS 기반 주제도 작성을 위한 단변량 크리깅 기법의 비교 (Comparison of Univariate Kriging Algorithms for GIS-based Thematic Mapping with Ground Survey Data)

  • 박노욱
    • 대한원격탐사학회지
    • /
    • 제25권4호
    • /
    • pp.321-338
    • /
    • 2009
  • 이 연구의 목적은 비대칭 분포를 가지는 현장 조사 자료로부터 GIS 기반 주제도를 생성하기 위한 공간 내삽 방법으로 단변량 크리깅 기법을 비교하는데 있다. 기존 정규 크리깅과 비선형 자료 변환에 기반을 둔 로그 정규 크리깅, 다중 가우시안 크리깅과 지시자 크리깅을 지화학 원소 비소와 납에 대해 사례 연구를 통해 비교하였다. 예측 능력의 비교 분석을 위해 leave-one-out 기반 교차 검증을 통한 오차 분석을 수행하였으며, 샘플링 밀도의 차이에 따른 오차의 변화 양상도 분석하였다. 비교 분석 결과, 지시자 크리깅이 전반적으로 가장 높은 예측 능력을 나타내었으며, 작은 값과 높은 값의 예측 능력도 우수한 것으로 나타났다. 정규 크리깅에 비해 비선형 자료 변환 기반 크리깅 기법들이 우수한 예측 능력을 나타내었지만, 기존에 많이 적용된 로그 정규 크리깅은 샘플링 밀도와 상관없이 편향 정도가 가장 크게 나타내었다. 이 연구를 통해 얻어지는 정량적 검증 결과는 비대칭 분포를 가지는 현장 조사 자료의 내삽을 위한 크기깅 기법의 선정에 유용하게 이용될 수 있을 것으로 기대된다.

의사결정나무 기법을 이용한 노인들의 자살생각 예측모형 및 의사결정 규칙 개발 (A Development of Suicidal Ideation Prediction Model and Decision Rules for the Elderly: Decision Tree Approach)

  • 김덕현;유동희;정대율
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제28권3호
    • /
    • pp.249-276
    • /
    • 2019
  • Purpose The purpose of this study is to develop a prediction model and decision rules for the elderly's suicidal ideation based on the Korean Welfare Panel survey data. By utilizing this data, we obtained many decision rules to predict the elderly's suicide ideation. Design/methodology/approach This study used classification analysis to derive decision rules to predict on the basis of decision tree technique. Weka 3.8 is used as the data mining tool in this study. The decision tree algorithm uses J48, also known as C4.5. In addition, 66.6% of the total data was divided into learning data and verification data. We considered all possible variables based on previous studies in predicting suicidal ideation of the elderly. Finally, 99 variables including the target variable were used. Classification analysis was performed by introducing sampling technique through backward elimination and data balancing. Findings As a result, there were significant differences between the data sets. The selected data sets have different, various decision tree and several rules. Based on the decision tree method, we derived the rules for suicide prevention. The decision tree derives not only the rules for the suicidal ideation of the depressed group, but also the rules for the suicidal ideation of the non-depressed group. In addition, in developing the predictive model, the problem of over-fitting due to the data imbalance phenomenon was directly identified through the application of data balancing. We could conclude that it is necessary to balance the data on the target variables in order to perform the correct classification analysis without over-fitting. In addition, although data balancing is applied, it is shown that performance is not inferior in prediction rate when compared with a biased prediction model.

수온 관측 자료의 효율적인 이상 자료 탐지 (Efficient Outlier Detection of the Water Temperature Monitoring Data)

  • 조홍연;정신택;고동휘;손경표
    • 한국해안·해양공학회논문집
    • /
    • 제26권5호
    • /
    • pp.285-291
    • /
    • 2014
  • 연안의 수온 모니터링 자료는 이상자료 및 결측을 포함하고 있기 때문에 통계정보를 왜곡할 수 있다. 다양한 이상자료 감지 기법이 제안되고 있으나 결측이 없고 이상자료에 대한 사전정보를 가정하고, 어떤 적용기법은 과도한 계산시간이 소요되기 때문에 적용에 제한이 따른다. 본 연구에서는 방대한 자료에서도 효과적으로 이상자료를 감지할 수 있는 실용적인 Robust 모형을 제안하였다. 이 모형은 계산시간을 크게 저감하는 부분자료 추출기법을 이용한 어림성분 추정과정 및 어림성분으로부터 계산되는 잔차성분으로부터 이상자료를 반복적으로 진단하여 제거하는 부분으로 구성되어 있다. 이 모형의 성능평가는 새만금호에서 5분 간격으로 관측한 2년 동안의 수온 자료를 이용하여 수행하였다. 모형 적용결과, 이상자료가 전체자료에서 차지하는 비율은 1.6-3.7% 정도로 파악되었으며, 전체적으로 대부분의 이상자료가 제거되는 것으로 파악되었다. 또한 어림성분 추정과정의 반복적용은 Long-span 조건을 먼저 적용하는 것이 효과적인 것으로 파악되었다.

불완전한 자료에 대한 보완기법(EM 알고리듬과 2단계(Two Stage) 모델) (EM Algorithm and Two Stage Model for Incomplete Data)

  • 박경숙
    • 한국인구학
    • /
    • 제21권1호
    • /
    • pp.162-183
    • /
    • 1998
  • 여기서는 많은 수의 비관측사례로부터 발생할 수 있는 표본의 편의(bias) 문제를 탐구한다. 이 연구는 본래 일본 후생성이 1989년 실시한 <가족주기와 가구형태에 대한 인구학적 조사> 자료를 이용하여 노인부보와 자녀간 근접성을 분석하는 목적에서 이루어졌다. 그런데 <가족주기와 가구형태에 대한 인구학적 조사>는 노인부모를 대상으로 한 조사가 아니라 전체 가구 일반에 대한 조사이기 때문에 노인부모에 대한 많은 정보를 손상하고 있었다. 또한 본 조사는 가구주를 통하여 가족원에 대한 정보를 획득하는 방식으로 설계되었기 때문에 가족원에 대한 정보가 완전하지 못하였다. 나아가 비관측사례의 유형을 보면 여러 항목들이 동시적으로 관측되지 않고 있었다. 이와 같이 복합적 메커니즘에서 발생한 비관측 사례는 분석의 편의를 초래할 위험이 크다. 우선, 많은 수의 비관측사례로 표준오차를 잘못 추정할 소지가 크다. 더욱이 사례들이 선택적으로 관측되지 않았다면 관측된 자료에 따른 추정을 심각한 편의를 포함할 수 있다. 이와 같이 손상된 자료로부터 발생할 수 있는 추정 편의를 개선하기 위하여 여기서는 두 가지 기법을 활용하였다. 첫째, 관측치와 공변인간의 관계에 기초하여 비관측사례를 추정하는 방법으로 EM 알고리듬을 활용하였다. 둘째, 관찰의 선택성에서 비롯된 추정 편의를 개선하기 위하여 이단계(two stage) 모형을 활용하였다.

  • PDF

Tobit 모형을 이용한 국내 건설기술 원문서비스 가치 추정 (The Estimation of Domestic Construction Technology Full-Text Services using Tobit Model)

  • 정성윤
    • 한국산학기술학회논문지
    • /
    • 제17권6호
    • /
    • pp.656-662
    • /
    • 2016
  • 우리는 2001년부터 건설기술정보시스템(Construction Technology Digital Library system, CODIL)을 통해 각종 건설기술관련 원문을 서비스하고 있다. CODIL은 건설기술관련 자료를 데이터베이스로 구축하여 서비스하는 시스템이다. 하지만 매년 DB 확충 요구는 커지고 있으나 이에 필요한 예산은 줄고 있는 실정이다. 따라서 제한된 예산으로 국내 건설기술 원문을 효과적으로 서비스하기 위한 만족도를 조사하였다. 만족도를 계량화된 수치로 표현하기 위해 Tobit 모형을 이용하여 국내 건설기술 원문서비스에 대한 화폐 가치로 추정하였다. Tobit 모형은 비시장재의 가치를 추정하기 위해 사용되는 조건부가치 평가법의 하나로써 편의된 이상치가 지불의사액에 반영되지 않도록 좌변 또는 우변의 한계치를 절삭하여 관측하는 제한종속 변수모형이다. 우리는 312명을 표본대상으로 하여, Tobit 모형을 이용하여 6종의 건설기술관련 원문서비스에 대한 평균, 중앙, 절삭된 지불의사액을 계산하였다. 또한 원문서비스에 대한 지불의사액에 영향을 미치는 통계적으로 유의한 설명변수를 파악하였다. 1건당 원문서비스의 평균가치가 46,530원으로 추정되었다. 본 연구의 의의로는 국내에서 처음으로 건설기술 원문서비스의 가치 추정에 Tobit 모형을 이용하였다.

수질개선을 위한 한강 수계 상류지역 산림관리 지불의사금액 추정 (Assessment of the Willingness to Pay for Forest Management in the Upstream for Water Quality Improvement within the Han River Watershed)

  • 김동현;김철상;이호상;박경석;문지민;전현선
    • 환경정책연구
    • /
    • 제14권2호
    • /
    • pp.49-72
    • /
    • 2015
  • 상류지역 산림은 하류지역 주민들이 사용하고 있는 상수원의 수질개선에 많은 기여를 하고 있다. 하지만 수질개선을 목표로 설치된 한강수계관리기금의 지금까지의 지출구조를 살펴보면, 수계 상류지역에 위치하고 있는 산림관리에 투자되고 있지 않음을 알 수 있다. 따라서 수계관리위원회가 수질개선을 위한 산림관리 사업에 대한 지불의사금액을 알아보고 상류지역 산림을 관리하기 위한 예산 규모를 산정하고자 한다. 이를 위해 물이용부담금 납부자를 대상으로 한강 수질개선을 위한 상류지역 산림관리에 대한 지불의사금액을 추정해 보았다. 한강수계 물이용부담금 납부자를 대상으로 편의 추출법을 사용하여 300부의 설문지를 회수하였고, 조건부 로짓모형과 혼합 로짓모형으로 분석한 결과 목적변수인 산림관리에 대한 통계적 유의성이 있음을 확인하였다. 이를 토대로 수계관리기금에서 산림관리를 위해 투자할 수 있는 예산 범위를 추정한 결과, 최소 20,526백만 원에서 최대 20,928백만 원의 규모로 운용될 수 있을 것으로 산정되었다.

  • PDF

오토인코더 기반의 외부망 적대적 사이버 활동 징후 감지 (Detection of Signs of Hostile Cyber Activity against External Networks based on Autoencoder)

  • 박한솔;김국진;정재영;장지수;윤재필;신동규
    • 인터넷정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.39-48
    • /
    • 2022
  • 전 세계적으로 사이버 공격은 계속 증가해 왔으며 그 피해는 정부 시설을 넘어 민간인들에게 영향을 미치고 있다. 이러한 문제로 사이버 이상징후를 조기에 식별하여 탐지할 수 있는 시스템 개발의 중요성이 강조되었다. 위와 같이, 사이버 이상징후를 효과적으로 식별하기 위해 BGP(Border Gateway Protocol) 데이터를 머신러닝 모델을 통해 학습하고, 이를 이상징후로 식별하는 여러 연구가 진행되었다. 그러나 BGP 데이터는 이상 데이터가 정상 데이터보다 적은 불균형 데이터(Imbalanced data)이다. 이는, 모델에 학습이 편향된 결과를 가지게 되어 결과에 대한 신뢰성을 감소시킨다. 또한, 실제 사이버 상황에서 보안 담당자들이 머신러닝의 정형적인 결과로 사이버 상황을 인식시킬 수 없는 한계도 존재한다. 따라서 본 논문에서는 전 세계 네트워크 기록을 보관하는 BGP(Border Gateway Protocol)를 조사하고, SMOTE(Synthetic Minority Over-sampling Technique) 활용해 불균형 데이터 문제를 해결한다. 그 후, 사이버 공방(Cyber Range) 상황을 가정하여, 오토인코더를 통해 사이버 이상징후 분류하고 분류된 데이터를 가시화한다. 머신러닝 모델인 오토인코더는 정상 데이터의 패턴을 학습시켜 이상 데이터를 분류하는 성능을 92.4%의 정확도를 도출했고 보조 지표도 90%의 성능을 보여 결과에 대한 신뢰성을 확보한다. 또한, 혼잡한 사이버 공간을 가시화하여 효율적으로 상황을 인식할 수 있기에 사이버 공격에 효과적으로 방어할 수 있다고 전망된다.

Comparison of accuracy of breeding value for cow from three methods in Hanwoo (Korean cattle) population

  • Hyo Sang Lee;Yeongkuk Kim;Doo Ho Lee;Dongwon Seo;Dong Jae Lee;Chang Hee Do;Phuong Thanh N. Dinh;Waruni Ekanayake;Kil Hwan Lee;Duhak Yoon;Seung Hwan Lee;Yang Mo Koo
    • Journal of Animal Science and Technology
    • /
    • 제65권4호
    • /
    • pp.720-734
    • /
    • 2023
  • In Korea, Korea Proven Bulls (KPN) program has been well-developed. Breeding and evaluation of cows are also an essential factor to increase earnings and genetic gain. This study aimed to evaluate the accuracy of cow breeding value by using three methods (pedigree index [PI], pedigree-based best linear unbiased prediction [PBLUP], and genomic-BLUP [GBLUP]). The reference population (n = 16,971) was used to estimate breeding values for 481 females as a test population. The accuracy of GBLUP was 0.63, 0.66, 0.62 and 0.63 for carcass weight (CWT), eye muscle area (EMA), back-fat thickness (BFT), and marbling score (MS), respectively. As for the PBLUP method, accuracy of prediction was 0.43 for CWT, 0.45 for EMA, 0.43 for MS, and 0.44 for BFT. Accuracy of PI method was the lowest (0.28 to 0.29 for carcass traits). The increase by approximate 20% in accuracy of GBLUP method than other methods could be because genomic information may explain Mendelian sampling error that pedigree information cannot detect. Bias can cause reducing accuracy of estimated breeding value (EBV) for selected animals. Regression coefficient between true breeding value (TBV) and GBLUP EBV, PBLUP EBV, and PI EBV were 0.78, 0.625, and 0.35, respectively for CWT. This showed that genomic EBV (GEBV) is less biased than PBLUP and PI EBV in this study. In addition, number of effective chromosome segments (Me) statistic that indicates the independent loci is one of the important factors affecting the accuracy of BLUP. The correlation between Me and the accuracy of GBLUP is related to the genetic relationship between reference and test population. The correlations between Me and accuracy were -0.74 in CWT, -0.75 in EMA, -0.73 in MS, and -0.75 in BF, which were strongly negative. These results proved that the estimation of genetic ability using genomic data is the most effective, and the smaller the Me, the higher the accuracy of EBV.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.

석조문화재의 풍화지수 산정을 위한 초음파속도의 평가 및 보정 (Assessment and Calibration of Ultrasonic Velocity Measurement for Estimating the Weathering Index of Stone Cultural Heritage)

  • 이영준;김영석;이민희;한준희;김민수
    • 한국지구과학회지
    • /
    • 제33권2호
    • /
    • pp.126-138
    • /
    • 2012
  • 석조문화재의 풍화훼손도를 평가하기 위해 초음파속도를 이용하는 방법은 현장적용 및 풍화도 평가가 용이하여 널리 사용되고 있다. 이 방법은 풍화가 진행되면 초음파 속도가 감소하는 특성을 이용해 신선암과 풍화암의 초음파속도 차이를 이용하여 풍화등급을 산정한다. 그러나 풍화등급 산정에서 신선암의 초음파속도를 암석의 산출지역과 관계없이 고정값(5,000 m/s)으로 사용하기 때문에 우리나라와 같이 동일한 암종에서도 다양한 속도가 나타나는 경우 많은 문제가 발생되고 있다. 따라서 본 연구에서는 우리나라 석조문화재를 구성하는 대표 암종에 대하여 20종의 시편과 60개의 코어시료를 획득해 신선암의 초음파속도를 측정하여 데이터베이스(DB)를 구축하고 이를 보고하였다. 이 결과, 동일한 암종인 화강암 내에서도 초음파속도가 3,118에서 5,380 m/s까지 다양하게 나타나며 이를 무시하고 고정값을 사용할 경우 풍화등급 산정에 많은 오차를 발생시킬 수 있음을 확인하였다. 다음으로 측정 오차에 대한 보정을 위해, 현장측정에서 사용하는 두 가지 방법(직접법과 간접법)에 의해 속도를 측정하고 지역별 암종에 따른 보정계수를 산출하였는데 그 범위는 1.31에서 1.76까지 다양하게 나타났다. 그 외 측정온도, 장비운영자에 따른 초음파속도의 차이를 확인한 결과 그 차이가 오차범위 내에 있어 풍화도 평가에 미치는 영향은 크지 않은 것으로 나타났다. 마지막으로 본 연구에서 얻어진 초음파속도 DB와 측정보정계수를 실제 석조문화재인 봉황리 마애불상군에 적용한 결과, 풍화지수는 0.3으로 기존의 방법보다 0.1 정도 낮게 평가되었으며 풍화등급 또한 기존의 방법이 "상당히 풍화"로 판별하는 것에 비해 "중간정도의 풍화"로 차이가 나타났다. 동일한 문화재를 대상으로 한 다른 연구결과에서 중간정도의 풍화등급을 제시하고 있어 본 연구의 결과가 보다 정확한 것으로 확인되었다. 따라서 본 연구에서 제시한 방법은 보다 정확한 풍화지수의 산정과 그에 따른 보존대책을 수립하는데 기여할 것으로 기대된다.