• 제목/요약/키워드: Data Imputation

검색결과 202건 처리시간 0.027초

19대 대선 여론조사에서 무응답 메카니즘의 민감도 분석 (Sensitivity analysis of missing mechanisms for the 19th Korean presidential election poll survey)

  • 김성용;곽동호
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.29-40
    • /
    • 2019
  • 선거여론조사 자료의 경우 무응답이 흔히 관측되며, 이와 같이 무응답이 존재하는 범주형 자료는 불완전 분할표로 표현된다. 불완전 분할표로 표현된 선거여론조사 자료에서 후보자 지지율을 추정하는 경우, 지지율은 무응답이 어떤 메카니즘을 따르는가에 따라 다르게 추정되며, 따라서 자료가 어떠한 무응답 메카니즘을 따르는지에 대한 판별이 분석에 선행되어야 한다. 그러나 최근 연구에 따르면, 관측된 자료를 이용해서는 무응답 메카니즘을 판별할 수 없음이 밝혀졌다. 이러한 문제를 해결하기 위해 다양한 무응답 메카니즘을 반영할 수 있는 민감도 분석이 제안되었다. 그러나 기존에 제안된 민감도 분석의 경우, 이원 분할표에서 각 변수의 범주 수가 두 개인 경우만을 대상으로 한다. 우리나라 선거여론조사에서 고려되는 요인이 지역, 성, 연령 등임을 감안할 때, 기존 방법론으로 민감도 분석을 시행하기에는 한계점이 존재한다. 이에 따라 본 논문에서는 기존의 민감도 분석을 다차원 불완전 분할표에 적용할 수 있도록 확장하고, 이를 우리나라 19대 대선 여론조사 자료에 적용하였다. 분석 결과, 민감도 분석의 구간이 실제 지지율을 포함하고 있을 뿐 아니라, 다양한 무응답 메카니즘의 결과를 포괄하고 있으며, 실제 지지율과 가장 가까운 예측치의 경우 후보자에 대한 지지가 무응답의 발생에 영향을 미침을 알 수 있었다.

Association of Genetic Polymorphism of IL-2 Receptor Subunit and Tuberculosis Case

  • Lee, Sang-In;Jin, Hyun-Seok;Park, Sangjung
    • 대한의생명과학회지
    • /
    • 제24권2호
    • /
    • pp.94-101
    • /
    • 2018
  • Tuberculosis (TB) is infectious disease caused by Mycobacterium tuberculosis (MTB) infection. It is known that not only the property of microorganism but also the genetic susceptibility of infected patients is controlled. Interleukin 2 (IL-2) is a cytokine belonging to type 1 T helper (Th1) activity. In addition, IL-2, when infected with MTB, binds IL-2 receptor and promotes T cell replication and is involved in granuloma formation. The aim of this study was to investigate the genetic polymorphisms of the IL-2 receptor gene in tuberculosis patients and normal individuals. We analyzed 22 SNPs in three genes using the genotype data of 443 tuberculosis cases and 3,228 healthy controls from the Korea Association Resource for their correlation with tuberculosis case. IL2RA, IL2RB, and IL2RG genes were genotyped of 16, 4, and 2 SNPs, respectively. Among three genes, only IL2RA gene polymorphisms showed statistically significant association with tuberculosis case. 6 SNPs with high significance were identified in the IL2RA gene. In addition, the linkage disequilibrium (LD) structure of IL2RA gene was confirmed. SNP imputation of IL2RA gene was performed, it was confirmed that more SNPs were significant between case and control. If we look at the results of IL2RA gene analysis above, we can see that genetic polymorphism in the gene expressing $IL-2R{\alpha}$ will regulate the expression level of $IL-2R{\alpha}$, and the change in the immune system involved in $IL-2R{\alpha}$. In this study, genetic polymorphism that may affect host immunity suggests that susceptibility to tuberculosis may be controlled.

정부연구개발비 유용행위 시 제재부가금에 관한 연구 (A Study on the Imposition of Sanctions on Illegal Use of Government R&D Expenses)

  • 노상균;안은숙;현병환
    • 한국산학기술학회논문지
    • /
    • 제19권12호
    • /
    • pp.854-862
    • /
    • 2018
  • 기초연구투자, 성장동력창출 등 미래 성장시장 개척을 위해, 2019년도 정부R&D 예산은 20조원을 돌파하게 되었다. 이처럼 연구개발 투자의 중요성은 높아지고 있으며, 효율적이고 투명한 사업비 집행을 위한 다양한 제도 또한 확대 시행중이다. 그러나 사업비 부정집행 등 연구비 유용행위는 지속적으로 발생되고 있는바, 이에 대해 강력한 제재조치수단인 제재부가금 부과제도가 본격 도입 시행되고 있다. 본 논고에서는 제재부가의 법적근거, 부처 간 법령 비교검토, 부과기준(부과율) 분석을 실시하였으며, 실무 활용에 본 연구의 목적이 있다. 또한 부처 부가금 부과기준의 일원화 개정이후 단일기준을 적용 시행함에 따라, 이에 부가금제도의 변천과정을 고찰하고, 최근 3년간 부과자료를 근거로 구간별 부과현황 등 정밀분석을 실시하였다. 데이터 분석결과 소액 유용행위에 집중 부과되고 있음을 도출하였으며, 이에 상응한 새로운 정책방안을 제시하였다.

머신러닝 알고리즘을 이용한 결측 강우 데이터 추정에 관한 연구 (Imputation of missing precipitation data using machine learning algorithms)

  • 한희찬
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.320-320
    • /
    • 2023
  • 강우 데이터는 수문기상, 환경, 농업, 자연재해, 그리고 수자원 시스템 분야에서 가장 필수적인 기본 요소 중 하나이다. 또한 강우 데이터는 수문학적 분석에서 활용되는 필수 입력 자료 중 하나로 관측 데이터의 품질에 따라 수문 모형을 이용한 모의 결과물의 정확도가 결정된다고 할 수 있다. 따라서, 강우 관측소별로 강우 데이터의 품질을 어떻게 관리하느냐에 따라 수문 모형의 활용 범위 및 수자원 관리의 효율성이 결정될 수 있다. 강우의 시공간적 변동성은 수 많은 인자들과 직간접적으로 연계되어 있기 때문에 미계측 강우 자료에 대해 직접 관측이 아닌 수치 모형을 이용하여 강우의 발생과 강우량을 산정하는 것은 매우 복잡한 과제 중 하나이다. 현재 국내에서 운용되고 있는 강우 관측소의 경우에도 미계측 된 강우 데이터가 존재함으로써 강우 데이터의 활용에 제한이 생기는 경우가 있다. 따라서, 이러한 미계측 데이터의 추정 및 보완은 보다 효과적인 수재해 방지, 수자원 관리를 위한 필수 과제 중 하나이다. 일반적으로, 미계측 강우를 산정하기 위해서 Kriging, Thiessen, 등우선법, 그리고 역거리 관측법 등 다양한 수문학적 방법들이 적용되고 있다. 이러한 방법들은 산악효과나 강우 관측소의 분포 상태 등을 고려하지 못하기 때문에 측정하는 지역에 따라 강우 추정 오차가 커질 수 있다는 한계가 있다. 최근에는 데이터 관측 시스템과 빅데이터 기술의 발전과 활용 가능한 데이터의 양이 증가함에 따라 머신러닝을 활용한 사례가 증가하고 있다. 머신러닝은 데이터 사이의 관계를 기반으로 분류, 회귀, 그리고 예측 문제에 주로 사용되는 기법 중 하나이다. 따라서, 본 연구에서는 광주광역시 지역에 위치한 주요 강우 관측 지점들을 대상으로 미계측 된 시강우 데이터를 추정 및 복원하고자 한다. 여기서 데이터 추정 기술이란 미계측 강우의 발생 유무 및 강우량을 추정할 수 있는 기술을 의미한다. 이를 위해 대표적인 머신러닝 알고리즘인 인공신경망(Artificial Neural Network) 및 랜덤포레스트(Random Forest)를 적용하였다.

  • PDF

선거여론조사에서 투표율 반영을 통한 득표율 추정 (Estimation of the Percent of the Vote by Adjustment of Voter Turnout in Election Polls)

  • 김정훈;한상태;강현철
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2873-2881
    • /
    • 2018
  • 유권자들의 올바른 투표행위에 기여하기 위하여 또는 후보나 정당의 적절한 선거전략 수립을 위하여, 선거여론조사를 통하여 신뢰성 있고 객관적인 정보를 확보하는 것은 매우 중요한 문제이다. 따라서 정당, 언론기관, 조사회사 등 관련 기관에서는 여론조사의 결과와 선거예측의 정확도 향상을 위해 지속적으로 노력해 왔다. Kim et al.(2017)에서는 선거여론조사에서 지지후보가 없다고 응답한 무응답층을 분류하여 득표율 예측의 정확도를 높일 수 있는지를 분석하였는데, 결과적으로 무응답층에 대하여 적절한 분류를 수행함으로써 득표율 추정의 정확도를 상당히 높일 수 있음을 확인한 바 있다. 본 연구에서는 특정 선거구(지역)에 대하여 전체 투표율이 주어져 있다는 조건 하에서 각 층(성, 연령대)별 투표율을 추정하는 방안을 제안하고, 투표율을 반영하여 득표율을 예측하는 절차를 제시하였다. 또한 2016년 20대 국회의원선거에 대한 여론조사에서 전화면접조사를 통해 얻어진 자료를 사용하여 사례 분석을 수행하였다.

사업체패널조사의 조사설계 (Survey Design of the Workplace Panel Survey in Korea)

  • 이기재;김혜원;김수진;김기민;이용희
    • 한국조사연구학회지:조사연구
    • /
    • 제9권3호
    • /
    • pp.71-91
    • /
    • 2008
  • 사업체패널조사는 상용근로자 30인 이상의 사업체를 대표하는 패널을 구성하여 전반적인 경영환경 및 인적자원 관리체계, 노사관계의 현황 및 임금교섭 과정 등에 대한 정보를 추적 조사하는 종단면 조사이다. 이 조사는 우리나라의 고용구조 및 노동수요를 체계적으로 파악하고, 전반적인 인적자원 관리체계를 평가하여 바람직 한 노동시장정책을 수립하기 위한 기초자료로 활용하는 것을 목적으로 한다. 조사에서는 인사담당자 응답용, 노사관계 업무담당자 응답용, 근로자대표 응답용으로 구분된 세 종류의 설문지가 사용되었다. 사업체패널조사의 표본사업체는 지역, 업종 구분 및 사업장 규모 등을 층화변수로 하는 층화임의추줄법에 따라 추출되었다. 사업체패널조사의 가중치는 설계 가중치, 무응답 조정, 사후층화 조정의 과정을 거쳐 작성되었으며, 조사 실사과정은 조사데이터의 질을 높이고자 컴퓨터보조개별면접 (CAPI) 방법을 적용하여 진행되었다. 본 연구에서는 사업체패널조사에 대한 구조와 주요 설문내용, 표본설계, 실사과정, 응답률 현황, 무응답 대체방법, 가중치 작성과정, 조사결과에 대한 설계효과 분석 등에 대해서 논의하였다.

  • PDF

Fine mapping of rice bacterial leaf blight resistance loci to major Korean races of Xoo (Xanthomonas oryzae)

  • Lee, Myung-Chul;Choi, Yu-Mi;Lee, Sukyeung;Yoon, Hyemyeong;Oh, Sejong
    • 한국자원식물학회:학술대회논문집
    • /
    • 한국자원식물학회 2018년도 추계학술대회
    • /
    • pp.73-73
    • /
    • 2018
  • Bacterial leaf blight(BLB), caused by X. oryzae pv. oryzae(Xoo), is one of the most destructive diseases of rice due to its high epidemic potential. Understanding BLB resistance at a genetic level is important to further improve the rice breeding that provides one of the best approaches to control BLB disease. In the present investigation, a collection of 192 accessions was used in the genome-wide association study (GWAS) for BLB resistance loci against four Korean races of Xoo that were represented by the prevailing BLB isolates under Xoo differential system. A total of 192 accessions of rice germplasm were selected on the basis of the bioassay using four isolated races of Xoo such as K1, K2, K3 and K3a. The selected accessions was used to prepare 384-plex genotyping by sequencing (GBS) libraries and Illumina HiSeq 2000 paired- end read was used for GBS sequencing. GWAS was conducted using T ASSEL 5.0. The T ASSEL program uses a mixed linear model (MLM). T he results of the bioassay using a selected set of 192 accessions showed that a large number of accessions (93.75%) were resistant to K1 race, while the least number of accessions (34.37%) resisted K3a race. For races K2 and K3, the resistant germplasm proportion remained between 66.67 to 70.83%. T he genotypic data produced SNP matrix for a total of 293,379 SNPs. After imputation the missing data was removed, which exhibited 34,724 SNPs for association analysis. GWAS results showed strong signals of association at a threshold of [-log10(P-value)] more than5 (K1 and K2) and more than4 (K3 and K3a) for nine of the 39 SNPs, which are plausible candidate loci of resistance genes. T hese SNP loci were positioned on rice chromosome 2, 9, and 11 for K1 and K2 races, whereas on chromosome 4, 6, 11, and 12 for K3 and K3a races. The significant loci detected have also been illustrated, NBS-LRR type disease resistance protein, SNARE domain containing protein, Histone deacetylase 19, NADP-dependent oxidoreductase, and other expressed and unknown proteins. Our results provide a better understanding of the distribution of genetic variation of BLB resistance to Korean pathogen races and breeding of resistant rice.

  • PDF

Fine mapping of rice bacterial leaf blight resistance loci on K1 and K2 of Korean races of Xoo (Xanthomonas oryzae) using GWAS analysis

  • 현도윤;이정로;조규택;;신명재;이경준
    • 한국자원식물학회:학술대회논문집
    • /
    • 한국자원식물학회 2019년도 춘계학술대회
    • /
    • pp.62-62
    • /
    • 2019
  • Bacterial leaf blight(BLB), caused by X. oryzae pv. oryzae(Xoo), is one of the most destructive diseases of rice due to its high epidemic potential. Understanding BLB resistance at a genetic level is important to further improve the rice breeding that provides one of the best approaches to control BLB disease. In the present investigation, a collection of 192 accessions was used in the genome-wide association study (GWAS) for BLB resistance loci against four Korean races of Xoo that were represented by the prevailing BLB isolates under Xoo differential system. A total of 192 accessions of rice germplasm were selected on the basis of the bioassay using four isolated races of Xoo such as K1 and K2. The selected accessions was used to prepare 384-plex genotyping by sequencing (GBS) libraries and Illumina HiSeq 2000 pairedend read was used for GBS sequencing. GWAS was conducted using TASSEL 5.0. The TASSEL program uses a mixed linear model (MLM). The results of the bioassay using a selected set of 192 accessions showed that a large number of accessions (93.75%) were resistant to K1 race and K2 resistant germplasm proportion remained between 66.67. The genotypic data produced SNP matrix for a total of 293,379 SNPs. After imputation the missing data was removed, which exhibited 34,724 SNPs for association analysis. GWAS results showed strong signals of association at a threshold of [-log10(P-value)] more than 5 (K1 and K2) for nine of the 39 SNPs, which are plausible candidate loci of resistance genes. These SNP loci were positioned on rice chromosome 2, 9, and 11 for K1 and K2 races. The significant loci detected have also been illustrated and make the CPAS markers for NBS-LRR type disease resistance protein, SNARE domain containing protein, Histone deacetylase 19, NADP-dependent oxidoreductase, and other expressed and unknown proteins. Our results provide a better understanding of the distribution of genetic variation of BLB resistance to Korean pathogen races and breeding of resistant rice.

  • PDF

AHP 기법을 활용한 위험물 수송의 최적경로산정 (Applying the Analytic Hierarchy Process to Select the Optimal Route for Hazardous Material Transport)

  • 손유진;배상훈
    • 한국지리정보학회지
    • /
    • 제13권4호
    • /
    • pp.67-77
    • /
    • 2010
  • 석유화학산업의 성장으로 석유화학물의 수송량이 증가하였다. 이는 위험물 사고건수의 증가를 초래하였다. 위험물 사고의 70% 이상이 수송 중 발생하며, 경로선택과정에서 수송경로의 선택에 따라 피해규모를 줄일 수 있지만 위험물 수송경로관련 연구는 미비한 실정이다. 본 연구의 목적은 전문가의 의견을 반영한 적정 위험물 수송경로의 선정을 통해 사고 발생시 피해규모를 최소화 하는데 있다. 이에 계층분석법(AHP)을 통하여 도출된 가중치를 위험도에 적용하여 최소 위험도 경로를 도출하였다. 그 결과 가중치 적용 경로의 경우 최단경로에 비해 인구위험도는 33.4%인 0.608, 환경위험도는 21.8% 감소한 0.168, 사회위험도는 1521.7%인 0.35가 감소하였다. 가중치 미적용 노선과 가중치 적용 노선을 비교하면, 가중치 적용 노선의 인구위험도는 2.6% 감소하였다. 본 연구를 통해 전문가의 의견을 반영한 가중치의 적용으로 위험도를 감소시키면서 인구피해규모를 최소화 하는 최적경로를 도출할 수 있었다.

Lung Function Trajectory Types in Never-Smoking Adults With Asthma: Clinical Features and Inflammatory Patterns

  • Kim, Joo-Hee;Chang, Hun Soo;Shin, Seung Woo;Baek, Dong Gyu;Son, Ji-Hye;Park, Choon-Sik;Park, Jong-Sook
    • Allergy, Asthma & Immunology Research
    • /
    • 제10권6호
    • /
    • pp.614-627
    • /
    • 2018
  • Purpose: Asthma is a heterogeneous disease that responds to medications to varying degrees. Cluster analyses have identified several phenotypes and variables related to fixed airway obstruction; however, few longitudinal studies of lung function have been performed on adult asthmatics. We investigated clinical, demographic, and inflammatory factors related to persistent airflow limitation based on lung function trajectories over 1 year. Methods: Serial post-bronchodilator forced expiratory volume (FEV) 1% values were obtained from 1,679 asthmatics who were followed up every 3 months for 1 year. First, a hierarchical cluster analysis was performed using Ward's method to generate a dendrogram for the optimum number of clusters using the complete post-FEV1 sets from 448 subjects. Then, a trajectory cluster analysis of serial post-FEV1 sets was performed using the k-means clustering for the longitudinal data trajectory method. Next, trajectory clustering for the serial post-FEV1 sets of a total of 1,679 asthmatics was performed after imputation of missing post-FEV1 values using regression methods. Results: Trajectories 1 and 2 were associated with normal lung function during the study period, and trajectory 3 was associated with a reversal to normal of the moderately decreased baseline FEV1 within 3 months. Trajectories 4 and 5 were associated with severe asthma with a marked reduction in baseline FEV1. However, the FEV1 associated with trajectory 4 was increased at 3 months, whereas the FEV1 associated with trajectory 5 was persistently disturbed over 1 year. Compared with trajectory 4, trajectory 5 was associated with older asthmatics with less atopy, a lower immunoglobulin E (IgE) level, sputum neutrophilia and higher dosages of oral steroids. In contrast, trajectory 4 was associated with higher sputum and blood eosinophil counts and more frequent exacerbations. Conclusions: Trajectory clustering analysis of FEV1 identified 5 distinct types, representing well-preserved to severely decreased FEV1. Persistent airflow obstruction may be related to non-atopy, a low IgE level, and older age accompanied by neutrophilic inflammation and low baseline FEV1 levels.