• 제목/요약/키워드: missing probability

검색결과 76건 처리시간 0.024초

SVM과 딥러닝에서 불완전한 데이터를 처리하기 위한 알고리즘 (Algorithms for Handling Incomplete Data in SVM and Deep Learning)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제11권3호
    • /
    • pp.1-7
    • /
    • 2020
  • 본 논문은 불완전한 데이터를 처리하기 위해 2가지의 서로 다른 기법과 이를 학습하는 알고리즘을 소개한다. 첫째방법은 손실변수가 가질 수 있는 균등한 확률로 손실값을 할당하여 불완전한 데이터를 처리하고, SVM 알고리즘으로 이 데이터를 학습하는 것이다. 이 기법은 임의의 변수에 손실 값의 빈도가 높을수록 엔트로피가 높도록 하여 이 변수가 결정트리에서 선택되지 않도록 하는 것이다. 이 방법은 손실 변수에 남아있는 정보를 모두 무시하고 새로운 값을 할당한다는 특징이 있다. 이에 반해 새로운 방법은 손실 값을 제외하고 남아있는 정보로 엔트로피 확률을 구하고 이를 손실 변수의 추정 값으로 사용하는 것이다. 즉, 불완전한 학습데이터로부터 소실되지 않은 많은 정보들을 이용해 소실된 일부 정보를 복구하고 딥러닝을 이용해 학습한다. 이 2가지 방법은 학습데이터에서 차례로 변수 하나를 선택하고, 이 변수에 손실된 데이터의 비율을 달리하면서 서로 다른 측정값들의 결과들과 반복적으로 비교함으로써 성능을 측정한다.

Developing a Method to Define Mountain Search Priority Areas Based on Behavioral Characteristics of Missing Persons

  • Yoo, Ho Jin;Lee, Jiyeong
    • 한국측량학회지
    • /
    • 제37권5호
    • /
    • pp.293-302
    • /
    • 2019
  • In mountain accident events, it is important for the search team commander to determine the search area in order to secure the Golden Time. Within this period, assistance and treatment to the concerned individual will most likely prevent further injuries and harm. This paper proposes a method to determine the search priority area based on missing persons behavior and missing persons incidents statistics. GIS (Geographic Information System) and MCDM (Multi Criteria Decision Making) are integrated by applying WLC (Weighted Linear Combination) techniques. Missing persons were classified into five types, and their behavioral characteristics were analyzed to extract seven geographic analysis factors. Next, index values were set up for each missing person and element according to the behavioral characteristics, and the raster data generated by multiplying the weight of each element are superimposed to define models to select search priority areas, where each weight is calculated from the AHP (Analytical Hierarchy Process) through a pairwise comparison method obtained from search operation experts. Finally, the model generated in this study was applied to a missing person case through a virtual missing scenario, the priority area was selected, and the behavioral characteristics and topographical characteristics of the missing persons were compared with the selected area. The resulting analysis results were verified by mountain rescue experts as 'appropriate' in terms of the behavior analysis, analysis factor extraction, experimental process, and results for the missing persons.

Guaranteed Dynamic Priority Assignment Schemes for Real-Time Tasks with (m, k)-Firm Deadlines

  • Cho, Hyeon-Joong;Chung, Yong-Wha;Park, Dai-Hee
    • ETRI Journal
    • /
    • 제32권3호
    • /
    • pp.422-429
    • /
    • 2010
  • We present guaranteed dynamic priority assignment schemes for multiple real-time tasks subject to (m, k)-firm deadlines. The proposed schemes have two scheduling objectives: providing a bounded probability of missing (m, k)-firm constraints and maximizing the probability of deadline satisfactions. The second scheduling objective is especially necessary in order to provide the best quality of service as well as to satisfy the minimum requirements expressed by (m, k)-firm deadlines. We analytically establish that the proposed schemes provide a guarantee on the bounded probability of missing (m, k)-firm constraints. Experimental studies validate our analytical results and confirm the effectiveness and superiority of the proposed schemes with regard to their scheduling objectives.

OFDMA/TDD 시스템을 위한 효율적인 동기 추정 및 셀 탐색 기법 (An Efficient Synchronization and Cell Searching Method for OFDMA/TDD System)

  • 김정주;노정호;장경희
    • 한국통신학회논문지
    • /
    • 제30권9A호
    • /
    • pp.714-721
    • /
    • 2005
  • 본 논문에서는 직교 주파수 분할 다중 접속/시 분할 다중화(OFDMA/TDD :OFDM-FDMA/ Time Division Duplexing) 시스템에서의 프리앰블 모델을 분석하고, AWGN과 ITU-R M.1225 Ped-B 및 Veh-A 채널 환경에서 OFDMA/TDD 시스템에 적용된 심볼 타이밍 및 반송파 주파수 오프셋 추정과 셀 탐색 성능을 모의 실험을 통하여 그에 따른 성능을 Detection Probability, False Alarm, Missing Probability, Mean Acqusition Time 및 (MSE) Mean Square Error 로 확인한다. 특히, 심볼 타이밍 오프셋 추정에서는 향상된 성능을 가지는 프리앰블 구조 및 알고리즘을 제안한 후, 기존의 프리앰블 구조와 그에 따른 성능을 비교 분석한다.

초모집단 모형의 오차가 이분산일 때 무시할 수 없는 무응답에서 편향수정 무응답 대체 (Bias-corrected imputation method for non-ignorable nonresponse with heteroscedasticity in super-population model)

  • 이유진;신기일
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.283-295
    • /
    • 2024
  • 무응답을 적절히 처리하기 위한 많은 방법이 연구되었다. 최근 다수의 무응답 대체법이 개발되고 실질적으로 사용되고 있다. 기존에 발표된 다수의 방법은 MCAR (missing completely at random) 또는 MAR (missing at random) 가정을 사용하고 있다. 그러나 관심변수에 영향을 받는 MNAR (missing not at random) 또는 무시할 수 없는 무응답(non-ignorable non-response; NN)은 편향을 발생시켜 대체 결과의 정확성을 크게 떨어뜨리지만 이에 관한 연구는 상대적으로 미미하다. Lee와 Shin (2022)은 등분산 가정하에서 무시할 수 없는 무응답을 적절히 처리할 수 있는 편향수정 무응답 대체법을 제안하였다. 본 연구에서는 Lee와 Shin (2022)이 제안한 방법을 확장한 무응답 대체법으로 초모집단 모형의 오차가 이분산인 경우에서 편향을 제거함으로써 추정의 정확성을 향상하는 방법을 제안하였다. 모의실험을 이용하여 제안된 방법의 타당성을 확인하였다.

The effect of missing levels of nesting in multilevel analysis

  • Park, Seho;Chung, Yujin
    • Genomics & Informatics
    • /
    • 제20권3호
    • /
    • pp.34.1-34.11
    • /
    • 2022
  • Multilevel analysis is an appropriate and powerful tool for analyzing hierarchical structure data widely applied from public health to genomic data. In practice, however, we may lose the information on multiple nesting levels in the multilevel analysis since data may fail to capture all levels of hierarchy, or the top or intermediate levels of hierarchy are ignored in the analysis. In this study, we consider a multilevel linear mixed effect model (LMM) with single imputation that can involve all data hierarchy levels in the presence of missing top or intermediate-level clusters. We evaluate and compare the performance of a multilevel LMM with single imputation with other models ignoring the data hierarchy or missing intermediate-level clusters. To this end, we applied a multilevel LMM with single imputation and other models to hierarchically structured cohort data with some intermediate levels missing and to simulated data with various cluster sizes and missing rates of intermediate-level clusters. A thorough simulation study demonstrated that an LMM with single imputation estimates fixed coefficients and variance components of a multilevel model more accurately than other models ignoring data hierarchy or missing clusters in terms of mean squared error and coverage probability. In particular, when models ignoring data hierarchy or missing clusters were applied, the variance components of random effects were overestimated. We observed similar results from the analysis of hierarchically structured cohort data.

누락된 공변량을 가진 원인별 비례위험모형의 분석 (Analysis of the cause-specific proportional hazards model with missing covariates)

  • 이민정
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.225-237
    • /
    • 2024
  • 경쟁위험자료에서 일부 공변량들이 연구대상들의 일부분에 대해 관측되지 않을 수 있다. 그런 경우 결측된 공변량 값을 가진 연구대상들을 분석에서 제외하는 것은 편향된 추정치와 효율성 손실이 발생할 수 있다. 본 논문에서는 누락된 공변량을 가진 원인별 비례위험모형의 회귀모수 추정을 위해 다중대체 방법과 증대된 역 확률 가중 방법을 연구하였다. 모의실험을 통해 다중대체 방법과 증대된 역 확률 가중 방법에 의해 구해진 추정량의 성능을 평가한 결과, 이 방법들이 잘 수행됨을 확인하였다. 미국 국립암연구소의 전립선, 폐, 대장, 난소 암 선별 시험 연구에서 제공하는 종양 크기의 값이 누락된 유방암 자료에 대해 암 사망 위험률과 다른 원인 사망 위험률에 유의한 영향을 미치는 요인을 파악하기 위해 다중대체 방법과 증대된 역 확률 가중 방법을 적용하였다. 다중대체 방법과 증대된 역 확률 가중 방법에 의해 원인별 비례위험모형을 적합한 결과, 인종, 기혼여부, 병기, 분화도, 종양의 크기는 유방암 사망 위험률에 유의한 영향을 미치는 요인들이였으며, 병기가 유방암 사망 위험률을 높이는데 가장 큰 영향을 미치는 요인임을 확인하였다. 진단시 연령과 종양의 크기는 다른 원인 사망 위험률을 높이는데 유의한 영향을 미치는 요인이였다.

불완전한 자료에 대한 보완기법(EM 알고리듬과 2단계(Two Stage) 모델) (EM Algorithm and Two Stage Model for Incomplete Data)

  • 박경숙
    • 한국인구학
    • /
    • 제21권1호
    • /
    • pp.162-183
    • /
    • 1998
  • 여기서는 많은 수의 비관측사례로부터 발생할 수 있는 표본의 편의(bias) 문제를 탐구한다. 이 연구는 본래 일본 후생성이 1989년 실시한 <가족주기와 가구형태에 대한 인구학적 조사> 자료를 이용하여 노인부보와 자녀간 근접성을 분석하는 목적에서 이루어졌다. 그런데 <가족주기와 가구형태에 대한 인구학적 조사>는 노인부모를 대상으로 한 조사가 아니라 전체 가구 일반에 대한 조사이기 때문에 노인부모에 대한 많은 정보를 손상하고 있었다. 또한 본 조사는 가구주를 통하여 가족원에 대한 정보를 획득하는 방식으로 설계되었기 때문에 가족원에 대한 정보가 완전하지 못하였다. 나아가 비관측사례의 유형을 보면 여러 항목들이 동시적으로 관측되지 않고 있었다. 이와 같이 복합적 메커니즘에서 발생한 비관측 사례는 분석의 편의를 초래할 위험이 크다. 우선, 많은 수의 비관측사례로 표준오차를 잘못 추정할 소지가 크다. 더욱이 사례들이 선택적으로 관측되지 않았다면 관측된 자료에 따른 추정을 심각한 편의를 포함할 수 있다. 이와 같이 손상된 자료로부터 발생할 수 있는 추정 편의를 개선하기 위하여 여기서는 두 가지 기법을 활용하였다. 첫째, 관측치와 공변인간의 관계에 기초하여 비관측사례를 추정하는 방법으로 EM 알고리듬을 활용하였다. 둘째, 관찰의 선택성에서 비롯된 추정 편의를 개선하기 위하여 이단계(two stage) 모형을 활용하였다.

  • PDF

Discriminant Analysis under a Patterned Missing Values

  • Kim, Hea-Jung
    • Journal of the Korean Statistical Society
    • /
    • 제18권1호
    • /
    • pp.13-25
    • /
    • 1989
  • This paper suggests a classification rule with unequal covariance matrices when a patterned incomplete data are involved in the discriminant analysis. This is an extension of Geisser's (1966) result to the case of missing observations. For the calssificaiton rule, we introduce an algorithm which contains data augmentation step and Monte Carlo integration step and show that the algorithm yields a consistant estimator of true classification probability. The proposed method is compared to the complete observation vector method through a Monte Carlo study. The results show that the suggested method, in general, performs better than the complete observation vector method which ignores those vectors of observation with one or more missing values from the analysis. The results also verify the consistency of the algorithm.

  • PDF

Variance estimation for distribution rate in stratified cluster sampling with missing values

  • Heo, Sunyeong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.443-449
    • /
    • 2017
  • Estimation of population proportion like the distribution rate of LED TV and the prevalence of a disease are often estimated based on survey sample data. Population proportion is generally considered as a special form of population mean. In complex sampling like stratified multistage sampling with unequal probability sampling, the denominator of mean may be random variable and it is estimated like ratio estimator. In this research, we examined the estimation of distribution rate based on stratified multistage sampling, and determined some numerical outcomes using stratified random sample data with about 25% of missing observations. In the data used for this research, the survey weight was determined by deterministic way. So, the weights are not random variable, and the population distribution rate and its variance estimator can be estimated like population mean estimation. When the weights are not random variable, if one estimates the variance of proportion estimator using ratio method, then the variances may be inflated. Therefore, in estimating variance for population proportion, we need to examine the structure of data and survey design before making any decision for estimation methods.