• 제목/요약/키워드: False Positive Probability

검색결과 30건 처리시간 0.017초

Approaches for Improving Bloom Filter-Based Set Membership Query

  • Lee, HyunYong;Lee, Byung-Tak
    • Journal of Information Processing Systems
    • /
    • 제15권3호
    • /
    • pp.550-569
    • /
    • 2019
  • We propose approaches for improving Bloom filter in terms of false positive probability and membership query speed. To reduce the false positive probability, we propose special type of additional Bloom filters that are used to handle false positives caused by the original Bloom filter. Implementing the proposed approach for a routing table lookup, we show that our approach reduces the routing table lookup time by up to 28% compared to the original Bloom filter by handling most false positives within the fast memory. We also introduce an approach for improving the membership query speed. Taking the hash table-like approach while storing only values, the proposed approach shows much faster membership query speed than the original Bloom filter (e.g., 34 times faster with 10 subsets). Even compared to a hash table, our approach reduces the routing table lookup time by up to 58%.

블룸필터의 오류 확률에 대한 분석 (An Analysis on the Error Probability of A Bloom Filter)

  • 김성용;김지홍
    • 정보보호학회논문지
    • /
    • 제24권5호
    • /
    • pp.809-815
    • /
    • 2014
  • 최근 정보통신 기술의 발달로 인하여 데이터의 양이 점차 증가하고 있으며, 이에 대한 처리와 관련된 연구가 활발히 진행되고 있다. 주어진 집합 내에 특정 개체의 존재여부를 알기위해 사용되고 있는 블룸필터는 데이터의 공간 활용에 매우 유용한 구조이다. 본 논문에서는 블룸필터에서 발생될 수 있는 오류 확률을 소개한다. 특히 실험실적 분석방법에 의하여 수정된 긍정오류 확률에 대한 일반식을 유도한다. 마지막으로 지금까지 사용되고 있는 블룸필터에 대한 긍정오류확률식과 이에 대한 관련논문을 이용하여 비교, 분석한다.

Likelihood Based Confidence Intervals for the Difference of Proportions in Two Doubly Sampled Data with a Common False-Positive Error Rate

  • Lee, Seung-Chun
    • Communications for Statistical Applications and Methods
    • /
    • 제17권5호
    • /
    • pp.679-688
    • /
    • 2010
  • Lee (2010) developed a confidence interval for the difference of binomial proportions in two doubly sampled data subject to false-positive errors. The confidence interval seems to be adequate for a general double sampling model subject to false-positive misclassification. However, in many applications, the false-positive error rates could be the same. On this note, the construction of asymptotic confidence interval is considered when the false-positive error rates are common. The coverage behaviors of nine likelihood based confidence intervals are examined. It is shown that the confidence interval based Rao score with the expected information has good performance in terms of coverage probability and expected width.

Understanding the genetics of systemic lupus erythematosus using Bayesian statistics and gene network analysis

  • Nam, Seoung Wan;Lee, Kwang Seob;Yang, Jae Won;Ko, Younhee;Eisenhut, Michael;Lee, Keum Hwa;Shin, Jae Il;Kronbichler, Andreas
    • Clinical and Experimental Pediatrics
    • /
    • 제64권5호
    • /
    • pp.208-222
    • /
    • 2021
  • The publication of genetic epidemiology meta-analyses has increased rapidly, but it has been suggested that many of the statistically significant results are false positive. In addition, most such meta-analyses have been redundant, duplicate, and erroneous, leading to research waste. In addition, since most claimed candidate gene associations were false-positives, correctly interpreting the published results is important. In this review, we emphasize the importance of interpreting the results of genetic epidemiology meta-analyses using Bayesian statistics and gene network analysis, which could be applied in other diseases.

False-Positive Mycobacterium tuberculosis Detection: Ways to Prevent Cross-Contamination

  • Asgharzadeh, Mohammad;Ozma, Mahdi Asghari;Rashedi, Jalil;Poor, Behroz Mahdavi;Agharzadeh, Vahid;Vegari, Ali;Shokouhi, Behrooz;Ganbarov, Khudaverdi;Ghalehlou, Nima Najafi;Leylabadlo, Hamed Ebrahmzadeh;Kafil, Hossein Samadi
    • Tuberculosis and Respiratory Diseases
    • /
    • 제83권3호
    • /
    • pp.211-217
    • /
    • 2020
  • The gold standard method for diagnosis of tuberculosis is the isolation of Mycobacterium tuberculosis through culture, but there is a probability of cross-contamination in simultaneous cultures of samples causing false-positives. This can result in delayed treatment of the underlying disease and drug side effects. In this paper, we reviewed studies on false-positive cultures of M. tuberculosis. Rate of occurrence, effective factors, and extent of false-positives were analyzed. Ways to identify and reduce the false-positives and management of them are critical for all laboratories. In most cases, false-positive is occurring in cases with only one positive culture but negative direct smear. The three most crucial factors in this regard are inappropriate technician function, contamination of reagents, and aerosol production. Thus, to reduce false-positives, good laboratory practice, as well as use of whole-genome sequencing or genotyping of all positive culture samples with a robust, extra pure method and rapid response, are essential for minimizing the rate of false-positives. Indeed, molecular approaches and epidemiological surveillance can provide a valuable tool besides culture to identify possible false positives.

이중표본에서 모비율의 구간추정 (Interval Estimation of Population Proportion in a Double Sampling Scheme)

  • 이승천;최병수
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1289-1300
    • /
    • 2009
  • 표본추출 비용의 절감을 위해 흔히 사용되는 이중표본추출방법은 대부분의 표본들이 2종류의 오류에 의해 오염이 되어 있어 통계적 분석이 상대적으로 용이하지 않다. 특히, 비율의 추론을 위한 중요한 분석 도구인 구간추정은 현재까지 우도추정량의 정규근사에 의존하는 Wald 방법만이 알려져 있으나 Wald 신뢰구간은 포함확률의 근사성 등에서 많은 문제가 있다는 것이 여러 연구에서 확인되고 있다. 본 연구에서는 이중표본추출에서 Wald 신뢰구간의 문제점을 파악하고 이에 대한 대안으로 Agresti-Coull 유형의 신뢰구간을 제시한다.

SAR 자동표적인식 시스템에서의 탐지특징 결합 방법 개선 방안 (Improved Fusion Method of Detection Features in SAR ATR System)

  • 차민준;김형명
    • 한국군사과학기술학회지
    • /
    • 제13권3호
    • /
    • pp.461-469
    • /
    • 2010
  • In this paper, we have proposed an improved fusion method of detection features which can enhance the detection probability under the given false alarm rate in the prescreening stage of SAR ATR(Synthetic Aperture Radar Automatic Target Recognition) system. Since the detection features have the positive correlation, the detection performance can be improved if the joint probability distribution of detection features is considered in the fusion process. The detection region is designed as a simple piecewise linear function which can be represented by few parameters. The parameters for the detection region can be derived by training the sample SAR images to maximize the detection probability with the given false alarm rate. Simulation result shows that the detection performance of the proposed method is improved for all combinations of detection features.

Confidence Intervals for the Difference of Binomial Proportions in Two Doubly Sampled Data

  • Lee, Seung-Chun
    • Communications for Statistical Applications and Methods
    • /
    • 제17권3호
    • /
    • pp.309-318
    • /
    • 2010
  • The construction of asymptotic confidence intervals is considered for the difference of binomial proportions in two doubly sampled data subject to false-positive error. The coverage behaviors of several likelihood based confidence intervals and a Bayesian confidence interval are examined. It is shown that a hierarchical Bayesian approach gives a confidence interval with good frequentist properties. Confidence interval based on the Rao score is also shown to have good performance in terms of coverage probability. However, the Wald confidence interval covers true value less often than nominal level.

절단함수를 이용한 AUC와 VUS (AUC and VUS using truncated distributions)

  • 홍종선;홍성혁
    • 응용통계연구
    • /
    • 제32권4호
    • /
    • pp.593-605
    • /
    • 2019
  • ROC 곡선 아래 면적과 ROC 곡면 아래 부피를 이용하여 분류모형의 판별력을 측정하는 통계량인 AUC와 VUS에 관한 많은 연구가 있다. ROC 곡선을 구성하는 FPR과 TPR 모두에 제한을 두는 양방향 부분 AUC는 부분 AUC보다 더 효과적이고 정확하게 제안되었다. ROC 곡면에서도 부분 VUS 뿐만 아니라 세 방향 부분 VUS 통계량이 개발되었다. 본 연구에서는 ROC 곡선의 FPR과 TPR 모두에 제한된 두 개의 절단함수를 이용하여 확률 개념과 적분 표현으로 대안적인 AUC를 제안한다. 또한 이 AUC는 양방향 부분 AUC와 관계가 있음을 알 수 있다. ROC 곡면에서의 세 방향 부분 VUS도 절단함수를 이용하는 VUS와 관련되어 있음을 발견하였다. 그리고 이러한 대안적인 AUC와 VUS는 맨-휘트니 통계량으로 표현되고 추정된다. 정규분포와 확률표본을 기반으로 이들의 모수적인 추정 방법과 비모수적인 추정 방법을 탐색한다.

디지털 포렌식에서 텍스트 마이닝 기반 침입 흔적 로그 추천 (A Text Mining-based Intrusion Log Recommendation in Digital Forensics)

  • 고수정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권6호
    • /
    • pp.279-290
    • /
    • 2013
  • 디지털 포렌식에서의 로그 데이터는 사용자의 과거 행적에 대한 추적을 목적으로 대용량의 형태로 저장된다는 특성을 가지고 있다. 이러한 대용량의 로그 데이터를 단서가 없이 수동으로 분석하는 절차는 조사관들에게는 어려운 일이다. 본 논문에서는 포렌식 분석을 하는 조사관들에게 믿을 만한 증거를 추천하기 위하여 대용량의 로그 집합으로부터 해킹 흔적을 추출하는 텍스트 마이닝 기술을 제안한다. 학습 단계에서는 훈련 로그 집합을 대상으로 전처리를 한 후, Apriori 알고리즘을 이용하여 침입 흔적 연관 단어를 추출하고, 신뢰도와 지지도를 병합하여 각 연관단어의 침입 흔적 확률을 계산한다. 또한, 침입 흔적 확률의 정확도를 높이기 위하여 스팸 메일의 여과에 사용된 Robinson의 신뢰도 계산 방법을 이용하여 확률에 가중치를 추가하며, 최종적으로 침입 흔적 연관 단어 지식 베이스를 구축한다. 테스트 단계에서는 연관 단어 지식 베이스를 기반으로 테스트 로그 집합에 대해 피셔(Fisher)의 역 카이제곱 분류 알고리즘을 적용하여 침입 흔적 로그일 확률과 정상 로그일 확률을 계산하고, 이를 병합하여 침입 흔적 로그를 추출한다. 추출된 로그를 조사관에게 침입 흔적이 있는 로그로서 추천한다. 제안한 방법은 비구조화된 대용량의 로그 데이터를 대상으로 데이터의 의미를 명확하게 분석할 수 있는 학습 방법을 사용함으로써 데이터의 모호성으로 인해 발생하는 정확도 저하 문제를 보완할 수 있으며, 피셔의 역 카이제곱 분류 알고리즘을 이용하여 추천함으로써 오분류율(false positive)을 감소시키고 수동으로 증거를 추출하는 번거로움을 줄일 수 있다는 장점을 갖는다.