• Title/Summary/Keyword: 통계 오류

Search Result 380, Processing Time 0.032 seconds

Adaptive English Context-Sensitive Spelling Error Correction Techniques for Language Environments (언어 사용환경에 적응적인 영어 문맥의존 철자오류 교정 기법)

  • Kim, Minho;Jin, Jingzhi;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.133-136
    • /
    • 2015
  • 문서 교정기에서 문맥의존 철자오류를 교정하는 방법은 크게 규칙을 이용한 방법과 통계 정보를 이용한 방법으로 나뉜다. 한국어와 달리 영어는 오래전부터 통계 모형에 기반을 둔 문맥의존 철자오류 교정 연구가 활발히 이루어졌다. 그러나 대부분 연구가 문맥의존 철자오류 교정 문제를 특정 어휘 쌍을 이용한 분류 문제로 간주하기 때문에 실제 응용에는 한계가 있다. 또한, 대규모 말뭉치에서 추출한 통계 정보를 이용하지만, 통계 정보 자체에 오류가 있을 경우를 고려하지 않았다. 본 논문에서는 텍스트에 포함된 모든 단어에 대하여 문맥의존 철자오류 여부를 판단하고, 해당 단어가 오류일 경우 대치어를 제시하는 영어 문맥의존 철자오류 교정 기법을 제안한다. 또한, 통계 정보의 오류가 문맥의존 철자오류 교정에 미치는 영향과 오류 발생률의 변화가 철자오류 검색과 교정의 정확도와 재현율에 미치는 영향을 분석한다. 구글 웹데이터에서 추출한 통계 정보를 바탕으로 통계 모형을 구성하고 평가를 위해 브라운 말뭉치에서 무작위로 2,000문장을 추출하여 무작위로 문맥의존 철자오류를 생성하였다. 실험결과, 문맥의존 철자오류 검색의 정확도와 재현율은 각각 98.72%, 95.79%였으며, 문맥의존 철자오류 교정의 정확도와 재현률은 각각 71.94%, 69.81%였다.

  • PDF

An Analysis on Error Types of Graphs for Statistical Literacy Education: Ethical Problems at Data Analysis in the Statistical Problem Solving (통계적 소양 교육을 위한 그래프 오류 유형 분석: 자료 분석 단계에서의 통계 윤리 문제)

  • Tak, Byungjoo;Kim, Dabin
    • Journal of Elementary Mathematics Education in Korea
    • /
    • v.24 no.1
    • /
    • pp.1-30
    • /
    • 2020
  • This study was carried out in order to identify the error types of statistical graphs for statistical literacy education. We analyze the meaning of using graphs in statistical problem solving, and identify categories, frequencies, and contexts as the components of statistical graphs. Error types of representing categories and frequencies make statistics consumers see incorrect distributions of data by subjective point of view of statistics producers and visual illusion. Error types of providing contexts hinder the interpretation of statistical information by concealing or twisting the contexts of data. Moreover, the findings show that tasks provide standardized frame already for drawing graphs in order to avoid errors and pay attention to the process of drawing the graph rather than statistical literacy for analyzing data. We suggest some implications about statistical literacy education, ethical problems, and knowledge for teaching to be considered when teaching the statistical graph in elementary mathematics classes.

Improving Recall for Context-Sensitive Spelling Correction Rules by Combining Rule-Generalization and Statistical Method (규칙의 일반화와 통계 방식을 결합한 한국어 문맥의존 철자오류 교정규칙의 재현율 향상)

  • Choi, Hyun-Soo;Kwon, Hyuk-Chul;Yoon, Aesun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.18-23
    • /
    • 2014
  • 한국어 맞춤법 검사기는 전자화된 한국어 텍스트에 나타난 오류어를 검색하여 이를 교정할 대치어를 제시하는 시스템이다. 이때 오류어의 유형은 크게 단순 철자오류와 문맥의존 철자오류로 구분할 수 있다. 이중 문맥의존 철자오류는 어절(word)단위로 봤을 때는 정확하지만, 문맥을 고려하였을 때 오류가 되는 유형으로 교정 난도가 매우 높다. 문맥의존 철자오류의 교정 방법은 크게 규칙을 이용한 방법과 통계 정보에 기반을 둔 방법으로 나뉜다. 이때 규칙을 이용한 방법은 그 특성상 정확도가 매우 높지만, 반대로 재현율이 매우 낮다. 본 논문에서는 본 연구진이 기존에 연구하였던 규칙을 일반화하는 방식에 추가로 조건부 확률을 이용한 통계 방식을 결합하여 정확도를 유지하면서 재현율을 향상시키는 방법을 제안한다.

  • PDF

Some Statistical Issues to Compare the Two Proportions in a Sample Survey (동일조사에서 비율비교와 관련된 두 가지 흔한 오류)

  • 김현철
    • The Korean Journal of Applied Statistics
    • /
    • v.16 no.1
    • /
    • pp.169-179
    • /
    • 2003
  • We suggest two types of misuses to analyze the same survey data. One is related with the fact that people nay use the wrong bounds of error when they compare two proportions. And the other is related with that some non-statisticians are apt to use wrong methods when there is a neutral answer in a question. We suggest these methods and compare them with the statistically good method. It will be a good results in educational purpose.

Classification of Statistical Error Types Through Analysis of Wind and Flood Damage History Data (풍수해 피해이력 자료 분석을 통한 통계적 오류유형 분류)

  • Kim, Ku-Yoon;Lee, Mi-Ran;Lee, Jun-Woo
    • Proceedings of the Korean Society of Disaster Information Conference
    • /
    • 2022.10a
    • /
    • pp.135-136
    • /
    • 2022
  • 최근 기후변화의 영향으로 태풍 및 국지성 집중호우 등 자연재해 발생빈도가 증가함에 따라 풍수해로 인한 인명피해와 재산피해가 증가하고 있다. 국내에서는 재해연보를 통해 자연재난 피해이력 통계정보를 제공하고 있으며, 당해연도 자연재해상황을 기간별, 시도별, 수계별, 월별, 원인별 총괄통계와 인명피해, 시설피해와 관련된 피해면적, 피해액, 복구액 등 세부내용으로 구성하여 정보를 제공하고 있다. 행정안전부는 국가재난정보시스템을 통해 취합된 지자체 피해이력 통계자료를 입력하고 있는데 입력하는 과정에서 누락, 오기 등의 오류가 발생할 가능성이 있다. 경제적 손실이 증가하고 있는 풍수해 재난이 발생하게 될 경우 피해비용 집계, 피해액 산정 등 정확한 자료로서 구축되지 않으면 연구 및 분석을 수행하기 위한 통계자료로서 활용될 수 없다. 이러한 문제점을 개선하기 위해서 본 연구에서는 1985년부터 2018년까지 재해연보에 대해서 기간별-시군구별 자료분석을 통해 피해이력 데이터 오류 유형에 대해 분류하였다.

  • PDF

A Korean POS Tagging System with Handling Corpus Errors (말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템)

  • Seol, Yong-Soo;Kim, Dong-Joo;Kim, Kyu-Sang;Kim, Han-Woo
    • KSCI Review
    • /
    • v.15 no.1
    • /
    • pp.117-124
    • /
    • 2007
  • 통계 기반 접근 방법을 이용한 품사태깅에서 태깅 정확도는 훈련 데이터의 양에 좌우될 뿐 아니라, 말뭉치가 충분할지라도 수작업으로 구축한 말뭉치의 경우 항상 오류의 가능성을 내포하고 있으며 언어의 특성상 통계적으로 신뢰할만한 데이터의 수집에도 어려움이 따른다. 훈련 데이터로 사용되는 말뭉치는 많은 사람들이 수작업으로 구축하므로 작업자 중 일부가 언어에 대한 지식이 부족하다거나 주관적인 판단에 의한 태깅 실수를 포함할 수도 있기 때문에 단순한 저빈도와 관련된 잡음 외의 오류들이 포함될 수 있는데 이러한 오류들은 재추정이나 평탄화 기법으로 해결될 수 있는 문제가 아니다. 본 논문에서는 HMM(Hidden Markov Model)을 이용한 한국어 품사 태깅에서 재추정 후 여전히 존재하는 말뭉치의 잡음에 인한 태깅 오류 해결을 위해 비터비 알고리즘적용 단계에서 데이터 부족과 말뭉치의 오류로 인해 문제가 되는 부분을 찾아내고 규칙을 통해 수정을 하여 태깅 결과를 개선하는 방안을 제안한다. 실험결과는 오류가 존재하는 말뭉치를 사용하여 구현된 HMM과 비터비 알고리즘을 적용한 태깅 정확도에 비해 오류를 수정하는 과정을 거친 후 정확도가 향상됨을 보여준다.

  • PDF

Statistical Mistakes Commonly Made When Writing Medical Articles (의학 논문 작성 시 발생하는 흔한 통계적 오류)

  • Soyoung Jeon;Juyeon Yang;Hye Sun Lee
    • Journal of the Korean Society of Radiology
    • /
    • v.84 no.4
    • /
    • pp.866-878
    • /
    • 2023
  • Statistical analysis is an essential component of the medical writing process for research-related articles. Although the importance of statistical testing is emphasized, statistical mistakes continue to appear in journal articles. Major statistical mistakes can occur in any of the three different stages of medical writing, including in the design stage, analysis stage, and interpretation stage. In the design stage, mistakes occur if there is a lack of specificity regarding the research hypothesis or data collection and analysis plans. Discrepancies in the analysis stage occur if the purpose of the study and characteristics of the data are not sufficiently considered, or when an inappropriate analytic procedure is followed. After performing the analysis, the results are interpreted, and an article is written. Statistical analysis mistakes can occur if the underlying methods are incorrectly written or if the results are misinterpreted. In this paper, we describe the statistical mistakes that commonly occur in medical research-related articles and provide advice with the aim to help readers reduce, resolve, and avoid these mistakes in the future.

An assessment of statistical errors of articles in the Journal of Korean Academy of Prosthodontics: Comparison between Korean version and English version (대한치과보철학회지에 게재된 논문의 통계적 오류: 국문논문과 영문논문의 비교)

  • Park, Dong-Gyu;Choi, Yong-Geun;Kim, Young-Su;Shin, Sang-Wan
    • The Journal of Korean Academy of Prosthodontics
    • /
    • v.47 no.3
    • /
    • pp.273-285
    • /
    • 2009
  • Statement of problem: The aim of dental research is to advance scientific knowledge and leads to improvement in the treatment and prevention of dental disease. Utilizing an effective research design and adequate statistical methods are essential procedures ensuring that the results of researches are based on evidences. A research should utilize proper statistical methods without statistical errors; Otherwise, it could adversely affect clinical practice and future research. Purpose: This study was made to investigate the statistical methods used in the Journal of Korean Academy of Prosthodontics (JKAP) and then to assess them for the statistical errors. Material and methods: Among the total of 399 articles in the JKAP published from 2000 to 2006, 292 articles using statistics were reviewed. The validity of the statistical methods used in them were assessed using a checklist based on the guideline for statistical reporting in the uniform requirements for manuscripts submitted to biomedical journals by International Committee of Medical Journal Editors. The checklist consisted of three categories of statistical errors: 1) Unspecified computer statistical packages, 2) Inadequate description of statistical methods, 3) Misuse of statistical terms. Then, the results were compared between the Korean version and the English version in the JKAP. Results: Among the 212 articles using statistics in the Korean version, 115 articles (54%) and among the 80 articles using statistics in the English version, 47 articles (59%) were shown to have unspecified computer statistical packages without statistically significant difference (P = .66). Likewise, 101 articles (48%) in the Korean version and 25 articles (31%) in the English version were shown to have the inadequate description of statistical methods without statistically significant difference (P = .09). However, 114 articles (54%) in the Korean version and 19 articles (24%) in the English version were shown to have the misuse of statistical terms with statistically significant difference (P = .01). Conclusion: Some of the articles in the JKAP had inadequate statistical validity, given the statistical errors identified in this assessment. Hence, dental researchers should be more careful when it comes to describing and applying statistical methods.

Evaluation of Statistical Analysis of Radiologist's Journal: Focus on Journal of Korean Society of Computer Tomographic Technology (방사선사 학술지에 게재된 통계방법 분석: 대한전산화단층기술학회지 중심으로)

  • Kim, Sang-Hyun;Lee, Mi-Hwa
    • Journal of Digital Convergence
    • /
    • v.12 no.9
    • /
    • pp.275-282
    • /
    • 2014
  • The aim of this study was to investigate the statistical trend and errors of articles in the journal of Korean society of computed tomographic technology for contribution to the academic development of the professional society. Preliminary findings indicate that there are various statistical errors in the papers in the journal of Korean society of computed tomographic technology. Results suggest that the statistical education needs to be strengthened from university education to instructional course lecture of academic society. The improvement of the quality of the paper by improving awareness of the statistical error.

Index of union and other accuracy measures (Index of Union와 다른 정확도 측도들)

  • Hong, Chong Sun;Choi, So Yeon;Lim, Dong Hui
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.4
    • /
    • pp.395-407
    • /
    • 2020
  • Most classification accuracy measures for optimal threshold are divided into two types: one is expressed with cumulative distribution functions and probability density functions, the other is based on ROC curve and AUC. Unal (2017) proposed the index of union (IU) as an accuracy measure that considers two types to get them. In this study, ten kinds of accuracy measures (including IU) are divided into six categories, and the advantages of the IU are studied by comparing the measures belonging to each category. The optimal thresholds of these measures are obtained by setting various normal mixture distributions; subsequently, the first and second type of errors as well as the error sums corresponding to each threshold are calculated. The properties and characteristics of the IU statistic are explored by comparing the discriminative power of other accuracy measures based on error values.The values of the first type error and error sum of IU statistic converge to those of the best accuracy measures of the second category as the mean difference between the two distributions increases. Therefore, IU could be an accuracy measure to evaluate the discriminant power of a model.