• 제목/요약/키워드: 통계 오류

검색결과 384건 처리시간 0.031초

언어 사용환경에 적응적인 영어 문맥의존 철자오류 교정 기법 (Adaptive English Context-Sensitive Spelling Error Correction Techniques for Language Environments)

  • 김민호;김경식;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-136
    • /
    • 2015
  • 문서 교정기에서 문맥의존 철자오류를 교정하는 방법은 크게 규칙을 이용한 방법과 통계 정보를 이용한 방법으로 나뉜다. 한국어와 달리 영어는 오래전부터 통계 모형에 기반을 둔 문맥의존 철자오류 교정 연구가 활발히 이루어졌다. 그러나 대부분 연구가 문맥의존 철자오류 교정 문제를 특정 어휘 쌍을 이용한 분류 문제로 간주하기 때문에 실제 응용에는 한계가 있다. 또한, 대규모 말뭉치에서 추출한 통계 정보를 이용하지만, 통계 정보 자체에 오류가 있을 경우를 고려하지 않았다. 본 논문에서는 텍스트에 포함된 모든 단어에 대하여 문맥의존 철자오류 여부를 판단하고, 해당 단어가 오류일 경우 대치어를 제시하는 영어 문맥의존 철자오류 교정 기법을 제안한다. 또한, 통계 정보의 오류가 문맥의존 철자오류 교정에 미치는 영향과 오류 발생률의 변화가 철자오류 검색과 교정의 정확도와 재현율에 미치는 영향을 분석한다. 구글 웹데이터에서 추출한 통계 정보를 바탕으로 통계 모형을 구성하고 평가를 위해 브라운 말뭉치에서 무작위로 2,000문장을 추출하여 무작위로 문맥의존 철자오류를 생성하였다. 실험결과, 문맥의존 철자오류 검색의 정확도와 재현율은 각각 98.72%, 95.79%였으며, 문맥의존 철자오류 교정의 정확도와 재현률은 각각 71.94%, 69.81%였다.

  • PDF

통계적 소양 교육을 위한 그래프 오류 유형 분석: 자료 분석 단계에서의 통계 윤리 문제 (An Analysis on Error Types of Graphs for Statistical Literacy Education: Ethical Problems at Data Analysis in the Statistical Problem Solving)

  • 탁병주;김다빈
    • 한국초등수학교육학회지
    • /
    • 제24권1호
    • /
    • pp.1-30
    • /
    • 2020
  • 본 연구는 통계적 소양 교육을 실천하기 위해 초등학교 통계교육의 주된 내용 요소에 해당하는 그래프 지도 중 특히 오류의 유형화에 주목하였다. 구체적으로 문헌 분석을 통해 통계적 문제해결의 관점에서 그래프의 교수학적 의의와 구성 요소를 확인하였고, 이를 표현하는 과정에서 나타나는 오류를 분류하여 각 사례들을 자료 분석 단계에서의 통계 윤리 문제와 연결하였다. 연구 결과, 그래프 오류 유형은 범주 표현에서의 오류, 빈도 표현에서의 오류, 맥락 제시에서의 오류로 분류할 수 있었고, 이러한 오류로 인해 자료 분석 단계에서 주관적인 분석 방법 채택, 시각적 착시현상 유도, 자료에 대한 정보 왜곡과 같은 통계 윤리 문제가 발생할 수 있음을 확인하였다. 그리고 우리나라 초등학교 수학과 교육과정에서는 오류를 범하지 않도록 정형화된 틀을 제공하고 그 틀에 맞춰 그래프를 그리는 절차에 주목하는 경향이 있었다. 이를 통해 그래프 오류 유형이 초등학교 통계교육에 제공하는 시사점을 통계적 소양 교육, 통계 윤리, 교사 지식의 관점에서 제시하였다.

규칙의 일반화와 통계 방식을 결합한 한국어 문맥의존 철자오류 교정규칙의 재현율 향상 (Improving Recall for Context-Sensitive Spelling Correction Rules by Combining Rule-Generalization and Statistical Method)

  • 최현수;권혁철;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-23
    • /
    • 2014
  • 한국어 맞춤법 검사기는 전자화된 한국어 텍스트에 나타난 오류어를 검색하여 이를 교정할 대치어를 제시하는 시스템이다. 이때 오류어의 유형은 크게 단순 철자오류와 문맥의존 철자오류로 구분할 수 있다. 이중 문맥의존 철자오류는 어절(word)단위로 봤을 때는 정확하지만, 문맥을 고려하였을 때 오류가 되는 유형으로 교정 난도가 매우 높다. 문맥의존 철자오류의 교정 방법은 크게 규칙을 이용한 방법과 통계 정보에 기반을 둔 방법으로 나뉜다. 이때 규칙을 이용한 방법은 그 특성상 정확도가 매우 높지만, 반대로 재현율이 매우 낮다. 본 논문에서는 본 연구진이 기존에 연구하였던 규칙을 일반화하는 방식에 추가로 조건부 확률을 이용한 통계 방식을 결합하여 정확도를 유지하면서 재현율을 향상시키는 방법을 제안한다.

  • PDF

동일조사에서 비율비교와 관련된 두 가지 흔한 오류 (Some Statistical Issues to Compare the Two Proportions in a Sample Survey)

  • 김현철
    • 응용통계연구
    • /
    • 제16권1호
    • /
    • pp.169-179
    • /
    • 2003
  • 동일조사에서 통계분석 자가 흔히 범하는 오류 두 가지를 제시하였다. 하나는 일반적인 조사에서 발표된 조사결과로부터 두 비율의 비교를 시도할 때 범하기 쉬운 오류이고, 다른 하나는 중립적 응답 항목이 있을 때 통계전문가가 아닌 사람들 가운데에서 범하기 쉬운 잘못이다. 이런 오류들을 제시하고, 통계적으로 정확한 방법과 비교하여 잘못 사용하는 방법들이 갖는 문제들을 보여 줌으로써 교육 자료로 활용할 수 있도록 했다.

풍수해 피해이력 자료 분석을 통한 통계적 오류유형 분류 (Classification of Statistical Error Types Through Analysis of Wind and Flood Damage History Data)

  • 김구윤;이미란;이준우
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2022년 정기학술대회 논문집
    • /
    • pp.135-136
    • /
    • 2022
  • 최근 기후변화의 영향으로 태풍 및 국지성 집중호우 등 자연재해 발생빈도가 증가함에 따라 풍수해로 인한 인명피해와 재산피해가 증가하고 있다. 국내에서는 재해연보를 통해 자연재난 피해이력 통계정보를 제공하고 있으며, 당해연도 자연재해상황을 기간별, 시도별, 수계별, 월별, 원인별 총괄통계와 인명피해, 시설피해와 관련된 피해면적, 피해액, 복구액 등 세부내용으로 구성하여 정보를 제공하고 있다. 행정안전부는 국가재난정보시스템을 통해 취합된 지자체 피해이력 통계자료를 입력하고 있는데 입력하는 과정에서 누락, 오기 등의 오류가 발생할 가능성이 있다. 경제적 손실이 증가하고 있는 풍수해 재난이 발생하게 될 경우 피해비용 집계, 피해액 산정 등 정확한 자료로서 구축되지 않으면 연구 및 분석을 수행하기 위한 통계자료로서 활용될 수 없다. 이러한 문제점을 개선하기 위해서 본 연구에서는 1985년부터 2018년까지 재해연보에 대해서 기간별-시군구별 자료분석을 통해 피해이력 데이터 오류 유형에 대해 분류하였다.

  • PDF

말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템 (A Korean POS Tagging System with Handling Corpus Errors)

  • 설용수;김동주;김규상;김한우
    • 한국컴퓨터정보학회지
    • /
    • 제15권1호
    • /
    • pp.117-124
    • /
    • 2007
  • 통계 기반 접근 방법을 이용한 품사태깅에서 태깅 정확도는 훈련 데이터의 양에 좌우될 뿐 아니라, 말뭉치가 충분할지라도 수작업으로 구축한 말뭉치의 경우 항상 오류의 가능성을 내포하고 있으며 언어의 특성상 통계적으로 신뢰할만한 데이터의 수집에도 어려움이 따른다. 훈련 데이터로 사용되는 말뭉치는 많은 사람들이 수작업으로 구축하므로 작업자 중 일부가 언어에 대한 지식이 부족하다거나 주관적인 판단에 의한 태깅 실수를 포함할 수도 있기 때문에 단순한 저빈도와 관련된 잡음 외의 오류들이 포함될 수 있는데 이러한 오류들은 재추정이나 평탄화 기법으로 해결될 수 있는 문제가 아니다. 본 논문에서는 HMM(Hidden Markov Model)을 이용한 한국어 품사 태깅에서 재추정 후 여전히 존재하는 말뭉치의 잡음에 인한 태깅 오류 해결을 위해 비터비 알고리즘적용 단계에서 데이터 부족과 말뭉치의 오류로 인해 문제가 되는 부분을 찾아내고 규칙을 통해 수정을 하여 태깅 결과를 개선하는 방안을 제안한다. 실험결과는 오류가 존재하는 말뭉치를 사용하여 구현된 HMM과 비터비 알고리즘을 적용한 태깅 정확도에 비해 오류를 수정하는 과정을 거친 후 정확도가 향상됨을 보여준다.

  • PDF

의학 논문 작성 시 발생하는 흔한 통계적 오류 (Statistical Mistakes Commonly Made When Writing Medical Articles)

  • 전소영;양주연;이혜선
    • 대한영상의학회지
    • /
    • 제84권4호
    • /
    • pp.866-878
    • /
    • 2023
  • 의학 논문을 작성할 때 통계학은 필수적인 요소로 알려져 있고 중요성이 강조되고 있지만 많은 논문에서 통계적 오류가 발생하고 있다. 의학 논문에서 발생할 수 있는 통계적 오류는 설계 단계에서의 오류, 분석 단계에서의 오류, 작성과 해석 단계에서의 오류로 분류할 수 있다. 설계 단계에서는 연구의 가설이나 자료의 수집 및 분석 계획이 명확하지 않으면 오류가 발생한다. 분석 단계에서는 연구의 목적과 자료의 특성을 충분히 고려하지 않고 올바른 분석 방법을 적용하지 않으면 오류가 발생한다. 분석을 수행한 후에는 결과를 해석하여 논문을 작성하게 되고, 이 단계에서 분석 방법을 잘못 작성하거나 결과를 올바르게 해석하지 못하면 오류가 발생한다. 본 논문에서는 의학 논문에서 흔히 발생하는 통계적 오류에 대해 고찰하고 오류를 줄이는데 기여하고자 한다.

대한치과보철학회지에 게재된 논문의 통계적 오류: 국문논문과 영문논문의 비교 (An assessment of statistical errors of articles in the Journal of Korean Academy of Prosthodontics: Comparison between Korean version and English version)

  • 박동규;최용근;김영수;신상완
    • 대한치과보철학회지
    • /
    • 제47권3호
    • /
    • pp.273-285
    • /
    • 2009
  • 연구목적: 대한치과보철학회지에 사용된 통계적 방법의 통계적 오류현황을 파악하여 통계적 방법의 잘못된 활용으로 인한 치의학 연구논문에서의 문제를 검토하고, 또한 통계적 오류의 유형과 빈도를 파악하여 동일문제의 재발 방지 및 효율적 대처의 기회로 삼고자 함이다. 연구 재료 및 방법: 2000년부터 2006년까지의 대한치과보철학회지에 게재된 총 399편의 논문 중 통계적 방법이 사용된 292편의 논문을 조사했고, 이를 위해 1997년 국제의학학술지 편집위원회의 "생의학 학술지에 투고하는 원고의 통일양식의 통계학적 방법론에 관한 서술지침" 15개항을 기초로 하여 1) 통계 프로그램의 불명시, 2) 통계 방법의 부적절한 기술, 3) 통계용어의 오용 등으로 크게 3가지 범주로 구성된 점검표를 사용하여 통계적 방법의 종류 및 통계적 오류부분을 확인하고 이를 한글판과 영문판으로 비교해 보았다. 그 결과는 다음과 같다. 결과 및 결론: 1. 통계 프로그램 명시 오류는 한글판에선 54%가, 영문판에선 59%가 있었으나 통계적으로 유의한 차이를 보이진 않았다 (P = .66). 2. 통계 방법의 부적절한 기술에 관한 오류는 한글판에선 49%가, 영문판에선 33%가 있었으나 통계적으로 유의한 차이를 보이진 않았다 (P = .09). 3. 통계용어의 오용오류는 한글판에선 54%가, 영문판에선 24%가 있었으며 통계적으로도 유의한 차이가 있었다 (P = .01). 상기 결과로 볼 때 통계용어의 오용 오류 이외엔 통계적 유의성을 보이진 않아서 한글판과 영문판의 통계적 오류의 비율은 유사하게 나타난 걸로 추정되며, 전체적으로 대한치과보철학회지의 통계적 타당성은 다소 부족하게 나타났다. 따라서 향후 치의학 연구자는 통계적 방법을 기술하고 적용할 때 통계적 오류를 피하기 위해 주의를 기울여야 할 것이며, 아울러 치의학 논문에서의 통계학적 방법론에 대한 인식의 제고가 필요하다고 보인다.

방사선사 학술지에 게재된 통계방법 분석: 대한전산화단층기술학회지 중심으로 (Evaluation of Statistical Analysis of Radiologist's Journal: Focus on Journal of Korean Society of Computer Tomographic Technology)

  • 김상현;이미화
    • 디지털융복합연구
    • /
    • 제12권9호
    • /
    • pp.275-282
    • /
    • 2014
  • 본 연구는 방사선사 학술지 중 대표적인 대한전산화단층기술학회에 게재된 논문의 통계 추세, 오류현황을 파악하고 이에 근거한 자료 제공을 통하여 방사선사 전문 학회의 학술적 성과에 기여하고자 하였다. 대한전산화단층기술학회에 게재된 논문에서 통계분석 과정의 다양한 영역에 걸쳐 크고 작은 통계적 오류가 있음을 확인하였다. 향후 대학교육과 연수강좌 등 다양한 방법으로 통계교육을 강화해야 한다. 방사선사들의 논문의 통계적 오류에 관한 인식 향상을 통해 논문의 질 향상을 기대할 수 있다.

Index of Union와 다른 정확도 측도들 (Index of union and other accuracy measures)

  • 홍종선;최소연;임동휘
    • 응용통계연구
    • /
    • 제33권4호
    • /
    • pp.395-407
    • /
    • 2020
  • 최적분류점에 대한 대부분의 정확도 측도들은 두 종류의 누적분포함수와 확률밀도함수를 기반으로 정의하거나 또는 ROC 곡선과 AUC를 기반으로 정의하는 방법으로 구분하는데, Unal (2017)은 두 가지 방법을 혼합하여 누적분포함수와 AUC를 모두 고려하는 정확도 측도 Index of Union (IU) 통계량을 제안하였다. 본 연구에서는 IU 통계량을 포함한 열 개의 정확도 측도들을 여섯 종류의 범주로 구분하여 각 범주에 속하는 측도들을 비교하면서 IU의 장점을 연구한다. 다양한 정규혼합분포를 설정하여 각각의 측도들에 대응하는 최적분류점들을 구하고 각 분류점에 대응하는 제1종과 제2종 오류 그리고 두 종류의 오류합을 구해서 오류들의 크기를 비교하면서 분류정확도 측도들의 판별력을 비교하면서 IU의 성격과 특징을 탐색한다. 두 종류 분포들의 평균 차이가 증가할수록 IU 통계량의 제1종 오류와 오류합의 크기가 최고의 분류정확도를 갖는 제2범주의 정확도 측도의 오류에 수렴하는 것을 발견하였다. 그러므로 IU는 모형의 판별력을 평가하는 정확도 측도로 활용할 수 있다.