• Title/Summary/Keyword: 통계 오류

검색결과 388건 처리시간 0.027초

전기자동차 충전기록 데이터 처리에 관한 연구 (A study on data processing of electric vehicle charging archives)

  • 황윤영;진효정;김소연;이정훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.337-338
    • /
    • 2022
  • 본 논문에서는 환경공단이 제공하는 전기자동차 충전기의 운영기록 분석하는 과정에서 주기적으로 공개 데이터를 수집하여 지역 데이터베이스에 저장하고 데이터의 오류를 정제하는 방안에 대해 연구한다. 전력시스템 부하에 직접적으로 영향을 주는 급속충전기 운영기록만을 추출하고 날짜필드에서의 오류 혹은 역전을 포함하는 트랜잭션을 제거한 후 일차적으로 충전시간길이를 히스토그램으로 분석한다. 대부분의 충전이 20분 이내에 완료되었지만 23%는 충전완료 후에도 충전기에서 플러그를 제거하지 않은 것으로 보인다.

한국임상수의학회지에 발표된 논문의 통계분석 검토 (Statistical Issues in the Articles Published in the Journal of Veterinary Clinics)

  • 박선일;오태호
    • 한국임상수의학회지
    • /
    • 제27권2호
    • /
    • pp.170-174
    • /
    • 2010
  • 본 연구는 2006-2007년 한국임상수의학회지에 발표된 논문을 대상으로 자료 분석과 보고방법의 오류를 중심으로 검토하였다. 총 129편 중 94편이 적어도 한가지 이상의 통계분석을 수행하였으며, 분석기법으로는 세 집단 이상 비교 (53편, 56.4%), 두 독립표본 검정 (40편, 42.6%), 짝지은 표본 검정 (9편, 9.6%) 순으로 나타났다. 94편 중 62편 (66%)의 논문에서 적어도 한가지 이상의 통계적 오류가 발견되었다. 주요 오류로는 짝지은 표본에 대한 독립표본 검정, 세 집단 이상에 대한 t 검정의 반복, 카이제곱 검정에서 연속성 보정 무시, 분산분석에서 정규성 검토와 다중비교 방법 선택의 오류, 반복측정 자료에 대한 의존성 가정 무시, 통계분석 방법에 대한 부적절한 설명, 적용한 분석기법에 대한 구체적인 설명 부재 등으로 나타났다. 이러한 문제점을 개선하기 위해서는 학회차원에서 통계처리와 기술방법에 대한 가이드라인을 시급히 마련할 필요가 있을 것으로 사료된다.

다중 점진적 중도절단에서 지수분포의 적합도 검정 (Goodness of Fit Tests for the Exponential Distribution based on Multiply Progressive Censored Data)

  • 윤혜정;이경준
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2813-2827
    • /
    • 2018
  • 최근에 중도절단 방법 중 점진적 중도절단과 관련한 연구가 활발히 이루어지고 있다. 하지만 점진적 중도절단 상황에서 관측되는 시점의 자료들 사이에는 관측원의 실수 혹은 관측 기계의 오류로 인하여 또 다른 중도절단이 발생할 수 있다. 따라서 이러한 기계적 오류 등을 고려하기 위하여 다중 점진적 중도절단이 새롭게 제안되었다. 따라서 본 논문에서는 다중 점진적 중도절단 상황에서 지수분포의 최대우도추정량을 계산하고 다중 점진적 중도절단 순서통계량을 이용한 적합도 검정 통계량과 로렌츠 곡선을 이용한 적합도 검정 통계량을 제안하였다. 몬테카를로 모의실험을 통하여 순서통계량을 이용한 적합도 검정 통계량과 로렌츠 곡선을 이용한 적합도 검정 통계량을 비교하고 더 우수한 적합도 검정 통계량을 확인하고, 실제 사례 자료를 활용하여 적합도 검정을 실시하였다. 그 결과 와이블분포와 카이제곱 분포의 경우 로렌츠 곡선을 이용한 방법이 더 우수한 결과가 나타났고, 로그 정규분포의 경우 순서통계량을 이용한 방법이 더 우수한 결과가 나타났다.

철자오류의 통계자료에 근거한 철자오류 교정시스템 (A Spelling Correction System Based on Statistical Data of Spelling Errors)

  • 임한규;김응모
    • 한국정보처리학회논문지
    • /
    • 제2권6호
    • /
    • pp.839-846
    • /
    • 1995
  • 본 논문에서는 우리가 실제 문서 편집기에서 범하는 철자 오류를 수집하고 분석 하여, 이러한 자료를 근거로 철자 오류를 교정할 수 있게 후보를 제시하는 시스템을 구축하였다. 오류가 발견된 어절에서, 각 음절의 후보를 생성함에 있어서 자소별/음절 별 빈도수를 고려하여 개수를 최소화했으며, 따라서 후보 어절의 개수도 최소화할 수 있었다. 후보 어절의 개수는 평균 3.1개에서 8개였으며, 제시된 후보 어절 중에는 맞는 어절이 62.1% 포함되어져 있었다.

  • PDF

알츠하이머성 치매환자의 웰니스를 위한 명명하기 과제에서의 오류유형 특성 연구 (A Study on the Characteristics of Errors Type for Wellness of Alzheimer's Dementia Patients in the Naming Task)

  • 강민구
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권8호
    • /
    • pp.213-219
    • /
    • 2020
  • 본 연구는 치매의심군 8명, 치매확정군 9명 및 정상군 10명을 대상으로 명명하기 과제에서 오류 유형의 특성을 탐색하는 데 그 목적이 있다. 명명하기의 오류 분석 항목은 시지각적 오류, 의미적 연관 오류, 의미적 비연관 오류, 음소적 오류, 모름, 무반응으로 구분하여 분석하였다. 분석을 위해 SPSS 21.0을 활용하여, 기술통계분석, 분산분석, 다변량분산분석을 실시하였다. 연구결과, 오류유형에 따라 집단 간 오류율에는 유의한 차이는 있는 것으로 나타났다. 정상군이 다른 두 집단과 유의한 차이를 보인 오류는 시지각 오류와 의미적 비연관 오류이며, 무응답 오류는 치매확정군과는 차이가 있었으나, 치매의심군과는 유의한 차이가 없는 것으로 나타났다. 이러한 연구 결과, 알츠하이머성 치매 환자들이 그림 명명하기 능력에 결함이 있음을 확인하였다. 또한 정보처리과정 중 특정 단계의 퇴행으로 인한 결함이 심해지면 다른 단서를 제공하는 것이 적절하다는 것을 알 수 있었다.

확률과 통계의 역사 (History of Probability and Statistics)

  • 이경화
    • 한국초등수학교육학회지
    • /
    • 제1권1호
    • /
    • pp.53-65
    • /
    • 1997
  • 가능성의 종류를 부족하게 책정하기도 하고, 특정 가능성에 너무 크거나 작은 가치를 부여하기도 하고, 앞서 고려했던 바와 관련짓지 못하기도 하고. 불충분한 논의 끝에 곧바로 다음 상황에 적용하기도 하는 등, 우리가 가능성에 관한 판단을 할 때 범하는 실수는 너무나 많다. 확률ㆍ통계의 역사로 걸어 들어가면 이와 같이 특정한 상황에서의 가능성에 대하여 우리가 범하는 것과 본질적으로 같은 오류를 많은 과학자, 수학자가 범하고 있음을 확인할 수 있다. 본 고에서는 가능성에 관한 판단의 오류를 수정하기 위하여 노력하는 과정에서 바로 확률ㆍ통계의 이론화가 이루어졌다고 보고, 그 이론화 과정을 중심으로 확률과 통계의 역사적 배경을 살펴보고자 한다.

  • PDF

Fellegi-Holt 기법을 이용한 에디팅의 시도 및 분석 (A Trial of Data Editing Using Fellegi-Holt Techniques and Its Analysis)

  • 이의규;심규호
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.697-707
    • /
    • 2009
  • 실제 통계조사에서는 응답 자료라 할지라도 부정확한 응답 등으로 항목 간 연관성 오류가 나타나곤 한다. 이러한 경우 사용자는 상당한 혼란에 빠질 수 있으며 이는 통계자료의 신뢰에 대한 문제이기도 하다. 따라서 특별한 사유가 없이 납득하기 어려운 레코드는 탐색되고 수정되어야 할 필요성이 있다. 이때 어떤 변수를 수정해야 할지를 레코드마다 일일이 결정하는 것은 그리 간단하지 않다. 본 연구에서는 Fellegi-Holt 방법을 이용하여 사업체 조사 자료의 에디팅을 시도하고 그 결과와 문제점을 분석한다.

의미 유사도를 활용한 Distant Supervision 기반의 트리플 생성 성능 향상 (Improving The Performance of Triple Generation Based on Distant Supervision By Using Semantic Similarity)

  • 윤희근;최수정;박성배;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.23-28
    • /
    • 2015
  • 본 논문에서는 한국어 트리플 생성 시스템의 정확도를 향상시키기 위한 distant supervision 기반의 신뢰도 측정 방법을 제안한다. 기존의 많은 패턴 기반의 트리플 생성 시스템에는 distant supervision의 기본 가정으로 인해 다수의 오류 패턴이 발생할 여지가 크다. 기존의 연구에서는 오류 패턴을 제거하기 위하여 발생 빈도, 공기 횟수 등의 통계에 기반하여 간접적으로 신뢰도를 측정하였다. 본 논문에서는 한국어 패턴과 영어 프로퍼티 사이의 의미 유사도를 측정함으로써 통계에 기반한 방법보다 더 정확한 신뢰도 측정 방법을 제안한다. 비지도 학습 방법인 워드임베딩을 활용하여 어휘의 의미를 학습하고, 이들 사이의 유사도를 측정한다. 한국어 패턴과 영어 프로퍼티의 어휘 불일치 문제를 해결하기 위하여 정준상관분석을 활용하였다. 실험 결과에 따르면 본 논문에서 제안한 패턴 신뢰도 측정 방법은 통계 기반의 방법에 비해 정확률이 9%나 더 높은 트리플 집합을 생성함을 보여주어, 의미 유사도를 반영한 신뢰도 측정이 기존의 통계 기반 신뢰도 측정보다 고품질 트리플 생성에 더 적합함을 확인하였다.

  • PDF

부분 AUC와 최적분류점들 (Partial AUC and optimal thresholds)

  • 홍종선;조현수
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.187-198
    • /
    • 2019
  • ROC와 CAP 곡선을 이용하여 다양한 정확도 측도를 바탕으로 최적분류점을 추정하는 많은 연구가 있다. 본 연구에서는 ROC와 CAP 곡선의 특정한 부분 면적을 나타내는 대안적인 통계량을 제안한다. 새롭게 정의된 부분 면적을 나타내는 통계량의 미분방정식을 이용하여 ROC와 CAP 함수와의 관계를 살펴보고, 다음으로는 ROC와 CAP 곡선에 대한 다양한 정확도 측도들의 조건에서의 최적분류점과의 관계를 유도한다. 혼합분포를 구성하는 두 종류의 분포함수를 다양한 정규분포로 가정하여 최적분류점을 설정하고, 다양한 정확도 측도들의 조건에서의 최적분류점에 대응하는 제1종과 제2종 오류의 크기를 탐색하고 토론한다.