• 제목/요약/키워드: 통계데이터

검색결과 3,205건 처리시간 0.028초

커널 확률밀도함수 추정량을 이용한 적합도 검정에 관한 연구

  • 석경하;김대학
    • Journal of the Korean Data and Information Science Society
    • /
    • 제5권2호
    • /
    • pp.1-9
    • /
    • 1994
  • 확률밀도함수의 적합도 검정을 위한 새로운 검정 통계량을 소개하고 커널확률밀도함수 추정량을 이용한 제안된 검정 통계량의 점근 정규성을 규명하였다. 제안된 통계량과 콜모고르프-스미르노프 통계량과의 소표본 모의 실험비고를 통하여 제안된 통계량의 우수성을 입증하였다.

  • PDF

통계모델링 방법의 비교 연구 (A Comparison Study on Statistical Modeling Methods)

  • 노유정
    • 한국산학기술학회논문지
    • /
    • 제17권5호
    • /
    • pp.645-652
    • /
    • 2016
  • 입력 랜덤 변수(input random variable)의 통계 모델링은 기계시스템의 신뢰성 해석(reliability analysis), 신뢰성 기반 설계(reliability-based design optimization), 해석모델의 통계적 검정(validation) 및 보정(calibration)을 위해 반드시 필요하다. 대표적인 통계모델링 기법에는 Akaike Information Criterion (AIC), AIC correction (AICc), Bayesian Information Criterion, Maximum Likelihood Estimation (MLE), Bayesian 방법 등이 있다. 이러한 방법들은 기본적으로 주어진 데이터로부터 후보 모델의 우도함수값을 이용하여 후보 모델 중 가장 적합한 모델을 선택하는 방법이며, 방법에 따라 데이터 수 혹은 파라미터의 수를 고려하여 모델을 선정한다. 하지만 실제 현장에서 데이터의 통계모델링을 하는 엔지니어는 각 방법의 장단점에 대한 이해가 부족하여 어떤 방법이 정확한 방법인지 몰라 통계모델링 수행 시 어려움이 있다. 본 논문에서는 다양한 통계모델링 방법들을 비교하고 각 방법의 장단점 분석을 통해 가장 적합한 모델링 기법을 제안하고자 한다. 각 방법의 검증을 위해 다양한 모분포를 가정하고 다양한 사이즈의 샘플을 임의로 생성하여 시뮬레이션을 수행하였으며, 실제 공학 데이터를 사용하여 통계모델링 방법의 유효성을 검증하였다.

토픽 모형을 이용한 텍스트 데이터의 단어 선택 (Feature selection for text data via topic modeling)

  • 장우솔;김예은;손원
    • 응용통계연구
    • /
    • 제35권6호
    • /
    • pp.739-754
    • /
    • 2022
  • 텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.

의료 통계 분석 및 시각화 시스템 (A System for Statistical Analysis and Visualization in Medicine)

  • 이돈수;최수미
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.691-693
    • /
    • 2003
  • 임상 및 실험 결과를 대외적으로 공인 받기 위해서는 통계적 검정 절차를 거치는 것이 일반적이다. 하지만 통계적 전문 지식이 부족한 사용자가 통계 소프트웨어를 배우는 데는 시간이 많이 걸리며, 결과 해석에도 어려움이 많은 실정이다. 데이터의 특성과 성질에 맞추어 통계법이 선택되어야 하는데, 통계지식이 부족한 초보자들은 가장 일반적인 분석법을 적용시키곤 한다. 이와 같은 방식의 통계분석은 잘못된 결과로 이어질 수 있기 때문에 올바른 분석법을 가이드 해주는 기능이 필요하다. 또한 통계분석법의 적합성을 평가하는데 있어 오차와 잔차의 등분산성 가정이 유용하게 쓰여질 수 있다. 본 연구에서는 사용자에게 올바른 분석법을 제시하는 비쥬얼 가이드 인터페이스와 잔차를 3D Glyph를 이용하여 보여주는 불확실성 시각화 방법을 사용하였다. 분석법 적용에서 나타나는 불확실한 데이터의 시각화는 의사결정에 도움을 줄 수 있다.

  • PDF

제주 버스 환승지점 추천 서비스 설계 (Design of a recommendation service for transfer locations in Jeju bus system.)

  • 변세정;김지환;강민주;이정훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.526-527
    • /
    • 2020
  • 본 연구는 대중교통 활용도를 높이고자 효율적인 버스 환승지 추천 서비스를 설계한다. 제주데이터 허브에서 입수한 승하차데이터를 처리하여 승객수와 버스의 정류장 도착시간 등을 예측함은 물론 인터넷 연결을 통해 버스정보시스템과 연동하여 현재의 교통상황을 실시간으로 입수하여 효율적인 환승지를 추천한다. 승객은 변동되는 교통상황에 따라 이동중에도 더 좋은 환승 노선으로 변경할 수 있으며 데이터센터 관점에서는 축적되고 있는 버스 데이터의 활용도도 높일 수 있다.

인공지능 수학 교육을 위한 빅데이터 프로젝트 과제 가이드라인 (Guidelines for big data projects in artificial intelligence mathematics education)

  • 이정화;한채린;임웅
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제62권2호
    • /
    • pp.289-302
    • /
    • 2023
  • 지식정보사회의 비약적인 발전에 힘입어 빅데이터를 분석하여 가치있는 결과물을 도출하고 유용한 정보를 추출하는 역량이 학교 수학의 주요 목표 중 하나로 급부상하고 있다. 고등학교 수학 진로 선택 과목 중 하나인 <인공지능 수학>은 디지털 기술을 활용한 통계 프로젝트를 통해 빅데이터에 기반한 새로운 통계 교육의 기회를 제공할 수 있다. 이 연구에서는 효과적인 빅데이터 통계 프로젝트 기반 과제를 설계하기 위한 일련의 가이드라인을 제안하고, 이 기준에 따라 5종의 인공지능 수학 교과서에 실린 최적화 단원 과제들을 평가하였다. 인공지능 수학 교과에서 빅데이터 통계 프로젝트 과제를 설계 시 고려하도록 도출된 가이드라인은 다음과 같다: (1) 지식과 기술을 국가 학교 수학 교육과정에 맞추고, (2) 전처리된 대규모 데이터 세트를 사용하며, (3) 데이터 과학자의 문제 해결 방법을 사용하고, (4) 의사 결정을 장려하며, (5) 공학도구를 활용하고, (6) 협업 학습을 촉진한다. 분석 결과에 따르면 가이드라인에 완전히 부합하는 과제는 드물었고, 특히 대부분의 교과서에서 가이드라인 2에 해당하는 요소를 프로젝트 과제에서 통합하지 못하고 있는 것으로 나타났다. 또한 소규모 데이터 세트나 빅데이터를 전처리 없이 직접 사용하는 경우가 많아 학생들의 빅데이터의 개념에 대한 오해를 불러일으킬 것이 우려된다. 본 연구에서는 결과를 토대로 인공지능에 필요한 관련 수학 지식과 기술을 밝히고, 이것이 빅데이터 과제에 통합될 때 얻을 수 있는 잠재적 이점과 교육적 고려사항에 대해 논의하였다. 이 연구는 수학적 개념과 머신러닝 알고리즘과의 연계 및 빅데이터를 사용하는 통계 교육에서의 효과적인 공학적 도구 사용에 대한 통찰을 제공하고자 하였다.

초록데이터를 활용한 국내외 통계학 분야 연구동향 (Research trends in statistics for domestic and international journal using paper abstract data)

  • 양종훈;곽일엽
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.267-278
    • /
    • 2021
  • 시간이 갈 수록, 정부, 기업, 국내, 해외를 막론하고 데이터의 양이 증가하고 있다. 이에따라 학계에서도 빅데이터에 대한 연구들이 늘어나고 있다. 통계학은 빅데이터 연구의 중심이 되는 학문들 중 하나이며, 늘어나는 통계학 분야 논문 빅데이터를 통해 통계학의 연구동향을 파악해 보는 것도 재미있을 것이다. 본 연구에서는 국내와 해외의 통계학 논문들의 초록데이터를 통해 어떤 연구들이 이루어지고 있는지 분석을 진행하였다. 저자들이 선정한 논문들의 키워드 데이터 빈도를 통해 국내외 연구 동향을 분석하였고, Word Embedding 방법을 통해 해당 키워드들의 관계성을 시각화 하였다. 여기서 저자들이 선정한 키워드들 외에 Textrank를 통해 선정된 통계학 분야 논문들에서 중요하게 사용되는 단어들도 추가적으로 시각화 하였다. 마지막으로 초록 데이터에 LDA 기법을 적용하여 10가지 토픽을 알아보았다. 각 토픽들에 대한 분석을 통해 어떤 연구 주제들이 자주 연구되며, 어떤 단어들이 중요하게 사용되는지 알아보았다.

주택가격동향조사를 위한 데이터편집 사례연구 (A Case Study of Data Editing for the Korean Housing Price Survey)

  • 박진우;박현주;김진억
    • 한국조사연구학회지:조사연구
    • /
    • 제6권1호
    • /
    • pp.83-98
    • /
    • 2005
  • 대규모 통계조사에서 수집된 데이터에는 오류나 결측값의 문제가 발생하기 마련이다. 조사, 데이터 입력, 데이터 처리 등의 과정에서 여러 가지 요인에 의해 이런 문제가 생길 수 있는데 이런 데이터를 방치한 채 통계를 생산할 경우 편향이나 다양한 분석에서의 불일치의 문제가 발생하게 되어 통계의 품질과 신뢰성을 떨어뜨릴 수 있으므로 수집된 데이터의 오류나 결측값을 찾아 수정하는 데이터편집은 매우 중요한 작업이다. 해외에서는 데이터편집의 문제를 공론화하여 다루고 있는 데 반해 우리나라에서 데이터편집에 관한 논의는 거의 없는 편이다. 본 연구의 목적은 주택가 격동향조사를 위한 데이터편집의 사례를 소개함으로 데이터편집에 대한 논의의 폭을 넓히는 데 있다. 조사목적에 맞도록 편집규칙을 정하는 과정 및 관련 자료들을 소개하고, 온라인조사라는 조사방식에 맞는 입력 데이터편집방법을 마련하여 실시하는 예들을 소개하며, 마지막으로 출력 데이터편집에 의해 입력 편집에서 걸러지지 않은 오류나 문제들을 제거하는 방법도 소개한다.

  • PDF

문장 길이가 한영 통계기반 기계번역에 미치는 영향 분석 (Empirical Impact Analysis of Sentence Length on Statistical Machine Translation)

  • 조희영;서형원;김재훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.199-203
    • /
    • 2007
  • 본 논문에서는 한영 통계기반 기계번역에서 한국어 문장 길이의 변화에 따른 번역 성능의 변화를 분석하고자 한다. 일반적으로 통계기반 기계번역은 정렬기법을 이용하는데 문장의 길이가 길수록 많은 변형(distortion)이 이루어진다. 특히 한국어와 영어처럼 어순이 매우 다를 경우, 문장 길이의 변화에 따라 그 변형이 더욱 심할 수 있다. 본 논문에서는 이러한 성질이 통계기반 기계번역에 어떠한 영향을 주는지를 실험적으로 살펴보고자 한다. 본 논문에서 비교적 잘 정렬된 203,310개의 문장을 학습데이터로 사용하였고, 세종 병렬 말뭉치로부터 89,309개의 문장을 추출하여 실험데이터로 사용하였다. 실험데이터는 한국어 문장의 길이에 따라 5구간($1{\sim}4,\;5{\sim}8,\;9{\sim}13,\;14{\sim}19,\;20{\sim}n$ 개)로 나뉘었다. 각 구간은 가능한 문장의 수가 비슷하도록 하였으며, 17,126, 18,507, 20,336, 17,884, 15,456개의 문장이 포함되었다. 데이터들은 모두 어절단위로 토큰을 나누었다. 본 논문에서는 한영 번역을 중심으로 평가되었다. 첫 번째 구간에서 가장 좋은 성능인 0.0621 BLEU를 보였으며, 마지막 구간에서 가장 좋지 않은 0.0251 BLEU를 보였다. 이는 문장의 길이가 길수록 변역 성능이 좋지 않음을 알 수 있었다. 문장이 길수록 구가 길어지고 구간의 수식이 복잡해지므로 번역의 성능은 점차 떨어진다. 이것을 볼 때, 구번역을 먼저 한 후, 다시 문장 번역을 한다면 좀 더 높은 기계번역의 성능을 기대할 수 있을 것이다.

  • PDF

베이지안 기법을 이용한 소표본 보증데이터 분석 방법 연구 (A Study of the Small Sample Warranty Data Analysis Using the Bayesian Approach)

  • 김종걸;성기우;송정무
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2013년 춘계학술대회
    • /
    • pp.517-531
    • /
    • 2013
  • 보증 데이터를 통해 제품의 수명 및 형상모수를 추정할 때 최우추정법과 같은 전통적인 통계 분석방법(Classical Statistical Method)을 많이 사용하였다. 그러나 전통적인 통계 분석방법을 통해 수명과 형상모수의 추정 시 표본의 크기가 작거나 불완전한 경우 추정량의 신뢰성이 떨어진다는 단점이 있고 또 누적된 경험과 과거자료를 충분히 이용하지 못하는 단점도 있다. 이러한 문제점을 해결하기 위해 모수의 사전분포를 가정하는 베이지안(Bayesian) 기법의 적용이 필요하다. 하지만 보증 데이터분석에 있어서 베이지안 기법을 이용한 연구는 아직 미흡한 실정이다. 본 연구에서는 수명분포가 와이블 분포를 갖는 보증데이터를 활용하여 모수 추정의 효율성을 비교 분석하고자 한다. 이를 위해 와이블 분포의 모수가 대수정규분포를 따르는 사전분포를 갖는 베이지안 기법과 전통적 통계기법인 생명표법(Actuarial method)을 활용하여 추정량을 도출하고 비교 분석하였다. 이를 통해 충분한 관측 데이터를 확보할 수 없는 경우에 베이지안 기법을 이용한 보증 데이터 분석방법의 성능을 확인하고자 한다.

  • PDF