• 제목/요약/키워드: 통계데이터

검색결과 3,259건 처리시간 0.029초

탐색적 데이터분석(EDA) 기능에 대한 통계팩키지 프로그램의 비교검토 (Software review of statistical package programs on EDA aspects)

  • 허명회;정진환
    • 응용통계연구
    • /
    • 제3권2호
    • /
    • pp.17-25
    • /
    • 1990
  • 본 소고에서는 탐색적 데이터분석(EDA)의 방법들이 국내에서 비교적 쉽게 구할 수 있는 통계 팩키지 프로그램에 어떻게 수용되어 있는지를 비교검토할 것이다. 여기에서 고려된 통계 팩키지 프로그램은 IBM-PC의 XT/AT 기종에서 사용가능한 Minitab, NCSS, SAS, SPSS/PC+, Statgraphics, SYSTAT의 모두 6종이다.

  • PDF

통계조사에서의 퓨전된 자료에 대한 하이브리드 데이터마이닝의 적용 방안 (Application Scheme of Hybrid Data Mining for Fused Data in Statistical Survey)

  • 박희창;조광현
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.399-411
    • /
    • 2008
  • 현대 사회에서는 조직의 운영 및 의사 결정을 위하여 다양한 통계 조사가 실시되고 있으며, 연구의 목적에 따라 조사 문항을 다르게 하여 실시하고 있다. 현재 경상남도의 경우 3년 주기로 매년 설문 문항을 다르게 하여 사회 지표 조사를 실시하고 있어 유기적인 분석이 가능하지 못한 실정이다. 이에 본 장에서는 데이터 퓨전을 이용하여 다양한 통계 조사 자료를 결합하여 고부가적인 자료를 생성하고자 한다. 데이터 퓨전을 통해서 얻은 최종 결과에 대한 추가된 정보를 이용함으로써 통계 분석의 질을 향상시킬 수 있는 방법이므로, 데이터 퓨전에 의해서 얻어진 정보를 효율적으로 분석하는 것 또한 중요하다. 이에 본 논문에서는 통계 조사 자료에 대하여 데이터 퓨전을 실시하고, 데이터 퓨전에 의해 생성된 자료에 대하여 하이브리드 데이터마이닝 기법인 잠재변수를 이용한 신경망 분석을 적용하는 방안에 대하여 연구하고자 한다.

웹 마이닝 시스템 설계 및 유용한 접근 패턴 정의 (Design of the web data mining system and definition of useful access patterns)

  • 김종달;김성민;남도원;이동하;이전영
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 춘계정기학술대회 e-Business를 위한 지능형 정보기술 / 한국지능정보시스템학회
    • /
    • pp.283-291
    • /
    • 2000
  • 인터넷 서비스 제공자들이 관심을 가지고 있는 것 중 하나는 인터넷 사용자들의 서비스 이용 패턴과 경향을 분석하는 것이다. 이를 통해 매출 증대와 실제 경영에 도움이 되는 사용자의 특성을 이해할 수 있기 때문이다. 이와 관련된 기본적인 접근방법은 사용자가 웹 서버에 접근했을 때 서버에 남는 웹 로그를 분석하여 사용자 패턴을 분석하는 것이다. 웹 로그 분석에 전형저인 통계기법이 사용되고 있다. 그러나 단순 통계 기법만으로는 알려지지 않는 데이터들 사이에 숨겨진 유용한 정보를 찾는 데에는 한계가 있다. 최근에는 이러한 한계를 극복하기 위해 데이터 마이닝 기술을 이용한 새로운 접근 방법이 시도되고 있다. 그러나 실제로 웹 로그에서부터 데이터 마이닝 기술을 이용하는 데에는 전처리 과정의 어려움과 실제 유용한 패턴을 어떻게 정의하는 가가 어려운 문제이다. 본 연구에서는 로(raw) 데이터인 웹 로그에서 유용한 패턴을 찾기 위한 전처리 과정을 알아보고, 웹 마이닝 시스템에 적합한 트랜잭션의 데이터 구조를 제시한다. 그리고 정의된 데이터 구조를 통한 패턴 발견 과정인 웹 사이트의 개념계층을 이용한 통계 기법과 연관규칙(Association Rules) 탐사에 대해 알아본다. 마지막으로 정의된 데이터 구조를 통한 새로운 유용한 패턴을 정의한ㄷ.

  • PDF

다중 점진적 중도절단에서 지수분포의 적합도 검정 (Goodness of Fit Tests for the Exponential Distribution based on Multiply Progressive Censored Data)

  • 윤혜정;이경준
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2813-2827
    • /
    • 2018
  • 최근에 중도절단 방법 중 점진적 중도절단과 관련한 연구가 활발히 이루어지고 있다. 하지만 점진적 중도절단 상황에서 관측되는 시점의 자료들 사이에는 관측원의 실수 혹은 관측 기계의 오류로 인하여 또 다른 중도절단이 발생할 수 있다. 따라서 이러한 기계적 오류 등을 고려하기 위하여 다중 점진적 중도절단이 새롭게 제안되었다. 따라서 본 논문에서는 다중 점진적 중도절단 상황에서 지수분포의 최대우도추정량을 계산하고 다중 점진적 중도절단 순서통계량을 이용한 적합도 검정 통계량과 로렌츠 곡선을 이용한 적합도 검정 통계량을 제안하였다. 몬테카를로 모의실험을 통하여 순서통계량을 이용한 적합도 검정 통계량과 로렌츠 곡선을 이용한 적합도 검정 통계량을 비교하고 더 우수한 적합도 검정 통계량을 확인하고, 실제 사례 자료를 활용하여 적합도 검정을 실시하였다. 그 결과 와이블분포와 카이제곱 분포의 경우 로렌츠 곡선을 이용한 방법이 더 우수한 결과가 나타났고, 로그 정규분포의 경우 순서통계량을 이용한 방법이 더 우수한 결과가 나타났다.

대학도서관에서의 전자저널 이용 통계 제공 및 활용 현황 (The Current Status of the Electronic Journal Usage Statistics at the Academic Libraries)

  • 황옥경
    • 정보관리연구
    • /
    • 제38권4호
    • /
    • pp.68-87
    • /
    • 2007
  • 본 연구의 목적은 국내 대학도서관에서의 전자저널 이용 통계 제공 및 활용 현황을 조사하는 데 있다. 이를 위하여 서울 및 경기 소재 63개 대학교 및 대학도서관을 대상으로 온라인 설문지조사를 시행하였고 이 중 48개 도서관으로부터 응답지를 회수하여 그 결과를 분석하였다. 분석 결과 현재 제공되고 있는 이용 통계 데이터에 대한 만족도는 낮게 나타났으며 특히 비교 가능한 데이터의 부재 문제와 구독 대학도서관 전체의 평균 이용률에 대한 정보가 제공되지 않는 데 따른 불만이 높은 것으로 나타났다. 더불어 선행연구 조사 및 현행 이용 데이터에 대한 분석을 통해 전자저널 평가에 활용할 수 있는 이용 데이터 통계치로서 5가지 유형을 고찰하였다.

불균형 텍스트 데이터의 변수 선택에 있어서의 카이제곱통계량과 정보이득의 특징 (Properties of chi-square statistic and information gain for feature selection of imbalanced text data)

  • 문혜인;손원
    • 응용통계연구
    • /
    • 제35권4호
    • /
    • pp.469-484
    • /
    • 2022
  • 텍스트 데이터는 일반적으로 많은 단어로 이루어져 있으므로 변수의 수가 매우 많은 고차원 데이터에 해당된다. 이러한 고차원 데이터에서는 계산 효율성과 통계분석의 정확성을 높이기 위해 많은 변수 중 중요한 변수를 선택하기 위한 절차를 거치는 경우가 많다. 텍스트 데이터에서도 많은 단어 중 중요한 단어를 선택하기 위해 여러가지 방법들이 사용되고 있다. 이 연구에서는 단어 선택을 위한 대표적인 필터링 방법인 카이제곱통계량과 정보이득의 공통점과 차이점을 살펴보고 실제 텍스트 데이터에서 이 단어선택 방법들의 성질을 확인해보았다. 카이제곱통계량과 정보이득은 비음성, 볼록성 등의 성질을 공유하지만 불균형 텍스트 데이터에서 카이제곱통계량이 양변수 위주로 단어를 선택하는 반면, 정보이득은 음변수도 상대적으로 많이 선택하는 경향이 있음을 확인하였다.

추론통계를 사용한 문헌정보학 연구에서 데이터 수집과 분석에 관한 비평적 고찰 (A Critical Review of the Use of Inferential Statistics in Library and Information Science Research in Korea)

  • 노정순
    • 한국문헌정보학회지
    • /
    • 제40권2호
    • /
    • pp.217-242
    • /
    • 2006
  • 본 연구는 국내 문헌정보학분야의 대표적인 4개 학술지에 2001부터 2004까지 발표된 792편의 연구논문 중 추론통계를 사용한 86편의 연구논문에서 활용한 데이터 수집방법과 추론통계기법을 비평적으로 고찰하였다. 표집방법별로 그리고 신뢰도검사와 가설과 모형의 검정에 사용된 통계기법별로 대표 연구논문을 소개하고, 사용된 기법으로 데이터를 수집하고 분석하는 과정에서 보인 문제점들을 논의하였다. 분석된 연구에서 표집방법으로는 확률표집보다는 비확률표집이 주로 사용되었으며, 질문지를 이용하여 데이터를 수집한 연구의 평균응답률은 74.47%로 분석되었으나, 응답률이 낮을 경우 무응답으로 인한 표집과정의 오류를 밝히려는 노력은 부족한 것으로 파악되었다. 추론통계기법 중 특히 신뢰도검사, 교차분석, 다중회귀분석, 요인분석, 다차원척도를 사용하는데 문제가 있는 것으로 분석되었다.

통계 및 데이터마이닝 기법을 이용한 웹 사이트 분석 (Analysis of E-biz Site Using Statistics and Data Mining Techniques)

  • 류창수;서용무
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2001년도 춘계 Conference: CRM과 DB응용 기술을 통한 e-Business혁신
    • /
    • pp.369-387
    • /
    • 2001
  • 인터넷 기술의 발달과 인터넷 비즈니스의 발전으로 인해 오늘날 사람들은 더욱 많은 시간을 인터넷 상에서 보내고 있다. 사용자가 기업의 웹 사이트를 방문한 기록은 웹 로그파일이라는 형태로 기업의 서버에 남게 되는데 이러한 로그 파일을 이용해 고객의 행동을 더욱 잘 이해하는 것이 매우 중요한 경쟁력의 요소로 자리 잡게 되었다. 이제까지는 웹 로그를 분석하기 위해 웹 로그 분석 도구를 이용해 왔는데, 경영 의사 결정에 도움이 되는 지식을 발견하기보다는 단순한 기술적인 통계량을 구하는데 그쳤다. 본 연구에서는 통계와 데이터마이닝 기법을 웹 데이터에 적용하여 경영 의사 결정에 도움이 되는 의미 있는 정보를 추출한다. 이를 위해 실제 인터넷 기업의 데이터를 기반으로 하여 대량 데이터를 데이터마이닝을 위해 전처리 하는 과정과 준비된 데이터를 분석하는 과정을 소개한다. 웹 사이트의 분석은 경영 지식을 찾아내기 위한 과정으로 개별 사이트가 처한 상황에 따라 분석과정이 상이해 질 수 있기 때문에 실제 기업의 데이터를 가지고 분석해 나가는 과정을 보이는 것은 의미 있는 연구라 생각된다.

  • PDF

이력 기반 취약성 평가를 위한 데이터 수집 및 활용 방안

  • 이재욱;조기정;김건웅;박계각
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2018년도 추계학술대회
    • /
    • pp.336-338
    • /
    • 2018
  • 대부분의 해양사고는 인적요인에 의한 과실이 대다수이며 이 문제를 해결하기 위해 해양수산부는 국제 e-Navigation의 주도를 위해 한국형 이네비게이션 사업단을 선정하여 연구과제를 수행 중에 있다. 이네비 연구과제의 사고 취약선박 모니터링 지원 서비스는 선박, 해역, 환경의 취약상황을 반영한 항해 위험도를 산출하는 알고리즘을 개발하고 있으며 충돌 알고리즘 산출을 위해 다양한 종류의 데이터를 수집 및 분석을 수행하고 있다. 이 연구는 이력 기반 취약성 평가를 위한 해상 통계데이터 수집 및 그 데이터의 활용 방안을 수립하고, 데이터 분석결과를 보인다.

  • PDF