• Title/Summary/Keyword: 통계데이터

Search Result 3,192, Processing Time 0.04 seconds

Application Scheme of Hybrid Data Mining for Fused Data in Statistical Survey (통계조사에서의 퓨전된 자료에 대한 하이브리드 데이터마이닝의 적용 방안)

  • Park, Hee-Chang;Cho, Kwang-Hyun
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.3
    • /
    • pp.399-411
    • /
    • 2008
  • Today, the statistical survey has been carried out variously for the decision-making and administration of the organization. We use the different items in the statistical survey according to the purpose of study. Currently, Gyeongnam province is executing the social index survey to the provincials every year. But, this survey has the limit of the analysis as execution of the different survey per 3 year cycles. The solution for this problem is data fusion technique. Data fusion is generally defined as the use of techniques that collect to combine data including multiple sources in order to raise the quality of information. But, data fusion doesn't mean the ultimate result. Therefor, efficient analysis for the fused data is also important. In this study, we suggest the application methodology of neural network by latent variable through the fused data in statistical survey.

Design of the web data mining system and definition of useful access patterns (웹 마이닝 시스템 설계 및 유용한 접근 패턴 정의)

  • 김종달;김성민;남도원;이동하;이전영
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.04a
    • /
    • pp.283-291
    • /
    • 2000
  • 인터넷 서비스 제공자들이 관심을 가지고 있는 것 중 하나는 인터넷 사용자들의 서비스 이용 패턴과 경향을 분석하는 것이다. 이를 통해 매출 증대와 실제 경영에 도움이 되는 사용자의 특성을 이해할 수 있기 때문이다. 이와 관련된 기본적인 접근방법은 사용자가 웹 서버에 접근했을 때 서버에 남는 웹 로그를 분석하여 사용자 패턴을 분석하는 것이다. 웹 로그 분석에 전형저인 통계기법이 사용되고 있다. 그러나 단순 통계 기법만으로는 알려지지 않는 데이터들 사이에 숨겨진 유용한 정보를 찾는 데에는 한계가 있다. 최근에는 이러한 한계를 극복하기 위해 데이터 마이닝 기술을 이용한 새로운 접근 방법이 시도되고 있다. 그러나 실제로 웹 로그에서부터 데이터 마이닝 기술을 이용하는 데에는 전처리 과정의 어려움과 실제 유용한 패턴을 어떻게 정의하는 가가 어려운 문제이다. 본 연구에서는 로(raw) 데이터인 웹 로그에서 유용한 패턴을 찾기 위한 전처리 과정을 알아보고, 웹 마이닝 시스템에 적합한 트랜잭션의 데이터 구조를 제시한다. 그리고 정의된 데이터 구조를 통한 패턴 발견 과정인 웹 사이트의 개념계층을 이용한 통계 기법과 연관규칙(Association Rules) 탐사에 대해 알아본다. 마지막으로 정의된 데이터 구조를 통한 새로운 유용한 패턴을 정의한ㄷ.

  • PDF

Goodness of Fit Tests for the Exponential Distribution based on Multiply Progressive Censored Data (다중 점진적 중도절단에서 지수분포의 적합도 검정)

  • Yun, Hyejeong;Lee, Kyeongjun
    • Journal of the Korean Data Analysis Society
    • /
    • v.20 no.6
    • /
    • pp.2813-2827
    • /
    • 2018
  • Progressive censoring schemes have become quite popular in reliability study. Under progressive censored data, however, some units can be failed between two points of observation with exact times of failure of these units unobserved. For example, loss may arise in life-testing experiments when the failure times of some units were not observed due to mechanical or experimental difficulties. Therefore, multiply progressive censoring scheme was introduced. So, we derives a maximum likelihood estimator of the parameter of exponential distribution. And we introduced the goodness-of-fit test statistics using order statistic and Lorenz curve. We carried out Monte Carlo simulation to compare the proposed test statistics. In addition, real data set have been analysed. In Weibull and chi-squared distributions, the test statistics using Lorenz curve are more powerful than test statistics using order statistics.

The Current Status of the Electronic Journal Usage Statistics at the Academic Libraries (대학도서관에서의 전자저널 이용 통계 제공 및 활용 현황)

  • Hwang, Ok-Gyung
    • Journal of Information Management
    • /
    • v.38 no.4
    • /
    • pp.68-87
    • /
    • 2007
  • The purpose of the study is to understand the present state of practical use of electronic journal usage statistics at the academic libraries. For this purpose the study performed an online questionnaire survey to the 63 academic libraries located in Seoul and Gyeonggi Province. Based on the 48 responses, the study found out that the rate of satisfaction with the present usage data was low. Especially the rate of unsatisfaction with the absence of comparable data and the average usage rate of all the subscribing libraries appeared high. The study also examined 5 types of statistics for the evaluation of electronic journal.

Properties of chi-square statistic and information gain for feature selection of imbalanced text data (불균형 텍스트 데이터의 변수 선택에 있어서의 카이제곱통계량과 정보이득의 특징)

  • Mun, Hye In;Son, Won
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.4
    • /
    • pp.469-484
    • /
    • 2022
  • Since a large text corpus contains hundred-thousand unique words, text data is one of the typical large-dimensional data. Therefore, various feature selection methods have been proposed for dimension reduction. Feature selection methods can improve the prediction accuracy. In addition, with reduced data size, computational efficiency also can be achieved. The chi-square statistic and the information gain are two of the most popular measures for identifying interesting terms from text data. In this paper, we investigate the theoretical properties of the chi-square statistic and the information gain. We show that the two filtering metrics share theoretical properties such as non-negativity and convexity. However, they are different from each other in the sense that the information gain is prone to select more negative features than the chi-square statistic in imbalanced text data.

A Critical Review of the Use of Inferential Statistics in Library and Information Science Research in Korea (추론통계를 사용한 문헌정보학 연구에서 데이터 수집과 분석에 관한 비평적 고찰)

  • Ro Jung-Soon
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.40 no.2
    • /
    • pp.217-242
    • /
    • 2006
  • This Study reviewed 86 research articles using inferential statistics published in 2001-2004 in 4 korean core journals in the field of library and information science. Sampling methods, response rates and nonresponse bias, reliability test, and inferential statistic techniques used in the articles were critically reviewed and analyzed. Nonprobability sampling was mostly used. Average response rate was 74.47%. Parametric statistics were mostly used. Some misunderstandings in using each inferential statistics, especially Reliability Test, Multiple Regression, Factor Analysis, MDS, etc. were reported in this study.

Analysis of E-biz Site Using Statistics and Data Mining Techniques (통계 및 데이터마이닝 기법을 이용한 웹 사이트 분석)

  • 류창수;서용무
    • Proceedings of the Korea Database Society Conference
    • /
    • 2001.06a
    • /
    • pp.369-387
    • /
    • 2001
  • 인터넷 기술의 발달과 인터넷 비즈니스의 발전으로 인해 오늘날 사람들은 더욱 많은 시간을 인터넷 상에서 보내고 있다. 사용자가 기업의 웹 사이트를 방문한 기록은 웹 로그파일이라는 형태로 기업의 서버에 남게 되는데 이러한 로그 파일을 이용해 고객의 행동을 더욱 잘 이해하는 것이 매우 중요한 경쟁력의 요소로 자리 잡게 되었다. 이제까지는 웹 로그를 분석하기 위해 웹 로그 분석 도구를 이용해 왔는데, 경영 의사 결정에 도움이 되는 지식을 발견하기보다는 단순한 기술적인 통계량을 구하는데 그쳤다. 본 연구에서는 통계와 데이터마이닝 기법을 웹 데이터에 적용하여 경영 의사 결정에 도움이 되는 의미 있는 정보를 추출한다. 이를 위해 실제 인터넷 기업의 데이터를 기반으로 하여 대량 데이터를 데이터마이닝을 위해 전처리 하는 과정과 준비된 데이터를 분석하는 과정을 소개한다. 웹 사이트의 분석은 경영 지식을 찾아내기 위한 과정으로 개별 사이트가 처한 상황에 따라 분석과정이 상이해 질 수 있기 때문에 실제 기업의 데이터를 가지고 분석해 나가는 과정을 보이는 것은 의미 있는 연구라 생각된다.

  • PDF

이력 기반 취약성 평가를 위한 데이터 수집 및 활용 방안

  • Lee, Jae-Uk;Jo, Gi-Jeong;Kim, Geon-Ung;Park, Gye-Gak
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2018.11a
    • /
    • pp.336-338
    • /
    • 2018
  • 대부분의 해양사고는 인적요인에 의한 과실이 대다수이며 이 문제를 해결하기 위해 해양수산부는 국제 e-Navigation의 주도를 위해 한국형 이네비게이션 사업단을 선정하여 연구과제를 수행 중에 있다. 이네비 연구과제의 사고 취약선박 모니터링 지원 서비스는 선박, 해역, 환경의 취약상황을 반영한 항해 위험도를 산출하는 알고리즘을 개발하고 있으며 충돌 알고리즘 산출을 위해 다양한 종류의 데이터를 수집 및 분석을 수행하고 있다. 이 연구는 이력 기반 취약성 평가를 위한 해상 통계데이터 수집 및 그 데이터의 활용 방안을 수립하고, 데이터 분석결과를 보인다.

  • PDF