• Title/Summary/Keyword: 통계데이터

Search Result 3,205, Processing Time 0.032 seconds

Performance Comparison of Statistics-Based Machine Learning Model for Classification of Technical Documents (기술문서 분류를 위한 통계기반 기계학습 모델 성능비교 및 한계 연구)

  • Kim, Jin-gu;Yu, Heonchang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.393-396
    • /
    • 2022
  • 본 연구는 국방과학기술 분야의 특허 및 논문 실적을 이용하여 통계기반 기계학습 모델 4 종을 학습하고, 실제 분석 대상기관의 데이터 입력결과를 분석하여 실용성에 대한 한계점 분석을 목적으로 한다. 기존 연구에서는 특허분류코드를 기준으로 분류하여 특수 목적으로 활용하거나 세부 연구 범위 내 연구 주제탐색 및 특징연구 등 미시적인 관점에서의 상세연구 활용 목적인 반면, 본 연구는 거시적인 관점에서 연구의 전체적인 흐름과 경향성 파악을 목적으로 한다. 이에 ICT 기술 138 종의 특허 및 논문 30,965 건과 국방과학기술 192 종의 특허 및 논문 23,406 건을 학습데이터로 각 모델을 학습하였다. 비교한 통계기반 학습모델은 Support Vector Machines, Decision Tree, Naive Bayes, XGBoost 모델이다. 학습데이터에 대한 학습검증 단계에서는 최대 99.4%의 성능을 보였다. 다만, 실제 분석대상기관의 특허 및 논문 12,824 건으로 입력분석한 결과, 모델별 편향성 문제, 데이터 전처리 이슈, 다중클래스 및 다중레이블 문제를 확인, 도출한 문제에 대한 해결방안을 제시하고 추가 연구의 방향성을 제시한다.

데이터 마이닝을 이용한 고혈압 요인분석

  • 이제영;이용원;사공준;이윤수
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2004.11a
    • /
    • pp.191-193
    • /
    • 2004
  • 데이터 마이닝을 이용하여 20대 이상의 사람들을 대상으로 남녀간의 고혈압 발병여부에 따른 고혈압 위험요인에 대하여 분석하였다. 분석된 위험요인들의 개별적인 영향력을 알아보고, 이를 바탕으로 남녀간의 고혈압 발병여부에 대하여 적절한 모형을 만들었다

  • PDF

웹로그 데이터에 대한 군집분석 알고리즘에 관한 연구

  • Gang, Hyeon-Cheol;Han, Sang-Tae;Seon, Yeong-Su
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.10a
    • /
    • pp.313-318
    • /
    • 2003
  • 최근 인터넷은 기업이 고객과 접촉할 수 있는 새로운 수단으로써 기업의 홍보나 서비스를 제공하는 기능을 수행할 뿐만 아니라 사업을 위한 중요한 도구로 여겨지고 있다. 따라서 방문자의 웹사이트 이용형태를 파악하기 위한 다양한 기법들이 제시되고 있으며, 웹로그 데이터에 대한 자료분석 기법들이 여러 학문분야에서 연구되고 있다. 본 연구에서는 웹로그 데이터에 대한 군집분석을 위해 거리측도 및 분석 알고리즘을 제안하였으며, 실제 자료에 이를 적용하여 제안된 알고리즘의 특성을 살펴보았다.

  • PDF

S-QUEST와 태아발육제한증 (IUGR) 조기진단시스템 개발

  • Cha, Gyeong-Jun;Park, Mun-Il;Choe, Hang-Seok;Sin, Yeong-Jae
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.05a
    • /
    • pp.171-176
    • /
    • 2003
  • 방대한 양의 데이터에서 의사결정에 필요한 정보를 발견하는 일련의 과정을 데이터 마이닝 (data mining)이라고 하는데, 본 연구에서는 생물정보학 (bioinofmatics)의 한분야로서 의학분야의 통계적 의사결정 시스템을 제공하는 의사결정나무 (decision tree) 알고리즘 중 QUEST를 S-PLUS로 구현하고(이하 S-QUEST) 발육제한(Intrauterine Growth Restriction; IUGR) 데이터를 분석하였다.

  • PDF

Cancer cluster detection using scan statistic (스캔 통계량을 이용한 암 클러스터 탐색)

  • Han, Junhee;Lee, Minjung
    • Journal of the Korean Data and Information Science Society
    • /
    • v.27 no.5
    • /
    • pp.1193-1201
    • /
    • 2016
  • In epidemiology or etiology, we are often interested in identifying areas of elevated risk, so called, hot spot or cluster. Many existing clustering methods only tend to a result if there exists any clustering pattern in study area. Recently, however, lots of newly introduced clustering methods can identify the location, size, and shape of clusters and test if the clusters are statistically significant as well. In this paper, one of most commonly used clustering methods, scan statistic, and its implementation SaTScan software, which is freely available, will be introduced. To exemplify the usage of SaTScan software, we used cancer data from the SEER program of National Cancer Institute of U.S.A.We aimed to help researchers and practitioners, who are interested in spatial cluster detection, using female lung cancer mortality data of the SEER program.

Comparison and analysis of multiple testing methods for microarray gene expression data (유전자 발현 데이터에 대한 다중검정법 비교 및 분석)

  • Seo, Sumin;Kim, Tae Houn;Kim, Jaehee
    • Journal of the Korean Data and Information Science Society
    • /
    • v.25 no.5
    • /
    • pp.971-986
    • /
    • 2014
  • When thousands of hypotheses are tested simultaneously, the probability of rejecting any true hypotheses increases, and large multiplicity problems are generated. To solve these problems, researchers have proposed different approaches to multiple testing methods, considering family-wise error rate (FWER), false discovery rate (FDR) or false nondiscovery rate (FNR) as a type I error and some test statistics. In this article, we discuss Bonferroni (1960), Holm (1979), Benjamini and Hochberg (1995) and Benjamini and Yekutieli (2001) procedures based on T statistics, modified T statistics or local-pooled-error (LPE) statistics. We also consider Sun and Cai (2007) procedure based on Z statistics. These procedures are compared in the simulation and applied to Arabidopsis microarray gene expression data to identify differentially expressed genes.

The Selection and Supplementation of Core Data for Injury Surveillance (손상감시를 위한 핵심데이터 선정과 보완)

  • Lim, Joon-Kyu;Kim, Han Kyoul;Rhee, Hyun-Sill
    • Journal of Digital Convergence
    • /
    • v.18 no.9
    • /
    • pp.265-275
    • /
    • 2020
  • The burden of injury is widely considered to be very severe in our society. Nonetheless, we don't have enough data for injury surveillance. The objective of this research is to select and supplement CORE DATA for injury surveillance. For this purpose, this study had analyzed the literature such as the Quality Assessment Report about 'Causes of Death Statistics', 'Health Insurance Statistics' and 'Hospital Discharge Injury Surveillance' according to the six dimension of Statistics Quality. The analysis result is that 'Cause of Death Statistics' and 'Health Insurance Statistics' have the usefulness as the CORE DATA for injury surveillance. But there is a significant shortcoming in the Health Insurance Statistics, which is that there is a lack of the data about the external causes of injury. For supplementing the defect, this study proposes the system that the medical institutions should obligatorily report the external causes of injury when claim National Health Insurance Medical Care Expenses. As the results of this system, we can expect 'Establishing of Injury pyramid', 'Data Connecting with the National Pension' and 'Improving the Promptness of Injury Data'. And we expect the follow-up study for the realization of this system.

Mathematical Foundations and Educational Methodology of Data Mining (데이터 마이닝의 수학적 배경과 교육방법론)

  • Lee Seung-Woo
    • Journal for History of Mathematics
    • /
    • v.18 no.2
    • /
    • pp.95-106
    • /
    • 2005
  • This paper is investigated conception and methodology of data selection, cleaning, integration, transformation, reduction, selection and application of data mining techniques, and model evaluation during procedure of the knowledge discovery in database (KDD) based on Mathematics. Statistical role and methodology in KDD is studied as branch of Mathematics. Also, we investigate the history, mathematical background, important modeling techniques using statistics and information, practical applied field and entire examples of data mining. Also we study the differences between data mining and statistics.

  • PDF

The Privacy Safety of Public Data: A Case Study on Medical Statistics HIRA-NPS 2011 (공개 데이터의 프라이버시 안전성: 진료정보 통계자료 HIRA-NPS 2011 사례 분석)

  • Kim, Soohyung;Chung, Yon Dohn;Lee, Ki Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.786-789
    • /
    • 2013
  • 개인정보가 포함된 데이터가 많은 기관에서 다양한 목적을 위해 배포되고 있다. 이러한 공개 데이터는 프라이버시 문제를 야기할 수 있기 때문에, 배포에 앞서 항상 데이터에 대한 프라이버시 보호가 고려되어야 한다. 그러나 현재 배포되는 많은 데이터는 충분하지 못한 프라이버시 보호 과정을 거쳐 배포되고 있다. 이 논문에서는 개인정보를 포함하는 데이터의 프라이버시 안전성을 분석한다. 이를 위해 우리는 건강보험심사평가원에서 배포한 2011년 진료정보 통계자료(HIRA-NPS)를 실험에 사용한다. 분석을 위해 기존에 널리 쓰이는 프라이버시 보호 모델 k-익명성(k-anonymity)과 l-다양성(l-diversity)을 차용하여 안전성 판단의 척도를 정의한다. 또한 실제 데이터에 이 척도를 적용하여 프라이버시 안전성을 측정하고, 그 결과가 갖는 의미를 분석한다.

GIS를 이용한 교통망상 시간거리 지도화 방법 및 접근성의 구조 분석

  • Kim, So-Yeon;Lee, Geum-Suk
    • Proceedings of the Conference
    • /
    • 2005.12a
    • /
    • pp.40-47
    • /
    • 2005
  • 카토그램(Cartogram)은 통계데이터를 이용하여 지리공간에 나타나는 현상을 효과적으로 표현하는 방법 중 하나이다. 카토그램이란 넓은 의미에서 모든 통계지도를 포함하지만, 좁은 의미에서 지도의 변형을 통해 통계데이터의 특징을 표현하는 시각화 방법을 의미한다. 이 연구에서는 후자의 의미에서 카토그램이란 용어를 사용하였으며, 우리나라를 대상으로 절대적 공간을 시간거리 접근성에 의한 공간 카토그램으로 재구성하여 지도화하고, 변화된 공간패턴을 분석하고자 하였다. 카토그램은 특정한 목적을 위해 기본도의 형상이나 지역간의 연속성을 강조시켜서 만든 변형된 지도의 일종으로 전통적인 지도와는 매우 다른 이미지를 주게 되지만, 표현하고자 하는 현상의 공간적 구조를 매우 효과적으로 나타낼 수 있다.

  • PDF