• 제목/요약/키워드: 통계데이터

검색결과 3,205건 처리시간 0.032초

불완비 데이터에서 분류 나무의 구축

  • 우주성;김규성
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2001년도 추계학술발표회 논문집
    • /
    • pp.105-108
    • /
    • 2001
  • 본 논문에서는 결측치가 있는 불완비 데이터에서 분류나루를 구축하는 방법을 고찰하였다. 기존의 결측치 처리 방법인 대리 분리 방법의 대안으로 대체 방법으로 결측치를 처리한 후 분류나무를 구축하는 방법을 제안하였다.

  • PDF

구글 지도에 통계정보를 표현하기 위한 R 함수 개발 (Development of a R function for visualizing statistical information on Google static maps)

  • 한경수;박세진;안정용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권5호
    • /
    • pp.971-981
    • /
    • 2012
  • 구글 지도는 지리 정보를 갖는 데이터에 대한 통계정보를 제공하기 위한 보편화된 수단의 하나로 자리매김하고 있다. 본 연구에서는 R에서 구글 지도를 활용하는 방법에 대해 소개하고, 구글 지도상에 다양한 통계그래프를 표현하기 위한 R 함수를 개발한다. 개발된 함수를 통하여 막대그래프, 원형그래프, 사각형그래프 등과 같은 다양한 통계그래프를 지도상에 표현할 수 있다.

주성분 분석을 이용한 빅데이터 분석 (Big Data Analysis Using Principal Component Analysis)

  • 이승주
    • 한국지능시스템학회논문지
    • /
    • 제25권6호
    • /
    • pp.592-599
    • /
    • 2015
  • 빅 데이터 환경에서 빅데이터를 분석하기 위한 새로운 방법의 필요성이 대두되고 있다. 데이터의 크기, 다양성, 그리고 적재 속도 등의 빅데이터 특성으로 인해 모집단의 추론에서 전체 데이터의 분석이 가능해졌기 때문이다. 그러나 전통적인 통계분석 방법은 모집단으로부터 추출된 확률표본에 초점이 맞추어져 있다. 따라서 기존의 통계적 접근방법은 빅데이터 분석에 적합하지 않은 경우가 발생한다. 이와 같은 문제점을 해결하기 위하여 본 논문에서는 빅데이터분석을 위한 새로운 접근방법에 대하여 제안하였다. 특히 대표적인 다변량 통계분석 기법인 주성분 분석을 이용하여 효율적인 빅데이터분석을 위한 방법론을 연구하였다. 제안방법의 성능평가를 위하여 통계적 모의실험을 실시하였다.

공식발표 통계지표의 적시성 확보를 위한 대안 데이터 파이프라인 구축제안 (Proposal an Alternative Data Pipeline to Secure the Timeliness for Official Statistical Indicators)

  • 조용복;김도완
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.89-108
    • /
    • 2023
  • 본 연구는 공식발표 통계지표의 적시성 확보를 위해 기존 Nowcasting 방법론을 살펴보고 실시간 경기 현황 분석이 가능한 Real-time nowcasting 모형을 운용하기 위한 대안 데이터와 그 수집 체계를 점검한다. 공공영역과 민간영역에서 경기지표를 예측할 수 있는 고빈도 실시간 데이터를 탐색하고, 나아가 데이터의 수집, 가공, 모형화를 위한 클라우드 기반의 구축과정을 제안한다. 더불어 Real-time nowcasting 모형 추정 및 데이터 관리에 있어 고려해야 할 요소를 확인함으로써 적시성 및 안정성을 갖춘 공식 통계지표의 예측 프로세스를 제시한다.

Categorical Data Analysis by Using Spatial Scan Statistics and Echelon Analysis

  • 문승호;신재경
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2004년도 춘계학술대회
    • /
    • pp.183-194
    • /
    • 2004
  • 본 연구에서는 공간 검색 통계량(spatial scan statistics)과 에셜론 해석법을 이용한 범주형 자료분석을 다룬다. 이를 위해 우선, 에셜론 덴드로그램을 이용하여 주어진 분활표의 계층적 구조(hierarchical structure)를 결정하고서 이로부터 핫스팟(hotspot)의 후보를 검출한다. 다음으로 우도비(likelihood ratio)를 기초로 유의하게 높거나 낮게 나타나는 지역에 대한 공간 검색 통계량을 산출한다. 마지막으로, 이 통계량을 바탕으로 핫스팟을 검출한다.

  • PDF

공간 격자데이터 분석에 대한 우위성 비교 연구 - 이상치가 존재하는 경우 - (A Comparative Study on Spatial Lattice Data Analysis - A Case Where Outlier Exists -)

  • 김수정;최승배;강창완;조장식
    • Communications for Statistical Applications and Methods
    • /
    • 제17권2호
    • /
    • pp.193-204
    • /
    • 2010
  • 최근들어 공간적으로 분석을 필요로 하는 여러 분야에서의 연구자들은 공간통계학에 많은 관심을 가지게 되었다. 그리고 통계학 분야 역시 공간상에서 얻어진 데이터에 공간자기상관이 존재할 경우 공간적으로 분석해야 한다는 주장과 함께 많은 연구가 진행되고 있다. 공간통계학에서 다루고 있는 데이터 중에서 '공간 격자데이터 분석'은 (1) 공간이웃의 정의, (2) 공간이웃 가중치의 정의, (3) 공간모형의 적용 등의 단계를 거쳐서 행해진다. 본 연구에서는 이상치가 존재하는 공간 격자데이터를 분석할 경우 절사평균제곱오차를 이용하여 분석함으로써 예측적인 측면에서 공간통계학적 방법이 일반통계학적 방법보다 더 우수함을 보인다. 본 연구에 대한 내용의 타당성을 보이기 위해서 시뮬레이션을 통하여 공간통계학적인 방법과 일반통계학적인 방법을 비교하였다. 그리고 부산진구의 실제 범죄데이터를 이용한 적용사례를 통하여 절사평균제곱오차를 사용한 공간통계학적 방법의 유용성을 알아보았다.

데이터 분포 통계를 이용한 CSV 형식의 공공데이터 도메인 판별 모델에 관한 연구 (A Study on Domain Discrimination Model for CSV Format Public Data Using Data Distribution Statistics)

  • 정하나;김재웅;이윤열;채의근;정영석
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.79-80
    • /
    • 2023
  • 정부는 공공데이터의 품질 관리를 위하여 공공데이터 품질관리 수준평가를 진행하여 공공데이터 품질을 관리하고 있다. 파일 형식의 공공데이터를 진단 시 품질진단 담당자가 대량의 파일데이터를 필드명과 필드 내 데이터에 의존하여 수작업으로 도메인을 판단하여 진단한다. 때문에 품질진단의 정확성을 신뢰하기 어렵고 진단에 많은 시간이 소요된다. 본 논문은 파일형식의 공공데이터 품질진단의 정확성을 확보하고 진단 소요시간을 단축하기 위해 데이터 분포 통계를 이용한 CSV 형식의 공공데이터 도메인 판별 모델을 제안하였다. 제안된 모델을 적용하면 공공데이터 품질의 정확성을 향상하고 진단 소비 시간을 단축시킬 것으로 기대된다.

  • PDF

공간 데이터 분포와 질의 크기를 고려한 선택률 추정 (Selectivity Estimation for Spacial Data Distribution and Query Size)

  • 문현수;이미란;황환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.77-79
    • /
    • 2000
  • 공간 데이터베이스에서의 질의에 대한 선택률 추정에 대해서는 많은 연구가 있었지만 공간 데이터베이스에서의 공간 질의에 대한 선택률 추정이 매우 중요함에도 불구하고 이에 대한 연구는 아직 미흡한 상태이다. 이 논문에서는 공간 검색 조건의 정확한 선택률 추정을 위해 공간 데이터 분포를 통계 데이터로 저장하고 이를 이용하여 선택률을 추정하는 방법을 제안하고 구현하였다. 공간 질의에 대한 선택률 추정을 위해서 기존의 통계 데이터를 작성하는 방법으로 균등 분할 방법과 비균등 분할 방법이 사용되고 있지만 보다 정확한 선택률을 추정하기 위해서 본 논문에서는 새로운 통계 데이터 작성 방법인 크기별 분할 방법을 제안하였다. 각 방법의 성능은 다양한 파라미터에 대한 선택률 오차를 산출하여 평가하였다.

  • PDF

R기반의 data분석을 통한 사용자 편의성 증진을 위한 웹사이트 설계 및 구현 (Design and implement Web sites for greater user convenience through R based data analysis)

  • 윤경섭;김연홍
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.307-310
    • /
    • 2018
  • 우리 사회는 데이터를 기반으로 진화 하고 있어 데이터분석을 할 수 있는 통계패키지가 오늘날 상용화 되고 있다. 상용화되고 있는 통계패키지를 이용해 본 논문에서는 통계패키지 R을 Model1구조가 아닌 Model2 MVC구조로 적용하여, 웹사이트의 유지보수와 코드 효율성을 증진시키고자 한다. 이를 이용하여 웹 스크래핑을 통한 데이터를 수집 후 데이터 분석을 토대로 사용자가 분석내용을 쉽게 이해할 수 있도록, 편의성을 증진시키고 검색 할 수 있는 웹사이트를 설계 및 구현 하고자 한다.

  • PDF

데이터 수집 자동화 기반 자연재해 통계 사이트 개발 (Data Collection Automation based on Natural Disaster Statistics Site Development)

  • 최효현;김동건
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.283-284
    • /
    • 2023
  • 본 논문에서는 데이터 수집 자동화를 기반으로 한 자연재해 피해 통계 사이트를 구현한다. 자연재해 피해액 데이터는 국민 재난 안전 포털 사이트[1]에 자연재난 상황 통계 데이터를 사용하였다. Python 라이브러리인 Selenium을 활용하여 웹 브라우저를 제어해 자연재해 데이터를 쿼리문으로 변환 후 데이터베이스에 저장하는 자동화 프로그램을 사용한다. 또한 nncron을 활용해 6개월마다 한 번씩 자동으로 프로그램이 실행되도록 한다. 자연재해 종류에 따른 연도별, 시도 구역 자연재해 피해액을 웹사이트로 시각화하여 보여준다. 웹사이트 구현은 React.js와 Node.js를 활용하여 구현하였다.

  • PDF