• Title/Summary/Keyword: 데이터 분포

Search Result 2,630, Processing Time 0.061 seconds

유사이항분포와 유사다항분포의 통계적 성질

  • An, Seong-Jin;Jeong, Yeon-Seon
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2004.04a
    • /
    • pp.111-119
    • /
    • 2004
  • 유사이항분포와 유사다항분포를 소개하고 베타분포와 Dirichlet 분포와의 관계를 밝힘으로써 심플렉스상에서 정의되는 성분데이터의 분석을 위한 새로운 방법을 제시하는 토대를 마련하고자 한다.

  • PDF

A study of the Health Data Application (보건 데이터 활용에 관한 연구(II))

  • Lim, Gi-Young;Cho, Eun-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1213-1216
    • /
    • 2001
  • 정규분포 등의 가정이 곤란한 복잡한 밀도 분포에 대해 데이터의 선험적인 지식 없이 해석하기 위해 다수의 항목이 되고 복잡한 밀도 분포를 가진 데이터를 보다 소수의 단순한 밀도 분포가 되는 그룹으로 분류하는 방법을 나타내었고 데이터를 그룹으로 분류하는데 표본에 의한 분류와 항목에 의한 분류를 할 수 있다. 선험지식을 사용하지 않고 데이터를 분류하면 Parzen의 창함수에 의한 추정과 대수우도에 의한 평가함수를 사용하는 것으로 복잡한 형상을 가진 밀도분포도 선험지식 없이 해석이 가능하다. 표본의 밀도 분포와 항목의 밀도분포를 나타내기 위하여 다수의 밀도 분포의 합과 곱의 형으로 전개하는 방법을 보였고 제안하는 방법을 의도적으로 생성한 데이터에 적용하여 원래의 밀도분포에 따라 분류결과를 얻을 수 있었다.

  • PDF

Use of Probability Distribution of Speed derived from Positioning Data (위치 데이터에서 유도된 속도의 확률분포)

  • On, Kyoung-Woon;Lee, Jun-Seok;Song, Ha Yoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1092-1095
    • /
    • 2013
  • 오늘날 모바일 스마트 기기의 발전은 위치기반의 새로운 기술을 이끌었다. 현재 위치 데이터를 사용하는 많은 응용프로그램들이 소개되었고, 또한 널리 사용되고 있다. 하지만 아직 이러한 위치 데이터들은 환경적인 요소 등으로 인해 오류가 많다. 우리는 이전 연구에서 위치 데이터의 오류 검출 및 교정 알고리즘을 제안하였다. 또 다른 연구에선 인간의 이동속도가 어떠한 확률분포모델을 따르는지 연구하였다. 그리하여 본 논문에서는 인간의 이동속도의 분포로서 적합하다고 판명된 확률분포모델 중 Lognormal 분포, Gamma 분포, Weibull분포를 선택하여 위치데이터 오류 검출 및 교정 알고리즘에 적용하기 위한 확률분포 계산을 제안한다. 그 중 일부는 계산의 복잡도를 낮추기 위해 확률분포표를 제공할 것이다.

Selectivity Estimation using Kernel Method (커널 방법을 이용한 선택도 추정에 관한 연구)

  • 김학철;신명진;이기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.188-190
    • /
    • 1998
  • 데이터 베이스 관리 시스템에서는 질의 결과의 크기(selectivity)를 미리 예측하는 것이 필요하다. 질의 결과의 크기는 데이터의 분포 상태에 의해서 결정된다. 이러한 데이터의 분포 상태를 정확하게 예측하는 것이 매우 중요하다. 대부분의 데이터 베이스 관리 시스템에서는 이를 위하여 주기적으로 저장하고 있는 레코드에 대해서 히스토그램을 만들고 이용한다. 이 방법은 히스토그램의 저장공간이 적게 필요로 하고 선택도를 추정하는데 있어서 선택도 추정시 부가적인 계산이 필요하지 않은 장점이 있지만, 일정한 크기의 버켓내에서는 데이터들이 균일하게 분포한다는 가정을 함으로써 선택도 추정에 있어서 에러율이 높았다. 이에 본 논문에서는 커널 방법을 사용하여 버켓 내 데이터의 분포에 대하여 추정 함으로써 이를 해결하는 방법을 제시하였다.

Estimation of Distribution Algorithm for Continuous Function Optimization (연속 변수 함수 최적화를 위한 탐색점 분포 학습 알고리즘)

  • 신수용;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.51-53
    • /
    • 2000
  • 기존의 진화 연산의 한계를 극복하기 위해서 탐색점 분포 학습 알고리즘(Estimation of Distribution Algorithm)이 부각되고 있다. 탐색점 분포 학습 알고리즘은 데이터의 분포를 파악하고, 파악된 분포를 이용해서 새로운 학습 데이터를 생성하는 일련의 과정을 통하여 최적화 문제를 해결하는 방법이다. 그런데, 기존의 탐색점 분포 학습 알고리즘들은 대부분 이진 벡터값을 가지는 최적화 문제들만을 대상으로 하고 있다. 본 논문에서는 비감독 확률 신경망 모델인 헬름홀츠 머신을 이용해서 데이터의 분포를 학습하여 연속 함수 최적화 문제를 해결하는 방법을 개발하였다. 테스트 함수들에 대해서 실수 표현형을 사용한 유전자 알고리즘과 결과를 비교하여 제안하는 방법의 우수성을 검증하였다.

  • PDF

An Analysis on the Data Distribution of Construction Equipment Operations - A Case on Muck Hauling System - (건설 장비 운영 데이터 분포 특성에 관한 연구 - 버력 처리 시스템을 중심으로 -)

  • Seo, Hyeong Beom;Jung, Won Ji;Kim, Kyoungmin;Kim, Kyong Ju
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.26 no.4D
    • /
    • pp.661-670
    • /
    • 2006
  • The utilization of simulation has been limited in planning construction process because it is difficult to collect data and build a model using simulation method. This study collects construction operation data and analyzes the characteristics of its distribution. Through the statistical analysis on the empirical data, this study identifies Beta distribution functions is one of the most proper in duplicating the characteristics of construction equipment operation data into a computer simulation. The information obtained in this study can support preparing input data for another simulation.

Distribution Characteristics of Data Retention Time Considering the Probability Distribution of Cell Parameters in DRAM

  • Lee, Gyeong-Ho;Lee, Gi-Yeong
    • Journal of the Institute of Electronics Engineers of Korea SD
    • /
    • v.39 no.4
    • /
    • pp.1-9
    • /
    • 2002
  • The distribution characteristics of data retention time for DRAM was studied in connection with the probability distribution of the cell parameters. Using the cell parameters and the transient characteristics of cell node voltage, data retention time was investigated. The activation energy for dielectric layer growth on cell capacitance, the recombination trap energy for leakage current in the junction depletion region, and the sensitivity characteristics of sense amplifier were used as the random variables to perform the Monte Carlo simulation, and the probability distributions of cell parameters and distribution characteristics of cumulative failure bit on data retention time in DRAM cells were calculated. we found that the sensitivity characteristics of sense amplifier strongly affected on the tail bit distribution of data retention time.

A study on the production process and wear life distributions of brake pads for passenger cars (승용차용 브레이크 패드의 공정분석 및 수명분포 탐색)

  • Woong, Hong-Yeon
    • Journal of the Korean Data and Information Science Society
    • /
    • v.20 no.3
    • /
    • pp.485-492
    • /
    • 2009
  • In this paper, we studied process capability analysis for brake-pad manufacturing system and considered Weibull, normal and logistic distributions for density estimation of wear life of brake pads for a passenger car with a real data. These three distributions are seem to work well. Estimated percentiles of brake pads can be used to evaluate the design criteria and customers' need for brake pads.

  • PDF

A Study on Calculating Over-sampling Ratio using Classification Complexity (분류 복잡도를 활용한 오버 샘플링 비율 산출 알고리즘 개발)

  • Lee, Do-Hyeon;Kim, Kyoungok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.591-594
    • /
    • 2020
  • 불균형 데이터는 범주에 따른 데이터의 분포가 불균형한 데이터를 의미한다. 이런 데이터를 활용해 기존 분류 알고리즘으로 분류기를 학습하면 성능이 저하되는 문제가 발생한다. 오버 샘플링은 이를 해결하기 위한 기법 중 하나로 수가 적은 범주[이하 소수 범주]에 속한 데이터 수를 임의로 증가시킨다. 기존 연구들에서는 수가 많은 범주[이하 다수 범주]에 속한 데이터 수와 동일한 크기만큼 증가시키는 경우가 많다. 이는 증가시키는 샘플의 수를 결정할 때 범주 간 데이터 수 비율만 고려한 것이다. 그런데 데이터가 동일한 수준의 불균형 정도를 갖더라도 범주별 데이터 분포에 따라서 분류 복잡도가 다르며, 경우에 따라 데이터 분포에서 존재하는 불균형 정도를 완전히 해소하지 않아도 된다. 이에 본 논문은 분류 복잡도를 활용해 데이터 셋 별 적정 오버 샘플링 비율을 산출하는 알고리즘을 제안한다.

The Extended Cube Tree for Distribution Area Query Processing in Spatial Data Warehouses (공간 데이터 웨어하우스에서 분포 지역 질의 처리를 위한 확장된 큐브 트리 기법)

  • 최준호;유병섭;박순영;배해영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.76-78
    • /
    • 2004
  • 최근 원격 탐사 시스템 등이 발전함에 따라 축적된 공간 데이터의 양이 증가했고 이를 공간 데이터 웨어하우스 분야에서 의사 결정에 활용하는 방안이 중요한 이슈가 되고 있다. 기존의 활용 방법은 주어진 영역을 기준으로 공간 범위-집계를 검색하는 형태였지만, 최근 특정 성향 분석을 위해 분포 질의를 요청하고 그 결과 지역에 대한 공간 분석을 통한 의사결정의 필요성이 대두되었다. 하지만 기존의 처리 방법으로 비공간 질의를 처리하기 위해서는 모든 데이터를 검색해야 하므로 분포 질의를 처리하기 위한 비용이 증가하게 된다. 본 논문에서는 분포 지역 질의 처리를 위한 확장된 큐브 트리 기법을 제안한다. 제안하는 기법은 분석하고자 하는 사실 테이블의 비공간 속성을 큐브 트리의 키로 사용하고, 이 속성과 관련된 공간 데이터의 포인터 집합을 관리한다. 본 논문의 제안 기법을 공간 데이터 웨어하우스에 적용함으로써 비공간 속성 질의를 통해 공간 객체를 결과로 요청하는 형태의 질의를 지원할 수 있게 되며 사실 컬럼을 계층화시킴으로서 사용자에게 좀 더 다각적인 분석을 지원할 수 있다.

  • PDF