• 제목/요약/키워드: data sampling

검색결과 5,029건 처리시간 0.03초

소량자료를 위한 베이지안 다중 변환점 모형 (Bayesian Multiple Change-Point for Small Data)

  • 전수영
    • Communications for Statistical Applications and Methods
    • /
    • 제19권2호
    • /
    • pp.237-246
    • /
    • 2012
  • 다중 변환점(multiple change-point) 추론에 있어 소량자료에 관한 연구는 많지 않다. 본 논문에서는 소량 자료의 다중 변환점 추정을 위해 베이지안 비중심(noncentral) t 분포 변환점 모형을 제안하고, 제안된 모형 추론을 위해 메트로폴리스-해스팅스를 포함한 깁스 샘플링(Metropolis-Hastings-Within-Gibbs sampling) 알고리즘을 이용하였다. 모의실험 및 태풍 발생 수의 실증 분석결과는 제안된 모형과 알고리즘의 우수성을 보여 준다.

압축센싱과 통계학적 기법을 적용한 회전체 시스템의 상태진단 (Application of Compressive Sensing and Statistical Analysis to Condition Monitoring of Rotating Machine)

  • 이명준;전준영;박규해;강토;한순우
    • 한국소음진동공학회논문집
    • /
    • 제26권6_spc호
    • /
    • pp.651-659
    • /
    • 2016
  • Condition monitoring (CM) encounters a large data problem due to sensors that measure vibration data with a continuous, and sometimes, high sampling rate. In this study, compressive sensing approaches for condition monitoring are proposed to demonstrate the efficiency in handling a large amount of data and to improve the damage detection capability of the current condition monitoring process. Compressive sensing is a novel sensing/sampling paradigm that takes much fewer samples compared to traditional sampling methods. For the experiments a built-in rotating system was used and all data were compressively sampled to obtain compressed data. Optimal signal features were then selected without the reconstruction process and were used to detect and classify damage. The experimental results show that the proposed method could improve the data processing speed and the accuracy of condition monitoring of rotating systems.

강우시 채수빈도가 논 오염부하량 산정에 미치는 영향 (Effect of Sampling Frequency During Storm Period on Estimation of Pollutant Load from Paddy Field)

  • 한국헌;김진호;이종식;이정택;조재영;윤광식
    • 한국환경농학회지
    • /
    • 제24권1호
    • /
    • pp.17-23
    • /
    • 2005
  • 한정된 수질자료를 이용 오염부하 산정시 집중적으로 많은 샘플을 채취한 경우에 비해 어느 정도 차이를 갖는지를 규명하는 것은 모니터링에 따른 오염부하량 산정결과의 신뢰범위 파악뿐만 아니라 경제적인 수질 샘플 채수빈도 수립에 곡 필요할 것으로 사료된다. 그 결과를 요약하면 다음과 같다. 논에서의 강-은유출시 채수 빈도가 오염부하 산정에 미치는 영향을 파악하기 위해 9개의 강우사상에 대해 2시간 간격으로 연속 수질샘플을 실시하여 분석한 결과 전체적으로 강우-유출과정 중 T-N, T-P, SS 농도는 시간별로 증 감변동을 하였으나 유량과의 상관성은 나타나지 않았다. 수질샘플 횟수에 의한 영향은 강우-유출과정 중 5회 정도 샘플을 실시하면 많은 수의 샘플을 채수한 경우에 비해 T-N ${\pm}15.2%$, T-P는 $-20.0{\sim}26.2%$, SS는 $-28.6{\sim}35.7%$ 범위안에서 오염부하를 추정할 수 있는 것으로 나타났으며, 차이범위가 ${\pm}10%$ 내에 들어가기 위한 샘플수는 일주기 조사시 T-N, T-P의 경우는 6회, SS의 경우는 단기유출시는 4회 정도 실시하면 되고, 장기 유출시에는 11회 정도 실시하면 되는 것으로 조사되었다. 유량-유하부하량 관계식에서 ${\pm}10%$내의 차이를 보일 샘플횟수는 T-N의 경우는 6회 이상, T-P와 SS는 9회 이상 정도 실시하면 되는 것으로 조사되었다.

타겟 샘플링 검사를 통한 출하품질 향상에 관한 사례 연구 (A Case Study on the Target Sampling Inspection for Improving Outgoing Quality)

  • 김준세;이창기;김경남;김창우;송혜미;안성수;오재원;조현상;한상섭
    • 품질경영학회지
    • /
    • 제49권3호
    • /
    • pp.421-431
    • /
    • 2021
  • Purpose: For improving outgoing quality, this study presents a novel sampling framework based on predictive analytics. Methods: The proposed framework is composed of three steps. The first step is the variable selection. The knowledge-based and data-driven approaches are employed to select important variables. The second step is the model learning. In this step, we consider the supervised classification methods, the anomaly detection methods, and the rule-based methods. The applying model is the third step. This step includes the all processes to be enabled on real-time prediction. Each prediction model classifies a product as a target sample or random sample. Thereafter intensive quality inspections are executed on the specified target samples. Results: The inspection data of three Samsung products (mobile, TV, refrigerator) are used to check functional defects in the product by utilizing the proposed method. The results demonstrate that using target sampling is more effective and efficient than random sampling. Conclusion: The results of this paper show that the proposed method can efficiently detect products that have the possibilities of user's defect in the lot. Additionally our study can guide practitioners on how to easily detect defective products using stratified sampling

다단추출 표본설계의 층효율성 연구 (Measuring stratification effects for multistage sampling)

  • 김태훈;이기재;박인호
    • 응용통계연구
    • /
    • 제36권4호
    • /
    • pp.337-347
    • /
    • 2023
  • 표본설계는 개체 혹은 집락을 층으로 나눈후 층별로 독립적으로 표본추출하는 층화추출을 종종 채택한다. 층화 전략은 크게 층구분과 표본할당으로 구성되는데 이는 조사연구에서 반복적으로 고려되는 중요한 주제이다. 조사연구에서는 층화다단추출 방식의 복합표본설계를 채택하고 있지만 층효과 혹은 층효율성과 관련하여서 표본론 교재들에서 주로 단순추출에 대해서 다루어지고 있다. 본 연구는 이단추출에 대한 기존 층효율성 측도를 살펴보며 설계효과모형을 적용한 추가적인 층효율성 측도들을 제안하였다. 제안된 측도들을 활용하여 제4기 국민환경기초조사의 고등학교 대상 표본설계의 층화전략에 대해 평가하였다.

데이터 샘플링을 통한 각 기반 공간 분할 병렬 스카이라인 질의처리 기법 (Data Sampling-based Angular Space Partitioning for Parallel Skyline Query Processing)

  • 정재화
    • 컴퓨터교육학회논문지
    • /
    • 제18권5호
    • /
    • pp.63-70
    • /
    • 2015
  • 상호 연관되는 복잡한 데이터 조건이 존재하는 환경에서 스카이라인 질의는 의사결정 시스템 등 폭넓은 애플리케이션 활용 가능성으로 다양한 분야에서 연구되어 왔다. 중앙집중식 환경에서 스카이라인 질의처리 기법이 초기에 제안되었으며 최근 대량의 다차원 데이터에 대해 데이터 공간을 분할하여 맵/리듀스 플랫폼 상에서 병렬적으로 처리하는 기법이 제안되었다. 그러나 현재까지의 기법이 비균등적 실행과 높은 중복 작업으로 효율성이 저하된다는 문제점을 배경으로 본 논문에서는 랜덤 샘플링을 통해 데이터 분포를 추정하여 비균등 분할 문제를 해결하고 각 기반의 데이터 공간을 분할하여 스카이라인 처리 과정에서 중복 작업을 최소화한 새로운 기법 MR-DEAP를 제안한다. 마지막으로 다양한 환경에서의 실험결과 제안된 기법이 다른 각 기반 분할과 그리드 분할 기법보다 우수한 것을 입증하였다.

3차원 샘플링에 기만을 둔 볼륨랜더링 프로그램의 설계 및 구현 (A Design and Implementation of Volume Rendering Program based on 3D Sampling)

  • 박재영;이병일;최흥국
    • 한국멀티미디어학회논문지
    • /
    • 제5권5호
    • /
    • pp.494-504
    • /
    • 2002
  • 볼륨랜더링은 연속적인 2차원 영상들을 기반으로 하여 3차원 데이터로 만드는 것이다. 오브젝트의 내부영역까지도 가시화 할 수 있는 장점 때문에, 최근 MRI, PET, SPECT같은 의료 영상의 경우 볼릅랜더링을 이용해서 진단에 많이 사용하고 있다. 본 논문에서는 볼륨랜더링을 쉽게 할 수 있도록 2차원 데이터를 바탕으로 볼륨데이터를 만드는 방법을 제시하고, 볼륨랜더링 기법을 이용해 의료 영상에 적용시켜 보았다. 또한 2차원 데이터를 추출하는 샘플링 단계에서 해상도를 향상시키기 위해 linear interpolation과 cubic interpolation을 통해 볼륨랜더링된 영상의 공간 해상도를 조절하도록 설계 및 구현하여 보았으며, 변형함수(transfer function)를 이용하여 각각의 결과를 비교하였다 2차원 영상의 샘플링에 사용되는 interpolation 방법을 3차원 영상에 적용하여 구현하였다. 의료영상의 볼륨랜더링 기법은 3차원 입체 데이터로 구현되는 것이므로 영상 분석을 통한 진단에 크게 기여 할 것으로 기대된다.

  • PDF

머신러닝을 위한 불균형 데이터 처리 방법 : 샘플링을 위주로 (Handling Method of Imbalance Data for Machine Learning : Focused on Sampling)

  • 이규남;임종태;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제19권11호
    • /
    • pp.567-577
    • /
    • 2019
  • 최근 학계, 산업계 등에서 접하는 기존의 문제를 머신러닝을 통해 해결하려는 시도가 증가하고 있다. 이에 따라 이탈, 사기탐지, 장애탐지 등 일반적이지 않은 상황을 머신러닝으로 해결하기 위한 다양한 연구가 이어지고 있다. 대부분의 일반적이지 않은 환경에서는 데이터가 불균형하게 분포하며, 이러한 불균형한 데이터는 머신러닝의 수행과정에서 오류를 야기하므로 이를 해결하기 위한 불균형 데이터 처리 기법이 필요하다. 본 논문에서는 머신러닝을 위한 불균형 데이터 처리 방법을 제안한다. 제안하는 방법은 샘플링 방법을 중심으로 다수 클래스(Major Class)의 모집단 분포를 효율적으로 추출하도록 검증하여 머신 러닝을 위한 불균형 데이터 문제를 해결한다. 본 논문에서는 성능평가를 통해 제안하는 기법이 기존 기법에 비해 성능이 우수함을 보인다.

불균형 데이터 집합에서의 의사결정나무 추론: 종합 병원의 건강 보험료 청구 심사 사례 (Decision Tree Induction with Imbalanced Data Set: A Case of Health Insurance Bill Audit in a General Hospital)

  • 허준;김종우
    • 경영정보학연구
    • /
    • 제9권1호
    • /
    • pp.45-65
    • /
    • 2007
  • 다른 산업과 달리 병원/의료 산업에서는 건강 보험료 심사 평가라는 독특한 검증 과정이 필수적으로 있게 된다. 건강 보험료 심사 평가는 병원의 수익 문제 뿐 아니라 적정한 진료행위를 하는 병원이라는 이미지와도 맞물려 매우 중요한 분야이며, 특히 대형 종합병원일수록 이 부분에 많은 심사관련 인력들을 투입하여, 병원의 수익과 명예를 위해서 업무를 수행하고 있다. 본 논문은 이러한 건강보험료 청구 심사 과정에서, 사전에 수많은 진료 청구 건 중 심사 평가에서 삭감이 될 수 있는 진료 청구 건을 데이터 마이닝을 통해서 발견하여, 사전의 대비를 철저히 하고자 하는 한 국내 대형 종합병원의 사례를 소개하고자 한다. 데이터 마이닝을 적용함에 있어, 주요한 문제점 중 하나는 바로 지도학습 기법을 적용하기에 곤란한 데이터 불균형 문제가 발생하는 것이다. 이런 불균형 문제를 해소하고, 비교 조건 중에 가장 효율적인 삭감 예상 진료 건 탐지 모델을 만들어 내기 위하여, 데이터 불균형 문제의 기본 해법인 Sampling과 오분류 비용의 다양한 혼합적인 적용을 통하여, 적합한 조건을 가지는 의사결정 나무 모델을 도출하였다.

A Study on Modeling of Search Space with GA Sampling

  • Banno, Yoshifumi;Ohsaki, Miho;Yoshikawa, Tomohiro;Shinogi, Tsuyoshi;Tsuruoka, Shinji
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.86-89
    • /
    • 2003
  • To model a numerical problem space under the limitation of available data, we need to extract sparse but key points from the space and to efficiently approximate the space with them. This study proposes a sampling method based on the search process of genetic algorithm and a space modeling method based on least-squares approximation using the summation of Gaussian functions. We conducted simulations to evaluate them for several kinds of problem spaces: DeJong's, Schaffer's, and our original one. We then compared the performance between our sampling method and sampling at regular intervals and that between our modeling method and modeling using a polynomial. The results showed that the error between a problem space and its model was the smallest for the combination of our sampling and modeling methods for many problem spaces when the number of samples was considerably small.

  • PDF