• 제목/요약/키워드: data sampling

검색결과 5,056건 처리시간 0.037초

Comparison of Latin Hypercube Sampling and Simple Random Sampling Applied to Neural Network Modeling of HfO2 Thin Film Fabrication

  • Lee, Jung-Hwan;Ko, Young-Don;Yun, Il-Gu;Han, Kyong-Hee
    • Transactions on Electrical and Electronic Materials
    • /
    • 제7권4호
    • /
    • pp.210-214
    • /
    • 2006
  • In this paper, two sampling methods which are Latin hypercube sampling (LHS) and simple random sampling were. compared to improve the modeling speed of neural network model. Sampling method was used to generate initial weights and bias set. Electrical characteristic data for $HfO_2$ thin film was used as modeling data. 10 initial parameter sets which are initial weights and bias sets were generated using LHS and simple random sampling, respectively. Modeling was performed with generated initial parameters and measured epoch number. The other network parameters were fixed. The iterative 20 minimum epoch numbers for LHS and simple random sampling were analyzed by nonparametric method because of their nonnormality.

COMPARISON OF SUB-SAMPLING ALGORITHM FOR LRIT IMAGE GENERATION

  • Bae, Hee-Jin;Ahn, Sang-Il
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2007년도 Proceedings of ISRS 2007
    • /
    • pp.109-113
    • /
    • 2007
  • The COMS provides the LRIT/HRIT services to users. The COMS LRIT/HRIT broadcast service should satisfy the 15 minutes timeliness requirement. The requirement is important and critical enough to impact overall performance of the LHGS. HRIT image data is acquired from INRSM output receiving but LRIT image data is generated by sub-sampling HRIT image data in the LHGS. Specially, since LRIT is acquired from sub-sampled HRIT image data, LRIT processing spent more time. Besides, some of data loss for LRIT occurs since LRIT is compressed by lossy JPEG. Therefore, algorithm with the fastest processing speed and simplicity to be implemented should be selected to satisfy the requirement. Investigated sub-sampling algorithm for the LHGS were nearest neighbour algorithm, bilinear algorithm and bicubic algorithm. Nearest neighbour algorithm is selected for COMS LHGS considering the speed, simplicity and anti-aliasing corresponding to the guideline of user (KMA: Korea Meteorological Administration) to maintain the most cloud itself information in a view of meteorology. But the nearest neighbour algorithm is known as the worst performance. Therefore, it is studied in this paper that the selection of nearest neighbour algorithm for the LHGS is reasonable. First of all, characteristic of 3 sub-sampling algorithms is studied and compared. Then, several sub-sampling algorithm were applied to MTSAT-1R image data corresponding to COMS HRIT. Also, resized image was acquired from sub-sampled image with the identical sub-sampling algorithms applied to sub-sampling from HRIT to LRIT. And the difference between original image and resized image is compared. Besides, PSNR and MSE are calculated for each algorithm. This paper shows that it is appropriate to select nearest neighbour algorithm for COMS LHGS since sub-sampled image by nearest neighbour algorithm is little difference with that of other algorithms in quality performance from PSNR.

  • PDF

Support Vector Machine based on Stratified Sampling

  • Jun, Sung-Hae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제9권2호
    • /
    • pp.141-146
    • /
    • 2009
  • Support vector machine is a classification algorithm based on statistical learning theory. It has shown many results with good performances in the data mining fields. But there are some problems in the algorithm. One of the problems is its heavy computing cost. So we have been difficult to use the support vector machine in the dynamic and online systems. To overcome this problem we propose to use stratified sampling of statistical sampling theory. The usage of stratified sampling supports to reduce the size of training data. In our paper, though the size of data is small, the performance accuracy is maintained. We verify our improved performance by experimental results using data sets from UCI machine learning repository.

데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구 (A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data)

  • 이희재;이성임
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.357-371
    • /
    • 2014
  • 최근 들어 데이터 마이닝의 분류문제에 있어 목표변수의 불균형 문제가 많은 관심을 받고 있다. 이러한 문제를 해결하기 위해, 이전 연구들은 원 자료에 대하여 데이터 전처리 과정을 실시했는데, 전처리 과정에는 목표변수의 다수계급을 소수계급의 비율에 맞게 조정하는 과소표집법, 소수계급을 복원추출하여 다수계급의 비율에 맞게 조정하는 과대표집법, 소수계급에 K-최근접 이웃 방법 등을 활용하여 과대표집법을 적용 후 다수계급에는 과소표집법을 적용한 하이브리드 기법 등이 있다. 또한 앙상블 기법도 이러한 불균형 데이터의 분류 성능을 높일 수 있다고 알려져 있어, 본 논문에서는 데이터의 전처리 과정과 앙상블 기법을 함께 고려한 여러 모형들을 사용하여, 불균형 자료에 대한 이들모형의 분류성능을 비교평가한다.

층화추출법에 의한 해양기상환경의 표본추출 타당성 연구 (Feasibility Study on Sampling Ocean Meteorological Data using Stratified Method)

  • 한송이;조용진
    • 한국해양공학회지
    • /
    • 제28권3호
    • /
    • pp.254-259
    • /
    • 2014
  • The infrared signature of a ship is largely influenced by the ocean environment of the operating area, which has been known to cause large changes in the signature. As a result, the weather condition has to be clearly set for an analysis of the infrared signatures. It is necessary to analyze meteorological data for all the oceans where the ship is supposed to be operated. This is impossibly costly and time consuming because of the huge size of the data. Therefore, the creation of a standard environmental variable for an infrared signature research is necessary. In this study, we compared and analyzed sampling methods to represent ocean data close to the Korean peninsula. In order to perform this research, we collected ocean meteorological records from KMA (Korea Meteorological Administration), and sampled these in numerous ways considering five variables that are known to affect the infrared signature. Specifically, a simple random sampling method for all the data and 1-D, 2-D, and 3-D stratified sampling methods were compared and analyzed by considering the mean square errors for each method.

Subset 샘플링 검증 기법을 활용한 MSCRED 모델 기반 발전소 진동 데이터의 이상 진단 (Anomaly Detection In Real Power Plant Vibration Data by MSCRED Base Model Improved By Subset Sampling Validation)

  • 홍수웅;권장우
    • 융합정보논문지
    • /
    • 제12권1호
    • /
    • pp.31-38
    • /
    • 2022
  • 본 논문은 전문가 독립적 비지도 신경망 학습 기반 다변량 시계열 데이터 분석 모델인 MSCRED(Multi-Scale Convolutional Recurrent Encoder-Decoder)의 실제 현장에서의 적용과 Auto-encoder 기반인 MSCRED 모델의 한계인, 학습 데이터가 오염되지 않아야 된다는 점을 극복하기 위한 학습 데이터 샘플링 기법인 Subset Sampling Validation을 제시한다. 라벨 분류가 되어있는 발전소 장비의 진동 데이터를 이용하여 1) 학습 데이터에 비정상 데이터가 섞여 있는 상황을 재현하고, 이를 학습한 경우 2) 1과 같은 상황에서 Subset Sampling Validation 기법을 통해 학습 데이터에서 비정상 데이터를 제거한 경우의 Anomaly Score를 비교하여 MSCRED와 Subset Sampling Validation 기법을 유효성을 평가한다. 이를 통해 본 논문은 전문가 독립적이며 오류 데이터에 강한 이상 진단 프레임워크를 제시해, 다양한 다변량 시계열 데이터 분야에서의 간결하고 정확한 해결 방법을 제시한다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

선형 측정 기법에 의해 발생하는 불연속면 방향성의 왜곡 : 서부 North Carolina의 암반 사면에서의 예 (Sampling Bias of Discontinuity Orientation Measurements for Rock Slope Design in Linear Sampling Technique : A Case Study of Rock Slopes in Western North Carolina)

  • 박혁진
    • 한국지반공학회논문집
    • /
    • 제16권1호
    • /
    • pp.145-155
    • /
    • 2000
  • 불연속면의 방향성은 암반의 과도변형이나 안정성에 영향을 미치는 특성 때문에 암반사면의 안정성 평가에 있어서 매우 중요한 역할을 한다. 불연속면의 방향측정에는 시추공(borehole)을 이용한 측정법이나 노두에서의 scanline을 이용하는 측정법과 같은 선형 측정법이 보편적으로 이용되나 이러한 측정 기법을 이용하여 획득한 자료들은 측선의 방향에 따라 쉽게 왜곡된다. 이러한 왜곡을 수정하기 위한 가중치 (weighting factor)가 적용되어도 특정 방향의 측선을 따라 자료를 획득할 경우 그 왜곡은 쉽게 보정되어지지 않는다. 즉, 불연속면의 방향자료 수집을 위해 이용된 선형 측선이 불연속면의 방향과 평행할 경우 대부분의 측선과 평행한 불연속면들은 조사 결과에 포함되지 않으며 이러한 현상은 불연속면들의 방향성 파악에 심각한 오류를 발생시킬 수 있다. 본 연구에서는 수직 측선 (borehole)에 의해 수집되어진 방향자료들과 수평 측선 (scanline)에 의해 수집되어진 방향자료들을 비교하였다. 서로 다른 두 방법에 의해 수집되어진 방향자료들은 큰 차이를 보이며, 이로 인해 불연속면들의 대표적인 방향성 결정에 장애가 되어진다. 불연속면의 경사각 분포와 수평과 수직 측선에 의해 수집되어진 자료들의 비교를 위해 등면적 극 평사투영망(polar stereo net)을 이용하였다.

  • PDF

Modified n-Level Skip-Lot Sampling Inspection Plans

  • Cho, Gyo-Young
    • Journal of the Korean Data and Information Science Society
    • /
    • 제19권3호
    • /
    • pp.811-818
    • /
    • 2008
  • This paper is the generalization of the modified two-level skip-lot sampling plan(MTSkSP2) to n-level. The general formulas of the operating characteristic(OC) function, average sample number(ASN) and average outgoing quality(AOQ) for the plan are derived using Markov chain properties.

  • PDF

공간·지리적 자료의 공간자기상관성을 최소화하는 공간샘플링 기법에 관한 연구 (A study on the Spatial Sampling Method to Minimize Spatial Autocorrelation of Spatial and Geographical Data)

  • 이연수;이만출;나경범;강준모
    • 대한토목학회논문집
    • /
    • 제34권4호
    • /
    • pp.1317-1325
    • /
    • 2014
  • 본 연구의 목적은 공간적 또는 지리적 데이터인 도시구조특성 요소의 공간자기상관성을 최소화 시킬 수 있는 공간샘플링 기법에 대해 제시하고자 한다. 연구의 주요결과와 시사점은 다음과 같다. 첫째, 공간적 또는 지리적 자료가 지니고 있는 공간자기상관성을 제거하기 위해서는 적절한 공간샘플링 방법을 사용하여야 한다는 점이다. 서울시 전체 행정구역별 대중교통 분담률에 관한 공간자기상관성을 측정한 결과 간 의존성이 상당히 높은 것으로 분석되었다. 하지만 적정한 거리(400m)이상을 이격 시켜 공간샘플링을 실시한 후 공간자기상관성이 제거됨을 확인하였다. 공간샘플링을 실시하지 않으면, 공간적 자료의 왜곡으로 인한 잘못된 결과가 도출되며, 이를 해결하기 위해서는 공간샘플링을 하여 표본을 추출하는 과정이 필수불가결 하다는 점이다. 둘째, 공간샘플링 전후의 대중교통 분담률에 영향을 미치는 도시공간구조 특성 요인이 달라진다는 점이다. 그러나 이는 공간적 자료에 존재하는 공간자기상관성을 통제하지 못한 왜곡된 결과이다.