• Title/Summary/Keyword: 데이터 샘플링

Search Result 510, Processing Time 0.027 seconds

Design and Implementation of Multistage Database for Shipboard by using Data Sampling (데이터 샘플링을 이용한 선박용 다단 데이터베이스 설계 및 구현)

  • Seo, Jeong-Min;Hwang, Hun-Gyu;Lee, Seong-Dae;Lee, Jang-Se;Jang, Kil-Woong;Park, Hyu-Chan
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.15 no.5
    • /
    • pp.1111-1118
    • /
    • 2011
  • Several data from equipments on shipboard have been used for the safe navigation of ships. Due to the varieties of data, however, there may be difficulties to manage those data separately. Therefore, it can be effective to develop database for the integrated management of ship data. However, the database may become full soon because huge amount of data are saved continuously. To cope with this problem, this paper proposes multistage database which can always keep the database under full by means of sampling mechanism. To verify the functionality of the methodology, a prototype system has been implemented and tested.

Development of fecal coliform prediction model using random forest method (랜덤포레스트기법을 이용한 분변성대장균 예측모델 개발)

  • Seo, Il Won;Choi, Soo Yeon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.124-124
    • /
    • 2016
  • 하천에서의 분변성대장균은 분변성 오염 정도를 나타내는 지표로서, 이 농도가 높을수록 오염된 하천수와의 접촉을 통한 호흡기, 소화기 및 피부 관련 질병의 발발 확률이 높다고 알려져 있다. 따라서 하천에서의 수영, 수상스키 등과 같은 입수형 친수활동을 할 때, 분변성대장균 농도가 농도 기준 이하인지를 확인하고 이러한 정보를 친수활동에 이용할 필요가 있다. 그러나 분변성대장균의 경우, 현재 자동수질측정망에서 측정되고 있는 다른 수질인자들과는 달리 실시간 측정이 불가능하다고 알려져 있다. 분변성대장균을 측정하는데 있어 최소 18시간 이상이 필요하며, 이러한 분변성대장균 측정 방식은 하천 이용자들이 안전한 친수활동을 영위하는데 있어 적절한 수질 정보를 제공하지 못한다. 그러므로 분변성대장균을 예측하는 모델을 개발하고, 이를 이용하여 실시간 분변성대장균 정보를 생성하여 하천 이용자들에게 제공할 필요가 있다. 본 연구에서는 친수활동이 활발하게 이루어지는 곳 중 하나인 북한강의 대성리 지점에 대해 데이터 기반 모델을 이용하여 분변성대장균을 예측하였다. 데이터 기반 모델은 물리 기반 모델에서 필요한 지형데이터나 비점오염원 등의 초기 오염물의 양에 대한 데이터를 필요로 하지 않고, 대신 독립변수로 사용되는 기상 및 수질데이터를 필요로 한다. 이러한 기상 및 수질데이터는 기존 기상관측소, 수질관측소에서 매일 자동으로 측정되기 때문에 데이터 기반 모델은 물리 기반 모델에 비해 입력데이터를 구성하기가 쉽다는 장점을 지닌다. 이러한 데이터 기반 모델 중 분류 모델은 회귀 모델과 달리 분변성대장균 농도가 일정 수질기준 이상을 넘는지를 바로 예측할 수 있다. 본 연구에서는 분류 모델 중 높은 예측력을 가진다고 알려진 랜덤포레스트(random forest) 기법을 이용하여 분변성대장균 예측 모델을 개발하였다. 분변성대장균 예측 모델은 주어진 기상 및 수질 조건에 대해 분변성대장균이 200 CFU/100ml가 넘는지를 예측하였다. 예측된 분변성대장균이 기준을 넘는 경우를 2등급, 넘지 않는 경우를 1등급으로 명명하였다. 모델을 개발하기 위하여 북한강 대성리 인근 측정소에서 2010년부터 2015년까지 측정된 기상 및 수질데이터를 수집하였다. 수집한 데이터를 훈련 및 검증데이터로 샘플링하였으며, 이 때 샘플링한 데이터가 기존 데이터가 가지고 있던 등급별 비율을 유지하기 위하여 층화샘플링을 하였다. 본 연구에서는 샘플링에 의한 불확실성을 줄이기 위하여 랜덤하게 50번 샘플링된 각각의 훈련데이터에 대해 모델을 개발하였다. 50개의 모델의 검증 결과를 종합한 결과, 전체 예측률은 0.139로 나타났다.

  • PDF

GPU based Maximum Intensity Projection using Clipping Plane Re-rendering Method (절단면 재렌더링 기법을 이용한 GPU 기반 MIP 볼륨 렌더링)

  • Hong, In-Sil;Kye, Hee-Won;Shin, Yeong-Gil
    • Journal of Korea Multimedia Society
    • /
    • v.10 no.3
    • /
    • pp.316-324
    • /
    • 2007
  • Maximum Intensity Projection (MIP) identifies patients' anatomical structures from MR or CT data sets. Recently, it becomes possible to generate MIP images with interactive speed by exploiting Graphics Processing Unit (GPU) even in large volume data sets. Generally, volume boundary plane is obliquely crossed with view-aligned texture plane in hardware-texture based volume rendering. Since the ray sampling distance is not increased at volume boundary in volume rendering, the aliasing problem occurs due to data loss. In this paper, we propose an efficient method to overcome this problem by Re-rendering volume boundary planes. Our method improves image quality to make dense distances between samples near volume boundary which is a high frequency area. Since it is only 6 clipping planes are additionally needed for Re-rendering, high quality rendering can be performed without sacrificing computational efficiency. Furthermore, our method couldbe applied to Minimum Intensity Projection (MinIP) volume rendering.

  • PDF

MF sampler: Sampling method for improving the performance of a video based fashion retrieval model (MF sampler: 동영상 기반 패션 검색 모델의 성능 향상을 위한 샘플링 방법)

  • Baek, Sanghun;Park, Jonghyuk
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.4
    • /
    • pp.329-346
    • /
    • 2022
  • Recently, as the market for short form videos (Instagram, TikTok, YouTube) on social media has gradually increased, research using them is actively being conducted in the artificial intelligence field. A representative research field is Video to Shop, which detects fashion products in videos and searches for product images. In such a video-based artificial intelligence model, product features are extracted using convolution operations. However, due to the limitation of computational resources, extracting features using all the frames in the video is practically impossible. For this reason, existing studies have improved the model's performance by sampling only a part of the entire frame or developing a sampling method using the subject's characteristics. In the existing Video to Shop study, when sampling frames, some frames are randomly sampled or sampled at even intervals. However, this sampling method degrades the performance of the fashion product search model while sampling noise frames where the product does not exist. Therefore, this paper proposes a sampling method MF (Missing Fashion items on frame) sampler that removes noise frames and improves the performance of the search model. MF sampler has improved the problem of resource limitations by developing a keyframe mechanism. In addition, the performance of the search model is improved through noise frame removal using the noise detection model. As a result of the experiment, it was confirmed that the proposed method improves the model's performance and helps the model training to be effective.

Performance comparison between Decision tree model and TabNet for loan repayment prediction (대출 상환 예측을 위한 의사결정나무모델과 TabNet 간 성능 비교)

  • Sujin Han;Hyeoncheol Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.453-455
    • /
    • 2023
  • 본 연구는 은행에서 리스크 관리 자동화를 위해 고객의 대출 상환 여부 예측 모델을 제안하고자 한다. 예측 모델로 금융 데이터 같은 정형데이터에서 전통적으로 높은 성능을 보인 의사결정나무기반 모델 LightGBM, CatBoost, XGB 와 최근 제안된 정형데이터에서 사용할 수 있는 설명 가능한 딥러닝 기반 모델 TabNet 간의 성능 비교를 진행한다. 다만, 대출 상환 여부 데이터는 불균형 클래스 데이터로 구성되어있어 샘플링을 진행한다. SMOTE, Random Under Sampling, 혼합 방식을 비교해 가장 높은 성능의 샘플링 기법을 제안한다. 대출 상환 여부 예측 결과 TabNet 모델이 의사결정나무모델들보다 좋은 성능을 보여 정형데이터에서 의사결정나무 기반 모델을 딥러닝 모델이 대체 할 수 있는 가능성을 확인했다.

A Simulation-based Optimization for Scheduling in a Fab: Comparative Study on Different Sampling Methods (시뮬레이션 기반 반도체 포토공정 스케줄링을 위한 샘플링 대안 비교)

  • Hyunjung Yoon;Gwanguk Han;Bonggwon Kang;Soondo Hong
    • Journal of the Korea Society for Simulation
    • /
    • v.32 no.3
    • /
    • pp.67-74
    • /
    • 2023
  • A semiconductor fabrication facility(FAB) is one of the most capital-intensive and large-scale manufacturing systems which operate under complex and uncertain constraints through hundreds of fabrication steps. To improve fab performance with intuitive scheduling, practitioners have used weighted-sum scheduling. Since the determination of weights in the scheduling significantly affects fab performance, they often rely on simulation-based decision making for obtaining optimal weights. However, a large-scale and high-fidelity simulation generally is time-intensive to evaluate with an exhaustive search. In this study, we investigated three sampling methods (i.e., Optimal latin hypercube sampling(OLHS), Genetic algorithm(GA), and Decision tree based sequential search(DSS)) for the optimization. Our simulation experiments demonstrate that: (1) three methods outperform greedy heuristics in performance metrics; (2) GA and DSS can be promising tools to accelerate the decision-making process.

Phase Tracking for Orthogonal Frequency Division Multiplexing Systems (직교 주파수 분할 다중화 시스템을 위한 위상 오차 추적)

  • Jeon, Tae-Hyun
    • Journal of the Institute of Electronics Engineers of Korea TC
    • /
    • v.43 no.12 s.354
    • /
    • pp.61-67
    • /
    • 2006
  • This paper proposes the algorithm for tracking of the residual phase errors incurred by carrier frequency offset and sampling frequency offset in the orthogonal frequency division multiplexing (OFDM) systems which are suitable for high data rate wireless communications. In the OFDM systems the subcarriers which are orthogonal to each other are modulated by digital data and transmitted simultaneously. The carrier frequency offset causes degradation of signal to noise ratio(SNR) performance and interference between the adjacent subcarriers. The errors in the sampling timing caused by the sampling frequency difference between the transmitter and the receiver sides also cause a major performance degradation in the OFDM systems. The residual error tracking and compensation mechanism is essential in the OFDM system since the carrier and the sampling frequency offset cause the loss of orthogonality resulting in the system performance loss. This paper proposes the scheme where the channel gain and the payload data information are reflected in the residual error tracking process which results in the reduction of the estimation error and the tracking performance improvements under the frequency selective fading wireless channels.

Handling Method of Imbalance Data for Machine Learning : Focused on Sampling (머신러닝을 위한 불균형 데이터 처리 방법 : 샘플링을 위주로)

  • Lee, Kyunam;Lim, Jongtae;Bok, Kyoungsoo;Yoo, Jaesoo
    • The Journal of the Korea Contents Association
    • /
    • v.19 no.11
    • /
    • pp.567-577
    • /
    • 2019
  • Recently, more and more attempts have been made to solve the problems faced by academia and industry through machine learning. Accordingly, various attempts are being made to solve non-general situations through machine learning, such as deviance, fraud detection and disability detection. A variety of attempts have been made to resolve the non-normal situation in which data is distributed disproportionately, generally resulting in errors. In this paper, we propose handling method of imbalance data for machine learning. The proposed method to such problem of an imbalance in data by verifying that the population distribution of major class is well extracted. Performance Evaluations have proven the proposed method to be better than the existing methods.

A Negative Sampling Method for Next POI Recommender Systems Based on Check-in Sequences (체크인 시퀀스 기반의 next POI 추천 시스템을 위한 네거티브 샘플링 방법)

  • Ye-Been Kim;Hong-Kyun Bae;Sang-Wook Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.470-472
    • /
    • 2023
  • 최근 위치 기반 장소 (POI) 추천 서비스가 많이 사용되면서, 사용자의 이전 방문지들에 대한 체크인 시퀀스를 기반으로 현재 (다음으로) 방문할 법한 POI 를 찾아 사용자에게 추천하는, next POI 추천 시스템에 관한 연구가 활발히 진행되고 있다. 하지만, 기존 연구들의 경우 next POI 추천을 위한 모델 학습 시, 사용자의 네거티브 POIs 에 관한 정교한 샘플링 없이 사용자 선호도를 추론해왔다. 본 연구에서는, 사전 학습된 별도의 사용자 선호도 추론 모델을 통해 사용자의 네거티브 POI로서 쉽게 분류되기 어려운 하드 네거티브 POIs 를 찾고, 이들을 위주로 수행되는 하드 네거티브 샘플링 방법을 새롭게 제안한다. 우리는 실 세계 데이터셋을 이용한 실험을 통해, 제안 방안이 기존 연구들에서 사용되어 온 랜덤 네거티브 샘플링 방법 대비 recall@5 기준, 최대 16.4%까지 추천 정확도를 향상시킬 수 있음을 확인하였다.

Study on the sampling inspection method for reliability assurance of lot (로트의 신뢰성 보증 샘플링검사 방식에 대한 연구)

  • Jaiwook Baik
    • Industry Promotion Research
    • /
    • v.8 no.1
    • /
    • pp.111-117
    • /
    • 2023
  • Sampling inspection methods for quality control have been proposed a lot in the industry. However, the sampling inspection method for reliability, which is a quality over time, has been relatively less presented, and there are not many literatures that are clearly summarized. Therefore, this paper focuses on the reliability conformity test to verify that the reliability evaluation scale value of the target is satisfied during the reliability test. To this end, first, we look at the conditions that both consumers and producers can satisfy in terms of the OC curve and find out what sampling methods satisfy the desired level of producer risk and consumer risk. Next, two methods of the reliability sampling methods such as attribute and variable reliability sampling methods are examined. Specifically, the attribute reliability sampling method is a form of sampling plan where n samples are tested for a certain period of T hours and the lot is accepted if the number of failures is less than or equal to a certain number c. On the other hand, the variable reliability sampling method is a form of sampling plan where the lot is accepted if the reliability evaluation scale such as MTBF satisfies a certain standard. Both sampling plans may also use inspection tables.