• 제목/요약/키워드: 데이터 샘플링

검색결과 517건 처리시간 0.03초

데이터 샘플링을 통한 각 기반 공간 분할 병렬 스카이라인 질의처리 기법 (Data Sampling-based Angular Space Partitioning for Parallel Skyline Query Processing)

  • 정재화
    • 컴퓨터교육학회논문지
    • /
    • 제18권5호
    • /
    • pp.63-70
    • /
    • 2015
  • 상호 연관되는 복잡한 데이터 조건이 존재하는 환경에서 스카이라인 질의는 의사결정 시스템 등 폭넓은 애플리케이션 활용 가능성으로 다양한 분야에서 연구되어 왔다. 중앙집중식 환경에서 스카이라인 질의처리 기법이 초기에 제안되었으며 최근 대량의 다차원 데이터에 대해 데이터 공간을 분할하여 맵/리듀스 플랫폼 상에서 병렬적으로 처리하는 기법이 제안되었다. 그러나 현재까지의 기법이 비균등적 실행과 높은 중복 작업으로 효율성이 저하된다는 문제점을 배경으로 본 논문에서는 랜덤 샘플링을 통해 데이터 분포를 추정하여 비균등 분할 문제를 해결하고 각 기반의 데이터 공간을 분할하여 스카이라인 처리 과정에서 중복 작업을 최소화한 새로운 기법 MR-DEAP를 제안한다. 마지막으로 다양한 환경에서의 실험결과 제안된 기법이 다른 각 기반 분할과 그리드 분할 기법보다 우수한 것을 입증하였다.

집속체의 선밀도 변동성과 데이터 샘플링

  • 허유;곽도웅;김종성;김승훈
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 2004년도 춘계학술대회 논문요약집
    • /
    • pp.46-46
    • /
    • 2004
  • 디지털 측정장치의 발달에 따라 센서에서 출력되는 아날로그 신호를 디지털 신호로 변환하고, 이를 바탕으로 측정결과를 제시하는 경우가 많다. 그러나 아날로그 신호의 디지털화 과정에서는 정보의 유실이 생길 수밖에 없고, 또한 측정 헤드의 dimension 과 sampling interval 등과 같은 측정조건은 측정결과의 신뢰성에 많은 문제를 야기 시킨다. 본 연구에서는 새로운 측정방법을 바탕으로 시장-분산곡선과 Correlogram 법을 이용하여 그 특성을 해석하고, 데이터 샘플링 시 측정조건과 시료내의 변동성이 측정결과인 평균 굵기 및 굵기의 총분산에 미치는 영향을 찾아 보았다.(중략)

  • PDF

데이터 샘플링을 이용한 선박용 다단 데이터베이스 설계 및 구현 (Design and Implementation of Multistage Database for Shipboard by using Data Sampling)

  • 서정민;황훈규;이성대;이장세;장길웅;박휴찬
    • 한국정보통신학회논문지
    • /
    • 제15권5호
    • /
    • pp.1111-1118
    • /
    • 2011
  • 선박에 장착된 장비들을 통하여 수집된 다양한 데이터는 선박의 안전한 운항을 위하여 사용된다. 하지만 이러한 다양성으로 인해 데이터를 각각 관리하기에는 어려움이 있으므로 이를 통합 관리하기 위하여 데이터베이스를 구축하는 것이 효율적이다. 그러나 선박에서의 데이터베이스는 통상의 데이터베이스에 비해 급격한 저장 빈도 때문에 용량 초과 문제가 자주 발생한다. 본 논문에서는 이를 해결하고자 데이터의 샘플링과 삭제를 통하여 데이터베이스의 용량을 확보하면서 통합 관리가 가능한 다단 데이터베이스를 설계하고 구현한 후, 그 효율성을 시험한다.

랜덤포레스트기법을 이용한 분변성대장균 예측모델 개발 (Development of fecal coliform prediction model using random forest method)

  • 서일원;최수연
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.124-124
    • /
    • 2016
  • 하천에서의 분변성대장균은 분변성 오염 정도를 나타내는 지표로서, 이 농도가 높을수록 오염된 하천수와의 접촉을 통한 호흡기, 소화기 및 피부 관련 질병의 발발 확률이 높다고 알려져 있다. 따라서 하천에서의 수영, 수상스키 등과 같은 입수형 친수활동을 할 때, 분변성대장균 농도가 농도 기준 이하인지를 확인하고 이러한 정보를 친수활동에 이용할 필요가 있다. 그러나 분변성대장균의 경우, 현재 자동수질측정망에서 측정되고 있는 다른 수질인자들과는 달리 실시간 측정이 불가능하다고 알려져 있다. 분변성대장균을 측정하는데 있어 최소 18시간 이상이 필요하며, 이러한 분변성대장균 측정 방식은 하천 이용자들이 안전한 친수활동을 영위하는데 있어 적절한 수질 정보를 제공하지 못한다. 그러므로 분변성대장균을 예측하는 모델을 개발하고, 이를 이용하여 실시간 분변성대장균 정보를 생성하여 하천 이용자들에게 제공할 필요가 있다. 본 연구에서는 친수활동이 활발하게 이루어지는 곳 중 하나인 북한강의 대성리 지점에 대해 데이터 기반 모델을 이용하여 분변성대장균을 예측하였다. 데이터 기반 모델은 물리 기반 모델에서 필요한 지형데이터나 비점오염원 등의 초기 오염물의 양에 대한 데이터를 필요로 하지 않고, 대신 독립변수로 사용되는 기상 및 수질데이터를 필요로 한다. 이러한 기상 및 수질데이터는 기존 기상관측소, 수질관측소에서 매일 자동으로 측정되기 때문에 데이터 기반 모델은 물리 기반 모델에 비해 입력데이터를 구성하기가 쉽다는 장점을 지닌다. 이러한 데이터 기반 모델 중 분류 모델은 회귀 모델과 달리 분변성대장균 농도가 일정 수질기준 이상을 넘는지를 바로 예측할 수 있다. 본 연구에서는 분류 모델 중 높은 예측력을 가진다고 알려진 랜덤포레스트(random forest) 기법을 이용하여 분변성대장균 예측 모델을 개발하였다. 분변성대장균 예측 모델은 주어진 기상 및 수질 조건에 대해 분변성대장균이 200 CFU/100ml가 넘는지를 예측하였다. 예측된 분변성대장균이 기준을 넘는 경우를 2등급, 넘지 않는 경우를 1등급으로 명명하였다. 모델을 개발하기 위하여 북한강 대성리 인근 측정소에서 2010년부터 2015년까지 측정된 기상 및 수질데이터를 수집하였다. 수집한 데이터를 훈련 및 검증데이터로 샘플링하였으며, 이 때 샘플링한 데이터가 기존 데이터가 가지고 있던 등급별 비율을 유지하기 위하여 층화샘플링을 하였다. 본 연구에서는 샘플링에 의한 불확실성을 줄이기 위하여 랜덤하게 50번 샘플링된 각각의 훈련데이터에 대해 모델을 개발하였다. 50개의 모델의 검증 결과를 종합한 결과, 전체 예측률은 0.139로 나타났다.

  • PDF

절단면 재렌더링 기법을 이용한 GPU 기반 MIP 볼륨 렌더링 (GPU based Maximum Intensity Projection using Clipping Plane Re-rendering Method)

  • 홍인실;계희원;신영길
    • 한국멀티미디어학회논문지
    • /
    • 제10권3호
    • /
    • pp.316-324
    • /
    • 2007
  • 의료영상에서 사용하는 MIP 볼륨 렌더링은 CT나 MR 등의 볼륨데이터에서 시각 광선으로부터 높은 밝기 값을 추출하여 혈관과 뼈와 같은 환자의 조직을 보여주는 볼륨 렌더링 기법이다. 최근 GPU를 MIP 볼륨 렌더링에 사용하여 대용량 의료영상 데이터에 대해서도 속도가 빠른 렌더링이 가능하게 되었다. 볼륨데이터를 여러 각도에서 관찰하면, 일반적으로 시각과 동일한 방향의 텍스쳐 평면과 볼륨 경계평면이 비스듬하게 교차한다. 볼륨데이터의 외부에는 값이 존재하지 않으므로 경계부분에서 공간 주파수가 높게 나타난다. 기존의 MIP 렌더링은 샘플링 간격이 일정하기 때문에 경계부분에서 데이터의 손실이 생겨 알리아싱이 나타나는 문제가 있다. 화질을 개선하기 위해 샘플링 간격을 줄여 슬라이스수를 증가시킬 수 있으나, 이때는 렌더링 수행 시간이 길어지게 된다. 이 논문에서는 기존 렌더링 결과에 볼륨 경계 평면을 추가로 렌더링하는 방법을 제안한다. 이 방법은 주파수가 높은 경계 부분의 샘플링 간격을 줄여 화질을 향상시킨다. 한편 MIP는 샘플링 순서에 무관하므로 추가된 슬라이스는 기존 렌더링 영상을 손실시키지 않는다. 증가된 슬라이스는 경계부분인 여섯 평면에 불과하므로 렌더링 수행시간에는 거의 영향을 주지 않고 화질을 개선할 수 있다.

  • PDF

MF sampler: 동영상 기반 패션 검색 모델의 성능 향상을 위한 샘플링 방법 (MF sampler: Sampling method for improving the performance of a video based fashion retrieval model)

  • 백상훈;박종혁
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.329-346
    • /
    • 2022
  • 최근 소셜 미디어의 숏폼(Short form) 동영상(인스타그램, 틱톡, 유튜브) 시장이 점차 증가하면서 인공지능 영역에서는 이를 활용한 연구가 활발히 진행되고 있다. 대표적인 연구분야로 동영상 내의 패션 상품을 탐지하고 상품 이미지를 검색하는 Video to shop 을 들 수 있다. 이와 같은 동영상 기반 인공지능 모델에서는 Convolution 연산을 사용하여 상품의 특징을 추출한다. 하지만 연산 자원의 제한으로 인해, 동영상의 모든 프레임을 사용하여 특징을 추출하는 것은 현실적으로 불가능하다. 이로 인해, 기존 연구에서는 전체 프레임 중 일부만 샘플링해서 사용하거나, 주제의 특성을 활용한 샘플링 방법을 개발하여 이를 통해 위 문제점을 개선하고, 모델의 성능도 향상시켰다. 기존의 Video to shop 연구에서는 프레임을 샘플링 할 때, 무작위로 일부분의 프레임을 샘플링하거나 균등한 간격으로 샘플링 한다. 하지만 이러한 샘플링 방법은 상품이 존재하지 않는 노이즈 프레임을 샘플링 하면서 패션 상품 검색 모델의 성능을 저하시킨다. 이에 본 연구는 노이즈 프레임을 제거하고 검색 모델의 성능을 향상시키는 샘플링 방법 MF(Missing Fashion items on frame) sampler를 제안한다. MF sampler는 키 프레임 메커니즘(Mechanism)을 발전시켜 자원 한계의 문제점을 개선했다. 또한, 노이즈 탐지 모델을 활용한 노이즈 프레임 제거를 통해 검색 모델의 성능을 향상시켰다. 이와 같은 결과는 실험을 통해 확인되었고, Video to shop 패션 상품 검색에 있어 성능 향상과 효과적인 학습이 가능하다는 것을 확인할 수 있었다.

대출 상환 예측을 위한 의사결정나무모델과 TabNet 간 성능 비교 (Performance comparison between Decision tree model and TabNet for loan repayment prediction)

  • 한수진 ;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.453-455
    • /
    • 2023
  • 본 연구는 은행에서 리스크 관리 자동화를 위해 고객의 대출 상환 여부 예측 모델을 제안하고자 한다. 예측 모델로 금융 데이터 같은 정형데이터에서 전통적으로 높은 성능을 보인 의사결정나무기반 모델 LightGBM, CatBoost, XGB 와 최근 제안된 정형데이터에서 사용할 수 있는 설명 가능한 딥러닝 기반 모델 TabNet 간의 성능 비교를 진행한다. 다만, 대출 상환 여부 데이터는 불균형 클래스 데이터로 구성되어있어 샘플링을 진행한다. SMOTE, Random Under Sampling, 혼합 방식을 비교해 가장 높은 성능의 샘플링 기법을 제안한다. 대출 상환 여부 예측 결과 TabNet 모델이 의사결정나무모델들보다 좋은 성능을 보여 정형데이터에서 의사결정나무 기반 모델을 딥러닝 모델이 대체 할 수 있는 가능성을 확인했다.

시뮬레이션 기반 반도체 포토공정 스케줄링을 위한 샘플링 대안 비교 (A Simulation-based Optimization for Scheduling in a Fab: Comparative Study on Different Sampling Methods)

  • 윤현정;한광욱;강봉권;홍순도
    • 한국시뮬레이션학회논문지
    • /
    • 제32권3호
    • /
    • pp.67-74
    • /
    • 2023
  • 반도체 제조라인(FAB)은 복잡하고 불확실한 운영환경에서 작동하는 대규모의 제조시스템 중 하나로 반도체 설비 운영을 담당하는 엔지니어들은 직관적이고 신속한 공정 스케줄링을 위해 가중치 기반 스케줄링을 널리 사용하고 있다. 가중치 기반 스케줄링에서 가중치 결정은 FAB 성능에 큰 영향을 미치므로 엔지니어들은 가중치 최적화를 위하여 시뮬레이션 기반 의사결정을 활용할 수 있다. 그러나 대규모 시뮬레이션은 많은 실험 비용을 요구하기 때문에 효과적인 의사결정을 위해서 신중한 실험설계가 요구된다. 본 연구에서는 적은 시뮬레이션 실행 내에서 효율적인 스케줄링을 도출하기 위해 세 가지 샘플링 대안(i.e., Optimal latin hypercube sampling(OLHS), Genetic algorithm(GA), and Decision tree based sequential search (DSS))에 대한 비교연구를 수행하였다. 시뮬레이션 실험을 통해 세 가지 대안이 단일 규칙보다 우수한 성능을 보였고, 그중 GA와 DSS가 최적화를 위한 효과적인 대안이 될 수 있음을 확인하였다.

직교 주파수 분할 다중화 시스템을 위한 위상 오차 추적 (Phase Tracking for Orthogonal Frequency Division Multiplexing Systems)

  • 전태현
    • 대한전자공학회논문지TC
    • /
    • 제43권12호
    • /
    • pp.61-67
    • /
    • 2006
  • 본 논문에서는 고속무선통신에 널리 사용되고 있는 직교 주파수 분할 다중화 데이터 전송시스템에서 반송파주파수 옵셋(Offset)에 의한 잔류 위상 오차와 샘플링 주파수 옵셋에 의한 잔류 오차를 추적하고 보상하는 알고리즘을 제안한다. 직교 주파수 분할 다중화 시스템에서는 서로 직교성을 가지는 부반송파들이 디지털 데이터에 의해 변조되어 동시에 전송된다 반송파 주파수 옵셋이 존재하는 경우에는 신호 대 잡음비의 감소 그리고 인접 부반송파의 간섭 등이 발생한다. 또한 송신단과 수신단에서의 샘플링 주파수의 차이로 인한 샘플링 시점의 오차도 직교 주파수 분할 다중화 시스템에서 성능저하의 주요한 요인으로 작용한다. 반송파 주파수의 오차와 샘플링 주파수의 오차는 직교 주파수 분할 다중화 시스템에서 중요한 성질중의 하나인 직교성 상실을 초래하며 이는 성능저하의 원인으로 작용하므로 수신단에서는 지속적으로 잔류 오차를 추적하여 보상해 주는 방식의 적용이 필수적이다. 본 논문에서는 주파수 선택적 페이딩 무선 채널 환경에서 파일롯 데이터뿐만 아니라 채널이득 정보 및 페이로드 데이터를 주파수 오차 추정에 반영하여 추정오차를 줄이고 이 추정 값을 주파수 오차 보상에 반영하여 성능 향상을 달성할 수 있는 방식을 제안한다.

머신러닝을 위한 불균형 데이터 처리 방법 : 샘플링을 위주로 (Handling Method of Imbalance Data for Machine Learning : Focused on Sampling)

  • 이규남;임종태;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제19권11호
    • /
    • pp.567-577
    • /
    • 2019
  • 최근 학계, 산업계 등에서 접하는 기존의 문제를 머신러닝을 통해 해결하려는 시도가 증가하고 있다. 이에 따라 이탈, 사기탐지, 장애탐지 등 일반적이지 않은 상황을 머신러닝으로 해결하기 위한 다양한 연구가 이어지고 있다. 대부분의 일반적이지 않은 환경에서는 데이터가 불균형하게 분포하며, 이러한 불균형한 데이터는 머신러닝의 수행과정에서 오류를 야기하므로 이를 해결하기 위한 불균형 데이터 처리 기법이 필요하다. 본 논문에서는 머신러닝을 위한 불균형 데이터 처리 방법을 제안한다. 제안하는 방법은 샘플링 방법을 중심으로 다수 클래스(Major Class)의 모집단 분포를 효율적으로 추출하도록 검증하여 머신 러닝을 위한 불균형 데이터 문제를 해결한다. 본 논문에서는 성능평가를 통해 제안하는 기법이 기존 기법에 비해 성능이 우수함을 보인다.