• 제목/요약/키워드: synthetic data sampling

검색결과 47건 처리시간 0.158초

소지역 통계 생산을 위한 추정방법 (Application of In-direct Estimation for Small Area Statistics)

  • 김영원;성나영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제11권1호
    • /
    • pp.111-126
    • /
    • 2000
  • 지방자치제 실시에 따라 우리나라에서도 전국 또는 도 단위의 통계뿐만 아니라 시 군 구 등의 소지역 통계에 대한 수요가 증대되고 있다. 하지만 정부통계 생산을 위해 실시되는 표본조사의 경우 시(특별시, 광역시) 및 도별 통계생산을 목적으로 하기 때문에 신뢰성 있는 소지역 통계를 산출하는 것이 불가능하고, 따라서 이런 소지역 통계생산을 위해 간접 추정 기법을 적극적으로 활용하는 것이 필요하다. 본 논문에서는 정부통계 생산을 위한 소지역 통계 기법의 도입 및 활용 가능성을 검토해 보기 위해 인천광역시 숙박 및 음식점업의 총매출에 대한 구별 소지역 통계를 산출할 수 있는 여러 가지 간접 추정 방법을 제시하고, 아울러 도소매업 총조사 자료를 이용하여 제시된 간접추정량들의 효율성을 비교 분석해 보고자 한다.

  • PDF

Data-Driven Kinematic Control for Robotic Spatial Augmented Reality System with Loose Kinematic Specifications

  • Lee, Ahyun;Lee, Joo-Haeng;Kim, Jaehong
    • ETRI Journal
    • /
    • 제38권2호
    • /
    • pp.337-346
    • /
    • 2016
  • We propose a data-driven kinematic control method for a robotic spatial augmented reality (RSAR) system. We assume a scenario where a robotic device and a projector-camera unit (PCU) are assembled in an ad hoc manner with loose kinematic specifications, which hinders the application of a conventional kinematic control method based on the exact link and joint specifications. In the proposed method, the kinematic relation between a PCU and joints is represented as a set of B-spline surfaces based on sample data rather than analytic or differential equations. The sampling process, which automatically records the values of joint angles and the corresponding external parameters of a PCU, is performed as an off-line process when an RSAR system is installed. In an on-line process, an external parameter of a PCU at a certain joint configuration, which is directly readable from motors, can be computed by evaluating the pre-built B-spline surfaces. We provide details of the proposed method and validate the model through a comparison with an analytic RSAR model with synthetic noises to simulate assembly errors.

Predicting Reports of Theft in Businesses via Machine Learning

  • JungIn, Seo;JeongHyeon, Chang
    • International Journal of Advanced Culture Technology
    • /
    • 제10권4호
    • /
    • pp.499-510
    • /
    • 2022
  • This study examines the reporting factors of crime against business in Korea and proposes a corresponding predictive model using machine learning. While many previous studies focused on the individual factors of theft victims, there is a lack of evidence on the reporting factors of crime against a business that serves the public good as opposed to those that protect private property. Therefore, we proposed a crime prevention model for the willingness factor of theft reporting in businesses. This study used data collected through the 2015 Commercial Crime Damage Survey conducted by the Korea Institute for Criminal Policy. It analyzed data from 834 businesses that had experienced theft during a 2016 crime investigation. The data showed a problem with unbalanced classes. To solve this problem, we jointly applied the Synthetic Minority Over Sampling Technique and the Tomek link techniques to the training data. Two prediction models were implemented. One was a statistical model using logistic regression and elastic net. The other involved a support vector machine model, tree-based machine learning models (e.g., random forest, extreme gradient boosting), and a stacking model. As a result, the features of theft price, invasion, and remedy, which are known to have significant effects on reporting theft offences, can be predicted as determinants of such offences in companies. Finally, we verified and compared the proposed predictive models using several popular metrics. Based on our evaluation of the importance of the features used in each model, we suggest a more accurate criterion for predicting var.

범주형 시퀀스들에 대한 확장성 있는 클러스터링 방법 (A Scalable Clustering Method for Categorical Sequences)

  • 오승준;김재련
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.136-141
    • /
    • 2004
  • 소매점 거래 데이터와 단백질 시퀀스, 웹 로그 등과 같은 상업적이거나 과학적인 데이터의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 그러나, 순서적인 면을 고려한 클러스터링 알고리듬은 소수이다. 따라서, 본 연구에서는 시퀀스 데이터들을 클러스터링 하는 방법을 연구한다. 시퀀스들 간의 유사도를 계산하기 위한 새로운 유사도를 제안한다. 또한, 유사도를 효율적으로 계산하기 위한 방법과 클러스터링 방법도 제안한다. 계층적 클러스터링 알고리듬은 높은 계산량을 가지고 있기에, 새로운 클러스터링 방법이 요구된다. 그러므로, 본 연구에서는 샘플링과 k-nn 방법을 이용한 확장성 있는 클러스터링 방법을 제안한다. 실제 데이터 셋과 합성 데이터 셋을 이용하여, 본 연구에서 제안하는 방법이 기존 방법보다 성능이 우수함을 보여준다.

Enhancing Malware Detection with TabNetClassifier: A SMOTE-based Approach

  • Rahimov Faridun;Eul Gyu Im
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.294-297
    • /
    • 2024
  • Malware detection has become increasingly critical with the proliferation of end devices. To improve detection rates and efficiency, the research focus in malware detection has shifted towards leveraging machine learning and deep learning approaches. This shift is particularly relevant in the context of the widespread adoption of end devices, including smartphones, Internet of Things devices, and personal computers. Machine learning techniques are employed to train models on extensive datasets and evaluate various features, while deep learning algorithms have been extensively utilized to achieve these objectives. In this research, we introduce TabNet, a novel architecture designed for deep learning with tabular data, specifically tailored for enhancing malware detection techniques. Furthermore, the Synthetic Minority Over-Sampling Technique is utilized in this work to counteract the challenges posed by imbalanced datasets in machine learning. SMOTE efficiently balances class distributions, thereby improving model performance and classification accuracy. Our study demonstrates that SMOTE can effectively neutralize class imbalance bias, resulting in more dependable and precise machine learning models.

Machine learning application to seismic site classification prediction model using Horizontal-to-Vertical Spectral Ratio (HVSR) of strong-ground motions

  • Francis G. Phi;Bumsu Cho;Jungeun Kim;Hyungik Cho;Yun Wook Choo;Dookie Kim;Inhi Kim
    • Geomechanics and Engineering
    • /
    • 제37권6호
    • /
    • pp.539-554
    • /
    • 2024
  • This study explores development of prediction model for seismic site classification through the integration of machine learning techniques with horizontal-to-vertical spectral ratio (HVSR) methodologies. To improve model accuracy, the research employs outlier detection methods and, synthetic minority over-sampling technique (SMOTE) for data balance, and evaluates using seven machine learning models using seismic data from KiK-net. Notably, light gradient boosting method (LGBM), gradient boosting, and decision tree models exhibit improved performance when coupled with SMOTE, while Multiple linear regression (MLR) and Support vector machine (SVM) models show reduced efficacy. Outlier detection techniques significantly enhance accuracy, particularly for LGBM, gradient boosting, and voting boosting. The ensemble of LGBM with the isolation forest and SMOTE achieves the highest accuracy of 0.91, with LGBM and local outlier factor yielding the highest F1-score of 0.79. Consistently outperforming other models, LGBM proves most efficient for seismic site classification when supported by appropriate preprocessing procedures. These findings show the significance of outlier detection and data balancing for precise seismic soil classification prediction, offering insights and highlighting the potential of machine learning in optimizing site classification accuracy.

修正 위너필터 方法에 依한 解釋波의 抽出 -海洋彈性波 探査資料에 依한 實驗 및 評價 (EXTRACTION OF INTERPRETIVE WAVELETS BY MODIFIED WIENER FILTER METHOD - TEST AND EVALUATION WITH MARINE SESMIIC DATA-)

  • 윤웅구;한상준;박병권
    • 한국해양학회지
    • /
    • 제18권2호
    • /
    • pp.117-124
    • /
    • 1983
  • 彈性波 石油探査資料의 分析을 위한 위너필터法이나 그 類似한 方法에 의한 彈性性波痕(seismictrace)의 디콘볼루션(deconvoultion or wavelet shaping)은 가장 基本的이며 어려운 處理過程으로 波形의 地層反對資料를 實際의 地層面과 地質構造 에 가능한 한 가깝게 描寫하기 위한 反轉作用處理(imversion process) 方法중의 하나이다. 위너필터法은 여러 학자들에 의해 解釋方法이 修正 考案되었 으며 그 演算者(operator)는 한 波形을 願하는 波形으로 바꾸는 가장 近似한 (least-mean-sqare-error)因子이다. 여기에는 騷音因子(noise factor)가 包含되며 그性質과 頻度에 따라 演算者의 模樣이 달라지고 또 資料의 解釋能力도 달라진다. 이 演算者의 重要部分이 解析波로서 어떤 破鏡反射를 하나의 스파이크(spike) 反射로 變化시킨 뒤 그 스파이크를 純化시키는 役割을 하게 한다. 實際로 東南 아시아 海底石油海域의 彌性波調査資料를 使用하여 消音因子의 標本逐出(sampling) 과 그 輕重因子(weighing factor)에 따라 解釋波의 流出과 振幅스펙트럼(amplitude spectrum)를 導出評價하였다. 結果는 消音因子의 最過流出이 어렵고 또한 解析波의 形態가 一般필터의 演算者와 類似한 關係로 一般的인 解釋波의 流出에는 效果적 이지 못한 것으로 推定된다. 따라서 스파이킹 디콘볼루션(spiking deconvoultion) 후에 通過代役 필터를 同伴하는 것이 바람織하며 그 周波代는 資料分析으로 消音對를 分離시킬 수 있어야 한다.

  • PDF

다변량 스트림 데이터 축소 기법 평가 (Evaluation of Multivariate Stream Data Reduction Techniques)

  • 정훈조;서성보;최경주;박정석;류근호
    • 정보처리학회논문지D
    • /
    • 제13D권7호
    • /
    • pp.889-900
    • /
    • 2006
  • 센서 네트워크는 애플리케이션 분야에 따라 데이터 특성과 사용자의 요구사항이 다양함에도 불구하고, 현존하는 스트림 데이터 축소 연구는 데이터의 본질적인 특징보다 특정 축소 기법의 성능 향상 측면에 중점을 두고 있다. 이 논문은 계층/분산형 센서 네트워크 구조와 데이터 모델을 소개하고, 선택적으로 축소 기법을 적용하기 위해 데이터 특성과 사용자의 요구에 적합한 다변량 데이터 축소 기법을 비교 평가한다. 다변량 데이터 축소 기법의 성능을 비교 분석하기 위해, 우리는 웨이블릿, HCL(Hierarchical Clustering), SVD(Singular Value Decomposition), 샘플링과 같은 표준화 된 다변량 축소 기법을 이용한다. 실험 데이터는 다차원 시계열 데이터와 로봇 센서 데이터를 사용한다. 실험 결과 SVD와 샘플링 기법이 상대 에러 비율과 수행 성능 측면에서 웨이블릿과 HCL기법에 비해 우수하였다. 특히 각 데이터 축소 기법의 상대 에러 비율은 입력 데이터 특성에 따라 다르기 때문에 선택적으로 데이터 축소 기법을 적용하는 것이 좋은 성능을 보였다. 이 논문은 다차원 센서 데이터가 수집되는 센서 네트워크를 디자인하고 구축하는 응용 분야에 유용하게 활용될 것이다.

데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율 (Optimal Ratio of Data Oversampling Based on a Genetic Algorithm for Overcoming Data Imbalance)

  • 신승수;조휘연;김용혁
    • 한국융합학회논문지
    • /
    • 제12권1호
    • /
    • pp.49-55
    • /
    • 2021
  • 최근에는 데이터베이스의 발달로 금융, 보안, 네트워크 등에서 생성된 많은 데이터가 저장 가능하며, 기계학습 기반 분류기를 통해 분석이 이루어지고 있다. 이 때 주로 야기되는 문제는 데이터 불균형으로, 학습 시 다수 범주의 데이터들로 과적합이 되어 분류 정확도가 떨어지는 경우가 발생한다. 이를 해결하기 위해 소수 범주의 데이터 수를 증가시키는 오버샘플링 전략이 주로 사용되며, 데이터 분포에 적합한 기법과 인자들을 다양하게 조절하는 과정이 필요하다. 이러한 과정의 개선을 위해 본 연구에서는 스모트와 생성적 적대 신경망 등 다양한 기법 기반의 오버샘플링 조합과 비율을 유전알고리즘을 통해 탐색하고 최적화 하는 전략을 제안한다. 제안된 전략과 단일 오버샘플링 기법으로 신용카드 사기 탐지 데이터를 샘플링 한 뒤, 각각의 데이터들로 학습한 분류기의 성능을 비교한다. 그 결과 유전알고리즘으로 기법별 비율을 탐색하여 최적화 한 전략의 성능이 기존 전략들 보다 우수했다.

A FREQUENCY DOMAIN RAW SIGNAL SIMULATOR FOR SAR

  • Kwak Sunghee;Kim Moon-Gyu;Shin Dongseok;Shin Jae-Min
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2005년도 Proceedings of ISRS 2005
    • /
    • pp.530-533
    • /
    • 2005
  • A raw signal simulator for synthetic aperture radar (SAR) is a useful tool for the design and implementation of SAR system. Also, in order to analyze and verify the developed SAR processor, the raw signal simulator is required. Moreover, there is the need for a test system to help designing new SAR sensors and mission of SAR system. The derived parameters of the SAR simulator also help to generate accurate SAR processing algorithms. Although the ultimate purpose of this research is to presents a general purpose SAR simulator, this paper presents a SAR simulator in frequency domain at the first step. The proposed simulator generates the raw signal by changing various simulation parameters such as antenna parameters, modulation parameters, and sampling parameters. It also uses the statistics from an actual SAR image to imitate actual physical scattering. This paper introduces the procedures and parameters of the simulator, and presents the simulation results. Experiments have been conducted by comparing the simulated raw data with original raw SAR image. In addition, the simulated raw data have been verified through commercial SAR processing software.

  • PDF