• Title/Summary/Keyword: 데이터 정규화

Search Result 469, Processing Time 0.032 seconds

Research on Normalizing Flow-Based Time Series Anomaly Detection System (정규화 흐름 기반 시계열 이상 탐지 시스템 연구)

  • Younghoon Jeon;Jeonghwan Gwak
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.283-285
    • /
    • 2023
  • 이상 탐지는 데이터에서 일반적인 범주에서 크게 벗어나는 인스턴스 또는 패턴을 식별하는 중요한 작업이다. 본 연구에서는 시계열 데이터의 특징 추출을 위한 비지도 학습 기반 방법과 정규화 흐름의 결합을 통한 이상 탐지 프레임워크를 제안한다. 특징 추출기는 1차원 합성곱 신경망 기반의 오토인코더로 구성되며, 정상적인 시퀀스로만 구성된 훈련 데이터를 압축하고 복원하는 과정을 통해 최적화된다. 추출된 시계열 데이터의 특징 맵은 가능도를 최대화하도록 훈련된 정규화 흐름의 입력으로 사용된다. 이와 같은 방식으로 훈련된 이상 탐지 시스템은 테스트 샘플에 대한 이상치를 계산하며, 최종적으로 임계값과의 비교를 통해 이상 여부를 예측한다. 성능 평가를 위해 시계열 이상 탐지를 위한 공개 데이터셋을 이용하여 공정하게 이상 탐지 성능을 비교하였으며, 실험 결과는 제안하는 정규화 흐름 기법이 시계열 이상 탐지 시스템에 활용될수 있는 잠재성을 시사한다.

  • PDF

Adaptive Euclidean Distance Measure Method for Numeric Data Distribution (수치 데이터 분포에 적응적 유클리드 거리 측정 기법)

  • Choi, You-Hwan;Joo, Bum-Joon;Jung, Sung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.67-69
    • /
    • 2011
  • 데이터의 군집 분석에서 두 개의 서로 다른 데이터에 대한 유사도(거리)를 어떻게 정의하는가는 매우 중요한 문제이다. 수치속성에 대한 거리 측정 방법에는 다양한 기법이 존재하지만 각 속성의 크기와 범위가 서로 크게 다를 경우 이들을 동일한 인자로 여기고 거리 측정을 하게 되면 논리적인 오류를 범할 수 있다. 기존의 군집 분석 연구에서 사용된 거리 측정 기법은 데이터의 정규화 과정을 통해 이 문제를 해결하려고 노력하지만 일반적인 정규화는 이상치의 존재나 데이터의 편중된 분포 등의 이유로 속성별 거리가 왜곡될 수 있다. 본 논문은 이러한 문제점을 해결하기 위해 정규화된 데이터에서 각 속성의 비중을 고려한 적응적 유클리드 거리 측정 기법(AEDM: Adaptive Euclidean Distance Measure)을 제안한다. AEDM은 유클리드 거리를 기반으로 정규화 된 데이터의 형태에 따라 가중치를 부여하여 데이터의 분포에 관계없이 각 속성간의 거리를 충분히 반영하기 때문에 더욱 정확한 군집 분석을 가능하게 한다.

Loss-adjusted Regularization based on Prediction for Improving Robustness in Less Reliable FAQ Datasets (신뢰성이 부족한 FAQ 데이터셋에서의 강건성 개선을 위한 모델의 예측 강도 기반 손실 조정 정규화)

  • Park, Yewon;Yang, Dongil;Kim, Soofeel;Lee, Kangwook
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.18-22
    • /
    • 2019
  • FAQ 분류는 자주 묻는 질문을 범주화하고 사용자 질의에 대해 가장 유사한 클래스를 추론하는 방식으로 진행된다. FAQ 데이터셋은 클래스가 다수 존재하기 때문에 클래스 간 포함 및 연관 관계가 존재하고 특정 데이터가 서로 다른 클래스에 동시에 속할 수 있다는 특징이 있다. 그러나 최근 FAQ 분류는 다중 클래스 분류 방법론을 적용하는 데 그쳤고 FAQ 데이터셋의 특징을 모델에 반영하는 연구는 미미했다. 현 분류 방법론은 이러한 FAQ 데이터셋의 특징을 고려하지 못하기 때문에 정답으로 해석될 수 있는 예측도 오답으로 여기는 경우가 발생한다. 본 논문에서는 신뢰성이 부족한 FAQ 데이터셋에서도 분류를 잘 하기 위해 손실 함수를 조정하는 정규화 기법을 소개한다. 이 정규화 기법은 클래스 간 포함 및 연관 관계를 반영할 수 있도록 오답을 예측한 경우에도 예측 강도에 비례하여 손실을 줄인다. 이는 오답을 높은 확률로 예측할수록 데이터의 신뢰성이 낮을 가능성이 크다고 판단하여 학습을 강하게 하지 않게 하기 위함이다. 실험을 위해서는 다중 클래스 분류에서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 비교 실험을 위한 정규화 방법으로는 통상적으로 사용되는 라벨 스무딩을 채택했다. 실험 결과, 본 연구에서 제안한 방법은 기존 방법보다 성능이 개선되고 보다 안정적으로 학습이 된다는 것을 확인했으며, 데이터의 신뢰성이 부족한 상황에서 효과적으로 분류를 수행함을 알 수 있었다.

  • PDF

Effectiveness of Normalization Pre-Processing of Big Data to the Machine Learning Performance (빅데이터의 정규화 전처리과정이 기계학습의 성능에 미치는 영향)

  • Jo, Jun-Mo
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.14 no.3
    • /
    • pp.547-552
    • /
    • 2019
  • Recently, the massive growth in the scale of data has been observed as a major issue in the Big Data. Furthermore, the Big Data should be preprocessed for normalization to get a high performance of the Machine learning since the Big Data is also an input of Machine Learning. The performance varies by many factors such as the scope of the columns in a Big Data or the methods of normalization preprocessing. In this paper, the various types of normalization preprocessing methods and the scopes of the Big Data columns will be applied to the SVM(: Support Vector Machine) as a Machine Learning method to get the efficient environment for the normalization preprocessing. The Machine Learning experiment has been programmed in Python and the Jupyter Notebook.

Normalizing interval data and their use in AHP (구간데이터 정규화와 계층적 분석과정에의 활용)

  • Kim, Eun Young;Ahn, Byeong Seok
    • Journal of Intelligence and Information Systems
    • /
    • v.22 no.2
    • /
    • pp.1-11
    • /
    • 2016
  • Entani and Tanaka (2007) presented a new approach for obtaining interval evaluations suitable for handling uncertain data. Above all, their approach is characterized by the normalization of interval data and thus the elimination of redundant bounds. Further, interval global weights in AHP are derived by using such normalized interval data. In this paper, we present a heuristic method for finding extreme points of interval data, which basically extends the method by Entani and Tanaka (2007), and also helps to obtain normalized interval data. In the second part of this paper, we show that the solutions to the linear program for interval global weights can be obtained by a simple inspection. In the meantime, the absolute dominance proposed by the authors is extended to pairwise dominance which makes it possible to identify at least more dominated alternatives under the same information.

Performance Improvement of Regression Neural Networks by Using PCA and Zero-Mean Normalization (영평균 정규화와 PCA를 이용한 회귀 신경망의 성능개선)

  • Park, Yong-Soo;Cho, Yong-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.515-518
    • /
    • 2001
  • 본 논문에서는 전처리단계로 영평균 정규화 기법과 주요성분분석 기법을 도입하여 다층신경망을 이용한 고신뢰성의 회귀분석 모델을 제안한다. 영평균 정규화 기법은 데이터의 1차적 통계성을 고려하여 알고리즘을 간략화시키며, 주요성분분석 기법은 입력 데이터의 2차적 통계성을 고려하여 독립인 특징들의 집합으로 변환시켜 학습데이터의 차원을 감소시킬 수 있어 고차원의 학습데이터에 따른 회귀분석 모델의 제약을 해결할 수 있었다. 제안된 기법의 신경망을 3개의 독립변수를 가진 암모니아 제조공정문제와 10개의 독립변수를 가진 자동차 연비문제에 각각 적용하여 시뮬레이션한 결과, 단순정규화나 PCA를 적용하지 않는 경우보다 제안된 기법의 학습속도와 회귀성능이 더욱 더 우수함을 확인할 수 있었다.

  • PDF

Supervised Rank Normalization for Support Vector Machines (SVM을 위한 교사 랭크 정규화)

  • Lee, Soojong;Heo, Gyeongyong
    • Journal of the Korea Society of Computer and Information
    • /
    • v.18 no.11
    • /
    • pp.31-38
    • /
    • 2013
  • Feature normalization as a pre-processing step has been widely used in classification problems to reduce the effect of different scale in each feature dimension and error as a result. Most of the existing methods, however, assume some distribution function on feature distribution. Even worse, existing methods do not use the labels of data points and, as a result, do not guarantee the optimality of the normalization results in classification. In this paper, proposed is a supervised rank normalization which combines rank normalization and a supervised learning technique. The proposed method does not assume any feature distribution like rank normalization and uses class labels of nearest neighbors in classification to reduce error. SVM, in particular, tries to draw a decision boundary in the middle of class overlapping zone, the reduction of data density in that area helps SVM to find a decision boundary reducing generalized error. All the things mentioned above can be verified through experimental results.

Regularization of 3D Building Models (3차원 건물모델의 정규화)

  • Kim, Seong-Joon;Lee, Im-Pyeong
    • Proceedings of the KSRS Conference
    • /
    • 2009.03a
    • /
    • pp.296-300
    • /
    • 2009
  • 가상현실이나 인터넷 웹지도 서비스와 같이 3차원의 실세계를 시스템 상에 그대로 재현(reconstruction)하기 위해서는 정교하고 세밀한 3차원 도시모델이 필수적이다. 이러한 3차원 도시모델의 자동생성은 원격탐사 및 사진측량 분야에서 많은 연구가 수행되고 있다. 이러한 연구들은 다양한 센서 데이터와 기 구축되어 있는 GIS자료를 이용하여 건물, 도로, 지형 등의 도시모델을 자동으로 생성하고자 한다. 그러나 대부분의 연구에서 추출한 각 기본요소(primitives)-평면패치(planar patches), 에지(edges), 모서리(corners)에 대한 국부적인 정제(refinement)는 수행하였으나, 생성한 건물 모델에 대한 광역적인 조정을 통한 정규화에 대한 연구는 미비한 상태이다. 본 연구에서는 다양한 데이터로부터 생성된 B-rep (boundary representation) 형태의 건물 모델에 대하여 기하학적인 제약요소(constraints)를 이용한 정규화(regularization) 방법론을 제시하고자 한다. 제안하는 방법은 건물의 Domain Knowledge에 기반하여 도출한 건물을 구성하는 기본요소(primitives)간의 인접성, 직교성, 평행성, 교차성 등의 다양한 제약조건을 이용하여 광역적으로 조정한다. 시뮬레이션 데이터에 적용한 결과의 분석을 통해 제안된 정규화 방법을 통해 오차가 포함된 건물모델이 보다 정형화된 형태로 조정되었음을 확인하였다.

  • PDF

Study on Improving Learning Speed of Artificial Neural Network Model for Ammunition Stockpile Reliability Classification (저장탄약 신뢰성분류 인공신경망모델의 학습속도 향상에 관한 연구)

  • Lee, Dong-Nyok;Yoon, Keun-Sig;Noh, Yoo-Chan
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.21 no.6
    • /
    • pp.374-382
    • /
    • 2020
  • The purpose of this study is to improve the learning speed of an ammunition stockpile reliability classification artificial neural network model by proposing a normalization method that reduces the number of input variables based on the characteristic of Ammunition Stockpile Reliability Program (ASRP) data without loss of classification performance. Ammunition's performance requirements are specified in the Korea Defense Specification (KDS) and Ammunition Stockpile reliability Test Procedure (ASTP). Based on the characteristic of the ASRP data, input variables can be normalized to estimate the lot percent nonconforming or failure rate. To maintain the unitary hypercube condition of the input variables, min-max normalization method is also used. Area Under the ROC Curve (AUC) of general min-max normalization and proposed 2-step normalization is over 0.95 and speed-up for marching learning based on ASRP field data is improved 1.74 ~ 1.99 times depending on the numbers of training data and of hidden layer's node.

GA-based Normalization Approach in Back-propagation Neural Network for Bankruptcy Prediction Modeling (유전자알고리즘을 기반으로 하는 정규화 기법에 관한 연구 : 역전파 알고리즘을 이용한 부도예측 모형을 중심으로)

  • Tai, Qiu-Yue;Shin, Kyung-Shik
    • Journal of Intelligence and Information Systems
    • /
    • v.16 no.3
    • /
    • pp.1-14
    • /
    • 2010
  • The back-propagation neural network (BPN) has long been successfully applied in bankruptcy prediction problems. Despite its wide application, some major issues must be considered before its use, such as the network topology, learning parameters and normalization methods for the input and output vectors. Previous studies on bankruptcy prediction with BPN have shown that many researchers are interested in how to optimize the network topology and learning parameters to improve the prediction performance. In many cases, however, the benefits of data normalization are often overlooked. In this study, a genetic algorithm (GA)-based normalization transform, which is defined as a linearly weighted combination of several different normalization transforms, will be proposed. GA is used to extract the optimal weight for the generalization. From the results of an experiment, the proposed method was evaluated and compared with other methods to demonstrate the advantage of the proposed method.