• 제목/요약/키워드: 정규화 입력 데이터

검색결과 90건 처리시간 0.044초

머신러닝을 위한 온톨로지 기반의 Raw Data 전처리 기법 (Pre-processing Method of Raw Data Based on Ontology for Machine Learning)

  • 황치곤;윤창표
    • 한국정보통신학회논문지
    • /
    • 제24권5호
    • /
    • pp.600-608
    • /
    • 2020
  • 머신러닝은 학습 데이터로부터 목적함수를 구성하고, 테스트 데이터를 통해 목적함수의 확인함으로써 발생하는 데이터에 대한 예측을 수행한다. 머신러닝에서 입력데이터는 전처리 과정을 통해 정규화 과정을 거친다. 이런 정규화는 입력데이터의 평균과 표준편차를 이용하여 표준화하거나, 수치 데이터가 아닌 nominal value는 one-hot 코드 형태로 변환하는 방식을 이용한다. 그러나 이 전처리 과정만으로 문제를 해결할 수 없다. 이러한 이유로 본 논문에서 입력데이터의 정규화를 위해 온톨로지를 이용하는 방법을 제안한다. 이를 위한 테스트 데이터는 모바일 기기로부터 수집된 와이파이 장치의 RSSI값을 이용하고, 수집된 데이터의 노이즈와 이질적 문제는 온톨로지를 이용하여 정제하는 방법을 제시한다.

저장탄약 신뢰성분류 인공신경망모델의 학습속도 향상에 관한 연구 (Study on Improving Learning Speed of Artificial Neural Network Model for Ammunition Stockpile Reliability Classification)

  • 이동녁;윤근식;노유찬
    • 한국산학기술학회논문지
    • /
    • 제21권6호
    • /
    • pp.374-382
    • /
    • 2020
  • 본 연구에서 저장탄약 신뢰성평가(ASRP: Ammunition Stockpile Reliability Program)의 데이터 특성을 고려하여 입력변수를 줄이는 정규화기법을 제안함으로써 분류성능의 저하 없이 저장탄약 신뢰성분류 인경신경망모델의 학습 속도향상을 목표로 하였다. 탄약의 성능에 대한 기준은 국방규격(KDS: Korea Defense Specification)과 저장탄약 시험절차서(ASTP: Ammunition Stockpile reliability Test Procedure)에 규정되어 있으며, 평가결과 데이터는 이산형과 연속형 데이터가 복합적으로 구성되어 있다. 이러한 저장탄약 신뢰성평가의 데이터 특성을 고려하여 입력변수는 로트 추정 불량률(estimated lot percent nonconforming) 또는 고장률로 정규화 하였다. 또한 입력변수의 unitary hypercube를 유지하기 위하여 최소-최대 정규화를 2차로 수행하는 2단계 정규화 기법을 제안하였다. 제안된 2단계 정규화 기법은 저장탄약 신뢰성평가 데이터를 이용하여 비교한 결과 최소-최대 정규화와 유사하게 AUC(Area Under the ROC Curve)는 0.95 이상이었으며 학습속도는 학습 데이터 수와 은닉 계층의 노드 수에 따라 1.74 ~ 1.99 배 향상되었다.

정규화 흐름 기반 시계열 이상 탐지 시스템 연구 (Research on Normalizing Flow-Based Time Series Anomaly Detection System)

  • 전영훈;곽정환
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.283-285
    • /
    • 2023
  • 이상 탐지는 데이터에서 일반적인 범주에서 크게 벗어나는 인스턴스 또는 패턴을 식별하는 중요한 작업이다. 본 연구에서는 시계열 데이터의 특징 추출을 위한 비지도 학습 기반 방법과 정규화 흐름의 결합을 통한 이상 탐지 프레임워크를 제안한다. 특징 추출기는 1차원 합성곱 신경망 기반의 오토인코더로 구성되며, 정상적인 시퀀스로만 구성된 훈련 데이터를 압축하고 복원하는 과정을 통해 최적화된다. 추출된 시계열 데이터의 특징 맵은 가능도를 최대화하도록 훈련된 정규화 흐름의 입력으로 사용된다. 이와 같은 방식으로 훈련된 이상 탐지 시스템은 테스트 샘플에 대한 이상치를 계산하며, 최종적으로 임계값과의 비교를 통해 이상 여부를 예측한다. 성능 평가를 위해 시계열 이상 탐지를 위한 공개 데이터셋을 이용하여 공정하게 이상 탐지 성능을 비교하였으며, 실험 결과는 제안하는 정규화 흐름 기법이 시계열 이상 탐지 시스템에 활용될수 있는 잠재성을 시사한다.

  • PDF

유전자알고리즘을 기반으로 하는 정규화 기법에 관한 연구 : 역전파 알고리즘을 이용한 부도예측 모형을 중심으로 (GA-based Normalization Approach in Back-propagation Neural Network for Bankruptcy Prediction Modeling)

  • 태추월;신경식
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.1-14
    • /
    • 2010
  • 역전파 알고리즘은 오랫동안 부도예측모형 관련한 연구에 많이 적용되어왔다. 역전파 알고리즘을 사용하기전에 필히 고려해야 할 중요한 요소들로는 네트워크 구조, 학습요소, 정규화 방법 등이다. 하지만 신경망 성과를 향상시키기 위한 네트워크 구조 및 학습요소 최적화 관련한 연구는 기존의 연구들에서 많이 이루어 졌지만 데이터 정규화와 관련한 연구는 아직 많이 이루어지지 않았다. 따라서 본 연구에서는 유전자 알고리즘을 기반으로 하는 정규화 기법을 제시하였다. 최적의 입력데이터 정규화를 위하여 본 연구에서는 우선 각각의 서로 다른 정규화 기법들을 동일 가중치를 두어 일반화 시켰으며 유전자 알고리즘을 이용하여 최적의 가중치를 찾음으로써 최적화된 입력변수 정규화가 이루어지도록 하였다. 제안한 방법론을 검증하기 위하여 부도예측 데이터를 이용하여 실험을 하였으며 제안하는 방법과 기존 다른 방법들간의 비교를 통하여 그 타당성을 검증하였다.

영평균 정규화와 PCA를 이용한 회귀 신경망의 성능개선 (Performance Improvement of Regression Neural Networks by Using PCA and Zero-Mean Normalization)

  • 박용수;조용현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.515-518
    • /
    • 2001
  • 본 논문에서는 전처리단계로 영평균 정규화 기법과 주요성분분석 기법을 도입하여 다층신경망을 이용한 고신뢰성의 회귀분석 모델을 제안한다. 영평균 정규화 기법은 데이터의 1차적 통계성을 고려하여 알고리즘을 간략화시키며, 주요성분분석 기법은 입력 데이터의 2차적 통계성을 고려하여 독립인 특징들의 집합으로 변환시켜 학습데이터의 차원을 감소시킬 수 있어 고차원의 학습데이터에 따른 회귀분석 모델의 제약을 해결할 수 있었다. 제안된 기법의 신경망을 3개의 독립변수를 가진 암모니아 제조공정문제와 10개의 독립변수를 가진 자동차 연비문제에 각각 적용하여 시뮬레이션한 결과, 단순정규화나 PCA를 적용하지 않는 경우보다 제안된 기법의 학습속도와 회귀성능이 더욱 더 우수함을 확인할 수 있었다.

  • PDF

빅데이터의 정규화 전처리과정이 기계학습의 성능에 미치는 영향 (Effectiveness of Normalization Pre-Processing of Big Data to the Machine Learning Performance)

  • 조준모
    • 한국전자통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.547-552
    • /
    • 2019
  • 최근, 빅데이터 분야에서는 빅 데이터의 양적 팽창이 주요 이슈로 떠오르고 있다. 더군다나 이러한 빅데이터는 기계학습의 입력값으로 사용되어지고 있으며 이들의 성능을 향상시키기 위해 정규화 전처리가 필요하다. 이러한 성능은 빅데이터 컬럼의 범위나 정규화 전처리 방식에 따라 크게 좌우된다. 본 논문에서는 다양한 종류의 정규화 전처리 방식과 빅데이터 컬럼의 범위를 조절하면서 서포트벡터머신(SVM)의 기계학습방식에 적용함으로써 더욱 효과적인 정규화 전처리 방식을 파악하고자 하였다. 이를 위하여 파이썬언어와 주피터 노트북 환경에서 기계학습을 수행하고 분석하였다.

지진 이벤트 분류를 위한 정규화 기법 분석 (Analysis of normalization effect for earthquake events classification)

  • 장수;구본화;고한석
    • 한국음향학회지
    • /
    • 제40권2호
    • /
    • pp.130-138
    • /
    • 2021
  • 본 논문에서는 지진 이벤트 분류를 위한 다양한 정규화 기법 분석 및 효과적인 합성곱 신경망(Convolutional Neural Network, CNN)기반의 네트워크 구조를 제안하였다. 정규화 기법은 신경망의 학습 속도를 개선할 뿐만 아니라 잡음에 강인한 모습을 보여 준다. 본 논문에서는 지진 이벤트 분류를 위한 딥러닝 모델에서 입력 정규화 및 은닉 레이어 정규화가 모델에 미치는 영향을 분석하였다. 또한, 적용 은닉 레이어의 구조에 따른 다양한 실험을 통해 효과적인 모델을 도출하였다. 다양한 모의실험 결과 입력 데이터 정규화 및 제1 은닉 레이어에 가중치 정규화를 적용한 모델이 가장 안정적인 성능 향상을 보여 주었다.

랜덤 심볼에 기반한 정보이론적 학습법의 스텝 사이즈 정규화 (Step-size Normalization of Information Theoretic Learning Methods based on Random Symbols)

  • 김남용
    • 인터넷정보학회논문지
    • /
    • 제21권2호
    • /
    • pp.49-55
    • /
    • 2020
  • 랜덤 심볼열을 기반으로 한 정보이론적 학습법 (ITL)은 특정 확률분포를 갖도록 랜덤하게 발생시킨 심볼열을 타겟 데이터로 활용하고, 입력 데이터 사이의 확률분포 거리 최소화를 비용함수로 하여 설계된다. 이 방식의 단점으로, 고정상수를 알고리듬 갱신의 스텝사이즈로 사용하므로 입력 전력의 통계적 추이를 활용할 수 없다. 정보포텐셜 출력(information potential output, IPO)와 연관된 기울기에서는 정보포텐셜 입력(information potential input, IPI)이, 정보포텐셜 오차(information potential error, IPE)와 관련된 기울기에서는 입력자체가 입력으로 작용함을 이 연구에서 밝혀내고, 입력의 전력 추이를 따로 계산하여 스텝사이즈 (step size)를 정규화하도록 제안하였다. 제안된 알고리듬은 충격성잡음과 다중경로 페이딩 환경의 통신시스템 실험에서 기존 방식보다 약 4dB 정도 더 낮은 정상상태 오차 전력, 약 2배 이상 빠른 수렴속도를 나타냈다.

선형워핑함수의 화자정규화에 의한 음성 인식시스템의 성능향상 (Performance Improvement of Speech Recognition System Based on Speaker Normalization Through Linear Warping Function)

  • 최석용;정경용;이정현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.879-882
    • /
    • 2000
  • 화자종속 음성인식 시스템은 훈련 데이터가 화자들 사이의 음향적 변이를 충분히 모델링 할 수 있을 때, 화자독립 시스템보다 더 성능이 졸은 것으로 알려져 있다. 화자 정규화 기술은 입력음성의 스펙트럼을 수정하여 화자들 사이의 변이를 줄인다. 최근 성공적인 화자 정규화 알고리즘은 신호처리단계에 화자 특유 주파수 워핑을 통합했다. 이런 알고리즘은 입력음성에 담겨있는 음향적 특징을 다 사용하지 않는다. 본 논문에서는 화자의 음향적 특징으로 세 개의 포만트 주파수를 이용하였고, 수집된 포만트 주파수들로부터 워핑함수를 정의하는데 선형회귀를 사용한 화자 정규화 방법을 제안한다. 이 방법을 사용하여 인식 성능을 향상할 수 있었다.

  • PDF

시큐어 코딩을 적용한 입력데이터 정규화 검증 연구 (The input data normalization studies using secure coding)

  • 이지선;최진영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.644-647
    • /
    • 2013
  • 인터넷과 정보기술의 발전으로 정보시스템들이 보편화 되고, 편리함을 제공하고 있다. 반면에 시스템은 더욱 복잡해지고, 프라이버시 침해, 개인정보 수집 등 사이버공격은 계속적으로 증가하고 있으며 이로 인한 피해가 심각하다. 사이버 공격을 예방하기 위해서는 정보시스템 제품출시 이전 단계에서 제품의 보안 취약점을 제거하는 것이 중요하다. 따라서 개발단계부터 보안을 고려한 소프트웨어를 개발하는 것은 향후 발생 가능한 보안취약점을 예방하고 피해를 최소화 하여 보다 안전한 소프트웨어를 개발하는 근본적인 해결책이 된다. 본 논문에서는 소프트웨어 개발과정에서 발생할 수 있는 보안약점을 최소화 하여 안전한 소프트웨어를 개발하기 위한 시큐어 코딩(secure coding)과 입력 데이터 값(문자열)을 정규화 함으로써 크로스 사이트 스크립팅(XSS)의 공격을 사전에 예방할 수 있는 방법을 제시한다.