• 제목/요약/키워드: 데이터 정규화

검색결과 469건 처리시간 0.027초

머신러닝을 위한 온톨로지 기반의 Raw Data 전처리 기법 (Pre-processing Method of Raw Data Based on Ontology for Machine Learning)

  • 황치곤;윤창표
    • 한국정보통신학회논문지
    • /
    • 제24권5호
    • /
    • pp.600-608
    • /
    • 2020
  • 머신러닝은 학습 데이터로부터 목적함수를 구성하고, 테스트 데이터를 통해 목적함수의 확인함으로써 발생하는 데이터에 대한 예측을 수행한다. 머신러닝에서 입력데이터는 전처리 과정을 통해 정규화 과정을 거친다. 이런 정규화는 입력데이터의 평균과 표준편차를 이용하여 표준화하거나, 수치 데이터가 아닌 nominal value는 one-hot 코드 형태로 변환하는 방식을 이용한다. 그러나 이 전처리 과정만으로 문제를 해결할 수 없다. 이러한 이유로 본 논문에서 입력데이터의 정규화를 위해 온톨로지를 이용하는 방법을 제안한다. 이를 위한 테스트 데이터는 모바일 기기로부터 수집된 와이파이 장치의 RSSI값을 이용하고, 수집된 데이터의 노이즈와 이질적 문제는 온톨로지를 이용하여 정제하는 방법을 제시한다.

분리된 고유공간을 이용한 잡음환경에 강인한 특징 정규화 기법 (Robust Feature Normalization Scheme Using Separated Eigenspace in Noisy Environments)

  • 이윤재;고한석
    • 한국음향학회지
    • /
    • 제24권4호
    • /
    • pp.210-216
    • /
    • 2005
  • 본 논문에서는 잡음에 강인한 음성인식을 위하여 고유공간에 기반을 둔 새로운 특징 정규화 기법을 제안한다. 일반적으로 평균과 분산의 정규화 (MVN)는 켑스트럼 상에서 수행된다. 그러나 최근에 고유공간을 이용한 MVN기법이 소개되었고, 그 고유공간 정규화 기법에서는 하나의 고유공간을 이용하였다. 이 과정에는 켑스트럼 상의 특징 벡터를 선형 주성분 분석 (PCA)행렬을 통하여 고유공간으로 변환시킨 후 MVN을 수행하는 과정이 포함된다. 이 방법에서는 전체 39차의 특징분포를 하나의 고유공간으로 표현하였다. 그러나 이 기법의 경우 전체 특징 분포를 표현함에 세밀함이 떨어지기 때문에 더욱 세밀한 분포의 표현을 위해 본 논문에서는 static 특징, 1차 미분 계수, 2차 미분계수에 각각 유일하고 독립적인 분리된 고유공간을 적용하는 것을 제안하였다. 또한 고유공간에서 정규화 된 훈련 데이터를 이용하여 모델을 만든다. 마지막으로 훈련 데이터의 분포와 잡음환경에서의 테스트 데이터의 분포 특성의 차이를 줄이기 위해 켑스트럼 상에서의 회전 기법을 적용시킨다. 그 결과, 기본적인 고유공간 정규화 기법보다 향상된 성능을 얻을 수 있었다.

JPEG Pleno 홀로그램 데이터의 정규화를 위한 양자화 (Quantization Method for Normalization of JPEG Pleno Hologram)

  • 김경진;김진겸;오관정;김진웅;김동욱;서영호
    • 방송공학회논문지
    • /
    • 제25권4호
    • /
    • pp.587-597
    • /
    • 2020
  • 본 논문에서는 디지털 홀로그램을 처리하는 과정에서 필수적으로 발생하는 양자화 과정에 대해 분석하고 최적화된 양자화기를 제안한다. 홀로그램의 압축 표준을 제정하고 있는 JPEG Pleno에서 full complex 홀로그램은 32비트 혹은 64비트의 정밀도를 갖는 복소수로 정의되고, 값의 범위는 홀로그램의 생성 방법 및 객체의 형태에 따라서 매우 다양하다. 이와 같은 높은 정밀도와 넓은 범위를 갖는 데이터는 신호 처리 및 압축 등의 이유로 인해 보다 낮은 정밀도를 갖는 고정소수점 데이터 혹은 정수형 데이터로 변환된다. 또한 다양한 신호처리 과정을 거친 홀로그램 데이터를 SLM에 재생하기 위해서는 SLM의 화소가 표현할 수 있는 값의 정밀도로 근사화된다. 이러한 과정은 양자화를 통한 정규화 과정이라 할 수 있다. 본 논문에서는 높은 정밀도와 넓은 범위의 홀로그램 데이터를 양자화 기법을 이용하여 정규화시키는 방법에 대해 소개하고 최적화된 방법을 제시한다.

상황인식 시스템을 적용한 홈 오토메이션 구현 (Implementation of Home Automation with Context Awareness System)

  • 김태현;신동규;신동일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (B)
    • /
    • pp.162-165
    • /
    • 2008
  • 상황은 실세계에 존재하는 실체의 상태를 특징화하여 요약한 정보로 정의될 수 있으며, 상황인식은 이러한 상황 정보의 상호 작용에 의하여 인간의 현재 상황을 특성화 할 수 있는 기술적 방법을 의미한다. 실세계의 상태를 표현하는 것은 정보의 표현 및 지식 표현과 관련되며, 상황인식 컴퓨팅은 이러한 지식 표현 방법에서 출발한다고 할 수 있다. 본 논문에서는 앞서 말한 상황인식 능력을 지향하는 시스템, 즉 지능형 홈 서비스를 제공하는 상황인식 컴퓨팅 시스템을 제안한다. 본 논문에서는 가정 내에 설치된 센서장치로부터 사용자 생체 신호 데이터와 환경 데이터를 획득하한 후에, 획득된 컨텍스트 데이터를 정규화하고, 정규화된 컨텍스트 데이터를 패턴인식 알고리즘을 통하여 처리한 후에 자동적으로 지능형 홈오토메이션 서비스를 제공하는 게이트웨이에 대한 설계에 대하여 서술한다.

  • PDF

상황인식 기능을 장착한 홈오토메이션 게이트웨이 설계 (Design of Home Automation Gateway with Context Awareness Functionality)

  • 김태현;김동현;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.54-57
    • /
    • 2008
  • 상황은 실세계에 존재하는 실체의 상태를 특징화하여 요약한 정보로 정의될 수 있으며, 상황인식은 이러한 상황 정보의 상호 작용에 의하여 인간의 현재 상황을 특성화 할 수 있는 기술적 방법을 의미한다. 실세계의 상태를 표현하는 것은 정보의 표현 및 지식 표현과 관련되며, 상황인식 컴퓨팅은 이러한 지식 표현 방법에서 출발한다고 할 수 있다. 본 논문에서는 앞서 말한 상황인식 능력을 지향하는 시스템, 즉 지능형 홈 서비스를 제공하는 상황인식 컴퓨팅 시스템을 제안한다. 본 논문에서는 가정 내에 설치된 센서장치로부터 사용자 생체 신호 데이터와 환경 데이터를 획득하한 후에, 획득된 컨텍스트 데이터를 정규화하고, 정규화된 컨텍스트 데이터를 패턴인식 알고리즘을 통하여 처리한 후에 자동적으로 지능형 홈오토메이션 서비스를 제공하는 게이트웨이에 대한 설계에 대하여 서술한다.

수치지형도를 이용한 DEM 자동 생성 기법의 개발 (Development of an Automatic Generation Methodology for Digital Elevation Models using a Two-Dimensional Digital Map)

  • 박찬수;이성규;서용철
    • 한국지리정보학회지
    • /
    • 제10권3호
    • /
    • pp.113-122
    • /
    • 2007
  • 최근 항공측량과 위성정보 기술의 급속한 발전은 방대한 지리정보 데이터의 신속한 취득을 가능케 하고 있다. 취득된 지리정보를 정확하게 표현하고 분석하기 위해서는 대용량 데이터를 실시간으로 시각화하는 기술을 필요로 하며, 실시간 시각화를 위해 LOD(Lovel of Detail) 알고리즘을 핵심 요소로 적용하고 있다. 본 연구는 다양한 지리정보 데이터 중 수치지형도에 포함된 등고선 데이터를 활용하여 정규화된 고도정보를 생성하는 방법으로써 TIN 생성기법을 적용하였고, 정규화 된 고도 정보를 생성하기 위해서 본 연구에서는 2단계의 작업으로 구분하여 생성하였다. 먼저 수치지형도를 활용하여 TIN 데이터를 생성하고, 생성된 TIN 데이터를 이용하여 정규화 된 고도정보를 생성하고자 하는 지역 크기의 2차원적 격자 배열을 생성하고, 격자 배열의 각 점과 생성된 불규칙 삼각망의 교차점을 구하여 정규화 된 고도정보를 생성할 수 있다. 본 연구에서는 각 단계 별로 제한된 딜로니 삼각분할(CDT, Constrained Delaunay Triangulation) 알고리즘과 생성된 TIN 데이터와 2차원적 격자 배열 각 점의 교차점을 구하기 위해 Ray-Triangle Intersection 알고리즘을 선택하였다. 또한, DirectX API 라이브러리, Quad-Tree LOD 알고리즘 그리고 프로그램 개발언어인 Microsoft Visual C++ 6.0을 이용하여 정규화된 고도정보를 3차원 지형 실시간 시각화를 통해 3차원 지형 시뮬레이션을 하였다.

  • PDF

장단기 메모리를 이용한 노인 낙상감지시스템의 정규화에 대한 연구 (Study of regularization of long short-term memory(LSTM) for fall detection system of the elderly)

  • 정승수;김남호;유윤섭
    • 한국정보통신학회논문지
    • /
    • 제25권11호
    • /
    • pp.1649-1654
    • /
    • 2021
  • 본 논문에서는 고령자의 낙상상황을 감지할 수 있는 텐서플로우 장단기 메모리 기반 낙상감지 시스템의 정규화에 대하여 소개한다. 낙상감지는 고령자의 몸에 부착한 3축 가속도 센서 데이터를 사용하며, 총 7가지의 행동 패턴들에 대하여 학습하며, 각각 4가지는 일상생활에서 일어나는 패턴이고, 나머지 3가지는 낙상에 대한 패턴이다. 학습시에는 손실함수(loss function)를 효과적으로 줄이기 위하여 정규화 과정을 진행하며, 정규화 과정은 데이터에 대하여 최대최소 정규화, 손실함수에 대하여 L2 정규화 과정을 진행한다. 3축 가속도 센서를 이용하여 구한 다양한 파라미터에 대하여 정규화 과정의 최적의 조건을 제시한다. 낙상 검출율면에서 SVM을 이용하고 정규화 127과 정규화율 λ 0.00015일 때 Sensitivity 98.4%, Specificity 94.8%, Accuracy 96.9%로 가장 좋은 모습을 보였다.

범죄 데이터의 전산처리를 위한 정규화 메트릭 설정 방안 (A Normalization Matrics for Computational Processing of Crime Dataset)

  • 임선영;박은영;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.932-933
    • /
    • 2015
  • 최근 데이터의 양이 급격하게 증가하면서 빅데이터의 시대가 도래했다. 빅데이터는 형식이 없는 비정형 데이터이므로 기존의 정형 데이터 처리 방법으로는 분석 및 데이터 처리가 불가능해졌다. 또한, 범죄예방에 대한 관심이 증가하면서, 범죄 데이터 분석의 수요가 증가하고 있다. 본 연구에서는 비정형 범죄 데이터를 분석, 예측 등의 전산처리를 하기 위한 정규화 메트릭을 설정하는 방안을 제안하고자 한다.

시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 (A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases)

  • 문양세;김진호;노웅기
    • 정보처리학회논문지D
    • /
    • 제13D권4호
    • /
    • pp.513-524
    • /
    • 2006
  • 정규화 변환은 시계열 시퀀스를 구성하는 엔트리들의 전체적인 패턴을 분석하는데 매우 유용하다. 본 논문에서는 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 방법을 제안한다. 기존의 정규화 변환 지원 서브시퀀스 매칭 방법은 다양한 길이의 질의 시퀀스를 지원하기 위하여 여러 개의 색인을 생성해야 하고, 이에 따라 색인 저장 공간의 오버헤드와 색인 관리의 오버헤드가 발생한다. 본 논문에서는 하나의 색인을 사용하면서도 다양한 길이의 질의 시퀀스에 대한 정규화 변환을 지원하는 효율적인 서브시퀀스 매칭 방법을 제안한다. 이를 위하여, 우선 정규화 변환을 일반화한 포함-정규화 변환(inclusion-normalization transform) 개념을 제시한다. 포함 정규화 변환이란 색인에 저장할 윈도우에 대해서 해당 윈도우를 포함하는 서브시퀀스의 평균과 표준편차로 정규화하는 것으로서, 기본적인 정규화 변환을 윈도우 및 서브시퀀스 개념을 사용하여 확장한 것이다. 다음으로, 포함-정규화 변환을 기존 서브시퀀스 매칭 연구에 적용하기 위한 이론적 근거를 정리로서 제시하고 증명한다. 그리고, 이 방안을 구현하기 위한 색인 구성 알고리즘 및 서브시퀀스 매칭 알고리즘을 각각 제시한다. 실제 주식 데이터에 대한 실험 결과, 제안한 방법은 기존 방법에 비해 최대 $2.5{\sim}2.8$배까지 성능을 향상 시킨 것으로 나타났다. 본 논문에서 제안한 정규화 변환 지원 서브시퀀스 매칭은 정규화 변환 이외의 다른 변환을 지원하는 서브시퀀스 매칭으로 일반화 될 수 있다. 따라서, 제안한 방법은 정규화 변환을 포함하는 많은 다른 종류의 변환을 지원하는 서브시퀀스 매칭에 폭넓게 적용될 수 있는 좋은 연구결과라 사료된다.

음성합성시 에너지 정규화가 음질에 미치는 영향 (Effect of Energy Normalization on the Quality of Synthetic Speech)

  • 정은석;최의선;이철희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.95-98
    • /
    • 1998
  • 본 논문에서는 코퍼스 기반 음성합성시 각 음성 세그머트의 에너지 정규화가 합성된 음성의 음질에 미치는 영향에 대하여 연구한다. 음성합성에 사용되는 음성 세그먼트를 실제 자연 음성 데이터로부터 추출된 것으로 다양한 발음세기를 가진다. 따라서 이들을 조합하여 만든 합성음성의 음질은 일반적으로 음량이 고르지 못하고 듣기에 부자연스럽다. 이러한 문제를 해결하기 위해 음성합성시 음성 세그먼트의 에너지를 정규화하는 방법을 제안하고 정규화방법으로 최대진폭 정규화방식을 사용하였다. 녹음환경이 비교적 일정한 코퍼스와 그렇지 않은 환경에서 녹음된 코퍼스를 사용하여 정규화 없이 합성한 음성의 음질과 정규화를 거쳐서 합성한 음성의 음질을 비교한다. 실험결과 음성 세그먼트의 에너지를 정규화한 경우 합성음성의 음질이 개선되었다.

  • PDF