• 제목/요약/키워드: Outliers detection

검색결과 183건 처리시간 0.027초

화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델 (RPCA-GMM for Speaker Identification)

  • 이윤정;서창우;강상기;이기용
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.519-527
    • /
    • 2003
  • 음성신호는 주변 잡음과 화자의 발성 패턴 변화, 음성 검출 오류에서 생기는 이상치(outlier)에 많은 영향을 받고 있다. 이러한 음성 신호를 이용하여 화자인식에 이용할 경우 인식률이 저하된다. 본 논문에서는 화자식별 (speaker identification)에서 학습 특징 벡터의 이상치와 고차원 문제를 해결하기 위하여 M-추정을 이용한 강인한 주성분 분석 가우시안 혼합모델 (Robust Principal Component Analysis-Gaussian Mixture Model)방법을 제안하였다. 제안된 방법은 먼저, 특징 벡터에 이상치가 존재할 경우 M-추정에 의하여 강인한 공분산 행렬을 재추정하여 얻어진 고유벡터로부터 변환 행렬을 구하여 감소된 차원을 갖는 새로운 특징벡터를 구한다. 여기에서 얻은 선형변환된 특징벡터로부터 화자의 가우시안 혼합 모델을 구한다. 제안된 방법의 성능을 검증하기 위하여 화자식별 실험을 하였다. 실험은 전형적인 가우시안 혼합 모델 방법과 주성분 분석법, 제안된 방법을 비교 분석하였다. 이상치가 2%씩 증가할 때마다 가우시안 혼합모델 방법과 주성분 분석법은 각각 0.65%, 0.55%씩 화자식별 성능이 저하되었지만, 제안된 방법은 0.03%정도 감소하였으므로 이상치에 더욱 강인함을 알 수 있다.

지능형 다짐값의 공간적 분포를 고려한 이상치 분석 기법 연구 (Study on Outlier Analysis Considering the Spatial Distribution of Intelligent Compaction Measurement Values)

  • 정택규;조진우;정충기;백성하
    • 한국지반공학회논문집
    • /
    • 제40권4호
    • /
    • pp.91-103
    • /
    • 2024
  • 본 연구에서는 전체 시공영역에 대해 연속적으로 도출되는 지능형 다짐값의 높은 변동성과 관련한 문제를 해결하기 위해서, 지능형 다짐값의 공간적 분포를 고려한 이상치 분석 기법을 제안하였다. 제안된 기법에서는 다짐횟수 증가에도 불구하고 특정 위치에서 측정된 CMV가 감소하는 경우를 1차적으로 선별하고, 유효반경 1.5m 내에서 측정된 값들과의 차이가 큰 값들을 이상치로 판별한다. 본 연구에서 제안된 이상치 분석 기법을 현장시험에서 측정된 CMV 데이터에 적용한 결과, 지반의 내재적 불균질성은 고려하면서 다짐 품질과 관계없는 다짐롤러 구동조건의 변화에 따른 영향만을 배제할 수 있는 것으로 나타났다. 이상치 제거 후 CMV의 변동계수는 21.4~26.3%로 산정되었으며 관련 기준(20%)에서 제시하고 있는 수치보다 크게 나타났다. 추후 제안된 이상치 분석 기법에 여러 현장시험 데이터를 적용하여 고도화하고 지능형 다짐값의 변동성에 대한 합리적인 기준을 제안해야 할 것으로 판단된다.

빅데이터 기반 미세먼지 이상 탐지 머신러닝 시스템 설계 및 구현 (Design and Implementation of Machine Learning System for Fine Dust Anomaly Detection based on Big Data)

  • 이재원;인치호
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.55-58
    • /
    • 2024
  • 본 논문은 빅데이터 기반 미세먼지 이상 탐지 머신러닝 시스템 설계 및 구현을 제안한다. 제안하는 시스템은 빅데이터로 구성된 미세먼지 및 기상 정보를 통해 미세먼지 대기환경지수를 분류하는 시스템이다. 이 시스템은 머신러닝 기반의 대기환경지수 분류 카테고리별 이상치에 따른 이상치 탐지 알고리즘 설계를 통해 미세먼지를 분류한다. 카메라에서 수집된 영상의 심도 데이터는 미세먼지 농도에 따른 영상을 수집한 후 미세먼지 가시마스크를 생성합니다. 그리고 모노 심도 추정 알고리즘을 통한 학습 기반 핑거프린팅 기법으로 모노스코프 카메라에서 수집된 미세먼지의 가시거리를 추론하여 미세먼지 농도를 도출합니다. 본 방법의 실험 및 분석을 위해 미세먼지 농도 데이터와 지역별, 시간별 CCTV 영상 데이터를 매칭하여 학습 데이터를 생성한 후 모델을 생성하여 실제 환경에서 테스트한다.

시계열 이상치 탐지 기법을 활용한 경부선 주요도시 철도 승객수의 이상치 탐색 연구 (A Study on the Outliers Detection in the Number of Railway Passengers for the Gyeongbu Line From Seoul to Major Cities Using a Time Series Outlier Detection Technique)

  • 이지선;윤윤진
    • 대한교통학회지
    • /
    • 제35권6호
    • /
    • pp.469-480
    • /
    • 2017
  • 2004년 4월 1일, 국내 최초의 고속철도(HSR)인 KTX (Korea Train eXpress)가 경부선에 도입 되었다. KTX의 등장은 경부선을 이용하는 철도 승객들의 운송수단 선택 및 도시구간별 이용객 수 변화를 가져왔다. KTX의 등장과 같은 개입사건(Intervention events)의 영향은 개입사건 전후 변화를 단순 통계량으로 분석하거나 개입 ARIMA 모델을 통해 분석 되었다. 개입 ARIMA 모델은 개입사건의 발생 시점(t)과 개입사건의 영향 형태(type) 등의 가정이 필요하다는 한계가 있었으며, 본 연구에서는 기존 연구에서의 한계점을 보완할 수 있는 시계열 이상치 탐지(time series outlier detection)를 활용하였다. 일반적으로 개입사건의 발생시기는 잘 알려져 있지 않으므로 시계열 이상치 탐지를 통해 개입사건에의 발생 시기를 추정할 수 있다. 시계열 이상치 탐지기법을 활용하여 개입의 시점과 영향 형태에 관한 가정 없이 개입사건에 대한 영향을 분석할 수 있으며, 발생된 이상치의 시점을 개입사건의 시점, 이상치의 영향을 개입사건의 영향으로 가정하였다. 데이터는 KTDB (Korea Transport Database)로 부터 KTX가 도입되기 이전인 2003년부터 2014년까지 12년 동안의 경부선(4개의 주요 도시구간 합산)을 포함한 주요 도시구간 4개의 월별데이터를 수집하여 활용하였다. 경부선 도시 구간별 이상치를 탐지 하고 그 영향을 분석한 결과, 동일한 개입사건 임에도 그 영향의 형태의 정도가 도시구간마다 다르게 나타나거나 영향이 나타나지 않았으며, 기존 연구에서 분석되지 않은 개입사건을 찾을 수 있었다.

Text Extraction from Complex Natural Images

  • Kumar, Manoj;Lee, Guee-Sang
    • International Journal of Contents
    • /
    • 제6권2호
    • /
    • pp.1-5
    • /
    • 2010
  • The rapid growth in communication technology has led to the development of effective ways of sharing ideas and information in the form of speech and images. Understanding this information has become an important research issue and drawn the attention of many researchers. Text in a digital image contains much important information regarding the scene. Detecting and extracting this text is a difficult task and has many challenging issues. The main challenges in extracting text from natural scene images are the variation in the font size, alignment of text, font colors, illumination changes, and reflections in the images. In this paper, we propose a connected component based method to automatically detect the text region in natural images. Since text regions in mages contain mostly repetitions of vertical strokes, we try to find a pattern of closely packed vertical edges. Once the group of edges is found, the neighboring vertical edges are connected to each other. Connected regions whose geometric features lie outside of the valid specifications are considered as outliers and eliminated. The proposed method is more effective than the existing methods for slanted or curved characters. The experimental results are given for the validation of our approach.

사전검수 영역기반 정합법을 활용한 영상좌표 상호등록 (Automated Image Co-registration Using Pre-qualified Area Based Matching Technique)

  • 김종홍;허준;손홍규
    • 한국측량학회:학술대회논문집
    • /
    • 한국측량학회 2006년도 춘계학술발표회 논문집
    • /
    • pp.181-185
    • /
    • 2006
  • Image co-registration is the process of overlaying two images of the same scene, one of which represents a reference image, while the other is geometrically transformed to the one. In order to improve efficiency and effectiveness of the co-registration approach, the author proposed a pre-qualified area matching algorithm which is composed of feature extraction with canny operator and area matching algorithm with cross correlation coefficient. For refining matching points, outlier detection using studentized residual was used and iteratively removes outliers at the level of three standard deviation. Throughout the pre-qualification and the refining processes, the computation time was significantly improved and the registration accuracy is enhanced. A prototype of the proposed algorithm was implemented and the performance test of 3 Landsat images of Korea showed: (1) average RMSE error of the approach was 0.436 Pixel (2) the average number of matching points was over 38,475 (3) the average processing time was 489 seconds per image with a regular workstation equipped with a 3 GHz Intel Pentium 4 CPU and 1 Gbytes Ram. The proposed approach achieved robustness, full automation, and time efficiency.

  • PDF

모서리 잡음 제거를 위한 Loop 필터링 기법 (Loop-Filtering for Reducing Comer outlier)

  • 홍윤표;전병우
    • 대한전자공학회논문지SP
    • /
    • 제41권5호
    • /
    • pp.217-223
    • /
    • 2004
  • 블록 기반의 손실 영상 압축 방식에서는 블록마다 다른 양자화 오류로 인하여 블록 경계를 따라 불연속성이 나타날 수 있다. 이러한 블록화 현상은 압축률이 높아질수록 심각하여 화질에 큰 영향을 미친다. 이러한 블록화 현상을 막기 위해 많은 알고리즘들이 제안되었다 그러나 블록화 현상에 대한 연구 중 모서리 잡음이라고 불리는 현상에 대한 연구가 미진하였다. 모서리 잡음은 블록 경계가 교차하는 지점에서 영상 경계가 불연속적으로 나타나게 되는 것을 말한다. 본 논문에서는 블록 기반영상 압축방식에서 발생하는 모서리 잡음의 발생과정과 특성을 분석하고 이 문제를 해결하기 위한 검출과 제거 알고리즘을 제안한다. 실험 결과는 제안 방법이 주관적 화질을 향상시키는 것을 보여준다.

Improving data reliability on oligonucleotide microarray

  • Yoon, Yeo-In;Lee, Young-Hak;Park, Jin-Hyun
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2004년도 The 3rd Annual Conference for The Korean Society for Bioinformatics Association of Asian Societies for Bioinformatics 2004 Symposium
    • /
    • pp.107-116
    • /
    • 2004
  • The advent of microarray technologies gives an opportunity to moni tor the expression of ten thousands of genes, simultaneously. Such microarray data can be deteriorated by experimental errors and image artifacts, which generate non-negligible outliers that are estimated by 15% of typical microarray data. Thus, it is an important issue to detect and correct the se faulty probes prior to high-level data analysis such as classification or clustering. In this paper, we propose a systematic procedure for the detection of faulty probes and its proper correction in Genechip array based on multivariate statistical approaches. Principal component analysis (PCA), one of the most widely used multivariate statistical approaches, has been applied to construct a statistical correlation model with 20 pairs of probes for each gene. And, the faulty probes are identified by inspecting the squared prediction error (SPE) of each probe from the PCA model. Then, the outlying probes are reconstructed by the iterative optimization approach minimizing SPE. We used the public data presented from the gene chip project of human fibroblast cell. Through the application study, the proposed approach showed good performance for probe correction without removing faulty probes, which may be desirable in the viewpoint of the maximum use of data information.

  • PDF

관측년수변화를 고려한 설계강우량 산정 (Estimation of Design Rainfall Considering the Change of the Number of Years for Observed Data)

  • 류경식;이순혁;황만하;이상진
    • 한국농공학회:학술대회논문집
    • /
    • 한국농공학회 2005년도 학술발표논문집
    • /
    • pp.284-287
    • /
    • 2005
  • The objective of this study is to check into variation trends of design rainfall according to change of the number of years for observed data. To make comparative study of the relation between design rainfall and recorded year, this study was used maximum rainfall for 24-hr consecutive duration at Gangneung, Seoul, Incheon, Chupungnyeong, Pohang, Daegu, Jeonju, Ulsan, Gwangju, Busan, Mokpo and Yeosu rainfall stations. The tests for Independence, Homogeneity and detection of outliers were used Wald-Wolfowitz's test, Mann-Whitney's test and Grubbs and Beck test respectively. To select appopriate distribution, the distribution of genaralized pareto(GPA), generalized extreme value(GEV), generalized logistic(GLO), lognormal and pearson type 3 distribution is judged by L-moment ratio diagram and Kolmogorov-Smirnov (K-S) test. Design rainfall was estimated by at-site frequency analysis using L-moments and Generalized extreme value(GEV) distribution according to change of the number of years for observed data. Through the comparative analysis for design rainfall induced by L-moments and GEV distribution, relationship between design rainfall and recorded year is provided.

  • PDF

Gamma 및 Generalized Gamma 분포 모형에 의한 적정 설계홍수량의 유도 (I) -Gamma 분포 모형을 중심으로- (Derivation of Optimal Design Flood by Gamma and Generalized Gamma Distribution Models(I) - On the Gamma Distribution Models -)

  • 이순혁;박명근;정연수;맹승진;류경식
    • 한국농공학회지
    • /
    • 제39권3호
    • /
    • pp.83-95
    • /
    • 1997
  • This study was conducted to derive optimal design floods by Gamma distribution models of the annual maximum series at eight watersheds along Geum , Yeong San and Seom Jin river Systems, Design floods obtained by different methods for evaluation of parameters and for plotting positions in the Gamma distribution models were compared by the relative mean errors and graphical fit along with 95% confidence interval plotted on Gamma probability paper. The results were analyzed and summarized as follows. 1.Adequacy for the analysis of flood flow data used in this study was confirmed by the tests of Independence, Homogeneity and detection of Outliers. 2.Basic statistics and parameters were calculated by Gamma distribution models using Methods of Moments and Maximum Likelihood. 3.It was found that design floods derived by the method of maximum likelihood and Hazen plotting position formular of two parameter Gamma distribution are much closer to those of the observed data in comparison with those obtained by other methods for parameters and for plotting positions from the viewpoint of relative mean errors. 4.Reliability of derived design floods by both maximum likelihood and method of moments with two parameter Gamma distribution was acknowledged within 95% confidence interval.

  • PDF