• 제목/요약/키워드: mixture of Gaussian model method

검색결과 262건 처리시간 0.022초

레벨셋 기반 꽃 분할을 위한 노이즈 제거 (Noise Removal for Level Set based Flower Segmentation)

  • 박상철;오강한;나인섭;김수형;양형정;이귀상
    • 스마트미디어저널
    • /
    • 제1권2호
    • /
    • pp.34-39
    • /
    • 2012
  • 본 연구에서는 노이즈를 제거하고 자연 영상에서 자동으로 꽃을 분할하는 후처리방법을 제시한다. 레벨 셋 알고리즘을 이용한 자연영상 꽃 분할에서는 레벨 셋이 에지 정보에만 의존하기 때문에 기대하지 않았던 분리된 노이즈들이 발생한다. 실험 결과는 제안 방법이 꽃 영역과 배경 영역의 많은 노이즈를 성공적으로 제거하였음을 보여준다.

  • PDF

화자인식을 위한 주파수 워핑 기반 특징 및 주파수-시간 특징 평가 (Evaluation of Frequency Warping Based Features and Spectro-Temporal Features for Speaker Recognition)

  • 최영호;반성민;김경화;김형순
    • 말소리와 음성과학
    • /
    • 제7권1호
    • /
    • pp.3-10
    • /
    • 2015
  • In this paper, different frequency scales in cepstral feature extraction are evaluated for the text-independent speaker recognition. To this end, mel-frequency cepstral coefficients (MFCCs), linear frequency cepstral coefficients (LFCCs), and bilinear warped frequency cepstral coefficients (BWFCCs) are applied to the speaker recognition experiment. In addition, the spectro-temporal features extracted by the cepstral-time matrix (CTM) are examined as an alternative to the delta and delta-delta features. Experiments on the NIST speaker recognition evaluation (SRE) 2004 task are carried out using the Gaussian mixture model-universal background model (GMM-UBM) method and the joint factor analysis (JFA) method, both based on the ALIZE 3.0 toolkit. Experimental results using both the methods show that BWFCC with appropriate warping factor yields better performance than MFCC and LFCC. It is also shown that the feature set including the spectro-temporal information based on the CTM outperforms the conventional feature set including the delta and delta-delta features.

공정 모니터링 기술의 최근 연구 동향 (Recent Research Trends of Process Monitoring Technology: State-of-the Art)

  • 유창규;최상욱;이인범
    • Korean Chemical Engineering Research
    • /
    • 제46권2호
    • /
    • pp.233-247
    • /
    • 2008
  • 공정 모니터링 기술은 공정 내에서 일어나는 예상치 못한 조업변화 및 이상을 조기에 감지하고 조업 이상에 영향을 끼친 근본 원인을 밝혀내어 제거해 줌으로써 공정의 안정적인 조업과 양질의 제품생산의 기반을 제공하여 준다. 데이터에 기반한 통계적 공정 모니터링 방법은 양질의 공정 데이터만 주어진다면 통계적 처리를 접목하여 비교적 쉽게 모니터링을 할 수 있고 공정의 데이터 분석에 이용할 수 있는 도구를 얻을 수 있다는 장점이 있다. 그러나 실제 공정에서는 비선형성, non-Gaussianity, 다중 운전모드, 공정상태변화로 인해 기존의 다변량 통계적 방법을 이용한 공정 모니터링 기법은 비효율적이거나, 공정 감시 성능의 저하, 종종 신뢰할 수 없는 결과를 야기한다. 이러한 경우 기존의 방법으로는 더이상 공정을 정확히 감시할 수 없기 때문에 최근에 많은 새로운 방법들이 개발 되었다. 본 총설에서는 이러한 단점을 보안하기 위해 최근 주목할 만한 연구결과인 공정 비선형성을 고려한 커널주성분분석(kernel principle component analysis) 모니터링 기법, 주성분분석 모델 조합을 이용한 다중모델(mixture model) 모니터링 기법, 공정 변화를 고려한 적응모델(adaptive model) 모니터링 기법, 그리고 센서 이상진단과 보정의 이론과 응용결과에 대하여 소개한다.

화자확인에서 특징벡터의 순시 정보와 선형 변환의 효과적인 적용 (Effective Combination of Temporal Information and Linear Transformation of Feature Vector in Speaker Verification)

  • 서창우;조미화;임영환;전성채
    • 말소리와 음성과학
    • /
    • 제1권4호
    • /
    • pp.127-132
    • /
    • 2009
  • The feature vectors which are used in conventional speaker recognition (SR) systems may have many correlations between their neighbors. To improve the performance of the SR, many researchers adopted linear transformation method like principal component analysis (PCA). In general, the linear transformation of the feature vectors is based on concatenated form of the static features and their dynamic features. However, the linear transformation which based on both the static features and their dynamic features is more complex than that based on the static features alone due to the high order of the features. To overcome these problems, we propose an efficient method that applies linear transformation and temporal information of the features to reduce complexity and improve the performance in speaker verification (SV). The proposed method first performs a linear transformation by PCA coefficients. The delta parameters for temporal information are then obtained from the transformed features. The proposed method only requires 1/4 in the size of the covariance matrix compared with adding the static and their dynamic features for PCA coefficients. Also, the delta parameters are extracted from the linearly transformed features after the reduction of dimension in the static features. Compared with the PCA and conventional methods in terms of equal error rate (EER) in SV, the proposed method shows better performance while requiring less storage space and complexity.

  • PDF

RGB 항공 영상을 이용한 하천 합류부 전단층 추출법 (Identification of shear layer at river confluence using (RGB) aerial imagery)

  • 노효섭;박용성
    • 한국수자원학회논문집
    • /
    • 제54권8호
    • /
    • pp.553-566
    • /
    • 2021
  • 하천 합류부는 두 개의 수체가 만나 전단층을 이루고 전단층을 따라 강한 혼합양상을 보이는 특징이 있다. 자연하천에서 합류하는 대비되는 두 하천의 색은 전단층을 따라 구분될 수 있는데, 이는 위성 또는 무인항공체를 이용해 촬영된 항공영상을 통해 쉽게 관측할 수 있다. 본 연구에서는 취득 비용이 저렴한 RGB 항공 영상을 이용해 합류부에서 발생하는 전단층을 추출하고 전단층 주변의 기하학적 특성을 정량적으로 산정하는 방법을 제시한다. 본 방법은 네 단계로 구분된다. 첫 번째로, 합류부 흐름에서 전단층 추출을 위해 가우시안 혼합 모형을 바탕으로 한 영상 분할을 수행하여 본류와 지류가 포함된 픽셀을 추출해낸다. 다음으로 추출된 하천 수역에 자기조직화지도를 적용해 하천의유선을 1차원 곡선으로 단순화한다. 추출된 수체 영역과 1차원 곡선들을 이용해 본류와 지류의 수역을 이미지상 직교좌표계에서 곡선좌표계로 투영한 뒤, 마지막으로 전단층의 기하학적 특성을 산정한다. 결과적으로 개발된 전단층 추출법을 경상남도의 낙동강과 남강의 합류부가 촬영된 위성 영상에 적용하여 자연하천 합류부의 기하학적 특성인 합류각, 합류하는 두 하천의 상하류 하천 폭, 전단층의 길이, 그리고 전단층의 최대 두께를 각각 정량적으로 추출하는 데에 성공하였다.

확률적 방법을 이용한 음성 개성 변환 (Voice Personality Transformation Using a Probabilistic Method)

  • 이기승
    • 한국음향학회지
    • /
    • 제24권3호
    • /
    • pp.150-159
    • /
    • 2005
  • 본 논문에서는 임의의 음성을 특정 화자가 발성한 것처럼 들리도록 변환하는 음성 개성 변환 알고리즘에 대해 연구하였다. 제안된 기법은 화자의 음성을 LPC 켑스트럼, 피치, 발성 속도를 사용하여 표현하였으며 각각에 대한 변환 규칙을 생성하여 변환을 수행하였다. LPC 켑스트럼은 혼합 가우시안 모델을 이용한 확률적으로 모델링하고, 두 화자간의 대응관계를 조건 확률로 나타내었다. 확률적인 모델링에 필요한 각종 파라메터들을 얻기 위해 최대 가능도 기법이 사용되었으며, 변환 LPC 켑스트럼은 최소 자승 오차 방법에 근거하여 얻어지도록 하였다. 운율 변환을 위한 변수로 본 논문에서는 피치와 발성 속도를 사용하였으며, 두 음성간의 평균값 비율을 사용하여 운율 변환을 수행하였다. 제안된 기법은 기존 벡터 양자화 기반의 기법과 비교에서, 객관적인 척도로 사용한 평균 켑스트럼 거리 감소율, 가능도 증가율 면에서 우수한 성능을 나타내었다. 주관적인 테스트에서도 기존의 방법과 유사한 인식율을 얻었으며 특히 완만하게 변화하는 스펙트럼 궤적에 따른 고음질이 얻어짐을 확인할 수 있었다.

효과적인 음성 인식 평가를 위한 심층 신경망 기반의 음성 인식 성능 지표 (Speech Recognition Accuracy Measure using Deep Neural Network for Effective Evaluation of Speech Recognition Performance)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2291-2297
    • /
    • 2017
  • 본 논문에서는 음성 데이터베이스를 평가하기 위해 여러 가지의 음성 특성 지표 추출 알고리즘을 설명하고 심층 신경망 기반의 새로운 음성 성능 지표 생성 방법을 제안한다. 선행 연구에서는 효과적인 음성 인식 성능 지표를 생성하기 위해 대표적인 음성 인식 성능 지표인 단어 오인식률(Word Error Rate, WER)과 상관도가 높은 여러 가지 음성 특성 지표들을 조합하여 새로운 성능 지표를 생성하였다. 생성된 음성 성능 지표는 다양한 잡음 환경에서 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 입증 하였다. 본 논문에서는 심층 신경망을 기반으로 한 음성 특성 지표 추출 방법에 대해 설명하며 선행 연구에서 조합에 사용한 GMM(Gaussian Mixture Model) 음향 모델 확률 값을 심층 신경망 학습을 통해 추출한 확률 값으로 대체해 조합함으로써 단어 오인식률과 보다 높은 상관도를 갖는 것을 확인한다.

휴대폰음성을 이용한 화자인증시스템에서 배경화자에 따른 성능변화에 관한 연구 (A Study on the Perlormance Variations of the Mobile Phone Speaker Verification System According to the Various Background Speaker Properties)

  • 최홍섭
    • 음성과학
    • /
    • 제12권3호
    • /
    • pp.105-114
    • /
    • 2005
  • It was verified that a speaker verification system improved its performances of EER by regularizing log likelihood ratio, using background speaker models. Recently the wireless mobile phones are becoming more dominant communication terminals than wired phones. So the need for building a speaker verification system on mobile phone is increasing abruptly. Therefore in this paper, we had some experiments to examine the performance of speaker verification based on mobile phone's voices. Especially we are focused on the performance variations in EER(Equal Error Rate) according to several background speaker's characteristics, such as selecting methods(MSC, MIX), number of background speakers, aging factor of speech database. For this, we constructed a speaker verification system that uses GMM(Gaussin Mixture Model) and found that the MIX method is generally superior to another method by about 1.0% EER. In aspect of number of background speakers, EER is decreasing in proportion to the background speakers populations. As the number is increasing as 6, 10 and 16, the EERs are recorded as 13.0%, 12.2%, and 11.6%. An unexpected results are happened in aging effects of the speech database on the performance. EERs are measured as 4%, 12% and 19% for each seasonally recorded databases from session 1 to session 3, respectively, where duration gap between sessions is set by 3 months. Although seasons speech database has 10 speakers and 10 sentences per each, which gives less statistical confidence to results, we confirmed that enrolled speaker models in speaker verification system should be regularly updated using the ongoing claimant's utterances.

  • PDF

인간과 로봇 협력작업을 위한 로봇 지능제어알고리즘 개발에 관한 연구 (A Study on Intelligent Control Algorithm Development for Cooperation Working of Human and Robot)

  • 이우송;정양근;박인만;정종교;김희진;김민성;한성현
    • 한국산업융합학회 논문집
    • /
    • 제20권4호
    • /
    • pp.285-297
    • /
    • 2017
  • This study proposed a new approach to develop an Intelligent control algorithm for cooperative working of human and robot based on voice recognition. In general case of speaker verification, Gaussian Mixture Model is used to model the feature vectors of reference speech signals. On the other hand, Dynamic Time Warping based template matching techniques were presented for the voice recognition about several years ago. We converge these two different concepts in a single method and then implement in a real time voice recognition enough to make reference model to satisfy 95% of recognition performance. In this paper it was illustrated the reliability of voice recognition by simulation and experiments for humanoid robot with 18 joints.

Skin Region Detection Using a Mean Shift Algorithm Based on the Histogram Approximation

  • Byun, Ki-Won;Nam, Ki-Gon;Ye, Soo-Young
    • Transactions on Electrical and Electronic Materials
    • /
    • 제13권1호
    • /
    • pp.10-15
    • /
    • 2012
  • In conventional, skin detection methods using for skin color definitions is based on prior knowledge. By experimentation, the threshold value for dividing the background from the skin region is determined subjectively. A drawback of such techniques is that their performance is dependent on a threshold value which is estimated from repeated experiments. To overcome this, the present paper introduces a skin region detection method. This method uses a histogram approximation based on the mean shift algorithm. This proposed method applies the mean shift procedure to a histogram of a skin map of the input image. It is generated by comparing with the standard skin colors in the $C_bC_r$ color space. It divides the background from the skin region by selecting the maximum value according to the brightness level. As the histogram has the form of a discontinuous function. It is accumulated according to the brightness values of the pixels. It is then, approximated by a Gaussian mixture model (GMM) using the Bezier curve technique. Thus, the proposed method detects the skin region using the mean shift procedure to determine a maximum value. Rather than using a manually selected threshold value, as in existing techniques this becomes the dividing point. Experiments confirm that the new procedure effectively detects the skin region.