• 제목/요약/키워드: Mixture of Gaussian

검색결과 505건 처리시간 0.025초

확률적 방법을 이용한 음성 개성 변환 (Voice Personality Transformation Using a Probabilistic Method)

  • 이기승
    • 한국음향학회지
    • /
    • 제24권3호
    • /
    • pp.150-159
    • /
    • 2005
  • 본 논문에서는 임의의 음성을 특정 화자가 발성한 것처럼 들리도록 변환하는 음성 개성 변환 알고리즘에 대해 연구하였다. 제안된 기법은 화자의 음성을 LPC 켑스트럼, 피치, 발성 속도를 사용하여 표현하였으며 각각에 대한 변환 규칙을 생성하여 변환을 수행하였다. LPC 켑스트럼은 혼합 가우시안 모델을 이용한 확률적으로 모델링하고, 두 화자간의 대응관계를 조건 확률로 나타내었다. 확률적인 모델링에 필요한 각종 파라메터들을 얻기 위해 최대 가능도 기법이 사용되었으며, 변환 LPC 켑스트럼은 최소 자승 오차 방법에 근거하여 얻어지도록 하였다. 운율 변환을 위한 변수로 본 논문에서는 피치와 발성 속도를 사용하였으며, 두 음성간의 평균값 비율을 사용하여 운율 변환을 수행하였다. 제안된 기법은 기존 벡터 양자화 기반의 기법과 비교에서, 객관적인 척도로 사용한 평균 켑스트럼 거리 감소율, 가능도 증가율 면에서 우수한 성능을 나타내었다. 주관적인 테스트에서도 기존의 방법과 유사한 인식율을 얻었으며 특히 완만하게 변화하는 스펙트럼 궤적에 따른 고음질이 얻어짐을 확인할 수 있었다.

RAGMD를 이용한 클러스터 기반의 영상 검색 기법 (Cluster-based Image Retrieval Method Using RAGMD)

  • 정성환;이우선
    • 정보처리학회논문지B
    • /
    • 제9B권1호
    • /
    • pp.113-118
    • /
    • 2002
  • 본 논문에서는 클러스터 기반의 영상 검색 기법을 제시한다. 이 기법은 클러스터링 기법인 RAGMD를 이용하여 유사한 영상들을 클러스터로 분류한 후, 관련 클러스터로부터 영상을 검색하는 방법이다. 영상 검색시에 먼저, 전체 영상 데이터베이스를 차례대로 일일이 검색하는 것이 아니라, 질의 영상과 유사한 클러스터인 유사 영상 소집단에서 검색한다. 그러므로 이 방법은 직접 검색(Exhaustive Retrieval)과 거의 같은 검색 정밀도(Precision)를 유지하면서 검색 시간을 단축할 수 있다. 약 2,400개의 실제 영상들로 구성된 영상 데이터베이스를 사용한 실험에서, 제안된 검색 방법이 직접 검색과 거의 같은 정밀도를 유지하면서 약 18배의 빠른 검색 시간을 보였으며, 질의 영상과 같은 클래스에 속한 유사한 영상들을 더 많이 검색하는 것으로 나타났다.

드론기반 초분광영상과 다분광영상을 활용한 수심산정 비교 (Comparison of drone-based hyperspectral and multispectral imagery for bathymetry mapping)

  • 권영화;김동수;권시윤;유호준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.54-54
    • /
    • 2023
  • 하천유역조사는 관련 법률의 규정에 의해 물관리정책의 수립에 필요한 기초정보를 제공하는 것을 목적으로 기본현황, 이수, 치수 환경생태 등 유역관리에 필요한 주요 조사항목을 대상으로 수행되고 있다. 조사방법 중 원격탐사자료 활용한 조사는 드론 모니터링 영상 및 위성영상자료를 이용해 댐·제방과 같은 치수 시설물의 안전관리, 수질 모니터링, 하천지형조사, 하상변동조사 등에 활용되고 있다. 최근에는 일반 RGB 영상뿐만 아니라 수백개의 분광밴드를 포함한 초분광영상을 이용한 하천조사 연구가 이루어지고 있다. 초분광영상은 분광해상도가 높아 다항목 조사에 활용할 수 있다는 장점이 있지만, 많은 양의 분광정보를 포함하고 있기 때문에 초기 수집 자료의 용량이 너무 크고, 분석을 위한 전처리 과정이 까다롭다는 단점이 있다. 반면, 10개 이하 밴드의 분광정보를 수집하는 다분광영상은 2개 밴드를 이용해 정규식생지수(NDVI)를 즉각적으로 모니터링할 수 있고, 작물의 생육현황 등을 분석할 수 있어 농업 및 산림분야에서 널리 활용되고 있다. 초분광영상을 이용한 수심산정 연구는 최적 밴드비 탐색 기법(OBRA)을 활용해 측정수심과 상관관계가 높은 밴드비를 이용해 수심맵을 구축하는 방식이 활용되어왔다. 본 연구에서는 기존의 초분광영상을 활용한 수심산정기법을 다분광영상에 적용하여 분광밴드수가 축소된(경량화된) 자료를 활용한 수심산정 가능성을 확인하기 위해 동일한 현장에서 초분광과 다분광 두가지 영상을 촬영하였으며, 각각 수심맵을 구축해 하천분야에서 다분광영상의 활용도를 평가하였다. 또한, 기존의 OBRA의 한계를 개선하기 위해 가우시안 혼합 모델(GMM; Gaussian Mixture Model)을 활용해 영상을 군집화하여 수심산정 정확도를 개선하였다.

  • PDF

드론기반 초분광 영상을 활용한 하천 합류부 부유사 혼합 분석 (Analysis of suspended sediment mixing in a river confluence using UAV-based hyperspectral imagery)

  • 권시윤;서일원;류시완
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.89-89
    • /
    • 2022
  • 하천 합류부에 지천이 유입되는 경우 복잡한 3차원적 흐름 구조를 발생시키고 이로 인해 유사혼합 및 지형 변화가 활발히 발생하게 된다. 특히, 하천 합류부에서 부유사 거동은 하천의 세굴과퇴적, 하천 지형 변화, 하천 생태계, 하천구조물 안정성 등에 직접적으로 영향을 미치기 때문에 이에 대한 정확한 분석이 하천 관리 및 재해 예방에 필수적인 요소이다. 기존의 하천 합류부 부유사 계측 자료들은 재래식 채취 방식으로 수행되어 시공간적 해상도가 매우 낮아서 실측 자료만으로 합류부에서 부유사 혼합을 분석하기에는 한계가 존재하기에 대하천의 부유사 혼합 거동 해석에 수치모형이 주로 활용되어 왔다. 본 연구에서는 하천 합류부에서 부유사 거동을 공간적으로 정밀하게 분석하기 위해 드론 기반초분광 영상을 활용하여 하천 합류부에 최적화된 부유사 계측 방법론을 제시하였다. 현장에서 계측한 초분광 자료와 부유사 농도간의 관계를 구축하기 위하여 기계학습모형인 랜덤포레스트(Random Forest) 회귀 모형과 합류부에서 분광 특성이 다른 두 하천의 특성을 정확하게 반영하기 위한 가우시안 혼합 모형 (Gaussian Mixture Model) 기반 초분광 군집화 기법을 결합하였다. 본 연구에서 구축한 방법론을 낙동강과 황강의 합류부에 적용한 결과, 초분광 군집을 통해 두하천 흐름의 경계층을 명확히 구별하였으며, 이를 바탕으로 지류와 본류에 대해 각각 분리된 회귀 모형을 구축하여 복잡한 합류부 근역 경계층에서의 부유사 거동을 보다 정확하게 재현하였다. 또한 나아가서 재현된 고해상도의 부유사 공간분포를 바탕으로 경계층에서 강한 두 흐름이 혼합되어 발생한 와류(Wake)가 부유사 혼합에 미치는 영향을 규명하였고, 하천 합류부에서 발생하는 전단층의 수평방향 대규모 와류가 부유사 혼합 양상에 지배적 영향을 미치는 것으로 확인하였다.

  • PDF

Analytical Methods of Levoglucosan, a Tracer for Cellulose in Biomass Burning, by Four Different Techniques

  • Bae, Min-Suk;Lee, Ji-Yi;Kim, Yong-Pyo;Oak, Min-Ho;Shin, Ju-Seon;Lee, Kwang-Yul;Lee, Hyun-Hee;Lee, Sun-Young;Kim, Young-Joon
    • Asian Journal of Atmospheric Environment
    • /
    • 제6권1호
    • /
    • pp.53-66
    • /
    • 2012
  • A comparison of analytical approaches for Levoglucosan ($C_6H_{10}O_5$, commonly formed from the pyrolysis of carbohydrates such as cellulose) and used for a molecular marker in biomass burning is made between the four different analytical systems. 1) Spectrothermography technique as the evaluation of thermograms of carbon using Elemental Carbon & Organic Carbon Analyzer, 2) mass spectrometry technique using Gas Chromatography/mass spectrometer (GC/MS), 3) Aerosol Mass Spectrometer (AMS) for the identification of the particle size distribution and chemical composition, and 4) two dimensional Gas Chromatography with Time of Flight mass spectrometry (GC${\times}$GC-TOFMS) for defining the signature of Levoglucosan in terms of chemical analytical process. First, a Spectrothermography, which is defined as the graphical representation of the carbon, can be measured as a function of temperature during the thermal separation process and spectrothermographic analysis. GC/MS can detect mass fragment ions of Levoglucosan characterized by its base peak at m/z 60, 73 in mass fragment-grams by methylation and m/z 217, 204 by trimethylsilylderivatives (TMS-derivatives). AMS can be used to analyze the base peak at m/z 60.021, 73.029 in mass fragment-grams with a multiple-peak Gaussian curve fit algorithm. In the analysis of TMS derivatives by GC${\times}$GC-TOFMS, it can detect m/z 73 as the base ion for the identification of Levoglucosan. It can also observe m/z 217 and 204 with existence of m/z 333. Although the ratios of m/z 217 and m/z 204 to the base ion (m/z 73) in the mass spectrum of GC${\times}$GC-TOFMS lower than those of GC/MS, Levoglucosan can be separated and characterized from D (-) +Ribose in the mixture of sugar compounds. At last, the environmental significance of Levoglucosan will be discussed with respect to the health effect to offer important opportunities for clinical and potential epidemiological research for reducing incidence of cardiovascular and respiratory diseases.

켑스트럼 파라미터를 이용한 후두암 검진 (Laryngeal Cancer Screening using Cepstral Parameters)

  • 이원범;전경명;권순복;전계록;김수미;김형순;양병곤;조철우;왕수건
    • 대한후두음성언어의학회지
    • /
    • 제14권2호
    • /
    • pp.110-116
    • /
    • 2003
  • Background and Objectives : Laryngeal cancer discrimination using voice signals is a non-invasive method that can carry out the examination rapidly and simply without giving discomfort to the patients. n appropriate analysis parameters and classifiers are developed, this method can be used effectively in various applications including telemedicine. This study examines voice analysis parameters used for laryngeal disease discrimination to help discriminate laryngeal diseases by voice signal analysis. The study also estimates the laryngeal cancer discrimination activity of the Gaussian mixture model (GMM) classifier based on the statistical modelling of voice analysis parameters. Materials and Methods : The Multi-dimensional voice program (MDVP) parameters, which have been widely used for the analysis of laryngeal cancer voice, sometimes fail to analyze the voice of a laryngeal cancer patient whose cycle is seriously damaged. Accordingly, it is necessary to develop a new method that enables an analysis of high reliability for the voice signals that cannot be analyzed by the MDVP. To conduct the experiments of laryngeal cancer discrimination, the authors used three types of voices collected at the Department of Otorhinorlaryngology, Pusan National University Hospital. 50 normal males voice data, 50 voices of males with benign laryngeal diseases and 105 voices of males laryngeal cancer. In addition, the experiment also included 11 voices data of males with laryngeal cancer that cannot be analyzed by the MDVP, Only monosyllabic vowel /a/ was used as voice data. Since there were only 11 voices of laryngeal cancer patients that cannot be analyzed by the MDVP, those voices were used only for discrimination. This study examined the linear predictive cepstral coefficients (LPCC) and the met-frequency cepstral coefficients (MFCC) that are the two major cepstrum analysis methods in the area of acoustic recognition. Results : The results showed that this met frequency scaling process was effective in acoustic recognition but not useful for laryngeal cancer discrimination. Accordingly, the linear frequency cepstral coefficients (LFCC) that excluded the met frequency scaling from the MFCC was introduced. The LFCC showed more excellent discrimination activity rather than the MFCC in predictability of laryngeal cancer. Conclusion : In conclusion, the parameters applied in this study could discriminate accurately even the terminal laryngeal cancer whose periodicity is disturbed. Also it is thought that future studies on various classification algorithms and parameters representing pathophysiology of vocal cords will make it possible to discriminate benign laryngeal diseases as well, in addition to laryngeal cancer.

  • PDF

화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델 (RPCA-GMM for Speaker Identification)

  • 이윤정;서창우;강상기;이기용
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.519-527
    • /
    • 2003
  • 음성신호는 주변 잡음과 화자의 발성 패턴 변화, 음성 검출 오류에서 생기는 이상치(outlier)에 많은 영향을 받고 있다. 이러한 음성 신호를 이용하여 화자인식에 이용할 경우 인식률이 저하된다. 본 논문에서는 화자식별 (speaker identification)에서 학습 특징 벡터의 이상치와 고차원 문제를 해결하기 위하여 M-추정을 이용한 강인한 주성분 분석 가우시안 혼합모델 (Robust Principal Component Analysis-Gaussian Mixture Model)방법을 제안하였다. 제안된 방법은 먼저, 특징 벡터에 이상치가 존재할 경우 M-추정에 의하여 강인한 공분산 행렬을 재추정하여 얻어진 고유벡터로부터 변환 행렬을 구하여 감소된 차원을 갖는 새로운 특징벡터를 구한다. 여기에서 얻은 선형변환된 특징벡터로부터 화자의 가우시안 혼합 모델을 구한다. 제안된 방법의 성능을 검증하기 위하여 화자식별 실험을 하였다. 실험은 전형적인 가우시안 혼합 모델 방법과 주성분 분석법, 제안된 방법을 비교 분석하였다. 이상치가 2%씩 증가할 때마다 가우시안 혼합모델 방법과 주성분 분석법은 각각 0.65%, 0.55%씩 화자식별 성능이 저하되었지만, 제안된 방법은 0.03%정도 감소하였으므로 이상치에 더욱 강인함을 알 수 있다.

X-means 확장을 통한 효율적인 집단 개수의 결정 (Extensions of X-means with Efficient Learning the Number of Clusters)

  • 허경용;우영운
    • 한국정보통신학회논문지
    • /
    • 제12권4호
    • /
    • pp.772-780
    • /
    • 2008
  • K-means는 알고리즘의 단순함과 효율적인 구현이 가능함으로 인해 군집화를 위해 현재까지 널리 사용되는 방법 중 하나이다. 하지만 K-means는 집단의 개수가 사전에 결정되어야 하는 근본적인 문제점이 있다. 이 논문에서는 BIC(Bayesian information criterion) 점수를 이용하여 효율적으로 집단의 개수를 추정할 수 있는 X-means 알고리즘을 확장한 두 가지 알고리즘을 제안한다. 제안한 방법은 기본적으로 X-means 방법을 따르면서 집단이 임의의 분산 행렬을 가질 수 있도록 함으로써 X-means 알고리즘이 원형 집단만을 허용함에 따른 over-fitting을 개선한다. 제안한 방법은 하나의 집단에서 시작하여 계속해서 집단을 나누어가는 하향식 방법으로, BIC score를 최대로 증가시키는 집단을 분할해 나간다. 제안한 알고리즘은 Modified X-means(MX-means)와 Generalized X-means(GX-means)의 두 가지로, 전자는 K-means 알고리즘을, 후자는 EM 알고리즘을 사용하여 현재 주어진 집단들에서 최적의 분할을 찾아낸다. MX-means는 GX-means보다 그 속도에서 앞서지만 집단들이 중첩 된 경우에는 올바른 집단을 찾아낼 수 없는 단점이 있다. GX-means는 실행 속도가 느린 단점이 있지만 집단들이 중첩된 경우에도 안정적으로 집단들을 찾아낼 수 있다. 이러한 점들은 일련의 실험을 통해서 확인할 수 있으며, 제안한 방법들이 기존의 방법들에 비해 나은 성능을 보임을 확인할 수 있다.

Mean Shift 알고리즘 기반의 히스토그램 근사화를 이용한 피부 영역 검출 (Skin Region Detection Using Histogram Approximation Based Mean Shift Algorithm)

  • 변기원;주재흠;남기곤
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.21-29
    • /
    • 2011
  • 사전에 정의된 피부 색상 정보를 이용한 기존 피부 검출 방법들은 배경과 피부 영역을 분할하는 단계에서 사용되는 임계값을 실험을 통하여 주관적 관점에서 결정하였다. 또한 기존 방법들은 배경 환경과 조명 환경에 따라 각각 다른 임계값을 설정하였다. 이러한 기존 방법들은 반복 실험을 통하여 추정된 임계값에 따라 성능이 좌우되는 단점이 제시되었다. 제시된 기존 방법들의 단점을 극복하기 위하여 본 논문은 mean shift 알고리즘 기반의 히스토그램 근사화를 이용한 피부 영역 검출 방법을 제안한다. 제안하는 방법은 CbCr 컬러공간에서의 표준 피부색상과 유사도를 비교하여 생성된 입력 영상의 피부맵(skin-map)의 히스토그램에서 mean shift 방법을 이용하여 각각 밝기 영역별로 수렴하는 극대점을 능동적으로 찾아서 배경 영역과 피부영역으로 분할한다. 히스토그램은 픽셀의 명도값에 따라 누적되는 불연속 함수의 형태를 가지므로 베이지 곡선(Bezier curve) 기법을 이용하여 연속 가우시안 함수로 근사화된다. 따라서 제안하는 방법은 기존 방법에서처럼 수동적으로 임계값을 설정하는 방법을 사용하지 않고 mean shift 기법을 이용하여 능동적으로 영역 분할점인 극대점을 찾아서 피부 영역을 검출한다. 제안된 방법은 실험을 통하여 강인하고 효율적으로 피부 영역을 검출하였다.

주파수 변이를 이용한 Parallel Model Combination 모델 적응에 기반한 잡음에 강한 음성인식 (Noise Robust Speech Recognition Based on Parallel Model Combination Adaptation Using Frequency-Variant)

  • 최숙남;정현열
    • 한국음향학회지
    • /
    • 제32권3호
    • /
    • pp.252-261
    • /
    • 2013
  • 일반적인 음성인식 시스템은 조용한 인식 환경에서는 높은 인식성능을 나타내지만 잡음이 존재하는 실제 환경에서는 그 성능이 급격히 저하한다. 본 논문에서는 다양한 잡음환경에서도 강인한 음성인식기를 구현하기 위하여, 주파수의 변이도를 이용하여 음성인식을 위한 환경 정보를 얻고 이를 음성 인식을 위한 모델 개선에 적용하여 성능향상을 도모하는 환경정보 지식에 기반한 주파수 변이 적응 PMC (Parallel Model Combination adaptation using frequency-variant based on environment - awareness : FV-PMC) 방법을 제안한다. 이 방법은 미리 분류된 각 잡음 군간의 평균 주파수 변이도를 미리 계산하여 임계치로 설정하고 미지의 잡음이 포함된 음성이 입력되면 각 잡음 군과의 주파수 변이도를 다시 계산하여 해당 잡음군의 임계치 보다 높을 경우 그 잡음 군의 잡음이 포함된 음성으로 간주하여 이 잡음 군이 포함된 음성을 이용하여 생성된 인식모델을 이용하여 음성인식을 수행한다. 제안한 FV-PMC 방법을 이용하여 잡음을 분류 하였을 경우 평균 분류 정확도는 56%를 보였고 이를 이용해 음성인식 실험을 실시한 결과 Set A의 평균인식률은 79.05%, Set B의 평균인식률은 79.43%, Set C의 평균인식률은 83.37%로 나타났다. 전체 평균인식률 80.62%로 기존의 깨끗한 모델을 이용한 PMC 인식률 74.93% 보다 5.69% 향상된 결과를 보여 제안한 방법의 유효성을 확인할 수 있었다.