• Title/Summary/Keyword: speech parameter

검색결과 373건 처리시간 0.022초

GMM을 위한 점진적 ${\cal}k-means$ 알고리즘에 의해 초기값을 갖는 EM알고리즘과 화자식별에의 적용 (EM Algorithm with Initialization Based on Incremental ${\cal}k-means$ for GMM and Its Application to Speaker Identification)

  • 서창우;한헌수;이기용;이윤정
    • 한국음향학회지
    • /
    • 제24권3호
    • /
    • pp.141-149
    • /
    • 2005
  • 개개인의 음성을 이용한 화자식별에서, 화자 모델을 추정하는데 가우시안 혼합모델이 주로 사용된다. 최대 우도 추정을 갖는 가우시안 혼합모델의 파라미터 추정은 Expectation-Maximisation (EM)을 사용하여 얻을 수 있다. 그러나, EM 알고리즘은 초기값에 상당히 민감하고, 혼합성분의 개수를 미리 알고 있어야 하는 단점이 있다. 본 논문에서는, EM 알고리즘의 문제점을 해결하기 위하여 가우시안 혼합모델을 위한 점진적 ${\cal}k-means$ 알고리즘에 의한 초기값을 갖는 EM 알고리즘을 제안한다. 제안된 방법은 혼합성분의 개수를 점진적 ${\cal}k-means$ 방법을 이용하여 한번에 하나씩 혼합성분을 추정하여 최적의 혼합성분이 얻어 질 때까지 이를 반복 수행한다. 하나의 혼합성분이 추가될 때마다, 새로 얻어진 혼합성분과 이전에 구한 혼합성분들간의 상호 관계를 각각 측정한다. 이로부터, 통계적으로 독립인 최적의 혼합성분 개수를 추정할 수 있다. 제안된 방법의 성능을 확인하기 위하여 임의의 생성 데이터와 실제 음성을 사용하였다. 실험 결과에서, 제안된 방법이 기존의 방법보다 화자 식별 성능이 우수하였으며, 또한 성능을 유지하면서도 계산량 감소의 효과까지 볼 수 있었다.

실내공간의 부분적 개방에 따른 음향특성변화 II -확산음장과 자유음장의 수직적 결합을 중심으로- (Acoustic Characteristics of Sound Field in Partially Opened Rooms -Emphasis on Vertical Coupling of Diffuse and Free Field-)

  • 정대업;최영지
    • 한국공간구조학회논문집
    • /
    • 제7권5호
    • /
    • pp.75-82
    • /
    • 2007
  • 본 연구는 지붕개폐형 구조물에서 지붕을 개폐함으로써 나타나는 음장의 특성변화를 파악하기 위하여 1/20스케일의 축소모형을 제작하고 이를 대상으로 개폐율을 조절하면서 음장변화를 측정 분석하였다. 공간의 음향설계 시 사용되는 기존의 설계 및 평가파라메타들을 검토한 결과, 잔향음의 감쇠과정이 비선형적이며 기존의 잔향감 평가파라메타인 잔향시간에 의해서 적절한 설계 및 성능평가가 이루어지기 어려울 것으로 분석되었다. 특히 비선형적 감쇠구간에 대한 선형적 curve-fitting에 의해 실제 청감과는 거리가 먼 매우 긴 잔향시간이 도출되어 실질적인 효용성이 의심된다. 따라서 잔향시간(T30)을 음향설계 및 평가과정에서 중요설계변수로 활용 시 완공 후 얻게 되는 음장특성과 상이한 결과를 초래할 가능성이 있다. EDT의 경우 전체적으로 초기감쇠시간은 개폐율이 증가할수록 짧아지는 경향을 나타내었다. 주파수별로 저주파수대역에서의 감쇠율이 가장 높게 나타났으며 고주파수 대역으로 갈수록 감쇠율은 둔화되는 것으로 평가되었다. 명료도 관련 파라메타인 D50 또한 개폐에 따른 음장의 변화를 효과적으로 나타내고 있는 것으로 분석되었다. 객석부위별로는 지붕개폐면에 직접 노출되지 않는 객석에서 개폐율 증가에 따라 선형적인 감쇠현상이 나타나고 있으나, 직접 노출되는 객석의 경우에는 40%이상의 개폐율에서는 명료도와 잔향감에 영향을 거의 미치지 않는 것으로 나타났다.

  • PDF

3차원 모델을 이용한 입모양 인식 알고리즘에 관한 연구 (A study on the lip shape recognition algorithm using 3-D Model)

  • 배철수
    • 한국정보통신학회논문지
    • /
    • 제3권1호
    • /
    • pp.59-68
    • /
    • 1999
  • 최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 높은 입모양 인식을 일반 퍼스널 컴퓨터상에서 구현하고자 한다. 본 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 입모양 인식을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형상 모델을 입력 동영상에 정합시키고 정합된 3차원 형상 모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의하여 이루어지고, 인식은 각각의 3차원 특징벡터를 이산 HMM 인식기의 인식 파라메타로 사용하였다. 본 논문에서는 한국어 10개 모음에 대하여 인식실험하여 비교적 높은 인식율을 얻을 수 있는 것으로 보아 본 연구에서 사용한 특징 벡터를 시간적 변별 요소로서 사용할 수 있음을 제시하였다.

  • PDF