• 제목/요약/키워드: 시스템 GMM

검색결과 129건 처리시간 0.025초

모바일 환경에서의 시각 음성인식을 위한 눈 정위 기반 입술 탐지에 대한 연구 (A Study on Lip Detection based on Eye Localization for Visual Speech Recognition in Mobile Environment)

  • 송민규;;김진영;황성택
    • 한국지능시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.478-484
    • /
    • 2009
  • 음성 인식 기술은 편리한 삶을 추구하는 요즘 추세에 HMI를 위해 매력적인 기술이다. 음성 인식기술에 대한 많은 연구가 진행되고 있으나 여전히 잡음 환경에서의 성능은 취약하다. 이를 해결하기 위해 요즘은 청각 정보 뿐 아니라 시각 정보를 이용하는 시각 음성인식에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 모바일 환경에서의 시각 음성인식을 위한 입술의 탐지 방법을 제안한다. 시각 음성인식을 위해서는 정확한 입술의 탐지가 필요하다. 우리는 입력 영상에서 입술에 비해 보다 찾기 쉬운 눈을 이용하여 눈의 위치를 먼저 탐지한 후 이 정보를 이용하여 대략적인 입술 영상을 구한다. 구해진 입술 영상에 K-means 집단화 알고리듬을 이용하여 영역을 분할하고 분할된 영역들 중 가장 큰 영역을 선택하여 입술의 양 끝점과 중심을 얻는다. 마지막으로, 실험을 통하여 제안된 기법의 성능을 확인하였다.

관심영역 추출과 통합에 의한 적외선 영상 분할 (Infrared Image Segmentation by Extracting and Merging Region of Interest)

  • 염석원
    • 한국지능시스템학회논문지
    • /
    • 제26권6호
    • /
    • pp.493-497
    • /
    • 2016
  • 적외선 영상은 야간에 표적의 탐지가 가능하여 보완과 감시분야에 활용도가 높다. 그러나 가시광선 영상에 비하여 해상도가 낮고 잡음의 영향이 크다는 단점이 있다. 본 논문에서는 적외선 영상의 표적을 분할하는 방법을 연구한다. 표적을 포함하는 다수의 관심영역(Region of Interest)을 다단계 분할 방법을 이용하여 추출하고 관심영역을 입력영상으로 다단계 분할방법을 다시 적용하여 표적을 분할한다. 다단계 분할 방법의 각 단계는 가우시안 혼합모델의 파라미터를 초기화 하고 추정하는 k-means 클러스터링(Clustering)과 EM(Expectation-Maximization) 알고리즘과 추정된 사후확률을 이용하여 각 화소의 클러스터를 결정하는 단계로 구성된다. 본 논문에서 추출된 관심영역을 선택하고 통합하는 방법을 제안한다. 관심영역의 통합은 근접한 모든 관심영역의 윈도우를 포함하도록 이루어진다. 실험에서는 야간의 보행자로부터 획득한 적외선 영상에 제안된 방법을 적용하고 다른 분할 방법과 비교하여 제안한 방법이 우수함을 보인다.

화자 검증 시스템을 위한 PCA 기반 MFDWC 특징 파라미터 (A PCA-based MFDWC Feature Parameter for Speaker Verification System)

  • 함성준;정호열;정현열
    • 한국음향학회지
    • /
    • 제25권1호
    • /
    • pp.36-42
    • /
    • 2006
  • 본 논문에서는 화자검증 시스템의 성능향상을 위해서 주성분 분석 (PCA) 기반 Mel-Frequency Discrete Wavelet Coefficients (MFDWC) 추출방법을 제안한다. 제안된 방법에서는 멜척도 (Mel-scale)를 근사화한 각 레벨 (level)의 각 노드 (node) 에너지를 계산하기 위해 기존의 평균치 대신 주성분 분석을 이용한 첫 번째 eigenvector를 이용한다. 이 eigenvecto.의 제곱의 합은 1로서 일반적인 가중 함수 (weighting function)의 조건을 만족하고, 또한 각 화자마다 서로 다른 값을 갖게 되므로, 화자의 특징을 더 잘 나타내는 MFDWC를 추출할 수 있다. 화자검증은 Gaussian Mixture Model (GMM) 기반의 백그라운드 모델과 화자 모델과의 점수를 비교하는 이진 결정 (binary decision) 방법을 이용하여 Universal 백그라운드 모델 (UBM)과 각 화자 모델의 값을 프레임단위로 비교하여 대상 화자의 수락/거부 여부를 결정하는 방법을 채택하였다. 특징 파라미터에 따른 화자 검증 성능변화를 확인하기 위하여 제안된 화자종속 가중함수를 이용한 MFDWC를 특징 파라미터로 이용한 경우와 Mel-Frequency Cepstral Coefficients (MFCC), Linear Predictive Cepstral Coefficients (LPCC), 기존의 MFDWC를 특징 파라미터로 이용한 경우에 대하여 성능비교실험을 수행한 결과 각각 $0.80\%,\;5.14\%,\; 6.69\%$의 향상된 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

서브밴드 가중치를 이용한 잡음에 강인한 화자검증 (Noise Rabust Speaker Verification Using Sub-Band Weighting)

  • 김성탁;지미경;김회린
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.279-284
    • /
    • 2009
  • 화자검증은 발성화자가 제시화자 (claimed speaker)인지 아닌지를 구별하는 것이다. 기존의 화자검증 시스템인 GMM-UBM 방식의 화자검증 시스템은 무잡음 환경에서는 높은 검증성능을 보이지만, 잡음환경에서는 성능이 급격히 떨어지는 단점이 있다. 이런 단점을 극복하기 위해 멀티밴드를 이용한 방법인 특징벡터 재결합방법이 제안되었지만, 특징벡터 재결합방법은 전체 서브밴드 특징벡터들을 사용하여 유사도를 계산하는 단점이 있다. 이런 단점을 극복하기 위해 기 발표된 이전 논문에서 각 서브밴드 유사도를 독립적으로 계산하는 변형된 특징벡터 재결합방법을 제안하였고, 본 논문에서는 변형된 특징벡터 재결합방법과 각 서브밴드들의 신뢰도를 나타내는 신호 대 잡음비를 이용한 가중치를 이용하여 잡음환경에서 기존의 특징벡터 재결합방법에 비해 에러를 28% 감소시켰다.

최대 빈도모델 탐색을 이용한 동물소리 인식용 소리모델생성 (Sound Model Generation using Most Frequent Model Search for Recognizing Animal Vocalization)

  • 고유정;김윤중
    • 한국정보전자통신기술학회논문지
    • /
    • 제10권1호
    • /
    • pp.85-94
    • /
    • 2017
  • 본 논문에서는 동물소리 인식시스템을 위하여 최대 빈도모델 탐색 알고리즘을 고안하고 이를 이용한 소리모델을 생성하는 방법을 제안하였다. 소리모델 생성 방법은 동물종의 소리 데이터로부터 학습과정, 비터비 탐색과정 및 최대 빈도모델 탐색과정을 반복하면서 HMM(Hidden Makcov Model)모델의 구조(상태의 수와 GMM의 수)를 탐색하여 최적의 인식률을 갖는 모델집합이 생성하는 방법이다. 최대 빈도모델 탐색 알고리즘은 입력 소리 데이터를 비터비(Viterbi) 알고리즘으로 탐색하여 모델리스트를 생성하고 이 리스트 중에서 최대 빈도수의 모델을 탐색하여 최종 인식결과로 결정하는 방법이다. 알고리즘에서 소리특징으로 MFCC(Mel Frequency Cepstral Coefficient), 모델형식으로 HMM을 이용하고 C# 프로그래밍언어로 구현 하였다. 알고리즘의 성능을 평가하기 위하여 27종의 동물소리를 선정하고 실험을 하였으며 27개의 HMM 모델집합이 97.29 퍼센트의 인식률로 생성됨을 확인하였다.

음성 특성 지표를 이용한 음성 인식 성능 예측 (Speech Recognition Accuracy Prediction Using Speech Quality Measure)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.471-476
    • /
    • 2016
  • 본 논문에서는 음성 특성 지표를 이용한 음성 인식 성능 예측 실험의 내용을 소개한다. 선행 실험에서 효과적인 음성 인식 성능 예측을 위해 대표적인 음성 인식 성능 지표인 단어 오인식률과 상관도가 높은 여러 가지 특성 지표들을 조합하여 새로운 성능 지표를 제안하였다. 제안한 지표는 각 음성 특성 지표를 단독으로 사용할 때 보다 단어 오인식률과 높은 상관도를 나타내 음성 인식 성능을 예측하는데 효과적임을 보였다. 본 실험에서는 이 결과를 근거하여 조합에 사용된 음성 특성 지표를 채택하여 4차원 특징 벡터를 생성하고 GMM 기반의 음성 인식 성능 예측기를 구축한다. 가우시안 요소를 증가시키며 실험한 결과 제안된 시스템은 babble 잡음, 자동차 잡음에서 모두 SNR이 낮을수록 단어 오인식률을 높은 확률로 예측함을 확인하였다.

베이지안 네트워크를 이용한 단기 교통정보 예측모델 (A Short-Term Traffic Information Prediction Model Using Bayesian Network)

  • 유영중;조미경
    • 한국정보통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.765-773
    • /
    • 2009
  • 최근의 텔레매틱스 교통정보제공서비스는 지능형 교통시스템의 구축을 통한 실시간 교통정보 수집이 가능해짐에 따라 다양해지고 있다. 본 논문에서는 고품질의 다양한 교통정보제공을 위해 필요한 미래시간에 대한 단기 교통정보 예측 모델을 제안하고 개발하였다. 단기 예측 모델은 현재로부터 가까운 미래의 교통 상황을 예측하기 위한 교통 모델로 본 연구에서 제안한 예측 모델은 각 도로에 대하여 5분 이후부터 1시간 이전까지의 미래시간에 대한 차량 평균 속도를 예측 결과로 준다. 본 연구에서 제안한 예측 모델은 베이지안 네트워크에 기반을 두고 있으며 각 도로의 미래시간 교통상황에 영향을 줄 수 있는 요인들을 분석하여 베이지안 네트워크의 원인노드로 설정하였다. 설계된 베이지안 네트워크에 대하여 실시간 교통정보데이터를 이용하여 가우시안 혼합 분포를 가정한 베이지안 네트워크의 결합 확률 밀도 함수를 EM(Expectation Maximization) 알고리즘으로 구하여 미래시간의 교통정보를 예측하였다. 예측 모델의 정확도 검증을 위해 실시간 교통데이터로 다양한 실험을 수행하였다. 실험결과 제안된 모델은 현재 시간으로부터 10분 이후, 30분 이후, 60분 이후 예측 오차로 각각 4.5, 4.8, 5.2의 RMSE(Root Mean Square Error) 값을 주었다.

MCE기반의 다중 특징 파라미터 스코어의 결합을 통한 화자인식 성능 향상 (Performance Improvement of Speaker Recognition by MCE-based Score Combination of Multiple Feature Parameters)

  • 강지훈;김보람;김규영;이상훈
    • 한국산학기술학회논문지
    • /
    • 제21권6호
    • /
    • pp.679-686
    • /
    • 2020
  • 본 논문에서는 화자인식 성능 향상을 위해 음원에서 개선된 특징추출 방식과 최소 분류 오차 기반의 다중 특징 벡터 스코어에 대한 가중치 추정을 사용하여 스코어 결합을 제안하였다. 제안한 특징 벡터는 Glottal Flow에서 무의미한 정보구간인 평탄한 스펙트럼 구간을 제거하기 위하여 저역통과 필터를 수행한 신호에서 인지적 선형 예측 캡스트럼 계수, 왜도, 첨도를 추출하여 구성하였다. 제안한 특징 벡터는 종래의 음원에서 멜-주파수 캡스트럼 계수, 인지적 선형 예측 캡스트럼 계수를 추출하여 가우시안 혼합 모델로 모델링한 화자인식 시스템을 개선하기 위해 사용된다. 또한, 스코어 추정과정의 신뢰성을 높이기 위하여 기존의 스코어의 확률 분포를 사용하여 가중치를 추정하는 대신 제안한 특징 벡터에서 평가된 점수와 종래의 특징 벡터에서 평가된 점수에 대하여 최소 분류 오차 기법으로 가중치를 추정하여 스코어를 결합함으로써 최적의 화자를 찾는다. 실험 결과 제안한 특징 벡터가 화자를 인식하는데 유효한 정보를 포함하고 있는 것을 확인하였다. 또한, 최소 분류 오차 기반의 다중 특징 파라미터 스코어를 결합하여 화자인식을 수행하였을 때, 종래의 화자인식 성능보다 더 우수한 성능을 나타내는 것을 확인할 수 있으며, 특히 가우시안 혼합 모델이 낮을 때 더 높은 성능향상을 보였다.

노동시장정책의 확대는 복지국가 재정위기 해소에 유효한가? - 소극적·적극적 노동시장정책의 상호작용 효과 (Is Increasing of Labor Market Policy Expenditure Effective Policy Tool to Lessen the Fiscal Crisis in Welfare State? : The Interaction between Active and Passive Labor Market Policy)

  • 배은총;고혜진;조효진
    • 한국사회정책
    • /
    • 제24권4호
    • /
    • pp.185-222
    • /
    • 2017
  • 본 연구는 복지국가의 재정건전성 담보에 노동시장정책 확충이 기여하는지를 실증적으로 규명하는 연구이다. 구체적인 분석은 20개 OECD 국가들의 1985년부터 2015년까지의 자료를 토대로 결합시계열 회귀분석과 Baron과 Kenny(1986)의 단계적 매개효과 검증을 통해 이루어졌으며, 분석의 강건성 확인을 위해 시스템 동적패널분석을 추가 수행하였다. 분석모형을 설정함에 있어 본 연구에서는 기존 연구에서 간과되어온 두 측면, 노동시장정책 성과들 간의 선후 관계와 노동시장정책의 상호작용 효과를 반영하였다. 분석결과 노동시장정책은 복지국가의 부채 수준에 유의미한 영향을 미친다. 이때, 적극적 노동시장정책은 고용률을 매개하여 국가 부채 수준을 효과적으로 낮추는 것으로 나타난다. 반면에, 소극적 노동시장정책은 고용률 제고 기능을 하지 못하는 것은 물론 단기적으로는 국가 부채 부담을 늘리는 경향도 있다. 다만, 이것의 영향은 적극적 노동시장정책과 결부되면 부적 영향이 상쇄되는 것으로 나타난다. 즉, 단기적으로 노동시장정책 지출 확대로 재정수지가 악화될 수는 있지만, 장기적으로 이는 고용률 제고 효과를 통해 복지국가의 재정건전성을 담보하는 데 효과적인 역할을 수행할 수 있는 것으로 보인다.