• 제목/요약/키워드: 화자확인 시스템

검색결과 122건 처리시간 0.022초

Matched filter Array를 이용한 음질 향상 시스템 구현 (Implementation of Speech Enhancement System using Matched Filter Array)

  • 오승수;김기만
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 1999년도 추계종합학술대회
    • /
    • pp.173-176
    • /
    • 1999
  • 최근 화상 회의 시스템에서 화자 위치 추정 및 음질 향상 기술이 연구되고 있다. 이 시스템에서는 마이크로폰 어레이를 이용, 화자의 위치를 파악하여 화자의 방향으로 카메라를 자동으로 조정해 주게 된다. 본 연구에서는 마이크로폰 어레이를 통해 수신된 신호를 이용하여 Matched Filter Array를 구성하고 음질을 향상시켰다. 이때 역변환 필터로써 IIR필터를 사용하여 계산량을 줄였으며, 범용DSP 프로세서를 이용한 하드웨어를 제작하여 그 성능을 확인하였다.

  • PDF

다중사용자 처리기술을 이용한 전자상거래용 화자확인 사용자 인증 시스템 (Automatic User-identification verification system using speech signatures based on multi-user processing technology for secured electronic commerce systems)

  • 정석영;유완선;강선미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.497-501
    • /
    • 2000
  • 전자상거래 시장이 활발해 지면서 인터넷 쇼핑몰 업체들은 보다 강력한 보안체제를 갖추기 위해 노력하고 있다. 특히 최근 생체정보의 인식사례가 선보이면서 이런 인식서비스를 전자상거래에 접목시키려는 노력이 활발히 이루어지고 있는 중이다. 그러나 다중사용자를 실시간으로 처리해야하는 전자상거래 서비스 특성상 부하가 많이 소요되는 인식엔진을 전자상거래용 서버에 포함시키는 것은 적지 않은 부담이 든다. 본 논문에서는 이러한 문제의 해결방안으로 고객의 목소리를 통한 사용자 인증 시스템을 별도의 다중 처리 시스템으로 구성하는 것을 제안하며 이의 구현 사례를 보이고자 한다. 부하가 많이 따르는 인식엔진 등의 서비스를 별도로 관리함으로 다중사용자 접속을 요구하는 많은 서비스에 유용한 해결 방안을 보이고자 한다. 본 서비스는 인터넷 쇼핑몰 프로그램 개발 업체인 (주)아이커머스 코리아의 전자상거래 솔루션과 연동하여 프로그램 개발이 완료된 상태이다.

  • PDF

주파수 특성 기저벡터 학습을 통한 특정화자 음성 복원 (Target Speaker Speech Restoration via Spectral bases Learning)

  • 박선호;유지호;최승진
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권3호
    • /
    • pp.179-186
    • /
    • 2009
  • 본 논문에서는 학습이 가능한 특정화자의 발화음성이 있는 경우, 잡음과 반향이 있는 실 환경에서의 스테레오 마이크로폰을 이용한 특정화자 음성복원 알고리즘을 제안한다. 이를 위해 반향이 있는 환경에서 음원들을 분리하는 다중경로 암묵음원분리(convolutive blind source separation, CBSS)와 이의 후처리 방법을 결합함으로써, 잡음이 섞인 다중경로 신호로부터 잡음과 반향을 제거하고 특정화자의 음성만을 복원하는 시스템을 제시한다. 즉, 비음수 행렬분해(non-negative matrix factorization, NMF) 방법을 이용하여 특정화자의 학습음성으로부터 주파수 특성을 보존하는 기저벡터들을 학습하고, 이 기저벡터들에 기반 한 두 단계의 후처리 기법들을 제안한다. 먼저 본 시스템의 중간단계인 CBSS가 다중경로 신호를 입력받아 독립음원들을(두 채널) 출력하고, 이 두 채널 중 특정화자의 음성에 보다 가까운 채널을 자동적으로 선택한다(채널선택 단계). 이후 앞서 선택된 채널의 신호에 남아있는 잡음과 다른 방해음원(interference source)을 제거하여 특정화자의 음성만을 복원, 최종적으로 잡음과 반향이 제거된 특정화자의 음성을 복원한다(복원 단계). 이 두 후처리 단계 모두 특정화자 음성으로부터 학습한 기저벡터들을 이용하여 동작하므로 특정화자의 음성이 가지는 고유의 주파수 특성 정보를 효율적으로 음성복원에 이용 할 수 있다. 이로써 본 논문은 CBSS에 음원의 사전정보를 결합하는 방법을 제시하고 기존의 CBSS의 분리 결과를 향상시키는 동시에 특정화자만의 음성을 복원하는 시스템을 제안한다. 실험을 통하여 본 제안 방법이 잡음과 반향 환경에서 특정화자의 음성을 성공적으로 복원함을 확인할 수 있다.

화자식별 시스템의 계산량 감소를 위한 화자 프루닝 방법 (A Speaker Pruning Method for Reducing Calculation Costs of Speaker Identification System)

  • 김민정;오세진;정호열;정현열
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.457-462
    • /
    • 2003
  • 본 논문에서는 GMM (Gaussian Mixture Model)에 기반한 문맥독립 화자식별 시스템의 식별성능 향상과 실시간 처리를 위한 계산량 감소를 위하여 화자 프루닝 (Speaker Pruning) 방법을 제안한다. 기존의 화자식별 방법인 최대유사도(Maximum Likelihood) 방법과 가중모델순위 (Weighting Model Rank) 방법, 수정된 가중모델순위 (Modified WMR) 방법 등은 입력 음성 전체와 모든 화자모델들과의 유사도를 프레임 단위로 계산하여 가장 큰 누적 유사도를 가지는 화자를 식별화자로 결정하는 방법으로써, 입력 프레임 및 등록 화자수가 늘어남에 따라 계산량 및 식별시간이 늘어나는 단점이 있었다. 이러한 단점을 해결하기 위하여, 제안방법은 입력음성 프레임의 일부분만을 이용하여 화자모델들과의 프레임 유사도를 계산한 후 계산된 유사도를 이용하여 등록화자의 상위 일부분의 화자만을 선택하고, 선택된 화자들에서만 유사도 계산을 수행함으로서 계산량 및 식별시간을 줄이는 방법이다. 또한, 화자 프루닝을 적용할 경우 화자수가 가변 되더라도 수정된 가중모델 순위방법을 적용할 수 있어 식별성능을 높일 수 있다. 식별실험결과, 제안방법을 적용한 경우 기존의 최대 유사도 방법이나 가중모델순위 방법보다 최대 65%의 계산량 및 식별시간을 감소시킬 수 있었으며, 약 2%의 향상된 식별결과를 나타내어, 본 논문에서 제안한 방법의 유효성을 확인할 수 있었다.

거리 카메라를 이용한 얼굴 검출 기반 실시간 시선 보정 방법 (Face Detection based Real-time Eye Gaze Correction Method Using a Depth Camera)

  • 조훈;나문수;김회율;김득화
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 추계학술대회
    • /
    • pp.151-154
    • /
    • 2012
  • 본 논문에서는 화상통신의 현실감을 증진시킬 수 있는 화자 간 시선 맞춤 시스템을 제안한다. 제안하는 방법은 Kinect 거리 카메라로부터 입력된 영상에서 화자의 얼굴 영역을 획득하여 화자의 시선이 카메라를 응시하도록 획득한 영역을 변환한 후에 원본 영상과 합성한다. Kinect 거리 카메라에서 획득한 얼굴 영역에는 다양한 형태의 잡음이 많아 미디언 필터와 모폴로지 연산을 통해 얼굴 영역의 잡음을 제거한다. 화자의 위치에 상관 없이 화자가 카메라를 응시하는 영상을 생성하기 위해서 Kinect 가 제공하는 거리 정보를 이용하여 시선 보정 각도와 회전 축을 획득한다. 시선이 보정된 얼굴 영역은 원본 영상에서 존재하지 않는 영역을 포함하고 있기 때문에, 원본 영상의 각 화소를 삼각형 메쉬로 구성한 후 해당 영역을 보간하여 최종적으로 시선이 보정된 영상을 생성한다. 제안하는 방법은 시선 맞춤 영상을 생성하는 데 필수적인 눈과 주변 얼굴 영역만 선택해서 변환하므로 영상의 왜곡이 적고 실시간 처리가 가능하다는 장점이 있다. 또한 카메라와 화자 사이의 거리 정보를 이용해 화자의 위치에 적응적인 시선 맞춤 영상을 생성할 수 있다. 실험을 통해 Intel i5 CPU 를 장착한 PC에서 $320{\times}240$ 크기의 영상을 사용할 경우 초당 약 35 프레임의 보정된 영상을 생성하여 제안하는 방법이 실시간 처리가 가능하다는 것을 확인하였다.

  • PDF

음성 인식 시스템의 화자 적응 성능 향상을 위한 코드북 설계 (On Codebook Design to Improve Speaker Adaptation)

  • 양태영;신원호;김원구;윤대희
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.5-11
    • /
    • 1996
  • 본 논문에서는 반연속 HMM(semi-continuous Hidden Markov Model) 음성 인식 시스템에 적용되는 베이시안 화자 적응(Bayesian speaker adaptation)의 성능 향상을 위해 코드북 변환 알고리즘을 제안하였다. 기존 베이시안 화자 적응 알고리즘의 경우 새로운 화자의 특징 분포와 코드북 사전 밀도의 차이가 큰 경우 적응 데이터와 코드북간의 잘못된 대응 관계를 얻을 수 있으며, 기준(reference) 코드북에 필요 이상으로 많은 코드워드가 존재하는 경우 적응된 코드북에도 불필요한 코드워드들이 남아 인식 과정에 혼란을 줄 수 있다. 이 문제점을 해결하기 위하여 제안된 코드북 변환 알고리즘에서는 주파수 영역의 포만트 정보를 이용하였다. 화자 적응을 수행하기 앞서 코드북의 켑스트럼으로부터 포만트를 추출해 내고, 이들의 분포를 적응 화자의 포만트 분포와 일치되도록 변환시켜 주었다. 이 변환된 포만트들로부터 다시 켑스트럼을 구하여 변환된 코드북을 얻고, 이를 화자 적응의 초기 코드북으로 사용하였다. 제안된 알고리즘을 이용하였을 경우 코드북과 적응 화자의 음성 간의 정확한 대응 관계를 찾을 수 있었고, 불필요한 코드워드들이 인식 과정에서 사용되지 않도록 변환되어 인식률이 향상되는 것을 실험을 통해 확인하였다.

  • PDF

VQ 방식의 화자인식 시스템 성능 향상을 위한 부쓰트랩 방식 적용 (The bootstrap VQ model for automatic speaker recognition system)

  • 경연정;이진익;이황수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.39-42
    • /
    • 2000
  • VQ 모델로 구성된 화자인식 시스템의 성능 향상을 위해 Bootstrap 방식을 적용하였다. Bootstrap 및 aggregating방식은 unstable한 모델에서 그 성능이 유효하므로 이의 적용을 위해 먼저 VQ 모델의 bias와 variance를 계산하여 unstable함을 보였다. 화자인식 실험은 TIMIT Database를 사용하여 수행하였고 실험결과 높은 인식율 향상을 확인하였다. 또한 적은 훈련 데이터 환경에서도 좋은 인식율을 갖는 것으로 나타났다.

  • PDF

Glottal flow 신호에서의 향상된 특징추출 및 다중 특징파라미터 결합을 통한 화자인식 성능 향상 (Performance Improvement of Speaker Recognition Using Enhanced Feature Extraction in Glottal Flow Signals and Multiple Feature Parameter Combination)

  • 강지훈;김영일;정상배
    • 한국정보통신학회논문지
    • /
    • 제19권12호
    • /
    • pp.2792-2799
    • /
    • 2015
  • 본 논문에서는 화자 인식의 성능을 개선하기 위해서 glottal flow로부터 source mel-frequency cepstral coefficient (SMFCC), 왜도, 첨도를 추출하여 활용하였다. 일반적으로 glottal flow의 고주파 대역은 응답의 크기가 평탄하므로 미리 정한 차단주파수 미만에 대해서만 SMFCC를 추출한다. 추출된 SMFCC, 왜도, 첨도는 종래의 특징 파라미터와 결합된 후 종래의 화자인식 시스템과 동등한 조건에서의 성능 비교를 위하여 principal component analysis (PCA) 및 linear discriminiat analysis (LDA)를 통한 차원축소가 행해진다. 대용량의 화자인식 실험결과를 통해서 제안된 인식 시스템이 종래의 화자인식 시스템 보다 더 좋은 성능을 나타냄을 확인할 수 있었으며, 특히 가우시안 혼합이 낮을 때 더 높은 성능향상을 나타내었다.

화자적응 시스템의 성능향상을 위한 FCM 알고리즘에 대한 연구 (A Study on FCM Algorithm for the Performance Improvement of Speaker Adaptation System)

  • 방기덕;전선도;강철호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.32-35
    • /
    • 1999
  • 기존의 반연속 HMM의 파라미터들 중에서 평균 벡터와 분산 행렬은 Maximum Likelihood Estimation 방법을 사용하여 학습한다. 본 논문에서는 평균 벡터를 위하여 Fuzzy c-means(FCM) 알고리즘을 사용하였고 분산 행렬을 위하여 FCM 알고리즘의 평균 벡터를 적용, 변형한 새로운 함수를 사용하여 화자적응에 적용하였다. 이러한 평균 벡터와 분산 행렬의 추정 방법은 새로운 화자에 대한 적응 능력을 갖는다. 제안한 방법을 적용한 한국어 격리 단어에 대한 컴퓨터 모의 실험결과 새로운 화자에 대해 적응함을 확인하였다.

  • PDF

음성을 이용한 화자 검증기 설계 및 구현 (Design and Implementation of Speaker Verification System Using Voice)

  • 지진구;윤성일
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.91-98
    • /
    • 2000
  • 본 논문은 음성을 이용하여 개인의 신원을 확인할 수 있는 화자 검증시스템을 설계, 구현하였다. 특징 파라메터로는 선형 예측 계수나 고속 후리에 변환보다 안정적이고 계산량이 적은 장점이 있는 필터뱅크(filterbank)를 사용했으며 추출된 파라메터들을 LBG 알고리즘을 이용하여 각 개인의 코드북을 작성하였다. 작성된 코드북에 의해 특징 파라메터를 벡터양자화하여 얻어진 코드열로 화자 검증의 참조 패턴 및 입력 패턴을 생성, 이들을 동적시간 정합법을 이용하여 유사도를 측정하여 얻어진 유사도와 임계값을 비교하여 음성 의뢰자(client speaker)인지, 사칭자(impostor)인지 결정하는 화자 검증기를 설계, 구현하였다.

  • PDF