• 제목/요약/키워드: 화자확인

검색결과 246건 처리시간 0.028초

화자 확인을 위한 다중대역에 기반한 주성분 분석 공분산 모델 (PCA Covariance Model Based on Multiband for Speaker Verification)

  • 최민정;이윤정;서창우
    • 음성과학
    • /
    • 제14권2호
    • /
    • pp.127-135
    • /
    • 2007
  • Feature vectors of speech are generally extracted from whole frequency domain. The inherent character of a speaker is located in the low band or high band frequency. However, if the speech is corrupted by narrowband noise with concentrated energy, speaker verification performance is reduced as the individual characteristic is removed. In this paper, we propose a PCA Covariance Model based on the multiband to extract the robust feature vectors against the narrowband noise. First, we divide the overall frequency band into several subbands. Second, the correlation of feature vectors extracted independently from each subband is removed by PCA. The distance obtained from each subband has different distribution. To normalize against the different distribution, we moved the value into the normalized distribution through the mapping function. Finally, the represented value applying the weighting function is used for speaker verification. In the experiments, the proposed method shows better performance of the speaker verification and reduces the computation.

  • PDF

dSPACE 보드를 이용한 음성인식 명령처리시스템 실시간 구현에 관한 연구 (A study on real-time implementation of speech recognition and speech control system using dSPACE board)

  • 김재웅;정원용
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 추계종합학술대회논문집
    • /
    • pp.173-176
    • /
    • 2000
  • 음성은 인간이 가진 가장 편리한 제어전송수단으로 이를 통한 제어는 인간에게 많은 편리함을 제공할 것이다. 본 논문에서는 다층구조 신경망(Multi-Layer Perceptron)을 이용하여 간단한 음성인식 명령처리시스템을 Matlab 상에서 구성해 보았다. 음성인식을 통한 제어의 목적을 위해 화자종속, 고립단어인식기를 목표로 설정하여 연구를 수행하였다. 음성의 시작점과 끝점을 검출하기 위해 단구간 에너지와 영교차율(ZCR)을 이용하였고 인식기의 특징파라미터로는 12차 LPC켑스트럼 계수를 사용하였다. 그리고 신경망의 출력값을 기동, 정지시에 활성화되도록 3개의 계층으로 하였고, 신경망의 뉴런의 개수를 각각 12, 12, 2으로 설정하였다. 먼저 기준음성패턴으로 학습시킨 후에 Matlab 환경하에 동작하는 dSPACE 실시간처리보드에 변환된 C프로그램을 다운로드하고, 음성을 입력하여 인식 후 dSPACE보드의 D/A컨버터의 출력단에 연결된 DC모터를 기동, 정지제어를 수행하였다. 실시간 음성인식 명령처리 시스템 구현을 통하여 원격제어와 같은 음성명령을 통한 제어가 가능함을 확인할 수 있었다.

  • PDF

Audio-visual 멀티모달 정보 기반의 비정상 활성 돼지 탐지 시스템 (Abnormal Active Pig Detection System using Audio-visual Multimodal Information)

  • 채희찬;이준희;이종욱;정용화;박대희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.661-664
    • /
    • 2022
  • 양돈을 관리하는 데에 있어 비정상 개체를 식별하고 사전에 추적하거나 격리할 수 있는 양돈업 시스템을 구축하는 것은 효율적인 돈사관리를 위한 필수 요소이다. 그러나 돈사내의 이상 상황을 탐지하는 연구는 보고되었지만, 이상 상황이 발생한 돼지를 특정하여 식별하는 연구는 찾아보기 힘들다. 따라서, 본 연구에서는 소리를 활용하여 이상 상황이 발생함을 탐지한 후 영상을 활용하여 소리를 낸 특정 돼지를 식별할 수 있는 시스템을 제안한다. 해당 시스템의 주요 알고리즘은 활성 화자 탐지 문제에서 착안하여 이를 돈사에 맞게 적용하여, 비정상 소리를 내는 활성 돼지를 식별 가능하도록 구현하였다. 제안한 방법론은 모의 실험을 통해 돈사 내의 이상 상황이 발생한 돼지를 식별할 수 있음을 확인하였다.

위너필터에 의한 음성 중의 잡음제거 알고리즘 (Noise Reduction Algorithm in Speech by Wiener Filter)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제8권9호
    • /
    • pp.1293-1298
    • /
    • 2013
  • 본 논문에서는 음성신호를 개선할 목적으로 잡음으로 오염된 음성신호로부터 잡음성분을 제거하기 위한 위너 필터를 사용한 잡음제거 알고리즘을 제안한다. 제안한 알고리즘은 먼저 잡음 복원 및 제거 방법에 기초하여 잡음으로 오염된 신호로부터 각 프레임에서 백색잡음의 잡음 스펙트럼을 제거한다. 또한 본 알고리즘은 선형예측 분석 방법에 기초한 위너 필터를 사용하여 음성신호를 강조한다. 본 실험에서는 일본 남성화자에 의한 음성과 잡음데이터를 사용하여 본 알고리즘의 실험 결과를 나타낸다. 백색잡음에 의하여 오염된 음성신호에 대하여 스펙트럼 왜곡률 척도를 사용하여 본 알고리즘이 유효하다는 것을 확인한다. 실험으로부터 백색잡음에 대하여 이전의 위너 필터와 비교하여 최대 4.94 dB의 출력 스펙트럼 왜곡률이 개선된 것을 확인할 수 있었다.

컬러 입술영상과 주성분분석을 이용한 자동 독순 (Automatic Lipreading Using Color Lip Images and Principal Component Analysis)

  • 이종석;박철훈
    • 정보처리학회논문지B
    • /
    • 제15B권3호
    • /
    • pp.229-236
    • /
    • 2008
  • 본 논문은 화자의 입술 움직임으로부터 음성을 인식하는 자동 독순에서 회색조 영상 대신 컬러 영상을 사용하는 것의 유용성에 대해 고찰한다. 먼저 인간의 독순 실험을 통해 컬러 정보가 인식 성능에 어떠한 영향을 미치는지 확인한다. 다음으로 주성분분석을 이용한 자동 독순에서 회색조 또는 컬러 입술영상을 사용하는 경우에 대해 인식 성능을 비교한다. 다양한 컬러 좌표계에 대한 실험을 통해 컬러 영상의 사용으로 인식율이 향상됨을 보인다. 특히 RGB 좌표계를 사용했을 때 가장 좋은 성능을 얻으며, 회색조의 경우에 비해 잡음이 없는 환경에서는 4.7%, 잡음이 있는 경우 평균 13.0%의 상대적 오인식율 감소를 얻을 수 있음을 확인한다.

화자 인증 기능이 포함된 실시간 원격 도어락 제어 시스템 개발에 관한 연구 (Study on development of the remote control door lock system including speeker verification function in real time)

  • 권순량
    • 한국지능시스템학회논문지
    • /
    • 제15권6호
    • /
    • pp.714-719
    • /
    • 2005
  • 본 논문에서는 휴대폰을 이용하여 방문자의 음성이나 영상을 원격으로 확인할 수 있는 시스템을 설계 및 구현한다 이 시스템은 주인이 집에 없을 때라도 휴대폰으로 단문 메시지가 아닌 자동 호출 서비스를 통해 방문자가 누구인지를 알 수 있도록 설계되어 있다. 일반적으로 도어락은 홈 서버를 통해 제어되지만, 실시간 측면에서 볼 때 DTMF 신호를 이용하여 도어락을 제어하는 것이 더 효율적이다. 본 논문에서 제시하는 기술은 손님이 집에 방문하였을 경우 주인이 외출 중이더라도 시스템을 통해 주인의 휴대폰에 자동으로 전차하여 음성 및 영상으로 손님과 주인간에 통화를 가능하게 하고, 필요 시 주인이 도어락을 원거리에서 제어할 수 있게 한다. 이를 통해 주인은 방문자 확인 및 도어락 제어에 시간과 공간의 제약을 받지 않는다. 또한 휴대폰 분실 시 발생할 수 있는 보안상의 악영향을 고려하여 도어락 제어 및 환경 설정 시에 필요한 인증 절차를 기존의 패스워드 형태에서 패스워드 및 화자 인증의 혼합 형태로 설계하여 보안 체계를 향상시킨다. 그리고, 통화중에 DTMF 신호를 사용하여 도어락을 실 시간적으로 제어함으로써 도어락 제어를 위해 망에 재 접속해야 하는 기존의 문제점을 해결토록 한다.

한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구 (A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.9-15
    • /
    • 2001
  • 본 연구에서는 한국어 음성인식 성능향상을 위한 문맥의존 음향 모델을 개선하기 위하여 한국어 음성학적 지식과 결정트리를 접목한 음소결정트리 기반 상태분할 알고리즘으로 한국어에 적합한 문맥의존 음향 모델에 관해 고찰한다. HMM (Hidden Markov Model)의 각 상태를 네트워크로 연결하여 문맥의존 음향모델로 표현하는 HM-Net(Hidden Markov Network)이 있는데 이는 SSS(Successive State Splitting) 알고리즘으로 작성한다. 이 방법은 음향 모델의 상태공유관계와 모델의구조를 결정하는데 효율적이지만 모델을 학습할때 문맥환경에 따라 출현하지 않는 문맥이 존재하는 문제점이 있다 본 연구에서는 이러한 문제점을 해결하기 위해 2진 결정트리와 SSS 알고리즘의 장점을 결합하여 문맥방향 상태분할을 수행할 때 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어에 따라 상태분할 하는 방법으로서 PDT-SSS(Phonetic Decision Tree-based SSS) 알고리즘을 적용한다. 적용한 방법으로 작성한 문맥의존 음향 모델의 유효성을 확인하기 위해 국어공학센터 (KLE)m이 452 단어와 항공편 예약관련 200문장(YNU 200)에 대해 화자독립 음소, 단어 및 연속음성인식 실험을 수행하였다. 인식실험결과, 문맥 의존 음향모델에 대한 화자독립 음소, 단어 및 연속음성 인식실험에서 기존의 단일 HMM 모델보다 향상된 인식률을 보여, 한국어에 적합한 문맥의존 음향 모델을 작성하는데 한국어 음성학적 지식과 음소결정트리 기반 상태분할 알고리즘이 유효함을 확인하였다.

  • PDF

자유대화의 음향적 특징 및 언어적 특징 기반의 성인과 노인 분류 성능 비교 (Comparison of Classification Performance Between Adult and Elderly Using Acoustic and Linguistic Features from Spontaneous Speech)

  • 한승훈;강병옥;동성희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.365-370
    • /
    • 2023
  • 사람은 노화과정에 따라 발화의 호흡, 조음, 높낮이, 주파수, 언어 표현 능력 등이 변화한다. 본 논문에서는 이러한 변화로부터 발생하는 음향적, 언어적 특징을 기반으로 발화 데이터를 성인과 노인 두 그룹으로 분류하는 성능을 비교하고자 한다. 음향적 특징으로는 발화 음성의 주파수 (frequency), 진폭(amplitude), 스펙트럼(spectrum)과 관련된 특징을 사용하였으며, 언어적 특징으로는 자연어처리 분야에서 우수한 성능을 보이고 있는 한국어 대용량 코퍼스 사전학습 모델인 KoBERT를 통해 발화 전사문의 맥락 정보를 담은 은닉상태 벡터 표현을 추출하여 사용하였다. 본 논문에서는 음향적 특징과 언어적 특징을 기반으로 학습된 각 모델의 분류 성능을 확인하였다. 또한, 다운샘플링을 통해 클래스 불균형 문제를 해소한 뒤 성인과 노인 두 클래스에 대한 각 모델의 F1 점수를 확인하였다. 실험 결과로, 음향적 특징을 사용하였을 때보다 언어적 특징을 사용하였을 때 성인과 노인 분류에서 더 높은 성능을 보이는 것으로 나타났으며, 클래스 비율이 동일하더라도 노인에 대한 분류 성능보다 성인에 대한 분류 성능이 높음을 확인하였다.

조선시대 공신초상(功臣肖像)의 관복(제1기) 고찰 (A Study of the Gwanbok (1st period) of Meritorious Vassals' Portraits in the Joseon Dynasty)

  • 김미경;이은주
    • 헤리티지:역사와 과학
    • /
    • 제53권2호
    • /
    • pp.180-203
    • /
    • 2020
  • 연구는 공신초상의 관복 제1기를 하향뿔의 사모와 잡색 단령 시기로 규정하고 성종 7년(1476) 이전에 그려진 조선 초 개국공신(1392)에서 성종 초 좌리공신(1471)까지의 공신초상 관복의 특징을 고찰한 것이다. 관복 제1기에 속하는 공신초상(이모본) 중 이제(개국), 이천우(정사·좌명), 마천목(좌명), 신숙주(정난), 설계조(정난), 그리고 이숭원(좌리) 공신초상 등 관복 표현이 비교적 적절하다고 판단되는 6점을 선정하고 관복 구성품별 조형적 특징을 살펴보았다. 조선 초 삼공신(개국·정사·좌명)의 사모는 모체는 낮고 모정은 둥글며, 사모의 하향각(下向角)은 좁고 짧은 형태였으나 단종대 이후 정난·좌리공신 사모는 모체가 높아지고 사모의 하향각도 두 배 정도로 길어졌다. 그리고 관복 제1기 공신초상의 사모뿔에는 무늬가 표현되지 않은 것으로 확인되었다. 개국 초에는 단령의 색상 규정이 없었으나 대체로 옅은 색의 단령으로 표현되었다. 세종대 이후 예복용 흑단령 제도가 시작되었으나 공신초상 관복에는 흑단령 제도가 반영되지 않았으며 단종대 이후에는 담홍색 단령으로 표현되었다. 단령 겉감에는 무늬가 표현되지 않았으며, 옆트임에는 '안주름무'가 표현되었다. 단령 받침옷 답호와 철릭 역시 통일된 색상은 없었으나 정난공신 이후에는 청색 답호와 초록색 철릭을 착용하는 경향이 확인되었다. 그리고 품대는 공신의 품계를 나타내는 역할을 하였다. 단종대 이후 흉배제도가 제정되었으나 제1기 공신초상 중에는 정난공신 신숙주 초상에서만 유일하게 흉배가 표현되었다. 단령에 신는 화자는 조선 초 삼공신 초상에서는 흑화가 확인되었으나 단종대 이후 정난·좌리공신 초상에서는 백화가 확인되었다. 그리고 일부 공신초상의 흑화와 백화 솔기선 부분에 연금사로 장식한 휘(揮)가 확인되었는데 휘 장식의 화자는 3품 이상이 신던 협금화를 표현한 것임을 알 수 있었다.

K-L 전개를 이용한 연속 숫자음 인식에 관한 연구 (A Study on Connected Digits Recognition Using the K-L Expansion)

  • 김주곤;오세진;황철준;김범국;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권3호
    • /
    • pp.24-31
    • /
    • 2001
  • K-L 전개 방법은 특징의 차원을 효과적으로 압축하므로 인식 처리에서 계산량을 줄일 수 있는 방법으로 잘 알려져 있다. 본 논문에서는 한국어 인식 시스템의 인식 정도를 개선하기 위해, 음성의 특징 파라미터에 대하여 효과적으로 K-L전개를 적용하는 방법(K-L 계수)을 제안한다. 그리고 제안한 방법으로 얻어진 새로운 음성 특징 파라미터를 이용하여 화자 독립 연속 숫자음 인식실험을 수행하고, 기존의 Mel-cepstrum과 회귀계수의 인식 결과와 비 교, 분석하였다. 인식 실험 결과, 제안한 K-L 계수를 이용한 방법이 기존의 방법보다 높은 인식률을 얻어 제안한 방법의 유효성을 확인할 수 있었다.

  • PDF