• 제목/요약/키워드: 음성 특성

검색결과 1,834건 처리시간 0.039초

잡음 환경에서 음성 인식률 향상에 필요한 MEMS 장치 개발에 관한 연구 (The research on the MEMS device improvement which is necessary for the noise environment in the speech recognition rate improvement)

  • 양기웅;이형근
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1659-1666
    • /
    • 2018
  • 입력된 소리가 음성과 음향이 혼재된 경우 잡음의 영향으로 음성 인식률이 저하됨을 알 수 있으며 S/W적 처리 한계를 극복코자 H/W 장치인 MEMS 장치를 개발하여 음성 인식률을 향상시켰다. MEMS 마이크로폰 장치는 음성을 입력하는 장치로서 다양한 모양으로 구현되어 사용된다. 기존 MEMS 마이크로폰은 일반적으로 우수한 성능을 발휘하나 잡음 과 같은 특수 환경에선 음성과 음향이 혼재되어 처리 성능이 저하되는 문제점이 발생됨을 알 수 있었다. 이러한 문제점을 개선코자 초기 입력장치에 음성 특성을 구분하여 검출할 수 있는 신규 고안된 MEMS 장치를 사용하여 향상시켰다.

WATM에서 음성 서비스를 위한 동적 슬롯 할당 알고리즘 (Dynamic Slot Allocation Scheme for Voice Service in WATM)

  • 김관웅;박준성;정경택;전병실
    • 한국통신학회논문지
    • /
    • 제26권9A호
    • /
    • pp.1601-1608
    • /
    • 2001
  • 본 논문에서는 무선 ATM 환경에서 음성과 같은 실시간 서비스가 요구되는 트래픽의 QoS를 보장하기 위한 구현 방법을 제안하였다. 음성은 셀이 발생되는 토크스퍼트 구간과 셀이 발생되지 않는 휴지구간이 주기적으로 반복되는 특성을 갖는다. 따라서 음성과 같은 실시간 서비스의 QoS를 보장하기 위해서는 휴지구간 상태에 있는 음성단말의 수와 음성단말의 상태를 고려하여 음성단말의 수에 관계없이 일정한 QoS를 보장할 수 있어야 한다. 음성단말의 수에 관계없이 일정한 연결 지연시간을 제공하기 위하여, 휴지 상태에 있는 음성 단말 수와 휴지 상태의 지속시간에 따라서 동적으로 음성 예약 슬롯을 할당하는 방식을 제안한다. 컴퓨터 시뮬레이션을 통하여 slotted-ALOHA나 NC-PRMA 같은 기존의 슬롯 할당방법과 비교하였으며, 그 결과 제안된 방법이 동적으로 예약슬롯을 할당하여 부하에 관계없이 음성 트래픽에 일정한 지연시간과 낮은 충돌율을 제공하면서 프레임에 예약슬롯의 오버헤드를 최소화하므로, 채널 사용 효율을 높일 수 있음을 알 수 있었다.

  • PDF

실험실 환경 음성을 이용한 전화음성 인식에 관한 연구 (Telephone Speech Recognition Using Laboratory Environment Speech Data)

  • 윤상호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.391-394
    • /
    • 1994
  • 본 연구에서는 전화선을 통한 음성인식을 위해 저잡음의 실험실 환경에서 수집된 음성 자료를 이용하는 접근을 하였다. 전화 음성과 실험실 음성 간의 특성 차이를 보정하기 위해 선형 회귀 분석법을 이용한 SDCN을 제안하였다. 두 자료간의 보정은 동시 녹음된 실험실 환경의 음성과 전화음성의 SNRDP 따른 두 자료간의 차이를 최소화하는 변환행렬을 구해, 이를 학습자료의 변환에 이용한다. 제안된 방법의 타당성을 확인하기 위해 두가지 인식 알고리즘인 DTW와 이산 HMM 에 대해 실험하였다. DTW를 통한 인식에서개선된 SDCN 에 의한 특징벡터의 변환은 기존의 SDCNDP 따른 특징변환보다 8~17%의 인식률이 향상되었다. 이산 HMM으로 인식할 때는 개선된 SDCNDP 의한 전화음성과 실험실 음성과의 유사도를 보다 잘 나타내기 위해 개선된 SDCN을 적용하고, VQ 코드열 상에서이 코드 사상법을 사용하여 인식률의 향상시켰다.

  • PDF

ARS와 신경회로망을 이용한 장애음성의 수집, 분석 및 식별에 관한 연구 (Collection, Analysis and Classification of Pathological Voice from ARS using Neural Network)

  • 김광인;조철우;김대현;왕수건;전계록;안시훈;김기련;김용주
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.955-958
    • /
    • 2000
  • 본 논문은 음성신호를 이용해 성대의 질환이 있는 환자를 진단하고 병명을 판별하게끔 유도하는 자동 진단 시스템을 개발하기 위한 연구의 일부로, 그중 ARS를 이용하여 환자의 음성을 수집, 분석, 식별의 실험에 대한 연구이다. 본 연구 팀에서는 이미 CSL을 이용한 장애음성 데이터의 수집과 식별에 관한 연구 결과를 발표한바 있다. 하지만 선행연구에서는 방음실에서 디지털 녹음기를 이용하여 수집한 음성을 사용했기 때문에, ARS를 통하여 녹음한 음성과는 샘플링 주파수나 대역폭, 잡음성분등의 데이터의 특성이 상당한 차이가 있다. 이러한 이유로 ARS를 통하여 녹음한 음성에 보다 적합한 파라미터 분석프로그램을 작성하여 파라미터를 구하였다. 이 파라미터들은 Kay사의 MDVP를 기초로하여 작성하였고, 대부분 80%정도의 신뢰성을 가졌다. 수집한 음성의 식별은 정상음성과 양성음성의 두가지 경우로 분리하였다. 식별기법으로는 신경망을 이용하였고, 식별파라미터는 구한 파라미터중 6개의 파라미터를 선별하여 식별한 결과 약 90%정도의 식별율을 가졌다.

  • PDF

가변계수 프리엠퍼시스를 이용한 마이크어레이 음성입력에 관한 연구 (On Speech Input with Microphone Array using the variable coefficient Pre-emphasis)

  • 조왕래;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.65-68
    • /
    • 2001
  • 현재 음성인식기는 다채널의 음성입력방식을 사용하고 있는 추세이다. 이런 방법으로 음성인식기를 사용할 때에 자동적으로 음성을 검출하는 음성입력방식은 발성자와 마이크간의 거리에 따라 발성음성, 반사음성과 잡음이 입력된 경우에 원 음성의 고차포만트 성분에 왜곡이 발생하게 된다 이러한 문제점을 개선하기 위하여 본 논문에서는 고주파영역의 특성을 강조시킬 수 있는 프리엠퍼시스를 이용하여 더욱 더 정확한 음성입력 방법을 제안한다. 제안한 방법은 원음과 유사한 합성입력음을 얻었고, 또한 기존의 시간영역 법 보다 더 높은 SNR을 얻을 수 있다는 것을 알 수가 있다.

  • PDF

연극 배우의 음성 관리 및 음성 사용에 관한 연구

  • 조성미;정옥란
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 2003년도 제19회 학술대회
    • /
    • pp.137-137
    • /
    • 2003
  • 본 연구는 직업적 음성 사용자인 연극 배우의 음성 관리, 극중 인물 특징을 표현하기 위한 요소 중 음성이 차지하는 비중과 적합한 발성 및 발화 방법에 대하여 살펴보았다. 본 연구에는 대구광역시 소재 K극예술연구회의 연극 배우 9명이 참여하였다. 연극 배우의 음성 관리 및 극중 인물의 특성을 표현하기 위한 발성 및 발화 방법에 대한 설문지를 작성하여 조사하였다. 여러 가지 인물에 적합한 발성법으로 '산책' 문단을 발화하도록 한 뒤, 대상자들에게 각 인물에 대한 발성 방법을 설문지에 기록하도록 하였다. 대상자들이 발화한 음성 샘플을 음향학적, 지각적 측면에서 평가하여 대상자들이 기술한 발성 및 발화 방범과의 상관을 살펴보았다. 음성 샘플은 Windows용 Praat(4.1.7)으로 수집 및 분석하였다. (중략)

  • PDF

위너필터 방법을 사용한 음성 특징 벡터 추출에 의한 화자인식 기법 (Speaker Recognition Technique by Extracting Speech Feature Vector using Wiener Filter Method)

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.617-618
    • /
    • 2017
  • 음성인식의 적절한 성능을 구하기 위하여 잡음환경 하에서 최적인 음성의 특징 벡터를 선택할 필요가 있다. 본 논문에서는 위너필터 방법과 인간의 청각계의 특성을 활용한 멜 주파수 켑스트럼 계수를 사용한 음성인식 방법을 제안한다. 본 논문에서 제안하는 음성의 특징 벡터는 음성 중에서 배경잡음을 제거한 후에 깨끗한 음성신호의 벡터를 추출하는 방법이며, 다층 퍼셉트론 신경회로망에 멜 주파수 켑스트럼 계수를 입력하여 학습시킴으로써 음성인식을 구현한다. 본 실험에서는 멜 주파수 켑스트럼 계수의 특징 벡터를 사용하여 백색잡음이 혼합된 경우에 대하여 음성인식 실험을 실시하였다.

  • PDF

기저막 특성을 이용한 새로운 음성 특징 추출 및 성능 분석 (Performance of analysis and extraction of speech feature using characteristics of basilar membrane)

  • 이철희;신유식;정성환;김종교
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.153-156
    • /
    • 2000
  • 본 논문에서는 음성 인식률 향상을 위한 여러 가지방법들 중에서 음성특징 파라미터 추출 방법에 관한 한가지 방법을 제시하였다. 본 논문에서는 청각 특성을 기반으로 한 MFCC(met frequency cepstrum coef-ficients)와 성능 향상을 위한 방법으로 GFCC (gamma-tone filter frequency cepstrum coefficients)를 제시하고 음성 인식을 수행하여 성능을 분석하였다. MFCC에서 일반적으로 사용하는 임계 대역 필터로 삼각 필터(triangular filter) 대신 청각 구조의 기저막(basilar membrane)특성을 묘사한 gammatone 대역 통과 필터를 이용하여 특징 파라미터를 추출하였다. DTW 알고리즘으로 인식률을 분석한 결과 삼각 대역 필터를 이용한 것보다 gammatone 대역 통과 필터를 이용한 추출법이 약 2∼3%의 성능 향상을 보였다.

  • PDF

주파수 특성 기저벡터 학습을 통한 특정화자 음성 복원 (Target Speaker Speech Restoration via Spectral bases Learning)

  • 박선호;유지호;최승진
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권3호
    • /
    • pp.179-186
    • /
    • 2009
  • 본 논문에서는 학습이 가능한 특정화자의 발화음성이 있는 경우, 잡음과 반향이 있는 실 환경에서의 스테레오 마이크로폰을 이용한 특정화자 음성복원 알고리즘을 제안한다. 이를 위해 반향이 있는 환경에서 음원들을 분리하는 다중경로 암묵음원분리(convolutive blind source separation, CBSS)와 이의 후처리 방법을 결합함으로써, 잡음이 섞인 다중경로 신호로부터 잡음과 반향을 제거하고 특정화자의 음성만을 복원하는 시스템을 제시한다. 즉, 비음수 행렬분해(non-negative matrix factorization, NMF) 방법을 이용하여 특정화자의 학습음성으로부터 주파수 특성을 보존하는 기저벡터들을 학습하고, 이 기저벡터들에 기반 한 두 단계의 후처리 기법들을 제안한다. 먼저 본 시스템의 중간단계인 CBSS가 다중경로 신호를 입력받아 독립음원들을(두 채널) 출력하고, 이 두 채널 중 특정화자의 음성에 보다 가까운 채널을 자동적으로 선택한다(채널선택 단계). 이후 앞서 선택된 채널의 신호에 남아있는 잡음과 다른 방해음원(interference source)을 제거하여 특정화자의 음성만을 복원, 최종적으로 잡음과 반향이 제거된 특정화자의 음성을 복원한다(복원 단계). 이 두 후처리 단계 모두 특정화자 음성으로부터 학습한 기저벡터들을 이용하여 동작하므로 특정화자의 음성이 가지는 고유의 주파수 특성 정보를 효율적으로 음성복원에 이용 할 수 있다. 이로써 본 논문은 CBSS에 음원의 사전정보를 결합하는 방법을 제시하고 기존의 CBSS의 분리 결과를 향상시키는 동시에 특정화자만의 음성을 복원하는 시스템을 제안한다. 실험을 통하여 본 제안 방법이 잡음과 반향 환경에서 특정화자의 음성을 성공적으로 복원함을 확인할 수 있다.

음성인식을 위한 알고리즘에 관한 연구 (A study on the algorithm for speech recognition)

  • 김선철;이정우;조규옥;박재균;오용택
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 제39회 하계학술대회
    • /
    • pp.2255-2256
    • /
    • 2008
  • 음성인식 시스템을 설계함에 있어서는 대표적으로 사람의 성도 특성을 모방한 LPC(Linear Predict Cording)방식과 청각 특성을 고려한 MFCC(Mel-Frequency Cepstral Coefficients)방식이 있다. 본 논문에서는 MFCC를 통해 특징파라미터를 추출하고 해당 영역에서의 수행된 작업을 매틀랩 알고리즘을 이용하여 그래프로 시현하였다. MFCC 방식의 추출과정은 최초의 음성신호로부터 전처리과정을 통해 아날로그 신호를 디지털 신호로 변환하고, 잡음부분을 최소화하며, 음성 부분을 강조한다. 이 신호는 다시 Windowing을 통해 음성의 불연속을 제거해 주고, FFT를 통해 시간의 영역을 주파수의 영역으로 변환한다. 이 변환된 신호는 Filter Bank를 거쳐 다수의 복잡한 신호를 몇 개의 간단한 신호로 간소화 할 수 있으며, 마지막으로 Mel-cepstrum을 통해 최종적으로 특징 파라미터를 얻고자 하였다.

  • PDF