• 제목/요약/키워드: 음성검출기

검색결과 137건 처리시간 0.027초

입술 움직임 영상 선호를 이용한 음성 구간 검출 (Speech Activity Detection using Lip Movement Image Signals)

  • 김응규
    • 융합신호처리학회논문지
    • /
    • 제11권4호
    • /
    • pp.289-297
    • /
    • 2010
  • 본 논문에서는 음성인식을 위한 음성구간 검출과정에서 유입될 수 있는 동적인 음향에너지 이외에 화자의 입술움직임 영상신호까지 확인함으로써 외부 음향잡음이 음성인식 대상으로 오인식되는 것을 방지하기 위한 한 가지 방법이 제시된다. 우선, 연속적인 영상이 PC용 영상카메라를 통하여 획득되고 그 입술움직임 여부가 식별된다. 다음으로, 입술움직임 영상신호 데이터는 공유메모리에 저장되어 음성인식 프로세서와 공유한다. 한편, 음성인식의 전처리 단계인 음성구간 검출과정에서 공유메모리에 저장되어진 데이터를 확인함으로써 화자의 발성에 의한 음향에너지인지의 여부가 입증된다. 최종적으로, 음성인식기와 영상처리기를 연동시켜 실험한 결과, 영상카메라에 대면해서 발성하면 음성인식 결과의 출력에 이르기까지 연동처리가 정상적으로 진행됨을 확인하였고, 영상카메라에 대면치 않고 발성하면 연동처리시스템이 그 음성인식 결과를 출력치 못함을 확인하였다. 또한, 오프라인하의 입술움직임 초기 특정값 및 템플릿 초기영상을 온라인하에서 추출된 입술움직임 초기특정값 및 템플릿 영상으로 대체함으로써 입술움직임 영상 추적의 변별력을 향상시켰다. 입술움직임 영상 추적과정을 시각적으로 확인하고 실시간으로 관련된 패러미터를 해석하기 위해 영상처리 테스트베드를 구축하였다, 음성과 영상처리 시스템의 연동결과 다양한 조명환경 하에서도 약 99.3%의 연동율을 나타냈다.

응급구조 음향데이터 분석을 위한 Gabor 필터뱅크 기반의 특징추출 알고리즘에 대한 연구 (A study on Gabor Filter Bank-based Feature Extraction Algorithm for Analysis of Acoustic data of Emergency Rescue)

  • 황인영;장준혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1345-1347
    • /
    • 2015
  • 본 논문에서는 응급상황이 신고되는 상황에서 수보자에게 전달되는 신고자의 주변음향신호로부터 신고자의 주변상황을 추정하기 위하여 음향의 주파수적 특성 및 변화특성의 모델링 성능이 뛰어난 Gabor 필터뱅크 기반의 특징벡터 추출 기술 및 분류 성능이 뛰어난 심화신경망을 도입한다. 제안하는 Gabor 필터뱅크 기반의 특징벡터 추출 기법은 비음성 구간 검출기를 통하여 음성/비음성을 구분한 후에 비음성 구간에서 23차의 Mel-filter bank 계수를 추출한 후에 이로부터 Gabor 필터를 이용하여 주변상황 추정을 위한 특징벡터를 추출하고, 이로부터 학습된 심화신경망을 통하여 신고자의 장소적 정보를 추정한다. 제안된 기법은 여러 가지 시나리오 환경에서 평가되었으며, 우수한 분류성능을 보였다.

시간-주파수 혼성 피치검출기의 성능개선에 관한 연구 (A Study On a Pitch Detection in Time-Frequency Hybrid Domain)

  • 조왕래;김종국;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.107-110
    • /
    • 2004
  • 본 논문에서는 시간-주파수 혼성 영역 피치 검출법을 제안하였다. 음성신호를 주파수 영역으로 변환하고 주파수 영역에서 위상 성분을 조절하여 시간영역으로 역변환 함으로써 피치 피크가 최대가 되도록 하여 용이한 피치검출이 가능하였다. 또한 처리시간을 단축하기 위하여 FFT와 IFFT의 비트 재정렬을 생략하여 처리할 수 있는 방법을 제안하였다. 성능 측정 결과 기존의 켑스트럼 검출법에 비하여 검출성능은 우수하면서도 처리시간은 $84.8\%$로 단축됨을 알 수 있었다.

  • PDF

하울러음 발생시 훅-스위치 자동복구 시스템의 구현 -하울러음 검출알고리듬에 관하여- (On a System Realization of Automatically Recovering the Hook-switch of the Telephone System for a Howler Sound-)

  • 배명진;정영창
    • 한국음향학회지
    • /
    • 제11권6호
    • /
    • pp.53-60
    • /
    • 1992
  • 사용자의 부주의로 전화기의 전화기의 송수화기가 방치되면 가입자는 통화요금의 불이익을 받거 나 외부로 부터의 전화호출을 받을 수 없다. 따라서 우리는 가입자라인을 통해 하울러음이 발생되면 전 화기의 훅-스위치를 자동으로차단하는 전화기 시스템을 개발하고자 한다. 이러한 시스템에서는 하울러 감지기의 성능이 시스템의 성능을 좌우하기 때문에 이의 검출법이 필요하다. 따라서 본 논문에서는 하 울러음에 대해 시간영역에서의 특징과 주파수 영역에서의 장점을 살린 혼성영역검출기법을 세로 제안하 였다. 이 하울러음 검출기에 대한 평가는 주변환경으로서 몇가지의 음성신호와 가우시안잡음을 섞어 수 행하였고, 그 결과는 6dB 이하의 신호대 잡음비에 대해 검출오류가 1%이하로 우수하게 얻어졌다.

  • PDF

문자-음성 합성기의 데이터 베이스를 위한 문맥 적응 음소 분할 (Context-adaptive Phoneme Segmentation for a TTS Database)

  • 이기승;김정수
    • 한국음향학회지
    • /
    • 제22권2호
    • /
    • pp.135-144
    • /
    • 2003
  • 본 논문에서는 문-음성 합성기에서 사용되는 대용량 데이터 베이스의 구성을 목적으로 하는 음성 신호의 자동 분할기법을 기술하였다. 주된 내용은 은닉 마코프 모델에 기반을 둔 음소 분할과 여기서 얻어진 결과를 초기 음소 경계로 사용하여 이를 자동으로 수정하는 방법으로 구성되어 있다. 다층 퍼셉트론이 음성 경계의 검출기로 사용되었으며, 음소 분할의 성능을 증가시키기 위해, 음소의 천이 패턴에 따라 다층 퍼셉트론을 개별적으로 학습시키는 방법이 제안되었다. 음소 천이 패턴은 수작업에 의해 생성된 레이블 정보를 기준 음소 경계로 사용하여, 기준 음소 경계와 추정된 음소 경계간의 전체 오차를 최소화하는 관점에서 분할되도록 하였다. 단일 화자를 대상으로 하는 실험에서 제안된 기법을 통해 생성된 음소 경계는 기준 경계와 비교하여 95%의 음소가 20 msec 이내의 경계 오차를 갖는 것으로 나타났으며, 평균 자승 제곱근 오차면에서 수정 작업을 통해 25% 향상된 결과를 나타내었다.

정책초점2 - 식품자판기 다류.커피.음료류에 대한 미생물 기준 신설

  • 한국자동판매기공업협회
    • 벤딩인더스트리
    • /
    • 제10권2호
    • /
    • pp.36-37
    • /
    • 2010
  • 식품자판기에 대한 미생물 기준이 마련되었다. 식품의약품안전청은 식품자판기 다류 커피 음료류에 대한 미생물기준을 담은 "식품의 기준 및 규격"를 일부 개정 고시했다. 이 기준이 마련된 것은 청결상태 등 위생관리가 불량하여 지속적으로 문제가 되고 있는 식품자동판매기 음료 등에 대해 효율적인 관리를 위한 기준이 필요하다는 판단 때문이다. 식품자판기 다류 커피 음료류에 적용되는 세균기준은 3,000/mL 이하(다만, 유가공품, 유산균, 발효제품 및 가열하지 아니한 과일 채소류음료가 함유된 경우는 제외)이어야 하며, 대장균은 음성이어야 한다. 이외 살모넬라(Salmonella spp.), 황색포도상구균(Staphylococcus aureus), 장염비브리오균(Vibrio parahaemolyticus), 클로스트리디움 퍼프린젠스(Clostridium perfringens), 리스테리아 모노사이토제네스(Listeria monocytogenes), 대장균 O157:H7(Escherichia coli O157:H7), 캠필로박터 제주니(Campylobacter jejuni), 여시니아 엔테로콜리티카(Yersinia enterocolitica) 등의 식중독균이 검출되어서는 아니 된다. 또한 가공식품에서 많이 검출되는 바실러스 세레우스(Bacillus cereus)는 g 당 1,000 이하(단 멸균제품은 음성이어야한다)이어야한다. 이번 미생물기준의 마련은 앞으로 법정기준을 위반시 처벌대상이 된다는 점에서 유의해야할 사항이다. 이전까지는 식품자판기에 대한 미생물기준이 마련이 되어 있지 않기 때문에 마땅한 법적인 처벌 기준이 없었던 게 사실이다. 따라서 자판기 운영업체에서는 보다 철저한 위생관리가 요구되고 있다. 위생점검에서 미생물 기준을 지키지 않은 지판기에 대해서는 법적 처벌 근거가 마련이 되는 만큼 식품자판기 위생성 향상에 만전을 기해야 할 것이다. 6월 16일 개정고시된 미생물기준은 7월 1일부터 적용된다.

  • PDF

음성신호 압축 및 복원을 위한 음성 천이구간 검출과 근사합성 방식 (Speech Transition Detection and approximate-synthesis Method for Speech Signal Compression and Recovery)

  • 이광석;김봉기;강성수;김현덕
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.763-767
    • /
    • 2008
  • 유 무성음의 음원을 이용한 음성부호화 시스템에서는 프레임 내에 유성자음과 무성자음이 공존하는 경우 음질의 왜곡을 수반할 수 있다. 따라서 프레임 내에 유성자음과 무성자음이 공존하지 않도록 하기 위해서 무성자음을 탐색 및 검출을 포함하는 천이구간을 제안하였다. 본 연구는 최소 자승법과 주파수 대역 분할법을 사용함으로써 TS 근사합성의 새로운 방식을 제시하였다 결과적으로 이 방식은 0.547kHz이하와 2.813kHz 이상에서의 주파수 정보를 이용함으로써 TS내에서 고품질의 근사합성 파형을 얻을 수 있었다. 중요한 것은 최대 오류신호는 TS내에 저 왜곡 근사 합성파형이 생길 수 있다는 것이다. 이 방식은 유성음/묵음/TS의 새로운 음성부호화, 음성해석 및 음성합성에 적용할 수 있으리라 생각한다.

  • PDF

TMS320C32 DSP를 이용한 실시간 화자종속 음성인식 하드웨어 모듈(VR32) 구현 (Real-Time Implementation of Speaker Dependent Speech Recognition Hardware Module Using the TMS320C32 DSP : VR32)

  • 정익주;정훈
    • 한국음향학회지
    • /
    • 제17권4호
    • /
    • pp.14-22
    • /
    • 1998
  • 본 연구에서는 Texas Instruments 사의 저가형 부동소수점 디지털 신호 처리기 (Digital Singnal Processor, DSP)인 TMS320C32를 이용하여 실시간 화자종속 음성인식 하 드웨어 모듈(VR32)을 개발하였다. 하드웨어 모듈의 구성은 40MHz의 TMS320C32 DSP, 14bit 코덱인 TLC32044(또는 8bit μ-law PCM 코덱), EPROM과 SRAM 등의 메모리와 호 스트 인터페이스를 위한 로직 회로로 이루어졌다. 뿐만 아니라 이 하드웨어 모듈을 PC사에 서 평가해보기 위한 PC 인터페이스용 보드 및 소프트웨어도 개발하였다. 음성인식 알고리 즘의 구성은 에너지와 ZCR을 기반으로 한 끝점검출(Endpoint Detection) 침 10차 가중 LPC 켑스터럼(Weighted LPC Cepstrum) 분석이 실시간으로 이루어지며 이후 Dynamic Time Warping(DTW)를 통하여 최고 유사 단어를 결정하고 다시 검증과정을 거쳐 최종 인식을 수행한다. 끝점검출의 경우 적응 문턱값(Adaptive threshold)을 이용하여 잡음에 강인한 끝 점검출이 가능하며 DTW 알고리즘의 경우 C 및 어셈블리를 이용한 최적화를 통하여 계산 속도를 대폭 개선하였다. 현재 인식률은 일반 사무실 환경에서 통상 단축다이얼 용도로 사 용할 수 있는 30 단어에 대하여 95% 이상으로 매우 높은 편이며, 특히 배경음악이나 자동 차 소음과 같은 잡음환경에서도 잘 동작한다.

  • PDF

G-peak의 특성을 이용한 성문폐쇄시점 검출 (Detection of Glottal Closure Instant using the property of G-peak)

  • 금홍;김대식;배명진;김영일
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권1E호
    • /
    • pp.82-88
    • /
    • 1994
  • 음성신호의 처리에서 GCI를 정확하게 검출하는 것은 중요하다. 따라서 이에 대한 연구가 부분적으로 진행되어 왔다. 이러한 방법은 광범위한 화자와 다양한 단어에 대해 적합하지 못하기 때문에 우리는 G-peak를 사용하여 GCI를 검출하는 새로운 기법을 제안하였다. 우선 음성 신호 파형을 가변 저역 통과 여파기에 통과 시킨다. 여파된 신호를 사용하여 G-peak를 검출하고 이를 기준으로 GCI를 검출하게 된다. 제안된 방법으로 검출한 GCI와 눈으로 찾은 GCI의 차이가 1ms이내이면 고려의 대상으로 삼았다. 제안된 방법은 검출율이 각각 0dB SNR하에서 94%, 20dB SNR하에서 96.5%, 무잡음에서 97.9%를 나타내었다. 결론적으로 제안된 방법은 잡음 환경하에서도 우수한 수행결과를 보였다.

  • PDF

음성과 활동량을 이용한 에너지 소모량 측정기기 개발 (Development of energy expenditure measurement device based on voice and body activity)

  • 임재중
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권6호
    • /
    • pp.303-309
    • /
    • 2012
  • 본 연구는 인체의 활동량과 음성 신호를 기반으로 에너지 소모량을 추정하고자 수행하였으며, 3축 가속도 센서와 PVDF(polyvinylidene fluoride) 필름을 이용하여 활동량과 음성 신호를 검출하였다. 인체의 움직임과 음성 신호, 그리고 실제 에너지 소모량 값은 MP-150 시스템과 호흡가스 분석기를 이용하여 수집하였다. 음성신호의 전력 값과 피험자의 체중을 독립 변수로 활용하였을 때 0.918의 R 제곱 값을 보였으며, 활동량 분석에 있어서는 SVM(signal vector magnitude), BMI(body mass index), 키, 그리고 나이를 독립 변수로 활용하였을 때 가장 높은 상관성을 나타냈다. 음성과 활동량을 토대로 하는 에너지 소모량 추정은 활동량만을 이용하여 추정하는 기존의 기기보다 정확한 결과값을 제공할 수 있음을 확인하였다.