• 제목/요약/키워드: noisy car environment

검색결과 34건 처리시간 0.02초

전역 음성 부재 확률 기반의 향상된 최소값 제어 재귀평균기법을 이용한 음성 향상 기법 (Speech Enhancement Based on Improved Minima Controlled Recursive Averaging Incorporating GSAP)

  • 송지현;방동혁;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권1호
    • /
    • pp.104-111
    • /
    • 2012
  • 본 논문에서는 향상된 최소값 제어 재귀 평균 기법 (improved minima controlled recursive averaging, IMCRA) 알고리즘의 잡음 전력 추정성능을 향상 시키기 위한 알고리즘을 제안한다. 기존의 IMCRA은 주파수 특성이 빠르게 변화하는 비정상적인 환경과 낮은 SNR을 갖는 상황에서 잡음 전력 추정에 직접적으로 영향을 미치는 음성 검출기의 성능이 강인하지 못한 단점이 있다. 본 연구에서는 강인한 음성 검출 성능을 위해서 기존 IMCRA의 음성 검출기에 전역 음성 부재 확률을 적용한 음성 향상 기법을 제안한다. 제안된 알고리즘의 성능 평가는 음성의 perceptual evaluation of speech quality (PESQ)와 composite measure를 통한 음질을 평가하였다. 실험 결과 다양한 잡음 환경 (car, white, babble)에서 전역 음성 부재 확률을 적용한 IMCRA의 음성 향상 기법이 향상된 결과를 보여주었다. 특히, 비정상잡음 환경인 babble 5dB에서 PESQ 0.026, composite measure 0.029의 향상된 음질을 나타내었다.

동적 환경에서의 립리딩 인식성능저하 요인분석에 대한 연구 (A Study on Analysis of Variant Factors of Recognition Performance for Lip-reading at Dynamic Environment)

  • 신도성;김진영;이주헌
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.471-477
    • /
    • 2002
  • 최근 립리딩에 대한 연구는 음성인식방법에 있어서 부가적인 정보를 제공하여 잡음환경에서 견인한 음성 인식을 하거나 음성정보의 부가적인 특징벡터로 사용하기 위한 방법으로 연구되고 있다. 그러나 립리딩 연구의 대부분은 실험실 환경하의 제한된 결과로서, 실제 다양한 동적 환경에서의 견인성에 대해서는 연구된 바가 없다. 현재 우리는 입술정보만을 이용한 자동22단어 인식기를 만들었으며, 이미지 기반 립리딩의 성능은 53.54%의 성능을 가지고 있다. 본 연구에서는 기 구현된 립리딩 시스템을 기반으로 하여, 립리딩 성능이 환경 적인 변화에 대해서 얼마나 안정할 수 있는지, 그리고 립리딩의 인식성능 저하를 일으키는 주요 요인이 무엇인지에 대하여 연구하였다. 입술이미지의 동적 변이로서는 이동, 회전. 크기변화와 같은 공간적 변화와 빛에 의한 조명변화를 고려하였다. 실험용 데이터로는 영상변환에 의한 시뮬레이션 된 데이터와 동적 변화가 심한 자동차 환경에서 수집한 데이터를 사용하였다. 실험결과 입술의 공간 변화가 인식성능 저하의 한가지 요인으로 작용함을 발견하였다. 그러나 실제적으로 공간변화보다 더 심각한 성능저하 원인은 시간흐름에 따른 조명조건의 변화로써 70%이상의 왜곡이 발생했다. 따라서 신뢰할 수 있는 립리딩 시스템 구현을 위해서 고려해야 할 가장 큰 요인은 빛의 변화임을 발견할 수 있었다.

시간영역 필터를 이용한 립리딩 성능향상에 관한 연구 (A Study on Lip-reading Enhancement Using Time-domain Filter)

  • 신도성;김진영;최승호
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.375-382
    • /
    • 2003
  • 현재 음성인식 분야에서는 잡음이 심한 환경에서 음성 인식률을 향상시킬 수 있는 바이모달의 한 형태인 립리딩 기술에 관한 연구가 활발히 진행되고 있다. 립리딩 연구에 있어서 가장 중요한 것은 정확한 입술 이미지를 찾아내는 것이다. 그러나 조명변화, 화자의 발음습관, 입술 모양의 다양성, 입술의 회전과 크기 변화 등의 환경 변화 요인 때문에 안정적인 성능을 예측하기가 힘든 실정이다. 본 논문에서는 보다 안정적 성능을 얻기 위해 시간영역에서 이미지를 임펄스 응답 필터링을 수행을 통해 향상된 인식성능을 보였다. 또한 본 연구에서는 입술 전체 영상을 대상으로 처리하는 립리딩 기법의 사용으로 인해 발생하는 데이터 용량 증가를 고려해 영상의 정보는 손실하지 않고 그 특징만을 추출하여 데이터의 양을 줄일 수 있는 주성분 분석을 전처리 과정으로 사용하였다. 본 연구에서는 영상정보만을 사용하여 음성인식 성능 관찰을 위해 자동차 내에서 서비스가 가능한 22단어를 선정하여 인식실험을 하였다. 이 단어들의 인식 성능을 비교하기 위하여 음성 인식 알고리듬으로 잘 알려진 HMM(Hidden Markov Model)을 이용하였다. 실험결과 PCA(Principal component Analysis)하였던 경우 립리딩이 64%의 인식률을 보인 반면, 시간영역필터를 립리딩에 적용시 72.7%로 인식률의 향상을 보였다.

인조 번호판을 이용한 자동차 번호인식 성능 향상 기법 (Improved Method of License Plate Detection and Recognition using Synthetic Number Plate)

  • 장일식;박구만
    • 방송공학회논문지
    • /
    • 제26권4호
    • /
    • pp.453-462
    • /
    • 2021
  • 자동차 번호인식을 위해선 수많은 번호판 데이터가 필요하다. 번호판 데이터는 과거의 번호판부터 최신의 번호판까지 균형 있는 데이터의 확보가 필요하다. 하지만 실제 과거의 번호판부터 최신의 번호판의 데이터를 획득하는데 어려움이 있다. 이러한 문제를 해결하기 위해 인조 번호판을 이용하여 자동차 번호판을 생성하여 딥러닝을 통한 번호판 인식 연구가 진행되고 있다. 하지만 인조 데이터는 실제 데이터와 차이가 존재하며, 이러한 문제를 해결하기 위해 다양한 데이터 증강 기법을 사용한다. 기존 데이터 증강 방식은 단순히 밝기, 회전, 어파인 변환, 블러, 노이즈등의 방법을 사용하였다. 본 논문에서는 데이터 증강 방법으로 인조데이터를 실제 데이터 스타일로 변환하는 스타일 변환 방법을 적용한다. 또한 실제 번호판 데이터는 원거리가 많고 어두운 경우 잡음이 많이 존재한다. 단순히 입력데이터를 가지고 문자를 인식할 경우 오인식의 가능성이 높다. 이러한 경우 문자인식 향상을 위해 본 논문에서는 문자인식을 위하여 화질개선 방법으로 DeblurGANv2 방법을 적용하여 번호판 인식 정확도를 높였다. 번호판 검출 및 번호판 번호인식을 위한 딥러닝의 방식은 YOLO-V5를 사용하였다. 인조 번호판 데이터 성능을 판단하기 위해 자체적으로 확보한 자동차 번호판을 수집하여 테스트 셋을 구성하였다. 스타일 변환을 적용하지 않은 번호판 검출이 0.614mAP를 기록하였다. 스타일 변환을 적용한 결과 번호판 검출 성능이 0.679mAP 기록하여 성능이 향상되었음을 확인하였다. 또한 번호판 문자인식에는 화질 개선을 하지 않은 검출 성공률은 0.872를 기록하였으며, 화질 개선 후 검출 성능이 0.915를 기록하여 성능 향상이 되었음을 확인 하였다.