• 제목/요약/키워드: code combining

검색결과 231건 처리시간 0.016초

입 모양 인식 시스템 전처리를 위한 관심 영역 추출과 이중 선형 보간법 적용 (Region of Interest Extraction and Bilinear Interpolation Application for Preprocessing of Lipreading Systems)

  • 한재혁;김용기;김미혜
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.189-198
    • /
    • 2024
  • 입 모양 인식은 음성 인식의 중요 부분 중 하나로 음성 인식을 위한 입 모양 인식 시스템에서 입 모양 인식 성능을 개선하기 위한 여러 연구가 진행됐다. 최근의 연구에서는 인식 성능을 개선하기 위해 입 모양 인식 시스템의 모델 구조를 수정하는 방법이 사용됐다. 본 연구에서는 모델 구조를 수정하는 것으로 인식 성능을 개선하는 기존의 연구와 달리 모델 구조의 변화 없이 인식 성능을 개선하는 것을 목표로 한다. 모델 구조의 수정 없이 인식 성능을 개선하기 위해, 사람이 하는 입 모양 인식에서 사용되는 단서를 참고해 입 모양 인식 시스템의 기존 관심 영역인 입술 영역과 함께 턱, 뺨과 같은 다른 영역을 관심 영역으로 설정하고 각 관심 영역의 인식률을 비교해 가장 높은 성능의 관심 영역을 제안한다. 또한, 관심 영역 크기를 정규화하는 과정에서 보간법의 차이로 인해 발생하는 정규화 결과의 차이가 인식 성능에 영향을 준다고 가정하고 최근접 이웃 보간법, 이중 선형 보간법, 이중 삼차 보간법을 사용해 동일한 관심 영역을 보간하고 각 보간법에 따른 입 모양 인식률을 비교해 가장 높은 성능의 보간법을 제안한다. 각 관심 영역은 객체 탐지 인공신경망을 학습시켜 검출하고, 각 관심 영역을 정규화하고 특징을 추출하고 결합한 뒤, 결합된 특징들을 차원 축소한 결과를 저차원 공간으로 매핑하는 것으로 동적 정합 템플릿을 생성했다. 생성된 동적 정합 템플릿들과 저차원 공간으로 매핑된 데이터의 거리를 비교하는 것으로 인식률을 평가했다. 실험 결과 관심 영역의 비교에서는 입술 영역만을 포함하는 관심 영역의 결과가 이전 연구의 93.92%의 평균 인식률보다 3.44% 높은 97.36%의 평균 인식률을 보였으며, 보간법의 비교에서는 이중 선형 보간법이 97.36%로 최근접 이웃 보간법에 비해 14.65%, 이중 삼차 보간법에 비해 5.55% 높은 성능을 나타내었다. 본 연구에 사용된 코드는 https://github.com/haraisi2/Lipreading-Systems에서 확인할 수 있다.