• 제목/요약/키워드: Lip-reading

검색결과 36건 처리시간 0.029초

한국어 립리딩: 데이터 구축 및 문장수준 립리딩 (Korean Lip-Reading: Data Construction and Sentence-Level Lip-Reading)

  • 조선영;윤수성
    • 한국군사과학기술학회지
    • /
    • 제27권2호
    • /
    • pp.167-176
    • /
    • 2024
  • Lip-reading is the task of inferring the speaker's utterance from silent video based on learning of lip movements. It is very challenging due to the inherent ambiguities present in the lip movement such as different characters that produce the same lip appearances. Recent advances in deep learning models such as Transformer and Temporal Convolutional Network have led to improve the performance of lip-reading. However, most previous works deal with English lip-reading which has limitations in directly applying to Korean lip-reading, and moreover, there is no a large scale Korean lip-reading dataset. In this paper, we introduce the first large-scale Korean lip-reading dataset with more than 120 k utterances collected from TV broadcasts containing news, documentary and drama. We also present a preprocessing method which uniformly extracts a facial region of interest and propose a transformer-based model based on grapheme unit for sentence-level Korean lip-reading. We demonstrate that our dataset and model are appropriate for Korean lip-reading through statistics of the dataset and experimental results.

음성인식에서 입술 파라미터 열화에 따른 견인성 연구 (Robustness of Bimodal Speech Recognition on Degradation of Lip Parameter Estimation Performance)

  • 김진영;민소희;최승호
    • 음성과학
    • /
    • 제10권2호
    • /
    • pp.27-33
    • /
    • 2003
  • Bimodal speech recognition based on lip reading has been studied as a representative method of speech recognition under noisy environments. There are three integration methods of speech and lip modalities as like direct identification, separate identification and dominant recording. In this paper we evaluate the robustness of lip reading methods under the assumption that lip parameters are estimated with errors. We show that the dominant recording approach is more robust than other methods through lip reading experiments.

  • PDF

음성인식에서 입술 파라미터 열화에 따른 견인성 연구 (Robustness of Bimodal Speech Recognition on Degradation of Lip Parameter Estimation Performance)

  • 김진영;신도성;최승호
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.205-208
    • /
    • 2002
  • Bimodal speech recognition based on lip reading has been studied as a representative method of speech recognition under noisy environments. There are three integration methods of speech and lip modalities as like direct identification, separate identification and dominant recording. In this paper we evaluate the robustness of lip reading methods under the assumption that lip parameters are estimated with errors. We show that the dominant recording approach is more robust than other methods with lip reading experiments. Also, a measure of lip parameter degradation is proposed. This measure can be used in the determination of weighting values of video information.

  • PDF

동적 환경에서의 립리딩 인식성능저하 요인분석에 대한 연구 (A Study on Analysis of Variant Factors of Recognition Performance for Lip-reading at Dynamic Environment)

  • 신도성;김진영;이주헌
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.471-477
    • /
    • 2002
  • 최근 립리딩에 대한 연구는 음성인식방법에 있어서 부가적인 정보를 제공하여 잡음환경에서 견인한 음성 인식을 하거나 음성정보의 부가적인 특징벡터로 사용하기 위한 방법으로 연구되고 있다. 그러나 립리딩 연구의 대부분은 실험실 환경하의 제한된 결과로서, 실제 다양한 동적 환경에서의 견인성에 대해서는 연구된 바가 없다. 현재 우리는 입술정보만을 이용한 자동22단어 인식기를 만들었으며, 이미지 기반 립리딩의 성능은 53.54%의 성능을 가지고 있다. 본 연구에서는 기 구현된 립리딩 시스템을 기반으로 하여, 립리딩 성능이 환경 적인 변화에 대해서 얼마나 안정할 수 있는지, 그리고 립리딩의 인식성능 저하를 일으키는 주요 요인이 무엇인지에 대하여 연구하였다. 입술이미지의 동적 변이로서는 이동, 회전. 크기변화와 같은 공간적 변화와 빛에 의한 조명변화를 고려하였다. 실험용 데이터로는 영상변환에 의한 시뮬레이션 된 데이터와 동적 변화가 심한 자동차 환경에서 수집한 데이터를 사용하였다. 실험결과 입술의 공간 변화가 인식성능 저하의 한가지 요인으로 작용함을 발견하였다. 그러나 실제적으로 공간변화보다 더 심각한 성능저하 원인은 시간흐름에 따른 조명조건의 변화로써 70%이상의 왜곡이 발생했다. 따라서 신뢰할 수 있는 립리딩 시스템 구현을 위해서 고려해야 할 가장 큰 요인은 빛의 변화임을 발견할 수 있었다.

발화구간 검출을 위해 학습된 CNN 기반 입 모양 인식 방법 (Lip Reading Method Using CNN for Utterance Period Detection)

  • 김용기;임종관;김미혜
    • 디지털융복합연구
    • /
    • 제14권8호
    • /
    • pp.233-243
    • /
    • 2016
  • 소음환경에서의 음성인식 문제점으로 인해 1990년대 중반부터 음성정보와 영양정보를 결합한 AVSR(Audio Visual Speech Recognition) 시스템이 제안되었고, Lip Reading은 AVSR 시스템에서 시각적 특징으로 사용되었다. 본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는데 목적이 있다. 본 연구에서는 입 모양 인식을 위해 실험단어를 발화한 입력 영상으로부터 영상의 전처리 과정을 수행하고 입술 영역을 검출한다. 이후 DNN(Deep Neural Network)의 일종인 CNN(Convolution Neural Network)을 이용하여 발화구간을 검출하고, 동일한 네트워크를 사용하여 입 모양 특징 벡터를 추출하여 HMM(Hidden Markov Mode)으로 인식 실험을 진행하였다. 그 결과 발화구간 검출 결과는 91%의 인식률을 보임으로써 Threshold를 이용한 방법에 비해 높은 성능을 나타냈다. 또한 입모양 인식 실험에서 화자종속 실험은 88.5%, 화자 독립 실험은 80.2%로 이전 연구들에 비해 높은 결과를 보였다.

임베디드 환경에서의 실시간 립리딩 시스템 구현 (Real Time Lip Reading System Implementation in Embedded Environment)

  • 김영운;강선경;정성태
    • 정보처리학회논문지B
    • /
    • 제17B권3호
    • /
    • pp.227-232
    • /
    • 2010
  • 본 논문은 임베디드 환경에서의 실시간 립리딩 방법을 제안한다. 기존 PC 환경에 비하여 임베디드 환경은 사용할 수 있는 자원이 제한적이므로, 기존 PC 환경의 립리딩 시스템을 임베디드 환경에서 실시간으로 구동하기는 어렵다. 이러한 문제를 해결하기 위해 본 논문은 임베디드 환경에 적합한 입술영역 검출 방법과 입술 특징추출 방법, 그리고 발성 단어 인식 방법을 제안한다. 먼저 정확한 입술영역을 찾기 위해 얼굴 색상정보를 이용해 얼굴영역을 검출하고 검출된 얼굴 영역에서 양쪽 두 눈의 위치를 찾아 기하학적 관계를 이용해 정확한 입술영역을 검출한다. 검출된 입술영역에서 주위 환경 변화에 따른 조명 변화에 강인한 특징을 추출하기위해 히스토그램 매칭과 입술 폴딩, RASTA 필터를 적용하고 주성분 분석(PCA)을 이용한 특징계수를 추출해 인식에 사용하였다. 실험결과 CPU 806Mhz, RAM 128MB 사양의 임베디드 환경에서 발성 단어에 따라 1.15초에서 2.35초까지의 처리 속도를 보였으며, 180개의 단어 중 139개의 단어를 인식해 77%의 인식률을 얻을 수 있었다.

시간영역 필터를 이용한 립리딩 성능향상에 관한 연구 (A Study on Lip-reading Enhancement Using Time-domain Filter)

  • 신도성;김진영;최승호
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.375-382
    • /
    • 2003
  • 현재 음성인식 분야에서는 잡음이 심한 환경에서 음성 인식률을 향상시킬 수 있는 바이모달의 한 형태인 립리딩 기술에 관한 연구가 활발히 진행되고 있다. 립리딩 연구에 있어서 가장 중요한 것은 정확한 입술 이미지를 찾아내는 것이다. 그러나 조명변화, 화자의 발음습관, 입술 모양의 다양성, 입술의 회전과 크기 변화 등의 환경 변화 요인 때문에 안정적인 성능을 예측하기가 힘든 실정이다. 본 논문에서는 보다 안정적 성능을 얻기 위해 시간영역에서 이미지를 임펄스 응답 필터링을 수행을 통해 향상된 인식성능을 보였다. 또한 본 연구에서는 입술 전체 영상을 대상으로 처리하는 립리딩 기법의 사용으로 인해 발생하는 데이터 용량 증가를 고려해 영상의 정보는 손실하지 않고 그 특징만을 추출하여 데이터의 양을 줄일 수 있는 주성분 분석을 전처리 과정으로 사용하였다. 본 연구에서는 영상정보만을 사용하여 음성인식 성능 관찰을 위해 자동차 내에서 서비스가 가능한 22단어를 선정하여 인식실험을 하였다. 이 단어들의 인식 성능을 비교하기 위하여 음성 인식 알고리듬으로 잘 알려진 HMM(Hidden Markov Model)을 이용하였다. 실험결과 PCA(Principal component Analysis)하였던 경우 립리딩이 64%의 인식률을 보인 반면, 시간영역필터를 립리딩에 적용시 72.7%로 인식률의 향상을 보였다.

가우스 분류기를 이용한 입술영역 추출 (Lip Region Extraction by Gaussian Classifier)

  • 김정엽
    • 한국멀티미디어학회논문지
    • /
    • 제20권2호
    • /
    • pp.108-114
    • /
    • 2017
  • Lip reading is a field of image processing to assist the process of sound recognition. In some environment, the capture of sound signal usually has significant noise and therefore, the recognition rate of sound signal decreases. Lip reading can be a good feature for the increase of recognition rates. Conventional lip extraction methods have been proposed widely. Maia et. al. proposed a method by the sum of Cr and Cb. However, there are two problems as follows: the point with maximum saturation is not always regarded as lips region and the inner part of lips such as oral cavity and teeth can be classified as lips. To solve these problems, this paper proposes a method which adopts the histogram-based classifier for the extraction of lips region. The proposed method consists of two stages, learning and test. The amount of computation is minimized because this method has no color conversion. The performance of proposed method gives 66.8% of detection rate compared to 28% of conventional ones.

Pseudomonas mandelii의 lipase 유전자 클로닝, 발현 및 정제 (Cloning, Expression, and Purification of a Lipase from Psychrotrophic Pseudomonas mandelii)

  • 김준성;이창우
    • 생명과학회지
    • /
    • 제22권3호
    • /
    • pp.306-311
    • /
    • 2012
  • 내냉성 세균인 Pseudomonas mandelii로부터 lipase 유전자(lipT)를 클로닝하고 염기서열을 분석하였다. 열린해독틀 (open reading frame)은 1,686 bp로 구성되어 있고, 562개의 아미노산을 코딩한다. 서열분석 결과 많은 세린 효소에서 발견되는 Gly-X-Ser-X-Gly 모티프가 존재한다(Gly-His-Ser-Leu-Gly). 재조합 LipT 단백질은 대장균에서 주로 inclusion body 형태로 발현되었다. 니켈 친화성 크로마토그라피 방법으로 LipT 단백질을 분리하였으며 소량의 LipT 단백질이 refold 되었다. 이 효소는 p-nitrophenyl butyrate (C4)과 p-nitrophenyl octanoate (C8)에 대해 기질 특이성을 나타내었다.

RASTA 필터를 이용한 립리딩 성능향상에 관한 연구 (A Study on Lip-reading enhancement using RATSTA fileter)

  • 신도성;김진영;최승호;김상훈
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.191-194
    • /
    • 2002
  • Lip-reading technology that is studied them is used to compensate speech recognition degradation in noise environment in bi-modal's form. The most important thing is that search for correct lips area in this lip-reading. But, it is hard to forecast stable performance in dynamic environment. Used RASTA filter that show good performance to remove noise in the speech to compensate. This filter shows that improve performance of using time domain of digital filter. To this experiment observes performance of speech recognition only using image information, service chooses possible 22 words and did recognition experiment in car. We used hidden Markov model by speech recognition algorithm to compare this words' recognition performance.

  • PDF