• 제목/요약/키워드: 입술 인식

검색결과 93건 처리시간 0.027초

색도 정보와 Top-hat 연산을 이용한 얼굴 특징점 검출 (Facial-feature Detection using Chrominance Components and Top-hat Operation)

  • 부희형;이우주;임옥현;이배호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.887-890
    • /
    • 2004
  • 임의 영상에서 얼굴 영역을 검출하고 얼굴 특징점 정보를 획득하는 기술은 얼굴 인식 및 표정 인식 시스템에서 중요한 역할을 한다. 본 논문은 색도 정보와 Top-hat 연산을 이용함으로써 얼굴의 유효 특징점을 효과적으로 검출할 수 있는 방법을 제안한다. 제안한 방법은 얼굴 영역 검출, 눈/눈썹 특징추출, 입술 특징추출의 세 과정으로 나눈다. 얼굴 영역은 $YC_{b}C_{r}$을 이용하여 피부색 영역을 추출한 후 모폴로지 연산과 분할을 통해 획득하고, 눈/눈썹 특징점은 BWCD(Black & White Color Distribution) 변환과 Top-hat 연산을 이용하며. 입술 특징점은 눈/눈썹과의 지정학적 상관관계와 입술 색상분포를 이용하는 방법을 사용한다. 실험을 수행한 결과. 제안한 방법이 다양한 영상에 대해서도 효과적으로 얼굴의 유효 특징점을 검출할 수 있음을 확인하였다.

  • PDF

한국어 모음 입술독해를 위한 시공간적 특징에 관한 연구 (A Study on Spatio-temporal Features for Korean Vowel Lipreading)

  • 오현화;김인철;김동수;진성일
    • 한국음향학회지
    • /
    • 제21권1호
    • /
    • pp.19-26
    • /
    • 2002
  • 본 논문에서는 한국어 입술독해를 위한 기반 연구로서 음성학에 기반하여 음성의 시각적 기본 단위인 viseme을 정의하고 입술의 움직임을 적절히 표현할 수 있는 특징들을 추출하여 그 성능을 분석하였다. 먼저, 다수의 화자로부터 한국어 모음에 해당하는 입술의 동영상 데이터베이스를 획득하고 각모음별 시각적 특성을 분석하여 7개의 한국어 모음 viseme을 정의하였으며 입술 윤곽선상의 특징점과 시공간적 특징 벡터들을 추출하여 은닉 마르코프 모델에 적용함으로써 효과적인 입술독해를 위한 각 특징 벡터별 성능을 비교하였다. 7개의 한국어 각 viseme에 대한 인식 실험 결과에서 입술의 안팎 윤곽선의 정보가 모두 반영된 특징 벡터가 입술독해에 효과적으로 적용될 수 있으며 윤곽선 상의 특징점들의 시간적 움직임 크기와 방향이 입술독해를 위하여 매우 중요한 요소임을 확인할 수 있었다.

에너지 최소화 기반 능동형태 모델을 이용한 입술 윤곽선 추출 (Lip Contour Extraction Using Active Shape Model Based on Energy Minimization)

  • 장경식
    • 한국정보통신학회논문지
    • /
    • 제10권10호
    • /
    • pp.1891-1896
    • /
    • 2006
  • 이 논문에서는 능동형태 모델을 개선하여 입술의 형태를 효과적으로 추출하는 방법을 제안하였다. 입술의 형태변형은 능동형태 모델에 기반을 둔 통계적 형태 변형 모델을 사용하여 표현하였다. 능동형태 모델에서 각 점은 지엽적인 정보인 프로파일을 기반으로 독립적으로 이동하기 때문에 많은 오류가 발생할 수 있다. 전역적인 정보를 사용하기 위하여 이 논문에서는 능동윤곽선 모델에서 사용하는 것과 유사한 에너지 함수를 정의하고 전체 에너지가 최소화되는 위치로 점들이 이동하게 하였다. Tulip 1 데이터 베이스에 있는 입술 영상을 대상으로 실험한 결과, 제안한 방법이 기존 방법보다 실제 형태에 가깝게 입술을 추출하였다.

시간영역 이미지 필터링에 의한 립리딩 성능 향상 (Time domain Filtering of Image for Lip-reading Enhancement)

  • 이지은;김진영;이주헌
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.45-48
    • /
    • 2001
  • 립리딩은 잡음 환경 하에서 음성 인식 성능을 향상을 위해 영상정보를 이용한 바이모달(bimodal)음성인식으로 연구되었다[1][2]. 그 일환으로 이미 영상정보를 이용한 립리딩은 구현되었다. 그러나 현재까지의 시스템들은 환경의 변화에 강인하지 못하다. 본 논문에서는 이미지 기반 립리딩 방법을 적용하여 입술 영역을 보다 안정적으로 찾아 성능을 향상 시켰다. 그러나 이 방법은 많은 데이터량을 처리해야 하므로 전처리 과정이 필요하다. 전처리로 입력영상을 그레이 레벨로 변환하는 방법과, 입술을 반으로 접는 방법, 그리고 주성분 분석(PCA: Principal Component Analysis)을 사용하였다. 또한 인식성능 향상을 위해 음성에서 잡음 제거나 분석$\cdot$합성에 효과적인 성능을 보이는 RASTA(Relative Spectral)필터를 적용하여 시간 영역에서의 변화가 적은 성분이나 급변하는 성분, 그 밖의 잡음 등을 제거하였다. 그 결과 $72.7\%$의 높은 인식 성능을 보였다.

  • PDF

오디오-비디오 정보 융합을 통한 멀티 모달 음성 인식 시스템 (Audio-Visual Integration based Multi-modal Speech Recognition System)

  • 이상운;이연철;홍훈섭;윤보현;한문성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.707-710
    • /
    • 2002
  • 본 논문은 오디오와 비디오 정보의 융합을 통한 멀티 모달 음성 인식 시스템을 제안한다. 음성 특징 정보와 영상 정보 특징의 융합을 통하여 잡음이 많은 환경에서 효율적으로 사람의 음성을 인식하는 시스템을 제안한다. 음성 특징 정보는 멜 필터 캡스트럼 계수(Mel Frequency Cepstrum Coefficients: MFCC)를 사용하며, 영상 특징 정보는 주성분 분석을 통해 얻어진 특징 벡터를 사용한다. 또한, 영상 정보 자체의 인식률 향상을 위해 피부 색깔 모델과 얼굴의 형태 정보를 이용하여 얼굴 영역을 찾은 후 강력한 입술 영역 추출 방법을 통해 입술 영역을 검출한다. 음성-영상 융합은 변형된 시간 지연 신경 회로망을 사용하여 초기 융합을 통해 이루어진다. 실험을 통해 음성과 영상의 정보 융합이 음성 정보만을 사용한 것 보다 대략 5%-20%의 성능 향상을 보여주고 있다.

  • PDF

MobileNet을 이용한 한국어 입모양 인식 시스템 (Korean Lip Reading System Using MobileNet)

  • 이원종;김주아;손서원;김동호
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.211-213
    • /
    • 2022
  • Lip Reading(독순술(讀脣術)) 이란 입술의 움직임을 보고 상대방이 무슨 말을 하는지 알아내는 기술이다. 본 논문에서는 MBC, SBS 뉴스 클로징 영상에서 쓰이는 문장 10개를 데이터로 사용하고 CNN(Convolutional Neural Network) 아키텍처 중 모바일 기기에서 동작을 목표로 한 MobileNet을 모델로 이용하여 발화자의 입모양을 통해 문장 인식 연구를 진행한 결과를 제시한다. 본 연구는 MobileNet과 LSTM을 활용하여 한국어 입모양을 인식하는데 목적이 있다. 본 연구에서는 뉴스 클로징 영상을 프레임 단위로 잘라 실험 문장 10개를 수집하여 데이터셋(Dataset)을 만들고 발화한 입력 영상으로부터 입술 인식과 검출을 한 후, 전처리 과정을 수행한다. 이후 MobileNet과 LSTM을 이용하여 뉴스 클로징 문장을 발화하는 입모양을 학습 시킨 후 정확도를 알아보는 실험을 진행하였다.

  • PDF

시간영역 필터를 이용한 립리딩 성능향상에 관한 연구 (A Study on Lip-reading Enhancement Using Time-domain Filter)

  • 신도성;김진영;최승호
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.375-382
    • /
    • 2003
  • 현재 음성인식 분야에서는 잡음이 심한 환경에서 음성 인식률을 향상시킬 수 있는 바이모달의 한 형태인 립리딩 기술에 관한 연구가 활발히 진행되고 있다. 립리딩 연구에 있어서 가장 중요한 것은 정확한 입술 이미지를 찾아내는 것이다. 그러나 조명변화, 화자의 발음습관, 입술 모양의 다양성, 입술의 회전과 크기 변화 등의 환경 변화 요인 때문에 안정적인 성능을 예측하기가 힘든 실정이다. 본 논문에서는 보다 안정적 성능을 얻기 위해 시간영역에서 이미지를 임펄스 응답 필터링을 수행을 통해 향상된 인식성능을 보였다. 또한 본 연구에서는 입술 전체 영상을 대상으로 처리하는 립리딩 기법의 사용으로 인해 발생하는 데이터 용량 증가를 고려해 영상의 정보는 손실하지 않고 그 특징만을 추출하여 데이터의 양을 줄일 수 있는 주성분 분석을 전처리 과정으로 사용하였다. 본 연구에서는 영상정보만을 사용하여 음성인식 성능 관찰을 위해 자동차 내에서 서비스가 가능한 22단어를 선정하여 인식실험을 하였다. 이 단어들의 인식 성능을 비교하기 위하여 음성 인식 알고리듬으로 잘 알려진 HMM(Hidden Markov Model)을 이용하였다. 실험결과 PCA(Principal component Analysis)하였던 경우 립리딩이 64%의 인식률을 보인 반면, 시간영역필터를 립리딩에 적용시 72.7%로 인식률의 향상을 보였다.

스마트폰에서 웃음 치료를 위한 표정인식 애플리케이션 개발 (Development of Recognition Application of Facial Expression for Laughter Theraphy on Smartphone)

  • 강선경;이옥걸;송원창;김영운;정성태
    • 한국멀티미디어학회논문지
    • /
    • 제14권4호
    • /
    • pp.494-503
    • /
    • 2011
  • 본 논문에서는 스마트폰에서 웃음 치료를 위한 표정인식 애플리케이션을 제안한다. 제안된 방법에서는 스마트폰의 전면 카메라 영상으로부터 AdaBoost 얼굴 검출 알고리즘을 이용하여 얼굴을 검출한다. 얼굴을 검출한 다음에는 얼굴 영상으로부터 입술 영역을 검출한다. 그 다음 프레임부터는 얼굴을 검출하지 않고 이전 프레임에서 검출된 입술영역을 3단계 블록 매칭 기법을 이용하여 추적한다. 카메라와 얼굴 사이의 거리에 따라 입술 영역의 크기가 달라지므로, 입술 영역을 구한 다음에는 고정된 크기로 정규화한다. 그리고 주변 조명 상태에 따라 영상이 달라지므로, 본 논문에서는 히스토그램 매칭과 좌우대칭을 결합하는 조명 정규화 알고리즘을 이용하여 조명 보정 전처리를 함으로써 조명에 의한 영향을 줄일 수 있도록 하였다. 그 다음에는 검출된 입술 영상에 주성분 분석을 적용하여 특징 벡터를 추출하고 다층퍼셉트론 인공신경망을 이용하여 실시간으로 웃음 표정을 인식한다. 스마트폰을 이용하여 실험한 결과, 제안된 방법은 초당 16.7프레임을 처리할 수 있어서 실시간으로 동작 가능하였고 인식률 실험에서도 기존의 조명 정규화 방법보다 개선된 성능을 보였다.

베이지안 분류를 이용한 립 리딩 시스템 (Lip-reading System based on Bayesian Classifier)

  • 김성우;차경애;박세현
    • 한국산업정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.9-16
    • /
    • 2020
  • 음성 정보를 배제하고 영상 정보만을 이용한 발음 인식 시스템은 다양한 맞춤형 서비스에 적용될 수 있다. 본 논문에서는 베이지안 분류기를 기반으로 입술 모양을 인식하여 한글 모음을 구분하는 시스템을 개발한다. 얼굴 이미지의 입술 모양에서 특징 벡터를 추출하고 설계된 기계 학습모델을 적용하여 실험한 결과 'ㅏ' 발음의 경우 94%의 인식률을 보였으며, 평균 인식률은 약 84%를 나타내었다. 또한 비교군으로 실험한 CNN 환경에서의 인식률보다 높은 결과를 보였다. 이를 통해서 입술 영역의 랜드 마크로 설계된 특징 값을 사용하는 베이지안 분류 기법이 적은 수의 훈련 데이터에서 보다 효율적일 수 있음을 알 수 있다. 따라서 모바일 디바이스와 같은 제한적 하드웨어에서 응용 가능한 어플리케이션 개발에 활용할 수 있다.

얼굴의 다중특징을 이용한 인증 시스템 구현 (A study on the implementation of identification system using facial multi-feature)

  • 정택준;문용선;박병석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2002년도 춘계종합학술대회
    • /
    • pp.448-451
    • /
    • 2002
  • 본 연구는 인식의 정확성을 향상시키기 위하여 단일 특징을 이용한 인식 대신에 다중 특징을 이용하는 인식방법을 제안한다. 각각의 특징은 다음과 같은 방법으로 구하여진다. 얼굴 전체의 특징은 웨이블렛 다해상도 분해와 주성분 분석방법으로 계산하였고, 입술의 경우는 입술의 경계를 구한 후 최소 자승법을 이용한 방정식의 계수를 구하였으며, 또 하나의 특징은 얼굴요소의 거리 비율에 의해 구하였다. 위 값들을 입력으로 한 역전파 학습 알고리즘으로 분류하여 실험하여 제안된 방범의 유효성을 확인하였다.

  • PDF