• 제목/요약/키워드: 입술 추출

검색결과 76건 처리시간 0.029초

에지 분석에 의한 자동 독화 실험 (Automatic Lip Reading Experiment by the Analysis of Edge)

  • 이경호;금종주;이상범
    • 한국컴퓨터산업학회논문지
    • /
    • 제9권1호
    • /
    • pp.21-28
    • /
    • 2008
  • 본 논문에서는 입술 주위 영상만으로 독화를 위한 에지 파라미터를 추출하였고, 한국어 5모음 'ㅏ/ㅔ/ㅣ/ㅗ/ㅜ'를 인식하는데 효과적임을 보였다. 발화하는 입주위의 이미지를 $5{\times}5$로 나누고, 각 영역에 소벨 연산자를 적용하여 디지털 에지 수를 구한 후, 이 값들의 관찰 오차를 정규화를 통하여 수정하고, 정규화 된 값을 파라미터로 사용하였다. 파라미터의 견인성을 확인하기 위하여, 자동 독화 시스템을 구축하였다. 인식 실험에 정상인 50명이 동원되었고, 10명의 이미지로 분석하고, 다른 40명의 이미지로 인식 실험을 하였다. 500개의 데이터를 분석하고, 이 분석을 바탕으로 신경망 시스템을 구축하였으며, 400개의 데이터로 인식 실험하였다. 신경망 시스템의 최고 인식 결과는 91.1%였다.

  • PDF

얼굴의 3차원 위치 및 움직임 추정에 의한 시선 위치 추적 (Facial Gaze Detection by Estimating Three Dimensional Positional Movements)

  • 박강령;김재희
    • 대한전자공학회논문지SP
    • /
    • 제39권3호
    • /
    • pp.23-35
    • /
    • 2002
  • 시선 위치 추적이란 모니터상에 사용자가 쳐다보고 있는 지점을 파악해 내는 기술이다 이 논문에서는 컴퓨터 비젼 방법을 이용하여 사용자가 모니터 상에 어느 지점을 쳐다보고 있는지를 파악(시선 위치 추적)하는 새로운 방법을 제안한다. 시선위치를 파악하기 위해 본 논문에서는 얼굴 영역 및 얼굴 특징점(양 눈, 양 콧구멍, 입술 끝점 등)을 2차원 카메라 영상으로부터 추출하였으며, 이들의 움직임으로부터 카메라 보정 및 매개변수 추정 방법등을 이용하여 초기 3차원 위치를 추정해 내었다. 이후 모니터 상의 한 지점을 쳐다보기 위해 사용자가 얼굴을 움직이는 경우 이러한 얼굴의 3차원 움직임 량 역시 자동으로 추정하였다. 이로부터 변화된 얼굴 특징점의 3차원 위치를 계산해 낼 수 있었으며, 이를 바탕으로 모니터 상의 시선 위치를 구하였다. 실험 결과, 19인치 모니터상의 임의의 지점을 사용자가 쳐다보았을 때, 약 2.01인치의 시선 위치에러 성능을 얻었다.

발화구간 검출을 위해 학습된 CNN 기반 입 모양 인식 방법 (Lip Reading Method Using CNN for Utterance Period Detection)

  • 김용기;임종관;김미혜
    • 디지털융복합연구
    • /
    • 제14권8호
    • /
    • pp.233-243
    • /
    • 2016
  • 소음환경에서의 음성인식 문제점으로 인해 1990년대 중반부터 음성정보와 영양정보를 결합한 AVSR(Audio Visual Speech Recognition) 시스템이 제안되었고, Lip Reading은 AVSR 시스템에서 시각적 특징으로 사용되었다. 본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는데 목적이 있다. 본 연구에서는 입 모양 인식을 위해 실험단어를 발화한 입력 영상으로부터 영상의 전처리 과정을 수행하고 입술 영역을 검출한다. 이후 DNN(Deep Neural Network)의 일종인 CNN(Convolution Neural Network)을 이용하여 발화구간을 검출하고, 동일한 네트워크를 사용하여 입 모양 특징 벡터를 추출하여 HMM(Hidden Markov Mode)으로 인식 실험을 진행하였다. 그 결과 발화구간 검출 결과는 91%의 인식률을 보임으로써 Threshold를 이용한 방법에 비해 높은 성능을 나타냈다. 또한 입모양 인식 실험에서 화자종속 실험은 88.5%, 화자 독립 실험은 80.2%로 이전 연구들에 비해 높은 결과를 보였다.

초음파 도플러 신호를 이용한 음성 합성 (Speech synthesis using acoustic Doppler signal)

  • 이기승
    • 한국음향학회지
    • /
    • 제35권2호
    • /
    • pp.134-142
    • /
    • 2016
  • 본 논문에서는 40 kHz 초음파 신호를 입 주변에 쏘고, 되돌아오는 초음파 신호를 이용해 음성신호를 합성하는 방법을 소개하고 성능을 평가하였다. 발성하고 있는 입주변에 초음파를 방사하게 되면, 입술, 턱, 뺨 등의 움직임으로 인한 변위로 도플러 현상이 발생하고, 이에 따라 반사 신호에는 본래의 주파수 성분과는 다른 도플러 주파수가 관찰되는데, 본 논문에서는 이러한 도플러 주파수를 이용하여 음성 파라메터를 추정하도록 하였다. 음성합성에 앞서서 초음파 도플러 신호와 음성 신호 간의 상관관계를 각 주파수 별로 분석하였으며, 이로부터 초음파 도플러 신호를 이용한 음성 신호의 합성 가능성을 살펴보았다. 변환에는 초음파 도플러의 정적, 동적 특성을 함께 반영한 특징 변수를 사용하였으며 결합-혼합 가우시안 기법을 이용하여 음성 파라메터로 변환하였다. 5명의 피 실험자를 이용한 음성 합성 실험에서 필터뱅크 에너지 값을 초음파신호의 특징변수로, LPC(Linear Predictive Coefficient) 켑스트럼 계수를 음성 변수로 사용하는 경우 가장 우수한 변환 성능을 나타내었다. 음성신호에서 추출한 여기신호를 이용하여 합성음을 생성하고, 이를 청취하였을 때 72.2 %의 평균 인식율이 얻어짐을 확인할 수 있었다.

입 모양 인식 시스템 전처리를 위한 관심 영역 추출과 이중 선형 보간법 적용 (Region of Interest Extraction and Bilinear Interpolation Application for Preprocessing of Lipreading Systems)

  • 한재혁;김용기;김미혜
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.189-198
    • /
    • 2024
  • 입 모양 인식은 음성 인식의 중요 부분 중 하나로 음성 인식을 위한 입 모양 인식 시스템에서 입 모양 인식 성능을 개선하기 위한 여러 연구가 진행됐다. 최근의 연구에서는 인식 성능을 개선하기 위해 입 모양 인식 시스템의 모델 구조를 수정하는 방법이 사용됐다. 본 연구에서는 모델 구조를 수정하는 것으로 인식 성능을 개선하는 기존의 연구와 달리 모델 구조의 변화 없이 인식 성능을 개선하는 것을 목표로 한다. 모델 구조의 수정 없이 인식 성능을 개선하기 위해, 사람이 하는 입 모양 인식에서 사용되는 단서를 참고해 입 모양 인식 시스템의 기존 관심 영역인 입술 영역과 함께 턱, 뺨과 같은 다른 영역을 관심 영역으로 설정하고 각 관심 영역의 인식률을 비교해 가장 높은 성능의 관심 영역을 제안한다. 또한, 관심 영역 크기를 정규화하는 과정에서 보간법의 차이로 인해 발생하는 정규화 결과의 차이가 인식 성능에 영향을 준다고 가정하고 최근접 이웃 보간법, 이중 선형 보간법, 이중 삼차 보간법을 사용해 동일한 관심 영역을 보간하고 각 보간법에 따른 입 모양 인식률을 비교해 가장 높은 성능의 보간법을 제안한다. 각 관심 영역은 객체 탐지 인공신경망을 학습시켜 검출하고, 각 관심 영역을 정규화하고 특징을 추출하고 결합한 뒤, 결합된 특징들을 차원 축소한 결과를 저차원 공간으로 매핑하는 것으로 동적 정합 템플릿을 생성했다. 생성된 동적 정합 템플릿들과 저차원 공간으로 매핑된 데이터의 거리를 비교하는 것으로 인식률을 평가했다. 실험 결과 관심 영역의 비교에서는 입술 영역만을 포함하는 관심 영역의 결과가 이전 연구의 93.92%의 평균 인식률보다 3.44% 높은 97.36%의 평균 인식률을 보였으며, 보간법의 비교에서는 이중 선형 보간법이 97.36%로 최근접 이웃 보간법에 비해 14.65%, 이중 삼차 보간법에 비해 5.55% 높은 성능을 나타내었다. 본 연구에 사용된 코드는 https://github.com/haraisi2/Lipreading-Systems에서 확인할 수 있다.

설진 유효 영역 추출의 시스템적 접근 방법 (Systematic Approach to The Extraction of Effective Region for Tongue Diagnosis)

  • 김근호;도준형;유현희;김종열
    • 전자공학회논문지SC
    • /
    • 제45권6호
    • /
    • pp.123-131
    • /
    • 2008
  • 한의학에서 혀의 상태는 인체 내부의 생리적 병리적 변화와 같은 건강 상태를 진단하는 중요한 지표로 활용된다. 혀의 상태를 진단하는 방법(설진)은 편리할 뿐 아니라 비침습적이므로, 한의학에서 널리 활용되고 있다. 하지만, 설진은 광원이나 환자의 자세, 의사의 건강 조건과 같은 검사 환경에 따라 많은 영향을 받는다. 객관적이고 표준화된 진단을 위한 자동 설진 시스템을 개발하기 위하여 촬영된 얼굴 영상으로부터 혀를 영역분할하고 설태를 분류하는 것은 필수적이지만 혀와 입술, 입 근처의 피부색이 서로 유사하므로 쉽지 않은 일이다. 제안된 방법은 전처리 과정과 영역분할, 혀의 구조로부터 발생하는 음영 영역의 지역 최소값 위치 검색, 지역 최소값의 교정, 컬러의 차이를 최대로 하는 위치를 찾는 컬러 경계면 탐색, 척의 기하적인 특성에 일치하는 경계면 선택, 경계면 평활화로 구성되어 있으며, 여기서 전처리 과정은 계산량의 감소를 위한 부 표본화, 히스토그램 평활화, 경계면 강화를 수행한다. 이러한 시스템적인 과정을 거치면, 영역분할된 혀를 획득할 수 있게 된다. 제안된 방법으로 분할된 영역은 초과적으로 혀가 아닌 영역을 제외해 낼 뿐 아니라 정확한 진단을 위해 중요한 정보를 제공함을 한의사의 진단 유효도 평가점수를 통해 확인할 수 있었다. 제안된 방법은 진단의 객관화와 표준화에 기여할 뿐만 아니라 u-Healthcare 시스템에도 활용 가능하다.