• 제목/요약/키워드: Lip Segmentation

검색결과 13건 처리시간 0.02초

색역 압축과 특징치 투영을 이용한 입술영역 분할 (Segmentation of the Lip Region by Color Gamut Compression and Feature Projection)

  • 김정엽
    • 한국멀티미디어학회논문지
    • /
    • 제21권11호
    • /
    • pp.1279-1287
    • /
    • 2018
  • In this paper, a new type of color coordinate conversion is proposed as modified CIEXYZ from RGB to compress the color gamut. The proposed segmentation includes principal component analysis for the optimal projection of a feature vector into a one-dimensional feature. The final step adopted for lip segmentation is Otsu's threshold for a two-class problem. The performance of the proposed method was better than that of conventional methods, especially for the chromatic feature.

입술영역 분할을 위한 CIELuv 칼라 특징 분석 (Analysis of CIELuv Color feature for the Segmentation of the Lip Region)

  • 김정엽
    • 한국멀티미디어학회논문지
    • /
    • 제22권1호
    • /
    • pp.27-34
    • /
    • 2019
  • In this paper, a new type of lip feature is proposed as distance metric in CIELUV color system. The performance of the proposed feature was tested on face image database, Helen dataset from University of Illinois. The test processes consists of three steps. The first step is feature extraction and second step is principal component analysis for the optimal projection of a feature vector. The final step is Otsu's threshold for a two-class problem. The performance of the proposed feature was better than conventional features. Performance metrics for the evaluation are OverLap and Segmentation Error. Best performance for the proposed feature was OverLap of 65% and 59 % of segmentation error. Conventional methods shows 80~95% for OverLap and 5~15% of segmentation error usually. In conventional cases, the face database is well calibrated and adjusted with the same background and illumination for the scene. The Helen dataset used in this paper is not calibrated or adjusted at all. These images are gathered from internet and therefore, there are no calibration and adjustment.

YCbCr 농도 대비를 이용한 입술특징 추출 (Lip Feature Extraction using Contrast of YCbCr)

  • 김우성;민경원;고한석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.259-260
    • /
    • 2006
  • Since audio speech recognition is affected by noise in real environment, visual speech recognition is used to support speech recognition. For the visual speech recognition, this paper suggests the extraction of lip-feature using two types of image segmentation and reduced ASM. Input images are transformed to YCbCr based images and lips are segmented using the contrast of Y/Cb/Cr between lip and face. Subsequently, lip-shape model trained by PCA is placed on segmented lip region and then lip features are extracted using ASM.

  • PDF

클래스 종속 반연속 HMM을 이용한 립싱크 시스템 최적화 (Lip-Synch System Optimization Using Class Dependent SCHMM)

  • 이성희;박준호;고한석
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.312-318
    • /
    • 2006
  • 기존의 립싱크 시스템은 음소 분할 후, 각각의 음소를 인식하는 2단계의 과정을 거쳤다. 하지만, 정확한 음소 분할의 부재와 음성이 끊긴 분할 된 음소로 이루어진 훈련 데이터들은 시스템의 전체 성능을 크게 떨어뜨렸다. 이런 문제를 해결하기 위해 Head-Body-Tail (HBT) 모델을 이용한 단모음 연속어 인식 기술을 제안한다. 주로 소규모 어휘를 다루는데 적합한 HBT 모델은 Head 와 Tail 부분에 문맥 종속 정보를 포함하여 앞 뒤 문맥에 따른 조음효과를 최대한 반영한다. 또한, 7개의 단모음을 입모양이 비슷한 세 개의 클래스로 분류하여, 클래스에 종속적인 코드북 3개를 가진 반연속HMM (Hidden Markov Model)을 적용하여 시스템을 최적화하고, 변이 부분이 큰 단어의 처음과 끝은 연속HMM의 8 믹스쳐 가우시안 구조를 사용하여 모델링하였다. 제안한 방법은 HBT구조의 연속HW과 대등한 성능을 보이지만, 파라미터 수는 33.92% 감소하였다. 파라미터 감소는 계산 양을 줄여주므로, 시스템이 실시간으로 동작 가능하게 한다.

윈도우를 사용한 얼굴영역의 추출 기법 (A Face Segmentation Algorithm Using Window)

  • 임성현;이철희
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(4)
    • /
    • pp.45-48
    • /
    • 2000
  • In this paper, we propose a region-based segmentation algorithm to extract human face area using a window function and neural networks. Furthermore, we apply the erosion and dilation to remove small error areas. By applying the window function, it is possible to reduce error. In particular, false segmentation of the eye and the lip can be considerably reduced. Experiments show promising results and it is expected that the Proposed method can be applied to video conference and still image compression.

  • PDF

Support Vector Machine Based Phoneme Segmentation for Lip Synch Application

  • Lee, Kun-Young;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.193-210
    • /
    • 2004
  • In this paper, we develop a real time lip-synch system that activates 2-D avatar's lip motion in synch with an incoming speech utterance. To realize the 'real time' operation of the system, we contain the processing time by invoking merge and split procedures performing coarse-to-fine phoneme classification. At each stage of phoneme classification, we apply the support vector machine (SVM) to reduce the computational load while retraining the desired accuracy. The coarse-to-fine phoneme classification is accomplished via two stages of feature extraction: first, each speech frame is acoustically analyzed for 3 classes of lip opening using Mel Frequency Cepstral Coefficients (MFCC) as a feature; secondly, each frame is further refined in classification for detailed lip shape using formant information. We implemented the system with 2-D lip animation that shows the effectiveness of the proposed two-stage procedure in accomplishing a real-time lip-synch task. It was observed that the method of using phoneme merging and SVM achieved about twice faster speed in recognition than the method employing the Hidden Markov Model (HMM). A typical latency time per a single frame observed for our method was in the order of 18.22 milliseconds while an HMM method applied under identical conditions resulted about 30.67 milliseconds.

  • PDF

발화구간 검출을 위해 학습된 CNN 기반 입 모양 인식 방법 (Lip Reading Method Using CNN for Utterance Period Detection)

  • 김용기;임종관;김미혜
    • 디지털융복합연구
    • /
    • 제14권8호
    • /
    • pp.233-243
    • /
    • 2016
  • 소음환경에서의 음성인식 문제점으로 인해 1990년대 중반부터 음성정보와 영양정보를 결합한 AVSR(Audio Visual Speech Recognition) 시스템이 제안되었고, Lip Reading은 AVSR 시스템에서 시각적 특징으로 사용되었다. 본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는데 목적이 있다. 본 연구에서는 입 모양 인식을 위해 실험단어를 발화한 입력 영상으로부터 영상의 전처리 과정을 수행하고 입술 영역을 검출한다. 이후 DNN(Deep Neural Network)의 일종인 CNN(Convolution Neural Network)을 이용하여 발화구간을 검출하고, 동일한 네트워크를 사용하여 입 모양 특징 벡터를 추출하여 HMM(Hidden Markov Mode)으로 인식 실험을 진행하였다. 그 결과 발화구간 검출 결과는 91%의 인식률을 보임으로써 Threshold를 이용한 방법에 비해 높은 성능을 나타냈다. 또한 입모양 인식 실험에서 화자종속 실험은 88.5%, 화자 독립 실험은 80.2%로 이전 연구들에 비해 높은 결과를 보였다.

Lip-synch application을 위한 한국어 단어의 음소분할 (The segmentation of Korean word for the lip-synch application)

  • 강용성;고한석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.509-512
    • /
    • 2001
  • 본 논문은 한국어 음성에 대한 한국어 단어의 음소단위 분할을 목적으로 하였다. 대상 단어는 원광대학교 phonetic balanced 452단어 데이터 베이스를 사용하였고 분할 단위는 음성 전문가에 의해 구성된 44개의 음소셋을 사용하였다. 음소를 분할하기 위해 음성을 각각 프레임으로 나눈 후 각 프레임간의 스펙트럼 성분의 유사도를 측정한 후 측정한 유사도를 기준으로 음소의 분할점을 찾았다. 두 프레임 간의 유사도를 결정하기 위해 두 벡터 상호간의 유사성을 결정하는 방법중의 하나인 Lukasiewicz implication을 사용하였다. 본 실험에서는 기존의 프레임간 스펙트럼 성분의 유사도 측정을 이용한 하나의 어절의 유/무성음 분할 방법을 본 실험의 목적인 한국어 단어의 음소 분할 실험에 맞도록 수정하였다. 성능평가를 위해 음성 전문가에 의해 손으로 분할된 데이터와 본 실험을 통해 얻은 데이터와의 비교를 하여 평가를 하였다. 실험결과 전문가가 직접 손으로 분할한 데이터와 비교하여 32ms이내로 분할된 비율이 최고 84.76%를 나타내었다.

  • PDF

Pyramid pooling을 이용한 CNN 기반의 Human Parsing 기법 (CNN-based Human Parsing Technique Using Pyramid Pooling)

  • 최인규;고민수;송혁
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.97-98
    • /
    • 2018
  • 최근 딥러닝 기술의 발전으로 영상 분류 및 영상 내 객체 검출뿐만 아니라 CNN 기반의 segmentation 기술도 개발되어 다른 요소까지 포함한 직사각형 영역의 검출 영역이 아닌 경계까지 고려한 분리가 가능하게 되었다. 더불어 사람 영역을 신체부위나 의류 부분과 같은 세부 영역으로 나누어 분리하는 human parsing 기술까지 연구되고 있다. Human parsing은 의류스타일 분석 및 검색, 사람의 행동 인식 및 추적과 같은 분야에도 응용될 수 있다. 본 논문에서는 Spatial pyramid pooling layer를 이용하여 영상 전체에 대한 공간적 분포 및 특성 정보를 고려한 human parsing 기법을 제안한다. Look into person(LIP) dataset을 이용하여 기존의 다른 segmentation 및 human parsing 기법과 제안하는 기법을 비교하여 제안하는 기법의 human parsing 결과가 보다 정교한 분리가 가능한 것을 확인하였다.

  • PDF

다중 문턱치를 이용한 입술 윤곽 검출 방법 (Lip Contour Detection by Multi-Threshold)

  • 김정엽
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권12호
    • /
    • pp.431-438
    • /
    • 2020
  • 본 논문에서는 입술 윤곽선을 검출하기 위한 다중 문턱치 기반의 검출방법을 제안하였다. 기존의 연구 중 Spyridonos 등이 제안한 방법은 입력영상을 RGB로부터 YIQ 좌표계로 변환하여 Q 성분만을 이용하여 Q 영상을 얻는다. Q 영상으로부터 변화 점 검출을 통하여 입술 모양의 좌우 끝점을 얻어낸다. 좌우 끝점에 대한 수직 좌표의 평균값을 이용하여 Q 영상을 상하로 분리하고, 상하 영역 각각에 대하여 별도로 Q값을 대상으로 문턱치를 적용하여 후보 윤곽선을 추출한다. 추출된 후보 윤곽선에 특징치 거리를 이용하여 최적의 문턱치를 찾고, 해당하는 윤곽선을 최종 입술 윤곽선으로 결정한다. 이 때 사용되는 특징치 거리 D는 후보 윤곽선 상의 점들을 기준으로 주변 영역에 대한 차이의 절대값을 이용하여 계산한다. 기존연구의 문제점은 세 가지인데, 첫째는 입술 끝점 추출 과정에서 피부영역의 과다한 참여로 입술 끝점의 추출의 정확도가 감소하고, 따라서 후속되는 상/하 영역 분리에도 영향을 미친다. 둘째는 YIQ 칼라 좌표계를 사용하였는데, 다양한 칼라 좌표계에 대한 분석이 미비하므로 추가적인 분석이 필요하다. 세 째, 최적 윤곽선의 선택 시 적용하는 거리 값 파라미터의 계산 과정에서, 문턱치를 적용하여 구한 해당 윤곽선 주변의 데이터들에 의한 변화분을 계산하여 변화가 가장 큰 윤곽선을 입술 후보로 채택하는데, 변화분의 최대치를 기준으로 하기 때문에 검출된 입술영역이 기준보다 축소되는 문제점이 있다. 첫 번째 문제점을 해결하기 위하여 피부영역의 계산과정 참여를 줄여서 성능을 30%정도 향상시켰다. 두 번째는 YIQ 외에 HSV, CIELUV, YCrCb 등의 칼라 좌표계에 대한 성능테스트를 거쳐 기존연구 방법이 칼라좌표계에 대한 의존성이 없음을 확인하였다. 세 번째는 윤곽선 주변의 변화분 검토 시, 윤곽선 포인트 당 변화분의 평균값 대신에 변화분의 총량을 적용하여 46% 성능개선 효과를 얻었다. 이상의 내용을 모두 적용하여 제안한 통합방법은 기존연구 대비 2배의 성능향상과 안정성을 확보할 수 있었다.