• 제목/요약/키워드: Speech Animation

검색결과 42건 처리시간 0.021초

Support Vector Machine Based Phoneme Segmentation for Lip Synch Application

  • Lee, Kun-Young;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.193-210
    • /
    • 2004
  • In this paper, we develop a real time lip-synch system that activates 2-D avatar's lip motion in synch with an incoming speech utterance. To realize the 'real time' operation of the system, we contain the processing time by invoking merge and split procedures performing coarse-to-fine phoneme classification. At each stage of phoneme classification, we apply the support vector machine (SVM) to reduce the computational load while retraining the desired accuracy. The coarse-to-fine phoneme classification is accomplished via two stages of feature extraction: first, each speech frame is acoustically analyzed for 3 classes of lip opening using Mel Frequency Cepstral Coefficients (MFCC) as a feature; secondly, each frame is further refined in classification for detailed lip shape using formant information. We implemented the system with 2-D lip animation that shows the effectiveness of the proposed two-stage procedure in accomplishing a real-time lip-synch task. It was observed that the method of using phoneme merging and SVM achieved about twice faster speed in recognition than the method employing the Hidden Markov Model (HMM). A typical latency time per a single frame observed for our method was in the order of 18.22 milliseconds while an HMM method applied under identical conditions resulted about 30.67 milliseconds.

  • PDF

조음 기관의 시각화를 이용한 음성 동기화 애니메이션 (Speech Animation by Visualizing the Organs of Articulation)

  • 이성진;김익재;고형석
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.843-851
    • /
    • 2006
  • 본 논문에서는 음성에 따른 얼굴 애니메이션을 사실적으로 표현하기 위한 조음기관(혀, 성대 등)의 움직임을 시각화하는 방법을 제시한다. 이를 위해서, 음성에 따른 얼굴 애니메이션을 위한 말뭉치(Corpus)를 생성하고, 생성된 말뭉치에 대해서 음소 단위의 분석(Phoneme alignment) 처리를 한 후, 각 음소에 따른 조음기관의 움직임을 생성한다. 본 논문에서는 조음기관의 움직임 생성을 위해서 얼굴 애니메이션 처리에서 널리 사용되고 있는 기저 모델 기반 형태 혼합 보간 기법(Blend shape Interpolation)을 사용하였다. 그리고 이를 통하여 프레임/키프레임 기반 움직임 생성 사용자 인터페이스를 구축하였다. 구축된 인터페이스를 통해 언어치료사가 직접 각 음소 별 조음기관의 정확한 모션 데이터를 생성토록 한다. 획득된 모션 데이터를 기반으로 각 음소 별 조음기관의 3차원 기본 기저를 모델링하고, 새롭게 입력된 음소 시퀀스(phoneme sequence)에 대해서 동기화된 3차원 조음기관의 움직임을 생성한다. 이를 통해 자연스러운 3차원 얼굴 애니메이션에 적용하여 얼굴과 동기화된 조음 기관의 움직임을 만들어 낼 수 있다.

  • PDF

한국.일본의 만화표현의 자유 규제 연구 (A Study on Freedom Constraints of Comics Expression of Korea & Japan)

  • 윤기헌;김병수
    • 만화애니메이션 연구
    • /
    • 통권14호
    • /
    • pp.1-13
    • /
    • 2008
  • 무한한 상상력과 소재의 다양성, 그리고 표현의 자유는 만화의 기본적인 요소이다. 만화 표현의 자유는 민주사회의 기본 덕목인 언론출판의 자유와 맞닿아 있으나, 공권력과 사회적 압력, 그리고 자율규제로 인해 아직까지도 표현에 제약을 받고 있다. 본 연구는 한국과 일본의 만화표현의 규제에 관한 사례를 연구대상으로 하고 문제점과 바람직한 표현의 자유에 대해 밝힌다.

  • PDF

동화를 사용한 총체적 언어접근이 청각장애 아동의 언어능력과 이야기 구조화 능력에 미치는 영향 (The Effects of Whole Language Program Using Story Books on Hearing Impaired Children's Language Abilities and Story Structures Concepts)

  • 박선화;김문정;석동일
    • 음성과학
    • /
    • 제15권3호
    • /
    • pp.117-131
    • /
    • 2008
  • The purpose of this study was to determine the effects of whole language approach on the development of language abilities and story structure concepts for hearing impaired children. For this end, two research questions have been established. First, what is the effect of whole language program using story books on hearing impaired children’s language abilities? Second, what is the effect of whole language program using story books on hearing impaired children's story structure concept? Three subjects participated in the study. Each subject was scheduled for a 40-minute session two times a week. Subjects received 36 sessions of use animation activities for 3 months. The study used a multiple baseline across the subjects. The followings were the findings of this study. First, the whole language program using story books improved hearing impaired children's language abilities. Second, the whole language program using story books improved hearing impaired children's story structure concept.

  • PDF

억양의 시각화를 통한 프랑스어의 억양학습 (Learning French Intonation with a Base of the Visualization of Melody)

  • 이정원
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.63-71
    • /
    • 2003
  • This study aims to experiment on learning French intonation, based on the visualization of melody, which was employed in the early sixties to reeducate those with communication disorders. The visualization of melody in this paper, however, was used to the foreign language learning and produced successful results in many ways, especially in learning foreign intonation. In this paper, we used the PitchWorks to visualize some French intonation samples and experiment on learning intonation based on the bitmap picture projected on a screen. The students could see the melody curve while listening to the sentences. We could observe great achievement on the part of the students in learning intonations, as verified by the result of this experiment. The students were much more motivated in learning and showed greater improvement in recognizing intonation contour than just learning by hearing. But lack of animation in the bitmap file could make the experiment nothing but a boring pattern practices. It would be better if we can use a sound analyser, as like for instance a PitchWorks, which is designed to analyse the pitch, since the students can actually see their own fluctuating intonation visualized on the screen.

  • PDF

콘텐츠 로봇의 감성적 반응을 위한 지능형 메신저 개발 (Development of Intelligent Messenger for Affective Interaction of Content Robot)

  • 박범준;소수환;박태근
    • 한국콘텐츠학회논문지
    • /
    • 제10권9호
    • /
    • pp.9-17
    • /
    • 2010
  • 사용자의 감성 상태에 적절한 반응을 보이는 로봇 또는 인터랙티브 캐릭터에 대한 연구들이 진행되고 있다. 본 논문에서는 사용자의 문장 입력에 대하여 사용자의 의도와 감성 상태에 적절한 응답을 제공하는 지능형 메신저를 개발한다. 사용자의 의도 및 감성 상태 인식을 위하여, 지능형 메신저는 화행 분석 및 감성 분석 기능을 포함한다. 또한, 감성 및 화행 표현을 위한 태그가 추가된 AIML 기반의 대화형 스크립트를 사용한다. 대화형 스크립트에서 사용자의 감성에 적합한 답변을 찾으면, 지능형 메신저는 그 답변을 대화창에 보여줌과 동시에 애니메이션 캐릭터가 사용자의 감성과 동조화된 감정 표현 동작을 수행하도록 한다. 만일 감정을 표현하는 애니메이션 캐릭터가 무선 네트워크를 통하여 콘텐츠 로봇과 동기화된다면, 사용자와 동일 공간에 존재하는 콘텐츠 로봇은 사용자에 대하여 감성적 반응을 보일 수 있다.

애니메이션 저작도구를 위한 음성 기반 음향 스케치 (Voice Driven Sound Sketch for Animation Authoring Tools)

  • 권순일
    • 한국콘텐츠학회논문지
    • /
    • 제10권4호
    • /
    • pp.1-9
    • /
    • 2010
  • 애니메이션 캐릭터의 동작을 만들어내기 위해 펜으로 스케치하는 형식의 인터페이스를 이용하는 저작 도구들이 연구되어 왔지만, 아직까지 음향적인 요소에 있어서 직관적인 인터페이스를 사용하여 만들어내는 방법은 연구되지 않았다. 본 논문에서는 사용자가 음향과 대응되는 의성어의 발성을 통하여 표현하면 이에 대응되는 음향샘플이 선택되어 삽입되는 방법을 제안하고자 한다. 일반적으로 사용되는 통계적 모델을 기반으로 하는 패턴인식 방법을 이용하여 의성어 발성만으로 대응되는 음향샘플을 어느 정도 인식할 수 있는지를 실험해본 결과 의성어의 음성샘플을 이용한 경우 최대 97%의 인식률을 얻을 수 있었다. 또한 새로운 음향샘플 등록 시에 발생하는 음성데이터 수집의 어려움을 극복하기 위하여 음성모델을 만드는 대신에 의성어의 음성샘플 하나만 사용하는 GLR Test를 활용해보니 기존의 방법과 거의 대등한 인식률을 실험적으로 확인할 수 있었다.

게임 캐릭터 성격 모형의 상대적 중요도에 관한 연구: AHP 분석기법을 중심으로 (A Study on the Relative Importance of Game Character Personality Model: Focused on AHP methods)

  • 남기덕
    • 한국게임학회 논문지
    • /
    • 제20권5호
    • /
    • pp.77-88
    • /
    • 2020
  • 게임 캐릭터는 표현과 제작 방식에 따라 성격 디자인의 방향이 달라지므로 요소별 중요도를 반영하여 성격 디자인을 수행할 필요가 있다. 본 연구는 게임 캐릭터의 성격 디자인 과정에서 효율적인 의사 결정이 이뤄질 수 있도록 AHP를 통해 디자인요소 13개와 성격요인 13개로 구성된 게임 캐릭터 성격 모형에 대한 중요도를 도출하고, 중요도를 반영하여 게임 캐릭터 성격 디자인 체크툴을 제시했다. 디자인요소에서는 3D 실사풍, 3D 애니메이션풍, 2D 애니메이션풍 모두에서 외양의 중요도가 가장 높게 나타났고 성격요인에서는 3D 실사풍에서 행동, 3D 애니메이션풍에서 외양, 2D 애니메이션풍에서 말이 중요도가 가장 높게 나타났다.

내러티브 프로세스 분류 모델 기반 애니메이션 OST의 음악적 요소 분석 (Animation OST Musical Element Analysis based on A Narrative Process Classification Model)

  • 장소은;성봉선;이장훈;김재호
    • 한국멀티미디어학회논문지
    • /
    • 제17권10호
    • /
    • pp.1239-1252
    • /
    • 2014
  • The OST (Original Sound Track) in the film plays a vital role in increasing consensus and concentration to the storyline. The selected 4 animations are classified into 17 Narrative Processes (NP) by using NP Classification Model [1]. For the NPs each having OSTs, the authors have investigated 6 kinds of objective musical elements of the OST such as sound (speech, music, effect), tonality, tempo, range, intensity, and instrumentation. It is found that there are 33.3% common musical elements among all of them for the NPs with OSTs commonly. Among them, it is also found that there are 71.9% of common properties of the musical element. This research is meaningful by firstly showing that there are common properties of objective musical elements in each NP and the corresponding OST.

음성특징의 거리 개념에 기반한 한국어 모음 음성의 시각화 (Speech Visualization of Korean Vowels Based on the Distances Among Acoustic Features)

  • 복거철
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.512-520
    • /
    • 2019
  • 음성을 시각적으로 표현하는 것은 외국어를 습득하는 과정의 학습자나 음성을 직접 들을 수 없는 청각장애자에게 매우 유용하며 기존에 다수의 연구가 이루어졌다. 그러나 기존의 연구들은 발음의 특징을 단지 컬러로 표현한다든가 입모양을 3차원 그래픽으로 표현하거나 입과 구강의 변화하는 형태를 애니메이션으로 보여 주는 방식에 머물러 있다. 따라서 이런 방식을 사용하는 학습자들은 자신의 발음이 표준 발음과 얼마나 멀리 떨어져 있는지 알 수가 없고 더 나아가서 학습 중에 스스로 교정을 해 나가는 시스템을 개발하기가 기술적으로 어려운 단점이 있다. 이를 극복하기 위해 본 논문에서는 음성 간의 상대적 거리를 토대로 음성을 시각화하는 모델을 제시하고, 이를 한국어 모음에 적용하여 모음의 음성적 특징을 이용한 시각화의 구체적인 구현 방법을 제시한다. 음성데이터에서 F1, F2, F3의 세 개의 포먼트를 구하고 이들 특징벡터를 코호넨 자기조직화맵 알고리즘으로 2차원 화면에 사상하여 각 음성을 화면 위의 각 점에 대응하여 표현하였다. 제안하는 시스템의 실제적인 구현은 인터넷에 공개된 음성처리 공개소프트웨어를 사용하고 한국인 교사의 표준 발음과 한국어를 배우고 있는 외국인 유학생의 음성을 이용하여 음성특징의 상호간 거리를 구하였으며, 사용자 인터페이스는 자바스크립트를 이용하여 구현하였다.