• 제목/요약/키워드: visual-audio

검색결과 424건 처리시간 0.023초

시각적 어텐션을 활용한 입술과 목소리의 동기화 연구 (Lip and Voice Synchronization Using Visual Attention)

  • 윤동련;조현중
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.166-173
    • /
    • 2024
  • 본 연구에서는 얼굴 동영상에서 입술의 움직임과 음성 간의 동기화 탐지 방법을 제안한다. 기존의 연구에서는 얼굴 탐지 기술로 얼굴 영역의 바운딩 박스를 도출하고, 박스의 하단 절반 영역을 시각 인코더의 입력으로 사용하여 입술-음성 동기화 탐지에 필요한 시각적인 특징을 추출하였다. 본 연구에서는 입술-음성 동기화 탐지 모델이 음성 정보의 발화 영역인 입술에 더 집중할 수 있도록 사전 학습된 시각적 Attention 기반의 인코더 도입을 제안한다. 이를 위해 음성 정보 없이 시각적 정보만으로 발화하는 말을 예측하는 독순술(Lip-Reading)에서 사용된 Visual Transformer Pooling(VTP) 모듈을 인코더로 채택했다. 그리고, 제안 방법이 학습 파라미터 수가 적음에도 불구하고 LRS2 데이터 세트에서 다섯 프레임 기준으로 94.5% 정확도를 보임으로써 최근 모델인 VocaList를 능가하는 것을 실험적으로 증명하였다. 또, 제안 방법은 학습에 사용되지 않은 Acappella 데이터셋에서도 VocaList 모델보다 8% 가량의 성능 향상이 있음을 확인하였다.

지능형 오디오 그래픽 이퀄라이저 시스템 구현 (Implementation of an Intelligent Audio Graphic Equalizer System)

  • 이강규;조윤호;박규식
    • 대한전자공학회논문지SP
    • /
    • 제43권3호
    • /
    • pp.76-83
    • /
    • 2006
  • 오디오 이퀄라이저의 주목적은 사용자가 원하는 음색을 낼 수 있도록 음악의 주파수 특성을 변환 하는 것으로 대형 오디오시스템으로부터 휴대용 MP3플레이어까지 음악을 재생하는 대부분의 기기에 사용되고 있다. 현재까지는 각 음악 장르에 적합한 음색을 재생하기위해 사용자가 각 이퀄라이저 주파수 대역 별로 일일이 수동으로 조절해 주어야 한다는 불편함이 있다. 본 논문에서는 내용기반 음악 장르 분류 기술을 이용하여 음악 장르를 분류하고, 분류된 장르에 알맞은 이퀄라이저를 자동으로 적용하여 주는 지능형 오디오 그래픽 이퀄라이저 시스템을 제안하였다. 이퀄라이져의 경우 초기 음악 재생 중 이퀄라이저 적용에 의한 갑작스런 음의 변화를 방지하기 위하여 Coarse Level과 Fine Level의 2단계 장르분류 절차를 거치면서 각 단계별 이퀄라이저를 적용 하였다. 제안된 시스템의 각 단계별 분류 성공률은 약 80%에 이르며, 2초 안에 모든 동작이 이루어지는 것을 확인 하였다. 제안된 시스템은 PC상에서 비주얼 C 을 이용하여 3-밴드 지능형 이퀄라이저의 SW GUI를 구현 하였다.

지상파 이동 멀티미디어방송용 멀티미디어 재생기 개발 (The Development of Multimedia Player Platform for Terrestrial Digital Multimedia Broadcasting (DMB))

  • 기명석;서정일;강경옥
    • 방송공학회논문지
    • /
    • 제8권4호
    • /
    • pp.465-472
    • /
    • 2003
  • 본 논문에서는 지상파 이동 멀티미디어 방송(Digital Multime야a Broadcasting, DMB) 서비스를 위한 멀티미디어 재생기의 플랫폼과 구조를 설계 구현한다. 지상파 DMB 방송은 유럽의 Eureka-147 방식의 DAB(Digital Audio Broadcasting)를 기반으로 하며 디지털 라디오방송과 함께 오디오 외에도 다양한 멀티미디어를 전송하고, 콘텐츠에 대화형 기능을 포함하는 서비스 형태를 목표로 하고 있다. 이는 향후 지상파 DMB 수신기가 단순한 멀티미디어의 재생뿐 아니라, 다양한 서비스의 수용, 기존의 이동단말과의 결합, 하나의 수신기를 이용한 다기능 등의 새로운 형태의 구조를 요구한다는 것을 뜻한다. 그러나 현재 지상파 DMB 방송 규격은 지상파 디지털 텔레비전 방송의 ATSC(Advanced Television Systems Committee) 방식과는 다르며, 한국을 제외하고는 세계 어느나라에서도 이를 이용한 멀티미디어 방송 규격이 정해진 바 없기 때문에 DMB 방송을 수신할 수 있는 수신기 구조조차 존재하지 않는다. 이러한 상황에서 본 논문에서 제공하는 지상파 DMB 방송을 위한 멀티미디어 재생기 플랫폼은 국내 업체들에게 관련 기술을 제공함으로써 수신기 개발기간을 단축하고 지상파 DMB수신기의 향후 발전 방향을 제시할 수 있을 것으로 예상된다.

동작 모니터링을 위한 웨어러블 센싱 및 피드백 제품 디자인 개발 (Development of Wearable Sensing and Feedback Product Design for Movement Monitoring)

  • 조현승;양진희;이강휘;이정환;박서연;최형익;전학수;이주현
    • 감성과학
    • /
    • 제21권3호
    • /
    • pp.165-176
    • /
    • 2018
  • 본 연구는 시 청각 피드백을 통해 아동의 운동 효과를 증진시킬 수 있는 의류형 웨어러블 동작 센싱 및 피드백 시스템을 개발하는 것을 목적으로 한다. 본 연구에서는 직물 센서 제조 및 이를 적용한 스포츠웨어 디자인, 직물기반 동작 센싱 모듈 설계, 아동의 운동 흥미 유발을 위한 시 청각 피드백 시스템 개발 등의 일련의 연구를 수행하였다. SWCNT 기반의 동작 센싱용 신축성 직물 센서를 개발하고, 이를 의복의 사지 관절 부위에 부착한 스포츠웨어를 디자인하였으며, 센싱 모듈을 설계하여 아동을 대상으로 한 관절 동작 실험을 통해 센싱 성능을 검증하였다. 또한 악세서리 형태로 개발된 피드백 제품을 통해 본 연구에서 개발된 스포츠웨어를 착용한 아동의 동작에 따라 빛과 소리로 반응하도록 구현하였다. 본 연구의 결과로, 아동의 운동 흥미를 유발할 수 있는 아동용 스포츠웨어 및 악세서리 제품의 디자인 프로토타입을 제안하였다.

시청각 동영상에 의해 유발된 부정적 감성에 따른 자율신경계 반응 (ANS responses in Negative Emotions Induced by Audio-visual Film Clips)

  • 이영창;장은혜;정순철;손진훈
    • 감성과학
    • /
    • 제10권3호
    • /
    • pp.471-480
    • /
    • 2007
  • 부정적 감성은 인간의 생존에 기여한다는 점에서 중요한 기능을 한다. 본 연구에서는 시청각 동영상자극을 이용하여 부정적 감성을 유발하고 각 부정적 감성에 따른 자율신경계 반응을 구분하고자 하였다. 실험에는 성인 남녀 30명(22.6세${\pm}$1.24, 남: 15명, 여: 15명)이 참여하였다 예비실험을 통해 2분 길이의 동영상 자극을 실험자극으로 선정하였다. 실험참여자가 선정된 동영상자극을 시청하는 동안 피부전기활동(EDA), 심전도(ECG)가 측정되었고, 하나의 자극제시가 끝난 후에 실험참여자들에게 각 감성자극에 의해 경험되는 감성에 대한 심리평가를 실시하였다. 심리반응 분석결과, 각 부정적 감성 자극은 표적감성을 적절하고 효과적으로 유발하는 것으로 나타났다. 자율신경계 반응분석결과, 각각의 감성자극들은 서로 구분되는 자율신경계 활동패턴을 유발하였다. 그리고 공포자극은 다른 유형의 부정적 감성자극보다 피부전기활동과 심전도의 지표들에서 높은 교감신경계의 활성화를 유발하였다. 본 연구는 각 부정적 감성에 대한 자율신경계 반응을 세분화하였다는 데 의의가 있다.

  • PDF

초등학생의 영양교육에 대한 만족과 인식 조사 (Satisfaction and Perception of Nutrition Education by Elementary School Students)

  • 윤지선;류은순
    • 한국식품영양과학회지
    • /
    • 제41권9호
    • /
    • pp.1259-1264
    • /
    • 2012
  • 본 연구는 초등학생의 영양교육에 대한 만족에 따른 인식을 파악하기 위하여 대도시 보건소에서 개발한 영양교육 프로그램을 이용하여 영양교육을 실시한 울산지역 초등학생 327명을 대상으로 설문지법을 이용하여 조사하였으며 결과를 요약하면 다음과 같다. 도구 및 시청각 자료는 만족한다. 52.3%, 보통이다 38.8%였고, 내용수준은 알맞다 67.3%, 낮다 25.7%였으며 타 교과목과 비교한 재미는 재미있다 46.5%, 보통이다 41.0%로 나타났다. 3학년이 5학년보다 도구 및 시청각자료(p<0.05)와 타 교과목과 비교한 재미(p<0.001)에 대한 만족하는 비율이 유의적으로 높았다. 영양교육이 재미없는 이유는 체험활동이 아니어서, 원하는 내용이 아니어서, 중요성을 몰라서, 내용이 어려워서의 순으로 나타났다. 영양교육에 대한 필요성 점수는 도구 및 시청각자료에 대해 만족한 학생(p<0.001), 내용수준이 높다고 응답한 학생(p<0.01), 타 교과와 비교하여 재미있다고 응답한 학생(p<0.001)이 유의적으로 높게 나타났다. 영양교육 재교육에 참여할 의향점수는 도구 및 시청각자료에 대해 만족한 학생과 타 교과와 비교해서 영양교육이 재미있다고 응답한 학생이 유의적(p<0.001)으로 높았다. 영양교육을 받은 학생 중 77.6%가 친구에게 영양교육을 권할 의향이 있었으며 도구 및 시청각자료에 대해 만족한 학생의 85.2%, 내용수준이 알맞다고 응답한 학생의 82.3%, 타 교과와 비교하여 재미있다고 응답한 학생의 90%가 친구에게 영양교육을 권할 의향이 있었으며 유의적인 차이(p<0.05)를 보였다. 영양교육 만족에 따른 식생활에 도움 정도는 필요영양소, 세끼 식사를 하는 이유, 아침식사의 중요성, 알맞게 먹기, 올바른 간식섭취, 식품구성탑, 영양표시의 순으로 나타났다. 도구 및 시청각 자료에 대해 만족하거나 보통이라고 응답한 학생들이 아침식사의 중요성, 알맞게 먹기, 올바른 간식섭취, 영양표시, 식품구성탑, 필요영양소에서 유의적(p<0.001)으로 높은 점수를 보였고, 타 교과와 비교한 재미에서, 재미없다고 응답한 학생은 모든 항목에서 유의적(p<0.001)으로 낮은 점수를 보였다.

광대역 ISDN용 MPEG 오디오-비쥬열 대화형 통신단말의 설계 및 구현 (A MPEG Audio-Visual Conversational Communication Terminal on the B-ISDN Environment)

  • 황대환;조규섭
    • 한국정보처리학회논문지
    • /
    • 제5권8호
    • /
    • pp.1960-1971
    • /
    • 1998
  • 광대역 ISDN에서 사용될 수 있는 멀티미디어 통신서비스로서 Video on Demand(V0D)와 같은 검색형 분배서비스와 영상전화, 다지점 영상회의와 같은 실시간 대화형 서비스를 대상으로 활발한 연구, 개발이 이루어지고 있다. V0D 서비스에 대한 연구는 Digital Audio-Visual Council(DAVIC)에서 V0D 서버, 전달 망, 그리고 Set-Top Box(STB) 등을 포함한 전체 시스템에 대한 규격을 확정하였고 대화형 멀티미디어 통신단말은 ITU-T SG16에서 H.300 계열 단말의 표준을 대부분 완료한 상태이다. 그러나 이들 기구에서 권고하고 있는 멀티미디어 통신단말의 구조는 주 연구대상의 차이로 인해, 검색형 분배서비스와 대화형 통신서비스를 모두 제공할 수 있는 효율적인 구성 형태를 갖고 있지 못하다. 본 논문은 ITU-T, DAVIC, ATM Forum 등의 권고 및 규격을 면밀히 분석한 후, 동일한 멀티미디어 통신단말에서 V0D 및 대화형 통신서비스를 제공할 수 있는 효율적인 단말의 구조를 제안하고 설계, 구현하였다. 광대역 ISDN을 대상으로 한 통신단말은 범용 PC에 탑재되는 두 개의 add-on 카드로 구현하였으며, ATM 접속을 통한 V0D 및 일-대-일 대화형 멀티미디어 통신 세션 설정와 실험을 통해 기능의 검증을 완료하였다.

  • PDF

대화형 T-DMB 컨텐츠의 효율적인 전송을 위한 장면기술정보 최적화 기법 (An Optimization Technique of Scene Description for Effective Transmission of Interactive T-DMB Contents)

  • 이송록;정원식;유영재;차경애
    • 방송공학회논문지
    • /
    • 제11권3호
    • /
    • pp.363-378
    • /
    • 2006
  • 디지털멀티미디어방송(Digital Multimedia Broadcasting, DMB)은 고품질의 방송 영상 및 부가 데이터를 이동 중인 차량 내에서나 모바일폰, PDA 등과 같은 휴대형 단말에서 수신할 수 있는 이동 멀티미디어 방송 서비스이다. 미디어 및 상호작용 정보의 인코딩 규격으로는 MPEG-4 표준을 사용하며, 대화형 컨텐츠의 사용자 상호작용 등의 정보는 장면기술정보인 MPEG-4 BIFS(Binary Format for Scene)에 의해서 이루어진다. 사용자와의 상호작용이 풍부하고 장면 구성이 복잡한 컨텐츠일수록 BIFS 데이터가 전송되기 위해서 요구되는 비트율도 증가한다. 그러나 이동 단말에 고품질의 비디오 및 오디오 데이터를 전송하는 DMB 환경에서는 BIFS 스트림의 전송율은 매우 제한적이다. 한편 사용자 단말기에서 DMB 컨텐츠를 재생하려면 비디오, 오디오 등 미디어 객체들을 디코딩하기 전에 장면 구성 정보인 BIFS 스트림을 디코딩 및 파싱하여야 한다. 그러므로 MPEG-4의 높은 미디어 압축율에도 불구하고 제한된 대역폭과 장면 구성 정보 등 부가 데이터 전송 및 디코딩으로 인한 지연이 발생될 수 있다. 따라서 방송 컨텐츠의 특성 상 사용자의 임의 접근 시에도 재생될 컨텐츠의 BIFS 데이터를 파싱하여 대기 시간을 최소화하도록 초기 장면 구성 정보를 효율적으로 전송해야 한다. 본 연구에서는 지상파 DMB 대화형 컨텐츠의 장면기술정보인 BIFS 스트림을 저전송율 환경에 적응된 형태로 전달하기 위해서, 장면기술정보를 최적화하는 기법을 제안한다.

호흡연동 방사선 치료에서 호흡생체자기제어 방식이 호흡 재현성 및 선량에 미치는 영향 평가 (The Effect of Breathing Biofeedback on Breathing Reproducibility and Patient's Dose in Respiration-gated Radiotherapy)

  • 안소현;여인환;정재원;서현숙;이경자;최진호;이규찬;이레나
    • 한국의학물리학회지:의학물리
    • /
    • 제24권3호
    • /
    • pp.135-139
    • /
    • 2013
  • 호흡 연동 방사선 치료 시 사용되는 음성 유도 및 음성-영상 유도의 두 가지 호흡생체자기제어 방식이 호흡 재현성 및 선량에 미치는 영향을 평가하였다. 본 연구에서는 Medical College of Virginia (MCV)에서 획득한 19명의 폐암 환자에 대한 호흡 데이터를 이용하였다. 호흡 데이터는 총 5주간 1주 간격으로 자유 호흡, 음성 유도, 음성-영상 유도의 세 가지 형태로 획득하였으며 선량 평가는 MATLAB을 이용하였다. 그 결과, 자유 호흡의 경우에는 반복되는 치료에서 호흡재현성이 감소하여 CTV 선량이 약 30.0% 감소하는 것을 알 수 있었으며, 음성-영상 유도 방식을 이용할 경우 5주 후 CTV 선량이 20.0% 개선됨을 알 수 있었다. 이는 환자가 영상을 통하여 자가호흡조절 능력이 향상되기 때문으로 판단된다. 또한 음성 유도만 사용할 경우에도 호흡재현성을 유지하는 데는 효과적임을 확인하였다.

잡음 환경에 강인한 이중모드 음성인식 시스템에 관한 연구 (A Study on the Robust Bimodal Speech-recognition System in Noisy Environments)

  • 이철우;고인선;계영철
    • 한국음향학회지
    • /
    • 제22권1호
    • /
    • pp.28-34
    • /
    • 2003
  • 최근 잡음이 심한 환경에서 음성인식을 신뢰성 있게 하기 위하여 입 모양의 움직임 (영상언어)과 음성을 같이 사용하는 방법이 활발히 연구되고 있다 본 논문에서는 영상언어 인식기의 결과와 음성인식기의 결과에 각각 가중치를 주어 결합하는 방법을 연구하였다. 각각의 인식 결과에 적절한 가중치를 결정하는 방법을 제안하였으며, 특히 음성정보에 들어있는 잡음의 정도와 영상정보의 화질에 따라 자동적으로 가중치를 결정하도록 하였다. 모의 실험 결과 제안된 방법에 의한 결합 인식률이 잡음이 심한 환경에서도 84% 이상의 인식률을 나타내었으며, 영상에 번짐효과가 있는 경우 영상의 번짐 정도를 고려한 결합 방법이 그렇지 않은 경우보다 우수한 인식 성능을 나타내었다.