• 제목/요약/키워드: visual-audio

검색결과 424건 처리시간 0.026초

MPEG-4 Over MPEG-2 TS로부터 MP4 파일로의 포맷 변환기 설계 (Design of a Format Converter from MPEG-4 Over MPEG-2 TS to MP4)

  • 최재영;정제창
    • 방송공학회논문지
    • /
    • 제5권2호
    • /
    • pp.176-187
    • /
    • 2000
  • 본 논문에서는 MPEG-2 시스템 층의 하나인 방송 및 전송을 위한 트랜스포트 스트림(TS)상에 MPEG-4 데이터를 구조화하여 MPEG-4 Over MPEG-2 TS 비트 스트림을 만드는 방법과 이를 저장 매체 포맷중 하나인 MP4 파일로 변환하는 방법에 관한 연구이다. MPEG-4는 객체 단위의 부호화 비트 스트림으로 구성되기 때문에 이들 객체의 속성을 표현하는 객체 기술자, 객체들간의 시공간 관계를 표현하는 장면 기술자가 필요하며 또한 모든 객체들간의 복호화 정보와 객체간의 동기화를 위해 다양한 여러 가지 기술자들이 필요한데 이런 다양한 MPEG-4 비트 스트림을 어떻게 MPEG-2 TS 규격에 맞게 전송하는가에 초점을 두었다. 또한 설계한 MPEG-4 Over MPEG-2 TS 비트 스트림을 저장매체를 대상으로 하는 새로운 파일 규격인 MP4 파일로 변환하는 알고리듬을 제시하고 구현 방법을 소개한다.

  • PDF

신경망 기반 음성, 영상 및 문맥 통합 음성인식 (Speech Recognition by Integrating Audio, Visual and Contextual Features Based on Neural Networks)

  • 김명원;한문성;이순신;류정우
    • 전자공학회논문지CI
    • /
    • 제41권3호
    • /
    • pp.67-77
    • /
    • 2004
  • 최근 잡음환경에서 신뢰도 높은 음성인식을 위해 음성정보와 영상정보를 융합하는 방법이 활발히 연구되고 있다. 본 논문에서는 이절적인 정보의 융합에 적합한 신경망 모델을 기반으로 음성, 영상 및 문맥 정보 등 다양한 정보를 융합하여 잡음 환경에서 고려단어를 인식하는 음성인식 기법에 대하여 기술한다. 음성과 영상 특징을 이용한 이중 모드 신경망 BMNN(BiModal Neural Network)을 제안한다. BMM은 4개 층으로 이루어진 다층퍼셉트론의 구조를 가지며 각 층은 입력 특징의 추상화 기능을 수행한다. BMNN에서는 제 3층이 잡음에 의한 음성 정보의 손실을 보상하기 위하여 음성과 영상 특징을 통합하는 기능을 수행한다. 또한, 잡음환경에서 음성 인식률을 향상시키기 위해 사용자가 말한 단어들의 순차 패턴을 나타내는 문맥정보를 이용한 후처리 방법을 제안한다. 잡음환경에서 BMNN은 단순히 음성만을 사용한 것 보다 높은 성능을 보임으로써 그 타당성을 확인할 수 있을 뿐 아니라, 특히 문맥을 이용한 후처리를 하였을 경우 잡음 환경에서 90%이상의 인식률을 달성하였다 본 연구는 잡음환경에서 강인한 음성인식을 위해 다양한 추가 정보를 사용함으로써 성능을 향상시킬 수 있음을 제시한다.

오디오 기반 SNS의 인터페이스 디자인 요소 연구 (A Study on the Elements of Interface Design of Audio-based Social Networking Service)

  • 김연수;최종훈
    • 한국융합학회논문지
    • /
    • 제13권2호
    • /
    • pp.143-150
    • /
    • 2022
  • 오디오 기반 SNS 또한 사용자가 원하는 콘텐츠에 도달하기 위한 시각적 가이드가 필요하다. 이에 본 연구는 오디오 기반 SNS에서 오디오 콘텐츠의 사용 경험에 영향을 미치는 시각적 인터페이스 디자인 요소에 대해 연구하였다. 선행연구를 통해 기존의 일반적인 인터페이스 디자인 요소가 오디오 콘텐츠의 사용성에 중요함을 파악하였다. 현재 출시된 오디오 기반 SNS의 분석을 통해 기존 인터페이스 요소의 의미와 영향을 확인하였고, 기타 오디오 콘텐츠 서비스의 분석을 통해 오디오 SNS에 있어 고려할 새로운 기준의 인터페이스 평가 속성을 도출하였다. 이에 일반적인 다섯 가지 인터페이스 평가 요소인 레이아웃, 컬러, 아이콘, 타이포그래피, 그래픽 이미지에 멀티미디어 요소를 새롭게 정의하며, 오디오 기반 SNS의 UI를 고려할 요소로 제안한다.

Audio-visual Spatial Coherence Judgments in the Peripheral Visual Fields

  • 이채봉;강대기
    • 융합신호처리학회논문지
    • /
    • 제16권2호
    • /
    • pp.35-39
    • /
    • 2015
  • Auditory and visual stimuli presented in the peripheral visual field were perceived as spatially coincident when the auditory stimulus was presented five to seven degrees outwards from the direction of the visual stimulus. Furthermore, judgments of the perceived distance between auditory and visual stimuli presented in the periphery did not increase when an auditory stimulus was presented in the peripheral side of the visual stimulus. As to the origin of this phenomenon, there would seem to be two possibilities. One is that the participants could not perceptually distinguish the distance on the peripheral side because of the limitation of accuracy perception. The other is that the participants could distinguish the distances, but could not evaluate them because of the insufficient experimental setup of auditory stimuli. In order to confirm which of these two alternative explanations is valid, we conducted an experiment similar to that of our previous study using a sufficient number of loudspeakers for the presentation of auditory stimuli. Results revealed that judgments of perceived distance increased on the peripheral side. This indicates that we can perceive discrimination between audio and visual stimuli on the peripheral side.

고등학교 가정과 교육에서 보조학습 교재.교구의 활용실태 연구 (A Study on the Use of Supplementary Teaching Materials and Implements in the High School Home Economics Education)

  • 조은경;김용숙
    • 한국가정과교육학회지
    • /
    • 제9권1호
    • /
    • pp.1-17
    • /
    • 1997
  • This study was conducted to obtain basic materials to improve the teaching method of Home Economics by theoretically looking into the supplementary teaching materials or implements usable in teaching Costume History area. And based on these data, the types and the applications of the supplementary teaching materials or implements highschool owned were examined. The subjects of this study were 111 Home Economics and Housework curriculum highschool teachers who give a lecture in the country by using self-administered questionnaires. SAS program was used to calculate frequency, percentage, average, standard deviation, and $\chi$(sup)2-test analysis. The results of the study were as follows; 1. Most of the highschool teachers used the school expenses for experiments in preparing the supplementary teaching materials or implements. 2. Of the supplementary teaching materials and implements concerning Costume History, visual implements such as slides and pictures were the mostly owned. CD and audio implements as cassette-tapes were not used. 3. Most of the teachers recognized the importance of the audio-visual teaching materials and implements concerning Costume History. 4. Among the audio-visual materials and implements concerning Costume History by which can be made by school teachers of Home Economics and Housework curriculum, the mostly used one was ‘cutting pictorials from magazines and newspapers’, and the next were ‘orbital materials’, and ‘copy the pictorials’, and the least was ‘recording from the radio’. 5. Most of the annual expenses assigned to the department of Home Economics was used in cooking practice, and the least of the expenses was assigned in buying audio-visual teaching materials and implements. 6. Time assigned to the area of Home Economics was for the most part one or two hours per week, and among this, time assigned to the history of western costume and the history ok korean costume was for the most part five to eight hours. 7. The areas that the highschool teachers felt difficulties mostly during clothing and textiles curriculum were ‘textiles’and the next were ‘knitting’, ‘western costume history’, and ‘korean clothing construction’. 8. The difficulties the highschool teachers faced while teaching Costume History were mostly that ‘the pictorials in the text is not fully explainable’, the next were ‘most of the supplementary teaching materials or implements are not owned’, ‘have to explain very much in a short time’, and ‘the lectural explanation is insufficient’. 9. The solution for the difficulties that the highschool teachers faced while teaching Costume History was mostly ‘the information, on which audio-visual materials and implements are distributed in the market, should be easy to obtain’, the next opinions were ‘the school should provide enough experiment and practice expenses to buy audio-visual materials and implements’, and ‘education facilities of the Home Economics Department should be the main aspects in improving the teaching methods and should give special lectures about it’.

  • PDF

음성-영상 융합 음원 방향 추정 및 사람 찾기 기술 (Audio-Visual Fusion for Sound Source Localization and Improved Attention)

  • 이병기;최종석;윤상석;최문택;김문상;김대진
    • 대한기계학회논문집A
    • /
    • 제35권7호
    • /
    • pp.737-743
    • /
    • 2011
  • 서비스 로봇은 비전 카메라, 초음파 센서, 레이저 스캐너, 마이크로폰 등과 같은 다양한 센서를 장착하고 있다. 이들 센서들은 이들 각각의 고유한 기능을 가지고 있기도 하지만, 몇몇을 조합하여 사용함으로써 더욱 복잡한 기능을 수행할 수 있다. 음성영상 융합은 서로가 서로를 상호보완 해주는 대표적이면서도 강력한 조합이다. 사람의 경우에 있어서도, 일상생활에 있어 주로 시각과 청각 정보에 의존한다. 본 발표에서는, 음성영상 융합에 관한 두 가지 연구를 소개한다. 하나는 음원 방향 검지 성능의 향상에 관한 것이고, 나머지 하나는 음원 방향 검지와 얼굴 검출을 이용한 로봇 어텐션에 관한 것이다.

시청각 코퍼스 기반의 립싱크 알고리듬 개발 (Development of a Lipsync Algorithm Based on Audio-visual Corpus)

  • 김진영;하영민;이화숙
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.63-69
    • /
    • 2001
  • 본 논문에서는 자연스러운 얼굴 합성을 위한 코퍼스 기반의 립싱크 알고리듬을 제안한다. 립싱크 알고리듬을 개발하기 위하여 여성 아나운서의 시청각 코퍼스를 구축하였다 코퍼스 구축시, 입술파라미터 추출하기 위하여 여성화자의 얼굴에 스티커를 붙이고, 이의 위치를 영상처리기법에 의하여 얻었다. 그리고 길이, 세기 그리고 피치의 운율정보를 얻기 위하여 음성을 HTK (hidden Markov tool kit)를 사용하여 레이블 하였다. 립싱크의 기본단위로는 자음-모음-자음의 음절단위를 사용하였는데, 구축된 시청각 코퍼스는 입술의 정보 그리고 음운론적, 운율적 정보를 포함하는 음절들로 구성된다. 입술합성시에는 입력된 텍스트로부터 음절의 열을 만들고 각 음절에 적절한 대표들을 코퍼스로부터 N개씩 선정후, 최적의 열은 비터비탐색을 통하여 얻었다. 이를 위하여 음운론적 거리와 운율거리 함수가 정하였다. 컴퓨터 모의실험결과 제안된 알고리듬이 좋은 성능을 보임을 확인할 수 있었으며, 특히 립싱크에서는 길이정보뿐 아니라 길이와 피치의 정보도 유용함을 밝혔다.

  • PDF

동일한 영상자극을 이용한 장조음악과 단조음악에 의해 유발된 뇌 활성화의 차이 : fMRI 연구 (An fMRI Study on the Differences in the Brain Regions Activated by an Identical Audio-Visual Clip Using Major and Minor Key Arrangements)

  • 이창규;음영지;김연규;;손진훈
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2009년도 춘계학술대회
    • /
    • pp.109-112
    • /
    • 2009
  • The purpose of this study was to examine the differences in the brain activation evoked by music arranged in major and minor key used with an identical motion film during the fMRI testing. A part of the audio-visual combinations composed by Iwamiya and Sano were used for the study stimuli. This audio- visual clip was originally developed by combining a small motion segment of the animation "The Snowman" and music arranged in both major and minor key from the original jazz music "Avalon" rewritten in a classical style. Twenty-seven Japanese male graduate and undergraduate students participated in the study. Brain regions more activated by the major key than the minor key when presented with the identical motion film were the left cerebellum, the right fusiform gyrus, the right superior occipital, the left superior orbito frontal, the right pallidum, the left precuneus, and the bilateral thalamus. On the other hand, brain regions more activated by the minor key than the major key when presented with the identical motion film were the right medial frontal, the left inferior orbito frontal, the bilateral superior parietal, the left postcentral, and the right precuneus. The study showed a difference in brain regions activated between the two different stimulus (i.e., major key and minor key) controlling for the visual aspect of the experiment. These findings imply that our brain systematically generates differently in the way it processes music written in major and minor key(Supported by the User Science Institute of Kyushu University, Japan and the Korea Science and Engineering Foundation).

  • PDF