• 제목/요약/키워드: visual-audio

검색결과 424건 처리시간 0.029초

해양레저에 관한 기초적인 연구 - 해변휴양의 정서심리를 중심으로 - (A Fundamental Study on the Marine Leisure - focus on the Psychology of Emotion for Seashore Relaxation -)

  • 윤순동
    • 해양환경안전학회:학술대회논문집
    • /
    • 해양환경안전학회 2008년도 춘계학술발표회
    • /
    • pp.75-80
    • /
    • 2008
  • 해양레저의 실용분야에 대한 관심과 연구는 많으나 기초분야에 대한 연구는 드물다. 즉, 해양레저의 장점에 대한 연구가 필요한 실정이다. 필자는 해변환경의 시각적, 청각적 정의를 정서심리학을 바탕으로 미학적, 음악적으로 분석하였다. 결과적으로, 해변휴양을 통하여 긍정적인 정서를 얻을 수 있으며, 긍정적인 정서로 변화시킬 수 있음을 알았다.

  • PDF

Speech Emotion Recognition Using 2D-CNN with Mel-Frequency Cepstrum Coefficients

  • Eom, Youngsik;Bang, Junseong
    • Journal of information and communication convergence engineering
    • /
    • 제19권3호
    • /
    • pp.148-154
    • /
    • 2021
  • With the advent of context-aware computing, many attempts were made to understand emotions. Among these various attempts, Speech Emotion Recognition (SER) is a method of recognizing the speaker's emotions through speech information. The SER is successful in selecting distinctive 'features' and 'classifying' them in an appropriate way. In this paper, the performances of SER using neural network models (e.g., fully connected network (FCN), convolutional neural network (CNN)) with Mel-Frequency Cepstral Coefficients (MFCC) are examined in terms of the accuracy and distribution of emotion recognition. For Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) dataset, by tuning model parameters, a two-dimensional Convolutional Neural Network (2D-CNN) model with MFCC showed the best performance with an average accuracy of 88.54% for 5 emotions, anger, happiness, calm, fear, and sadness, of men and women. In addition, by examining the distribution of emotion recognition accuracies for neural network models, the 2D-CNN with MFCC can expect an overall accuracy of 75% or more.

Analysis on the Possibility of Electronic Surveillance Society in the Intelligence Information age

  • Chung, Choong-Sik
    • Journal of Platform Technology
    • /
    • 제6권4호
    • /
    • pp.11-17
    • /
    • 2018
  • In the smart intelligence information society, there is a possibility that the social dysfunction such as the personal information protection issue and the risk to the electronic surveillance society may be highlighted. In this paper, we refer to various categories and classify electronic surveillance into audio surveillance, visual surveillance, location surveillance, biometric information surveillance, and data surveillance. In order to respond to new electronic surveillance in the intelligent information society, it requires a change of perception that is different from that of the past. This starts with the importance of digital privacy and results in the right to self-determination of personal information. Therefore, in order to preemptively respond to the dysfunctions that may arise in the intelligent information society, it is necessary to further raise the awareness of the civil society to protect information human rights.

영화배우 김혜수의 스크린 퍼포먼스 (Screen Performance of the Korean Actress Kim Hye-Soo)

  • 김종국
    • Journal of Information Technology Applications and Management
    • /
    • 제28권1호
    • /
    • pp.43-51
    • /
    • 2021
  • This article explores Kim Hye-soo's film acting from the perspective of performance, which means a socio-cultural action planned and intended for a certain purpose. Through the aspect of screen performance which the identity of the era that the performance study aims for is expressed through acting and reappeared in a system of verbal and non-verbal symbols, it was intended to enhance the academic value of Korean film acting. First, Kim Hye-soo's acting performance transforms by repeating genre acting. The sensuality and sexual attractiveness that evaluates Kim Hye-soo are repeated by the typical vision required by genre films, but the acting performance is not consumed or subordinated as a tool for visual pleasure. Second, Kim Hye-soo's body, face, emotion and audio are engraved with memories of the times, and the sociocultural identity of the performance is expressed through dynamic interaction between actions and reactions. Third, Kim Hye-soo's restored and recreated performance is sensitive to the changes of the times and is still in the process.

Speech Emotion Recognition with SVM, KNN and DSVM

  • Hadhami Aouani ;Yassine Ben Ayed
    • International Journal of Computer Science & Network Security
    • /
    • 제23권8호
    • /
    • pp.40-48
    • /
    • 2023
  • Speech Emotions recognition has become the active research theme in speech processing and in applications based on human-machine interaction. In this work, our system is a two-stage approach, namely feature extraction and classification engine. Firstly, two sets of feature are investigated which are: the first one is extracting only 13 Mel-frequency Cepstral Coefficient (MFCC) from emotional speech samples and the second one is applying features fusions between the three features: Zero Crossing Rate (ZCR), Teager Energy Operator (TEO), and Harmonic to Noise Rate (HNR) and MFCC features. Secondly, we use two types of classification techniques which are: the Support Vector Machines (SVM) and the k-Nearest Neighbor (k-NN) to show the performance between them. Besides that, we investigate the importance of the recent advances in machine learning including the deep kernel learning. A large set of experiments are conducted on Surrey Audio-Visual Expressed Emotion (SAVEE) dataset for seven emotions. The results of our experiments showed given good accuracy compared with the previous studies.

강원도 치유의 숲 조성 기본계획 수립에 관한 연구 (A Case Study on the Healing Forest Development Plan of Kangwon Province)

  • 김명준;이준우;차두송
    • Journal of Forest and Environmental Science
    • /
    • 제26권1호
    • /
    • pp.53-63
    • /
    • 2010
  • This study carried out to establish a master plan about healing forest in Gangwon-do focusing on healing road and visitor center. The site of this study was approximately 721 ha of mountain in Imgye-myeon, Gangwon-do, and the master plan was established through analysis of humanities-social and natural environments. The healing forest was developed 6 healing trails(10.5 km), devided by 3 steps, and each healing trail was designed to make rest area, wooden bridge, and open space. Also, visitor center, the core place of healing forest, was devided to several spaces as health measurement room, AV room, etc. and was planed for audio-visual education room for visitors.

직렬 스피커 연결을 이용한 비상 대피 유도 시스템의 설계 (Design of Emergency Evacuation Guiding System with Serially Connected Multi-channel Speakers)

  • 정한빛;김태완;정연모
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.142-152
    • /
    • 2011
  • 일반적으로 기존의 비상 대피용 유도 시스템은 비상등 또는 유도 LED와 같이 시각적인 부분에 의존하고 있다. 실제로 화재인 경우에는 연기 때문에 시야 확보가 힘든 경우가 많다. 본 논문에서는 이런 경우를 대비하여 방향성을 가진 음향을 사용하여 비상 대피 유도 시스템을 설계 및 구현하였다. 이 때 모든 스피커는 편리한 설치를 위해 오디오 직렬 전송 기법을 사용하였다. 대피 경로를 위한 최단 경로 알고리즘은 플로이드 알고리즘을 사용하였다. 오디오 직렬 전송 기법의 단점인 단선에 대한 대책으로 자동 고장 진단 기법을 제안하였다. 시스템 제어와 감시는 PC와 USB 프로토콜 연결을 통하여 이루어진다. 제안한 시스템은 가상의 비상 대피 환경에서 표본 집단의 대피 실험의 효율성을 검증했다. 결론적으로 제안된 시스템은 비상 상황에서 대피율의 증가를 확인하였고 오디오 직렬 전송 기법으로 쉽고 저가의 비용으로 설치 가능하다.

멀티캐스트 화상회의를 위한 3-D 음향시스템 설계 (Design of a Three Dimensional Audio System for Multicast Conferencing)

  • 김영오;고대식
    • 한국통신학회논문지
    • /
    • 제25권1B호
    • /
    • pp.71-76
    • /
    • 2000
  • 다수의 참여자가 존재하는 멀티미디어 화상회의 시스템에서, 참여자의 얼굴은 화상을 통하여 쉽게 구별할 수 있지만, 음성의 경우는 모든 참여자의 음성이 1차원적으로 처리되기 때문에 참여자의 구분이 어렵고 공간적인 실감을 느끼지 못한다. 본 논문에서는 HRTF(Head Realted Transfer Function: 머리전달 함수)와 거리감 재생 기법을 이용한 3-D 음향재현 시스템을 구현하고, 멀티캐스트 화상회의 시스템의 적절한 화자 배치를 연구분석하였다. 고도각과 수평각을 이용한 청취실험결과, 수평각이 고도각에 비하여 양호한 방향감 구별 인지도를 보였으며, 특히 4명의 참여자가 존재하는 화상회의 시스템의 경우 $10^{\circ}$, 90$^{\circ}$, 270$^{\circ}$, 350$^{\circ}$의 HRTF를 이용한 공간배치가 효율적인 것을 확인하였다. 끝으로 5인 이상의 참여자가 존재하는 경우와 현실감의 개선을 위하여 거리감이 이용될 수 있음을 제안한다.

  • PDF

소리 파형을 이용한 다수 동영상간 시간축 동기화 기법 (Timeline Synchronization of Multiple Videos Based on Waveform)

  • 김신;윤경로
    • 방송공학회논문지
    • /
    • 제23권2호
    • /
    • pp.197-205
    • /
    • 2018
  • 파노라마 이미지는 현재 흔하게 사용되는 기술 중 하나이다. 하지만, 아직까지 파노라마 비디오 제작은 기술적 어려움이 존재한다. 360도 카메라와 같은 특수 카메라가 없을 경우, 파노라마 비디오 제작은 더욱 어려워진다. 파노라마 비디오를 제작하기 위해서는 여러 지점에서 촬영한 다수의 동영상의 시간축을 동기화할 필요가 있다. 하지만 카메라 내부 시계를 통한 시간축 동기화 기법은 내부 하드웨어 차이로 인해 오차가 발생할 수 있다. 이러한 문제를 해결하기 위해 영상 정보 또는 소리 정보를 이용한 다수 비디오 간 시간축 동기화 연구가 진행되었다. 하지만 영상 정보를 이용하는 경우 정확도와 프로세싱 시간에 문제가 있으며 소리 정보를 이용하는 경우 노이즈에 민감하거나 멜로디가 없으면 동기화가 없다는 문제점이 있다. 따라서 본 논문에서는 소리 파형을 이용한 다수 비디오 간 시간축 동기화 기법을 제안한다. 영상 정보 기반 시간축 동기화 기법보다 높은 동기화 정확도를 보여주며 시간적 효율성을 보여준다.

멀티미디어 방송을 위한 SMIL 편집 시스템 구현 (Implementation of SMIL Editor for Multimedia Broadcasting)

  • 장대영;김창수;정회경
    • 한국정보통신학회논문지
    • /
    • 제8권3호
    • /
    • pp.622-629
    • /
    • 2004
  • 최근 디지털 방송 및 인터넷이 확산되면서, 다양한 멀티미디어 정보를 보다 자유롭게, 시간과 공간의 제약을 받지 않으면서 이용할 수 있게 되었다. 이러한 최근의 동향에 따라 오디오, 비디오와 같은 멀티미디어 데이터 표현에 대한 관심이 급증하면서 많은 사용자들은 멀티미디어 데이터를 통합한 서비스를 요구하게 되었다. 이에 따라 1998년 W3C에서 멀티미디어 객체의 표현 및 동기화 문제를 해결하기 위해 XML에 기반을 둔 SMIL(Synchronized Multimedia Integration Language)을 제안하였다. 이러한 멀티미디어 요소가 통합된 SMIL 문서는 플레이어를 통해 사용자와 상호 작용하는 멀티미디어 컨텐츠로서 단순히 오디오만 전달하는 인터넷 라디오 방송에 다양한 멀티미디어 요소를 접속하여 보다 않은 정보를 전달하며, 이를 통해 사용자 중심의 새로운 인터넷 라디오 방송 서비스를 창출할 수 있는 가능성이 마련되었다. 이에, 본 논문에서는 일반 사용자들이 손쉽게 멀티미디어 데이터들의 시간, 공간에 따른 배치 및 동기화를 표현하고 기술할 수 있도록 SMIL 문서 편집기를 설계 및 구현한 내용을 기술한다.