• 제목/요약/키워드: Image and sound

검색결과 455건 처리시간 0.022초

심층 신경망을 통한 자연 소리 분류를 위한 최적의 데이터 증대 방법 탐색 (Search for Optimal Data Augmentation Policy for Environmental Sound Classification with Deep Neural Networks)

  • 박진배;;배성호
    • 방송공학회논문지
    • /
    • 제25권6호
    • /
    • pp.854-860
    • /
    • 2020
  • 심층 신경망은 영상 분류 그리고 음성 인식 등 다양한 분야에서 뛰어난 성능을 보여주었다. 그 중에서 데이터 증대를 통해 생성된 다양한 데이터는 신경망의 성능을 향상하게 시키는 데 중요한 역할을 했다. 일반적으로 데이터의 변형을 통한 증대는 신경망이 다채로운 예시를 접하고 더 일반적으로 학습되는 것을 가능하게 했다. 기존의 영상 분야에서는 신경망 성능 향상을 위해 새로운 증대 방법을 제시할 뿐만 아니라 데이터와 신경망의 구조에 따라 변화할 수 있는 최적의 데이터 증대 방법의 탐색 방법을 제안해왔다. 본 논문은 이에 영감을 받아 음향 분야에서 최적의 데이터 증대 방법을 탐색하는 것을 목표로 한다. 잡음 추가, 음의 높낮이 변경 혹은 재생 속도를 조절하는 등의 증대 방법들을 다양하게 조합하는 실험을 통해 경험적으로 어떤 증대 방법이 가장 효과적인지 탐색했다. 결과적으로 자연 음향 데이터 세트 (ESC-50)에 최적화된 데이터 증대 방법을 적용함으로써 분류 정확도를 향상하게 시킬 수 있었다.

PDA기반 멀티미디어 학습시스템 설계 및 구현 (Design and Implementation of Multimedia Learning System based PDA)

  • 이순기;김창수;심규박
    • 수산해양교육연구
    • /
    • 제16권2호
    • /
    • pp.163-170
    • /
    • 2004
  • The rapid exchanges of mobile computing environment and development of wireless communication are providing many effects for learning activity of students. Recently, PDA system developers which are studying memory capacity, communication speed and size of screen support techniques to be capable of learning from students in the wireless or moving environment. In this viewpoints, this paper has a purpose to design multimedia learning system to be able to do with sound lecture contents. The implemented system largely consists of two parts which have the teacher module and students module. The one manages learning progress of students, class management, bulletin board and etc. The other is capable of using studying and bulletin functions. The main idea of this research is focus to upgrade the effect of learning without almost treating the existing studies, which can be listening sound lecture and also seeing text and image at the same time.

가우스 분류기를 이용한 입술영역 추출 (Lip Region Extraction by Gaussian Classifier)

  • 김정엽
    • 한국멀티미디어학회논문지
    • /
    • 제20권2호
    • /
    • pp.108-114
    • /
    • 2017
  • Lip reading is a field of image processing to assist the process of sound recognition. In some environment, the capture of sound signal usually has significant noise and therefore, the recognition rate of sound signal decreases. Lip reading can be a good feature for the increase of recognition rates. Conventional lip extraction methods have been proposed widely. Maia et. al. proposed a method by the sum of Cr and Cb. However, there are two problems as follows: the point with maximum saturation is not always regarded as lips region and the inner part of lips such as oral cavity and teeth can be classified as lips. To solve these problems, this paper proposes a method which adopts the histogram-based classifier for the extraction of lips region. The proposed method consists of two stages, learning and test. The amount of computation is minimized because this method has no color conversion. The performance of proposed method gives 66.8% of detection rate compared to 28% of conventional ones.

합성 스테레오 방식 3차원 입체음향의 실시간 구현을 위한 머리전달 함수의 IIR 필터 설계 (IIR Filter Design of HRTF for Real-Time Implementation of 3D Sound by Synthetic Stereo Method)

  • 박장식;김현태
    • 한국콘텐츠학회논문지
    • /
    • 제5권6호
    • /
    • pp.74-86
    • /
    • 2005
  • 본 논문에서는 2 채널 입체음향 시스템을 효율적으로 구현하기 위하여 고차의 FIR 필터로 구현된 머리 전달함수를 저차의 IIR 필터로 근사시키는 알고리즘을 제안한다. 제안하는 알고리즘은 균형화모델감소법의 개념을 바탕으로 한다. 근사화된 머리전달함수를 헤드폰을 통해 바이노럴 사운드로 재생하면 입체음향이 구현된다. 더미 헤더의 머리전달함수를 512차 FIR 필터에서 32차 IIR 필터로 근사화하여 기존의 머리전달함수와 성능을 비교한다. 이를 위해 10명을 대상으로 음상 정위에 대한 실험을 한다. 실험은 컴퓨터 시뮬레이션과 TMS320C32를 이용한 하드웨어 실험을 병행한다. 실험을 통해 기존의 FIR 필터를 사용한 경우와 같이 IIR 필터로 근사화된 머리전달함수를 사용한 경우도 동일하게 인지되는 것을 확인할 수 있다.

  • PDF

비쥬얼 뮤직에 나타난 추상적 공감각에 관한 연구 (A Study on Abstract Synesthesia for Visual Music)

  • 김호
    • 한국콘텐츠학회논문지
    • /
    • 제16권8호
    • /
    • pp.484-492
    • /
    • 2016
  • 영상에서 음악의 역할은 영상의 내러티브를 표현하는 보조적인 기능 또는 음악의 주체가 되어 영상을 주도하는 독립적인 기능으로 구분할 수 있다. 소리를 청각으로 감지하여, 이를 시각화하는 작업을 비쥬얼 뮤직이라고 한다. 19세기 이후 예술가들에 의해 색청(色聽)을 통한 음악의 이미지 동기화 시도는 작품을 통해 끊임없이 이루어져 왔다. 또한 20세기 들어 영화의 발전으로 많은 예술가들은 3차원적인 표현의 한계에서 벗어나 움직임의 시간적 개념을 시도할 수 있게 되었다. 이러한 과정 속에서 실험정신이 강한 예술가들은 소리와 영상의 상관관계를 추론하여 비쥬얼 뮤직이라는 새로운 장르를 개척했다. 그 결과 과거 듣는 음악의 시대에서 현재 보는 음악의 시대로 바뀌고 있으며, 음악과 영상의 실험적인 시도로 다양한 작품들이 제작되고 있다. 본 논문은 현대의 비쥬얼 뮤직의 미학적 특징을 살펴본 후, 색을 활용한 비쥬얼 뮤직이 영화, 애니메이션, 뮤직비디오, 미디어 아트 등 다양한 분야에서 어떻게 활용되고 있는지를 비교, 분석하고자 한다.

위상배열기법을 이용한 치아결함 초음파이미지 진단기술개발 (A Study on Ultrasonic Image Diagnosis Methods of Tooth Defect with Phased-Array Techniques)

  • 오윤정;황인남;박수정;임광희;조현준;조영태
    • 한국생산제조학회지
    • /
    • 제18권6호
    • /
    • pp.604-613
    • /
    • 2009
  • Recently, researches to develop phased array ultrasonic examination techniques are proceeded to diagnose dental caries and the status of surgical operation of dental implant. Sound field analysis of phased array ultrasonic transducers were carried out in order to characterizing the ultrasonic phased array beams. The sound field of ultrasonic radiation was calculated for the sample called "gypsum-improved stone" with the similar characteristics of dental materials. Industrial phased array ultrasonic devices were utilized for the insptriion of the artificial flaws machined in the gypsum-improved stone. Dental implants were made at the pig jaw bone and defect images were confirmed for the dental implants.

  • PDF

추론 능력에 기반한 음성으로부터의 감성 인식 (Inference Ability Based Emotion Recognition From Speech)

  • 박창현;심귀보
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.123-125
    • /
    • 2004
  • Recently, we are getting to interest in a user friendly machine. The emotion is one of most important conditions to be familiar with people. The machine uses sound or image to express or recognize the emotion. This paper deals with the method of recognizing emotion from the sound. The most important emotional component of sound is a tone. Also, the inference ability of a brain takes part in the emotion recognition. This paper finds empirically the emotional components from the speech and experiment on the emotion recognition. This paper also proposes the recognition method using these emotional components and the transition probability.

  • PDF

영상음향의 사운드디자인설계가 커뮤니케이션 효과에 미치는 영향 - TV광고음향을 뇌 지수 분석기법으로 - (Influences of a Sound Design of Media Contents on Communication Effects - TV-CF Sound Using a BQ-TEST)

  • 유회종;서현주;문남미
    • 방송공학회논문지
    • /
    • 제13권5호
    • /
    • pp.602-611
    • /
    • 2008
  • 지금까지 TV, 영화, 광고 등 미디어콘텐츠 제작에서 사운드디자인은 스토리를 전달하는 청각효과측면에서 전문가의 경험적 느낌에 의하여 주로 진행되었으며, 수용자가 느끼는 시청각적 효과를 적용키 위한 정량적 연구와 검증은 아직 취약한 실정이다. 본 연구에서는 미디어콘텐츠 제작에서 사운드디자인설계의 차이가 수용자에게 미치는 커뮤니케이션 효과의 차이를 알아보고자 시도한 비 동등성 대조군 전후 유사실험 연구이다. 연구방법은 60초의 TV광고영상을 음악으로만 디자인한 실험영상(A트랙)과, 음향효과와 음악으로 디자인한 실험영상(B트랙)을 시청하는 동안 뇌파측정을 통하여 얻어진 뇌 지수(Brain Quotient)를 비교 분석하여, 어떠한 사운드 디자인 설계가 수용자의 커뮤니케이션 효과에 차이가 있는가를 알아보았다. 그 결과, 첫째, 인지효과의 해당 뇌지수인 주의지수(ATQ)를 A트랙과 B트랙을 비교한 결과 A트랙이 B트랙보다 높은 활성화 차이를 보였다. 이는 음악위주의 사운드 디자인이 음향효과디자인보다 수용자에게 더 높은 관심과 집중도를 보였다고 해석할 수 있다. 둘째, 감성효과에 해당하는 정서지수(EQ)를 A트랙과 B트랙 비교결과 A트랙이 B트랙보다 높은 활성화를 보였다. 이 역시 음악위주의 사운드디자인이 음향효과위주의 디자인보다 정서적으로 감성효과가 높게 관여한다는 것을 의미한다. 셋째, 기억활성효과에 해당하는 뇌 활성지수(ACQ)는 A트랙과 B트랙 비교결과 B트랙 군보다 A트랙 군이 약간의 차이가 있었으나 유의하지는 않았다. 이번 실험을 통하여 지금까지 강한 집중을 위해서는 음향효과디자인이, 정서적인 감정은 음악디자인이 관여도가 높다는 기존의 연구에서, TV광고음향의 한정이 있기는 하나 집중도에서 음악디자인이 오히려 효과가 높을 수 있으며, 정서적인 관여는 역시 음악디자인이 효과가 높다는 결론을 얻을 수 있었다. 다만 기억활성도에서 유의한 차이가 없었던 점은 피험자숫자를 늘리는 등 계속적 연구가 필요하다. 본 연구는 미디어콘텐츠에서 사운드디자인설계가 수용자에게 미치는 커뮤니케이션효과의 영향을 뇌파측정을 통하여 정량적으로 알아 본 것에 의의가 있으며, 사운드디자인제작현장의 기초 자료로 활용될 수 있음을 기대한다.

공통기술표현포맷에 기반한 다매체자료의 검색효율 향상에 관한 연구 (A Study on the Improvement of Retrieval Efficiency Based on the CRFMD)

  • 박일종;정기태
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.5-21
    • /
    • 2006
  • 최근 수년 동안 영상자료와 음성자료 분석에 대한 이론들이 텍스트자료 검색 시스템과 함께 사용되기 위해서 제안되어 왔으며 데이터 처리 속도의 급격한 향상과 함께 발전되어 왔다. 일반적 검색 방법들은 단지 텍스트만을 사용하지만 텍스트와 그림을 동시에 사용하는 검색 방법 또한 최근에 제안되어 왔다. 본 연구는 다매체자료의 공통기술표현포맷(CRFMD)이라는 이름으로 화상자료와 텍스트자료를 하나의 자료 구조로 통합하는 방법을 제안하고 있으며, 주어진 테스트자료에 대한 화상자료의 유사성 분석에서 텍스트와 그림의 형태소를 함께 사용하였을 때 현격히 개선되어 짐을 보여주고 있다. CRFMD는 의료문서 검색, WWW 검색, 박물관 소장품 검색과 같은 다양한 분야의 다매체자료 검색 및 처리에 응용될 수가 있을 것이다.

DIGITAL WATERMARK REPRODUCTION IMAGE ATTESTATION THAT USES PHASE ONLY CORRELATION METHOD

  • Inaba, Fumiya;Tanaka, Ken-Ichi
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 IWAIT
    • /
    • pp.508-511
    • /
    • 2009
  • The infringement of the copyright is a problem by the distribution of digital contents copied illegally. The digital watermark is expected as a thing preventing unjust copying by burying information in digital data such as image, animation, the sound, TV, radio and movies. [1] [2]But a noise is included in a digital watermark reproduction image. So there is the case that the certification of the reproduction image has difficulty with. If a computer cannot recognize the information reproduced from digital watermarking, the information does not have a meaning. This paper aimed at improvement of the proof of a digital-watermarking reproduction image. And it is verified whether the difference of the form of a character affects the degree of correlation.

  • PDF