• 제목/요약/키워드: voice image

검색결과 293건 처리시간 0.031초

Voice Coding Using Only the Features of the Face Image

  • Cho, Youn-Soo;Jang, Jong-Whan
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권3E호
    • /
    • pp.26-29
    • /
    • 1999
  • In this paper, we propose a new voice coding using only the features of the face image such as mouth height(H), width(W), rate(R=W/H), area(S), and ellipse's feature(P). It provides high security and is not affected by acoustic noise because we use only the features of face image for speech. In the proposed algorithm, the mean recognition rate for the vowels approximately rises between 70% and 96% after many tests.

  • PDF

모바일 카메라 모듈용 볼베어링 방식 OIS 액추에이터 설계 (Design of Ball Bearing Type OIS Actuator for Mobile Camera Module)

  • 송명규;손동훈;박노철;박경수;박영필;임수철
    • 한국소음진동공학회논문집
    • /
    • 제20권4호
    • /
    • pp.361-372
    • /
    • 2010
  • Optical image stabilization is a technique to compensate the image blurring caused by some vibrations of camera at the exposure time. Pitching and yawing of camera are sensitive to the image quality so they are usually compensated by optical image stabilization. Corresponding pitching and yawing of a camera, a lens or the image sensor is translated in two-axis direction and then the optical path of camera is adjusted. In this paper, two-axis OIS actuator for mobile camera module is suggested and designed. The actuator is a voice-coil actuator that uses the electromagnetic force of voice-coil to make compensation motions. And ball bearing is used to reduce friction force. Magnetic attractive force between magnets and yokes acts as a preload and magnet springs. Prototype actuator is fabricated to measure the friction force and to verify the feasibility of the OIS actuator with ball bearing. At last, the actuator is improved in consideration of driving force and friction force. Design of experiments is used for designing the actuator.

성대형태 및 음향발현에서 성악 발성 및 판소리 발성의 비교 연구 (A Comparative Study of Western Singer's Voice and a Pansori Singer's Voice Based on Glottal Image and Acoustic Characteristics)

  • 김선숙
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.165-177
    • /
    • 2004
  • Western singers voice have been studied in music science since the early 20th century. However, Korean traditional singers voice have not yet been studied scientifically. This study is to find the physiological and acoustic characteristics of Pansori singers voices. Western singers participated for comparative purposes. Ten western singers and ten Pansori singers participated in this study. The subjects spoke and sung seven simple vowels /a, e, i, o, u, c, w/. An analysis of Glottal image was done by Scope View and acoustic characteristics of speech and singing voice were analyzed by CSL. The results are as follows: (1) Glottal gestures of Pansori singers showed asymmetric vocal folds. (2) Singing vowel formants of Pansori singers showed breathiness based on Spectrogram. (3) Music formant of western singers appeared in around 3kHz area, however, Pansori singers formant appeared in low frequency area. Modulation of vibrato showed 6 frequency per sec in case of western singers. Pansori singers showed no deep modulation of vibrato on spectrogram.

  • PDF

Bluetooth를 이용한 동영상 전송 시스템 구현 (Implementation Of Moving Picture Transfer System Using Bluetooth)

  • 조경연;이승은;최종찬
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(1)
    • /
    • pp.25-28
    • /
    • 2001
  • In this paper we implement moving picture transfer system using bluetooth Development Kit (DK). To reduce the size of the image data, we use M-JPEG compression. We use bluetooth Synchronous Connection-Oriented (SCO) link to transfer voice data. Server receive image data from camera and compress the image data in M-JPEG format, and then transmit the image data to client using bluetooth Asynchronous connection-less (ACL) link. Client receive image data from bluetooth ACL link and decode the compressed image and then display the image to screen. Sever and Client can transmit and receive voice data simultaneously using bluetooth SCO link. In this paper bluetooth HCI commands and events generated by host controller to return the results of HCI commands are explained and the flow of bluetooth connection procedure is presented.

  • PDF

영상 및 음성 신호 처리를 이용한 장년기 여성의 사상체질 분류 방법의 제안 (A Proposal of Sasang Constitution Classification in Middle-aged Women Using Image and Voice Signals Process)

  • 이세환;김봉현;가민경;조동욱;곽지현;오상영;배영래
    • 한국산학기술학회논문지
    • /
    • 제9권5호
    • /
    • pp.1210-1217
    • /
    • 2008
  • 사상의학은 개인별 체질의 분류에 따른 맞춤형 의학으로 우리나라 고유의 독특한 전통 의학이다. 이와 같은 사상의학에서 가장 중요하게 여겨지는 것이 사상체질의 정확한 분류이다. 따라서 사상체질 분류에 대한 객관적 요소의 확보 및 진단 지표 마련이 시급하게 해결되어야 할 과제이다. 이를 위해 본 논문에서는 사상체질 분류의 객관화, 정량화 및 시각화를 위해 얼굴 영상 신호와 음성 신호를 분석하여 결과값을 추출하고 체질별 집단군간의 차이점을 비교하여 사상체질 분류 시스템을 구현하고자 한다. 특히 영상 및 음성 신호는 성별, 연령별, 지역별 등의 구분에 따라 달라지기 때문에 본 논문에서는 40에서 50대 사이의 장년 여성을 대상으로 서울지역 거주자에 한해 사상체질 집단군을 구성하고 이들의 영상 및 음성 신호를 추출하여 체질간 비교, 분석을 수행하고자 한다. 최종적으로 실험을 통한 연구 결과의 유의성을 입증하고자 한다.

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF

디지털 음성 및 영상 처리용 SOC를 위한 ADPCM CODEC 코어의 설계 (A Design of ADPCM CODEC Core for Digital Voice and Image Processing SOC)

  • 정중완;홍석일;한희일;조경순
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(2)
    • /
    • pp.333-336
    • /
    • 2001
  • This paper describes the design and implementation results of 40, 32, 24 and 16kbps ADPCM encoder and decoder circuit, based on the protocol CCITT G.726. We verified the ADPCM algorithm using C language and designed the RTL circuit with Verilog HDL. The circuit has been simulated by Verilog-XL, synthesized by Design Compiler and verified using Xilinx FPGA. Since the synthesized circuit includes a small number of gates, it is expected to be used as a core module in the digital voice and image processing SOC.

  • PDF

감각 정보를 이용한 뱀 로봇의 행동구현 (Snake Robot Motion Scheme Using Image and Voice)

  • 강준영;김성주;조현찬;전홍태
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(3)
    • /
    • pp.127-130
    • /
    • 2002
  • Human's brain action can divide by recognition and intelligence. recognition is sensing voice, image and smell and Intelligence is logical judgment, inference, decision. To this concept, Define function of cerebral cortex, and apply the result. Current expert system is lack, that reasoning by cerebral cortex and thalamus, hoppocampal and so on. In this paper, With human's brain action, wish to embody human's action artificially Embody brain mechanism using Modular Neural Network, Applied this result to snake robot.

  • PDF

이동환경에서 치열영상과 음성을 이용한 멀티모달 화자인증 시스템 구현 (An Implementation of Multimodal Speaker Verification System using Teeth Image and Voice on Mobile Environment)

  • 김동주;하길람;홍광석
    • 전자공학회논문지CI
    • /
    • 제45권5호
    • /
    • pp.162-172
    • /
    • 2008
  • 본 논문에서는 이동환경에서 개인의 신원을 인증하는 수단으로 치열영상과 음성을 생체정보로 이용한 멀티모달 화자인증 방법에 대하여 제안한다. 제안한 방법은 이동환경의 단말장치중의 하나인 스마트폰의 영상 및 음성 입력장치를 이용하여 생체 정보를 획득하고, 이를 이용하여 사용자 인증을 수행한다. 더불어, 제안한 방법은 전체적인 사용자 인증 성능의 향상을 위하여 두 개의 단일 생체인식 결과를 결합하는 멀티모달 방식으로 구성하였고, 결합 방법으로는 시스템의 제한된 리소스를 고려하여 비교적 간단하면서도 우수한 성능을 보이는 가중치 합의 방법을 사용하였다. 제안한 멀티모달 화자인증 시스템의 성능평가는 스마트폰에서 획득한 40명의 사용자에 대한 데이터베이스를 이용하였고, 실험 결과, 치열영상과 음성을 이용한 단일 생체인증 결과는 각각 8.59%와 11.73%의 EER를 보였으며, 멀티모달 화자인증 결과는 4.05%의 EER를 나타냈다. 이로부터 본 논문에서는 인증 성능을 향상하기 위하여 두 개의 단일 생체인증 결과를 간단한 가중치 합으로 결합한 결과, 높은 인증 성능의 향상을 도모할 수 있었다.

효과적 정보전달을 위한 영상정보의 3D 뷰 및 음성정보와의 융합 연구 (A Study on 3D View Design of Images and Voices Integration for Effective Information Transfer)

  • 신준철;이종수
    • 한국통신학회논문지
    • /
    • 제35권1B호
    • /
    • pp.35-41
    • /
    • 2010
  • 본 논문에서는 컴퓨터를 사용한 효과적 정보전달을 위해 2D 영상정보를 3D 가상공간에 배치하고 음성 정보와의 유기적 연결기능을 갖는 3D 뷰 설계를 제안한다. 3D 공간에 배치된 영상정보의 사용자 접속을 어느 시점 또는 어떤 각도에서도 가능하도록 하여, 시각정보 전달효과를 제고하고 있으며, 음성정보의 첨부가 용이하도록 설계하였다. 3D공간에서의 영상 및 음성정보 배치는 단순하지만 효과적인 접속기능을 포함하고 있으며, 이들의 탐색 및 시청을 사용자접속 관점에서 설계하여 정보전달 효과를 제고하였다.