• Title/Summary/Keyword: 음성/영상 데이터베이스

Search Result 35, Processing Time 0.026 seconds

The Extraction of Effective Index Database from Voice Database and Information Retrieval (음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.35 no.3
    • /
    • pp.271-291
    • /
    • 2004
  • Such information services source like digital library has been asked information services of atypical multimedia database like image, voice, VOD/AOD. Examined in this study are suggestions such as word-phrase generator, syllable recoverer, morphological analyzer, corrector for voice processing. Suggested voice processing technique transform voice database into tort database, then extract index database from text database. On top of this, the study suggest a information retrieval model to use in extracted index database, voice full-text information retrieval.

  • PDF

Korean Emotional Speech and Facial Expression Database for Emotional Audio-Visual Speech Generation (대화 영상 생성을 위한 한국어 감정음성 및 얼굴 표정 데이터베이스)

  • Baek, Ji-Young;Kim, Sera;Lee, Seok-Pil
    • Journal of Internet Computing and Services
    • /
    • v.23 no.2
    • /
    • pp.71-77
    • /
    • 2022
  • In this paper, a database is collected for extending the speech synthesis model to a model that synthesizes speech according to emotions and generating facial expressions. The database is divided into male and female data, and consists of emotional speech and facial expressions. Two professional actors of different genders speak sentences in Korean. Sentences are divided into four emotions: happiness, sadness, anger, and neutrality. Each actor plays about 3300 sentences per emotion. A total of 26468 sentences collected by filming this are not overlap and contain expression similar to the corresponding emotion. Since building a high-quality database is important for the performance of future research, the database is assessed on emotional category, intensity, and genuineness. In order to find out the accuracy according to the modality of data, the database is divided into audio-video data, audio data, and video data.

Design and Implementation of Multimedia Webboard System Using Component Technology (Component 기반 Interactive Multimedia Webboard 시스템의 설계 및 구현)

  • Kwak, Mi-Ra;Kim, Do-Nyun;Kang, Min-Sook;Cho, Dong-Sub
    • Proceedings of the KIEE Conference
    • /
    • 1999.07g
    • /
    • pp.2968-2970
    • /
    • 1999
  • 본 논문에서는 컴포넌트 기술을 기반으로 한 인터액티브 멀티미디어 웹보드 시스템을 설계, 구현하고 있다. 이 시스템은 문서를 게시하고 파일을 첨부하는, 일반적인 웹 기반의 게시판을 확장한 것으로, 이러한 기본적 기능 외에 사용자로 하여금 동영상, 음성, 정지영상을 캡쳐하여 전송할 수 있도록 하는 기능을 제공한다. 이와 같은 작업은 ActiveX 컨트롤이 임베드된 웹 페이지 상에서 이루어지므로, 사용자에게는 브라우저 외의 별도의 프로그램이 요구되지 않는다. 이 시스템을 구성하는 주요한 기술적 요소에는 컴포넌트 기술, 웹 데이터베이스 기술 등이 있다. 컴포넌트 기술을 통해 자체적인 인터페이스를 가진 동영상 정지영상, 음성 캡쳐기능의 ActiveX 컨트롤을 구현하였고, MS SQL Server와 ASP를 이용한 웹 데이터베이스 기술을 통해 인터액티브한 인터페이스를 제공하였다.

  • PDF

Development of a Cooking Assistance System Based on Voice and Video Object Recognition (음성 및 동영상 객체 인식 기반 요리 보조 시스템 개발)

  • Lee, Jong-Hwan;Kwak, Hee-Woong;Park, Gi-Su;Song, Mi-Hwa
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.727-729
    • /
    • 2022
  • 모바일 서비스에서 음성인식을 활용한 애플리케이션이 가져다 주는 편리함으로 레시피 애플리케이션에 접목시켜 데이터베이스를 사용한 레시피 추천, Google Video Intelligence API를 사용하여 객체 영상분할, Google Assistant를 활용한 음성인식을 기반으로 한 레시피 애플리케이션을 제공한다.

신제품 / 삼성전자, 램(RAM)방식 DVD 리코더 국내 첫 출시

  • Korea Database Promotion Center
    • Digital Contents
    • /
    • no.9 s.124
    • /
    • pp.178-187
    • /
    • 2003
  • 삼성전자가 본격적인 디지털 녹화 시대 개막을 알리는 램(RAM)방식의 DVD레코더(모델명:DVD-R5000)를 국내에 출시한다. 삼성전자가 이번에 출시하는 램(RAM)방식의 레코더는 PC를 기반으로 하고 있기 때문에 녹화와 재생 등이 타 방식보다 빠르다는 것이 가장 큰 특징이다. 즉 디스크에 기록된 영상과 음성등을 가장 빨리 찾고, 재생할 수 있다는 점이다.

  • PDF

A CDMA Reservation ALOHA Protocol for Mobile Multimedia Integrated Cellular Systems (셀룰러 시스템에서 이동멀티미디어 서비스지원을 위한 CDMA R-ALOHA의 성능분석)

  • Hur, Kyeong;Kim, Soo-Won;Eom, Doo-Seop;Tchah, Kyun-Hyon
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.25 no.11A
    • /
    • pp.1630-1641
    • /
    • 2000
  • 본 논문은 셀룰러 시스템 상향 링크에서 음성데이터 및 실시간 영상데이터로 구성된 화상전화서비스, 고속 및 저속 데이터베이스의 다중 전송률 멀티미디어 서비스를 통합 지원할수 있는 CDMA R-ALOHA 프로토콜을 제안하였다. 제안된 프로토콜은 액세스슬롯과 전송슬롯으로 구분된 프레임의 구조를 이용한 코드할당 방식으로 전송슬롯에서의 간섭을 줄였다. 그리고, 각 서비스의 트래픽 특성에 따른 전송코드 예약과 화상전화서비스 사용자의 핸드오프호를 고려하여 분석된 각 서비스 부시스템의 Markov-chain 모델을 이용한 각 서비스의 채널 경쟁 사용자수 추정을 기반으로 서비스별 액세스 허용확률을 제안하여, 액세스슬롯에서의 패킷 충돌을 감소시키고 핸드오프호의 우선권을 보장할 수있다. 또한 화상전화서비스의 영상데이터 전송정보를 이용한 코드 예약방식을 제안하여, 음성 트래픽을 패킷의 손실이 없이 지원하였고 고속 및 저속 데이터베이스를 통해 채널 이용효율을 극대화하였다.

  • PDF

Robust Endpoint Detection for Bimodal System in Noisy Environments (잡음환경에서의 바이모달 시스템을 위한 견실한 끝점검출)

  • 오현화;권홍석;손종목;진성일;배건성
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.40 no.5
    • /
    • pp.289-297
    • /
    • 2003
  • The performance of a bimodal system is affected by the accuracy of the endpoint detection from the input signal as well as the performance of the speech recognition or lipreading system. In this paper, we propose the endpoint detection method which detects the endpoints from the audio and video signal respectively and utilizes the signal to-noise ratio (SNR) estimated from the input audio signal to select the reliable endpoints to the acoustic noise. In other words, the endpoints are detected from the audio signal under the high SNR and from the video signal under the low SNR. Experimental results show that the bimodal system using the proposed endpoint detector achieves satisfactory recognition rates, especially when the acoustic environment is quite noisy.

Retrieval of Player Event in Golf Videos Using Spoken Content Analysis (음성정보 내용분석을 통한 골프 동영상에서의 선수별 이벤트 구간 검색)

  • Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.7
    • /
    • pp.674-679
    • /
    • 2009
  • This paper proposes a method of player event retrieval using combination of two functions: detection of player name in speech information and detection of sound event from audio information in golf videos. The system consists of indexing module and retrieval module. At the indexing time audio segmentation and noise reduction are applied to audio stream demultiplexed from the golf videos. The noise-reduced speech is then fed into speech recognizer, which outputs spoken descriptors. The player name and sound event are indexed by the spoken descriptors. At search time, text query is converted into phoneme sequences. The lists of each query term are retrieved through a description matcher to identify full and partial phrase hits. For the retrieval of the player name, this paper compares the results of word-based, phoneme-based, and hybrid approach.

On Expo- 우암닷컴/원격회의 위한 인터넷 멀티미디어 영상 솔루션 개발

  • Song, Hye-Ja
    • Digital Contents
    • /
    • no.10 s.125
    • /
    • pp.84-85
    • /
    • 2003
  • 기업과 기업간, 사람과 사람사이에 의견을 주고 받기 위한 매체가 다양화되고 있다. 방문이나 우편 등에 의한 의사 교환에서 전화, 이메일을 거쳐 메신저가 등장해 실시간으로 의견을 주고 파일 전송을 하고 있다. 메신저는 1:1문자 대화에서 1:다수의 형태로 진화되더니 급기야는 서로의 얼굴을 보고, 음성을 들으며 웹사이트, 문서 등을 공유하면서 회의를 진행할 수 있게 됐다.

  • PDF

An Implementation of Multimodal Speaker Verification System using Teeth Image and Voice on Mobile Environment (이동환경에서 치열영상과 음성을 이용한 멀티모달 화자인증 시스템 구현)

  • Kim, Dong-Ju;Ha, Kil-Ram;Hong, Kwang-Seok
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.45 no.5
    • /
    • pp.162-172
    • /
    • 2008
  • In this paper, we propose a multimodal speaker verification method using teeth image and voice as biometric trait for personal verification in mobile terminal equipment. The proposed method obtains the biometric traits using image and sound input devices of smart-phone that is one of mobile terminal equipments, and performs verification with biometric traits. In addition, the proposed method consists the multimodal-fashion of combining two biometric authentication scores for totally performance enhancement, the fusion method is accompanied a weighted-summation method which has comparative simple structure and superior performance for considering limited resources of system. The performance evaluation of proposed multimodal speaker authentication system conducts using a database acquired in smart-phone for 40 subjects. The experimental result shows 8.59% of EER in case of teeth verification 11.73% in case of voice verification and the multimodal speaker authentication result presented the 4.05% of EER. In the experimental result, we obtain the enhanced performance more than each using teeth and voice by using the simple weight-summation method in the multimodal speaker verification system.