• 제목/요약/키워드: 음성/영상 데이터베이스

검색결과 35건 처리시간 0.032초

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF

대화 영상 생성을 위한 한국어 감정음성 및 얼굴 표정 데이터베이스 (Korean Emotional Speech and Facial Expression Database for Emotional Audio-Visual Speech Generation)

  • 백지영;김세라;이석필
    • 인터넷정보학회논문지
    • /
    • 제23권2호
    • /
    • pp.71-77
    • /
    • 2022
  • 본 연구에서는 음성 합성 모델을 감정에 따라 음성을 합성하는 모델로 확장하고 감정에 따른 얼굴 표정을 생성하기 위한 데이터 베이스를 수집한다. 데이터베이스는 남성과 여성의 데이터가 구분되며 감정이 담긴 발화와 얼굴 표정으로 구성되어 있다. 성별이 다른 2명의 전문 연기자가 한국어로 문장을 발음한다. 각 문장은 anger, happiness, neutrality, sadness의 4가지 감정으로 구분된다. 각 연기자들은 한 가지의 감정 당 약 3300개의 문장을 연기한다. 이를 촬영하여 수집한 전체 26468개의 문장은 중복되지 않으며 해당하는 감정과 유사한 내용을 담고 있다. 양질의 데이터베이스를 구축하는 것이 향후 연구의 성능에 중요한 역할을 하므로 데이터베이스를 감정의 범주, 강도, 진정성의 3가지 항목에 대해 평가한다. 데이터의 종류에 따른 정확도를 알아보기 위해 구축된 데이터베이스를 음성-영상 데이터, 음성 데이터, 영상 데이터로 나누어 평가를 진행하고 비교한다.

Component 기반 Interactive Multimedia Webboard 시스템의 설계 및 구현 (Design and Implementation of Multimedia Webboard System Using Component Technology)

  • 곽미라;김도년;강민숙;조동섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 하계학술대회 논문집 G
    • /
    • pp.2968-2970
    • /
    • 1999
  • 본 논문에서는 컴포넌트 기술을 기반으로 한 인터액티브 멀티미디어 웹보드 시스템을 설계, 구현하고 있다. 이 시스템은 문서를 게시하고 파일을 첨부하는, 일반적인 웹 기반의 게시판을 확장한 것으로, 이러한 기본적 기능 외에 사용자로 하여금 동영상, 음성, 정지영상을 캡쳐하여 전송할 수 있도록 하는 기능을 제공한다. 이와 같은 작업은 ActiveX 컨트롤이 임베드된 웹 페이지 상에서 이루어지므로, 사용자에게는 브라우저 외의 별도의 프로그램이 요구되지 않는다. 이 시스템을 구성하는 주요한 기술적 요소에는 컴포넌트 기술, 웹 데이터베이스 기술 등이 있다. 컴포넌트 기술을 통해 자체적인 인터페이스를 가진 동영상 정지영상, 음성 캡쳐기능의 ActiveX 컨트롤을 구현하였고, MS SQL Server와 ASP를 이용한 웹 데이터베이스 기술을 통해 인터액티브한 인터페이스를 제공하였다.

  • PDF

음성 및 동영상 객체 인식 기반 요리 보조 시스템 개발 (Development of a Cooking Assistance System Based on Voice and Video Object Recognition)

  • 이종환;곽희웅;박기수;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.727-729
    • /
    • 2022
  • 모바일 서비스에서 음성인식을 활용한 애플리케이션이 가져다 주는 편리함으로 레시피 애플리케이션에 접목시켜 데이터베이스를 사용한 레시피 추천, Google Video Intelligence API를 사용하여 객체 영상분할, Google Assistant를 활용한 음성인식을 기반으로 한 레시피 애플리케이션을 제공한다.

신제품 / 삼성전자, 램(RAM)방식 DVD 리코더 국내 첫 출시

  • 한국데이터베이스진흥센터
    • 디지털콘텐츠
    • /
    • 9호통권124호
    • /
    • pp.178-187
    • /
    • 2003
  • 삼성전자가 본격적인 디지털 녹화 시대 개막을 알리는 램(RAM)방식의 DVD레코더(모델명:DVD-R5000)를 국내에 출시한다. 삼성전자가 이번에 출시하는 램(RAM)방식의 레코더는 PC를 기반으로 하고 있기 때문에 녹화와 재생 등이 타 방식보다 빠르다는 것이 가장 큰 특징이다. 즉 디스크에 기록된 영상과 음성등을 가장 빨리 찾고, 재생할 수 있다는 점이다.

  • PDF

셀룰러 시스템에서 이동멀티미디어 서비스지원을 위한 CDMA R-ALOHA의 성능분석 (A CDMA Reservation ALOHA Protocol for Mobile Multimedia Integrated Cellular Systems)

  • 허경;김수원;엄두섭;차균현
    • 한국통신학회논문지
    • /
    • 제25권11A호
    • /
    • pp.1630-1641
    • /
    • 2000
  • 본 논문은 셀룰러 시스템 상향 링크에서 음성데이터 및 실시간 영상데이터로 구성된 화상전화서비스, 고속 및 저속 데이터베이스의 다중 전송률 멀티미디어 서비스를 통합 지원할수 있는 CDMA R-ALOHA 프로토콜을 제안하였다. 제안된 프로토콜은 액세스슬롯과 전송슬롯으로 구분된 프레임의 구조를 이용한 코드할당 방식으로 전송슬롯에서의 간섭을 줄였다. 그리고, 각 서비스의 트래픽 특성에 따른 전송코드 예약과 화상전화서비스 사용자의 핸드오프호를 고려하여 분석된 각 서비스 부시스템의 Markov-chain 모델을 이용한 각 서비스의 채널 경쟁 사용자수 추정을 기반으로 서비스별 액세스 허용확률을 제안하여, 액세스슬롯에서의 패킷 충돌을 감소시키고 핸드오프호의 우선권을 보장할 수있다. 또한 화상전화서비스의 영상데이터 전송정보를 이용한 코드 예약방식을 제안하여, 음성 트래픽을 패킷의 손실이 없이 지원하였고 고속 및 저속 데이터베이스를 통해 채널 이용효율을 극대화하였다.

  • PDF

잡음환경에서의 바이모달 시스템을 위한 견실한 끝점검출 (Robust Endpoint Detection for Bimodal System in Noisy Environments)

  • 오현화;권홍석;손종목;진성일;배건성
    • 전자공학회논문지CI
    • /
    • 제40권5호
    • /
    • pp.289-297
    • /
    • 2003
  • 음성인식 시스템과 입술독해 시스템을 결합한 하여 음향학적 잡음에 대하여 안정된 성능을 갖는 바이모달(bimodal) 시스템을 구현한다. 바이모달 시스템의 성능은 두 인식 시스템의 성능뿐만 아니라 입력 신호의 끝점검출 성능에도 크게 영향을 받는다. 본 논문에서는 음성신호와 영상신호에서 끝점을 자각 자동 검출하여 입력 음성신호로부터 음성신호에서 추정한 신호대잡음비(signal-to-noise ratio: SNR)로 두 끝점검출 결과를 선택하는 방법을 제안한다. 즉 낮은 SNR에서는 영상신호로부터 검출된 끝점을 선택하고 높은 SNR에서는 음성신호로부터 검출된 끝점을 선택함으로써 음향학적 잡음에 대하여 견실하게 끝점을 검출한다. 제안한 끝점검출 방법이 적용된 바이모달 시스템이 강한 음향학적 잡음에 대하여 만족스러운 인식성능을 나타냄을 실험견과에서 확인할 수 있다.

음성정보 내용분석을 통한 골프 동영상에서의 선수별 이벤트 구간 검색 (Retrieval of Player Event in Golf Videos Using Spoken Content Analysis)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권7호
    • /
    • pp.674-679
    • /
    • 2009
  • 본 논문은 골프 동영상에 포함된 오디오 정보로부터 검출된 이벤트 사운드 구간과 골프 선수이름이 포함된 음성구간을 결합하여 선수별 이벤트 구간을 검색하는 방식을 제안한다. 전체적인 시스템은 동영상으로부터 분할된 오디오 스트림으로부터 잡음제거, 오디오 구간분할, 음성 인식 등의 과정을 통한 자동색인 모듈과 사용자가 텍스트로 입력한 선수 이름을 발음열로 변환하고, 색인된 데이터베이스에서 질의된 선수 이름과 상응하는 음성구간과 연결되는 이벤트 구간을 찾아주는 검색 모듈로 구성된다. 선수이름 검색을 위해서 본 논문에서는 음소 기반, 단어 기반, 단어와 음소를 결합한 하이브리드 방식을 적용한 선수별 이벤트 구간 검색결과를 비교하였다.

On Expo- 우암닷컴/원격회의 위한 인터넷 멀티미디어 영상 솔루션 개발

  • 송혜자
    • 디지털콘텐츠
    • /
    • 10호통권125호
    • /
    • pp.84-85
    • /
    • 2003
  • 기업과 기업간, 사람과 사람사이에 의견을 주고 받기 위한 매체가 다양화되고 있다. 방문이나 우편 등에 의한 의사 교환에서 전화, 이메일을 거쳐 메신저가 등장해 실시간으로 의견을 주고 파일 전송을 하고 있다. 메신저는 1:1문자 대화에서 1:다수의 형태로 진화되더니 급기야는 서로의 얼굴을 보고, 음성을 들으며 웹사이트, 문서 등을 공유하면서 회의를 진행할 수 있게 됐다.

  • PDF

이동환경에서 치열영상과 음성을 이용한 멀티모달 화자인증 시스템 구현 (An Implementation of Multimodal Speaker Verification System using Teeth Image and Voice on Mobile Environment)

  • 김동주;하길람;홍광석
    • 전자공학회논문지CI
    • /
    • 제45권5호
    • /
    • pp.162-172
    • /
    • 2008
  • 본 논문에서는 이동환경에서 개인의 신원을 인증하는 수단으로 치열영상과 음성을 생체정보로 이용한 멀티모달 화자인증 방법에 대하여 제안한다. 제안한 방법은 이동환경의 단말장치중의 하나인 스마트폰의 영상 및 음성 입력장치를 이용하여 생체 정보를 획득하고, 이를 이용하여 사용자 인증을 수행한다. 더불어, 제안한 방법은 전체적인 사용자 인증 성능의 향상을 위하여 두 개의 단일 생체인식 결과를 결합하는 멀티모달 방식으로 구성하였고, 결합 방법으로는 시스템의 제한된 리소스를 고려하여 비교적 간단하면서도 우수한 성능을 보이는 가중치 합의 방법을 사용하였다. 제안한 멀티모달 화자인증 시스템의 성능평가는 스마트폰에서 획득한 40명의 사용자에 대한 데이터베이스를 이용하였고, 실험 결과, 치열영상과 음성을 이용한 단일 생체인증 결과는 각각 8.59%와 11.73%의 EER를 보였으며, 멀티모달 화자인증 결과는 4.05%의 EER를 나타냈다. 이로부터 본 논문에서는 인증 성능을 향상하기 위하여 두 개의 단일 생체인증 결과를 간단한 가중치 합으로 결합한 결과, 높은 인증 성능의 향상을 도모할 수 있었다.