• Title/Summary/Keyword: 음성 검색

Search Result 355, Processing Time 0.029 seconds

A Study on the Improvement of Retrieval Efficiency Based on the CRFMD (공통기술표현포맷에 기반한 다매체자료의 검색효율 향상에 관한 연구)

  • Park, Il-Jong;Jeong, Ki-Tai
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.3 s.61
    • /
    • pp.5-21
    • /
    • 2006
  • In recent years, theories of image and sound analysis have been proposed to work with text retrieval systems and have progressed quickly with the rapid progress in data processing speeds. This study proposes a common representation format for multimedia documents (CRFMD) composed of both images and text to form a single data structure. It also shows that image classification of a given test set is dramatically improved when text features are encoded together with image features. CRFMD might be applicable to other areas of multimedia document retrieval and processing, such as medical image retrieval, World Wide Web searching, and museum collection retrieval.

An Algorithm for Fast Searching of VQ Codebook (VQ 코드북의 빠른 검색을 위한 알고리즘)

  • 이강성
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1991.06a
    • /
    • pp.50-53
    • /
    • 1991
  • 벡터 양지화(VQ)는 신호 처리분야에서 정보의 압축을 위해 사용하는 아주 잘 알려진 방법이다. 벡터 양지화는 정보를 대량으로 줄이면서 그 효율을 떨어 뜨리지 않는 방향으로 발전해 왔다. VQ코드북의 크기가 커지면 하나의 코드워드를 찾기위한 시간이 증가하게 된다. 코드북의 빠른 검색을 위하여 다른 방법에 제안 되기도 했으나 최적 검색 방법이라고는 볼 수 없다. 본 고에서는 음성인식에 적용할 목적으로 기존의 방법으로 구성된 코드북의 구성을 변형 하지 않고 검색 속도를 증가 시킬 수 있는 방법을 기수랗고 그 효율에 대해서 설명한다.

  • PDF

Contents based digital audio retrieval using the Dynamic Time Warping Technique (Dynamic Time Warping 기법을 이용한 내용기반 디지털 오디오 검색)

  • Sung, Bo-Kyung;Ko, Il-Ju
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.287-292
    • /
    • 2007
  • 최근 다양한 분야에서(웹 포털, 유료 음원서비스 등) 디지털 오디오의 검색이 사용되고 있다. 이러한 분야에서 디지털 오디오의 검색은 디지털 오디오 데이터가 가지고 있는 자체 메타 정보를 이용하여 이루어진다. 하지만 메타 정보가 다르게 작성 되었거나 작성되지 않은 경우 정확한 검색은 어렵다. 요즘 이러한 문제의 보완 방안으로 내용기반 정보 검색 기법을 이용한 검색이 이루어지고 있다. 본 논문에서는 내용 기반 디지털 오디오 검색 방법에 대해 논하고자 한다. 내용기반으로 디지털 오디오를 검색하기 위해 음성 인식 문야에서 유사도 측정에 사용하는 Dynamic Time Warping 기법을 활용하여 디지털 오디오 간의 유사도 측정을 하였다. 제안된 유사도 측정을 통한 내용기반 디지털 오디오검색 방법의 검증을 위해 같은 장르에서 무작위 추출된 100곡에서 시행한 90번의 검색은 모두 성공했다. 검색에 사용된 90개의 디지털 오디오는 10개의 디지털 오디오를 압축방식과 비트율을 다르게 조합하여 만들었다.

  • PDF

An Implementation of a VoiceXML-based Newspaper Retrieval System (VoiceXML 기반의 신문 검색 시스템 구현)

  • 두창호;홍은주
    • Journal of the Korea Computer Industry Society
    • /
    • v.5 no.4
    • /
    • pp.443-452
    • /
    • 2004
  • In this paper, suggests voice newspaper retrieval system in which newspaper companies classify the news fields into politics, society, economy, IT, international issue, culture, life, information and etc title by title and summarize them to provide wire or wireless newsretrieval service on the phone through design and realization of voice interface by using VoiceXML associated technology useful to design an application that makes it possible to communicate with computer like communicate with person without mouse or keyboard used, so that busy or blind people can receive news service more easily.

  • PDF

Integrated Multimedia Application Format for Active Video Browsing and Retrieval (효율적인 비디오 브라우징 및 검색을 위한 통합 멀티미디어 응용 형식)

  • Cho, Jun-Ho;Jin, Sung-Ho;Yang, Seung-Ji;Ro, Yong-Man
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.155-158
    • /
    • 2005
  • 본 논문에서는 MPEG 의 멀티미디어 응용 표준인 MAF(Multimedia Application Format)를 기반으로, 효율적인 비디오 콘텐츠의 검색 및 활용을 위한 통합 미디어 구조, 즉 비디오 MAF 를 제안한다. 제안하는 비디오 MAF 는 ISO 미디어 포맷을 기반으로 하고 단일의 비주얼 스트림과 다중 음성을 지원하기 위한 다수의 오디오 스트림, 내용기반의 정보를 포함하는 메타데이터, 그리고 비디오 콘텐츠의 대표 이미지를 동시에 포함하는 구조이다. 제안하는 파일포맷의 유용성을 검증하기 위해 비디오 MAF 로 생성 및 해석할 수 있는 부호기(encoder)와 복호기(decoder)를 설계하고 구현하여, 통합 미디어에 내재된 메타데이터를 이용한 효율적인 검색과 멀티트랙의 오디오 스트림을 활용한 다중 음성에 대한 지원이 가능함을 확인하였다. 또한 내재된 대표이미지는 비디오 콘텐츠에 대한 브라우징이 효과적으로 활용됨을 확인하였다.

  • PDF

Speech Enhancement by Reconstruction of Cosine Table for LSE Roots According to the Voiced/Unvoiced Decision (유무성음 판정에 따른 LSF 코사인테이블 재구성에 의한 음질향상)

  • Choi SeongYoung;BAE MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.3-6
    • /
    • 2000
  • CELP 계열 보코더중 인터넷 폰 및 화상회의를 목적으로 개발된 G.723.1 보코더에서는 LPC를 LSP로 변환하기 위해 LPC 계수를 이용한 다항식을 구성한 다음 근을 검색하는 방법을 사용하고 있다. 근 검색시에는 256/pi의 범위 안에서 동일한 간격을 갖는 코사인 테이블을 구성하여 순차적으로 검색하게 된다. LSF의 근들은 포만트가 존재하는 대역에서 근들이 나타나게 되므로 유성음의 경우 저주파수 대역에서 무성음의 경우 고주파수 대역에서 많이 분포하게 된다. 하지만 G.723.1에서 사용하는 코사인 테이블은 음성신호의 특성을 고려하지 않고 균등한 간격을 갖는 값들을 사용함으로 음질을 저해할 수 있는 요소를 갖고 있다. 따라서 본 논문에서는 음성의 특성을 고려한 코사인 테이블을 재구성함으로써 음질을 향상시킬 수 있었으며 주관적 음질평가인 MOS 시험결과 평균 1.8 정도의 음질향상을 가져올 수 있었다

  • PDF

Design and Implementation of Mobile Visual Search Services based on Automatic Image Tagging using Convolutional Neural Network (회선신경망을 이용한 이미지 자동 태깅 기반 모바일 비주얼 검색 서비스 설계 및 구현)

  • Jeon, Jin-Hwan;Lee, Sang-Moon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2017.01a
    • /
    • pp.49-50
    • /
    • 2017
  • PC 또는 모바일 기기를 이용한 검색을 위해서는 키보드 또는 터치패드를 이용하여 키워드를 입력하는 고전적인 방식이 현재까지 널리 사용되고 있다. 음성, 이미지, 제스처 등을 이용한 새로운 검색 기술들이 등장하고 있지만, 관련 검색엔진의 문제로 검색 결과가 다소 미흡한 상태이다. 본 논문에서는 기존의 포털 검색의 키워드 입력 방식과는 달리, 검색하고자 하는 대상을 스마트폰과 같은 모바일 기기의 카메라로 촬영하면 해당 촬영 이미지가 사용자 입장에서는 검색 키워드와 같이 동일한 역할을 할 수 있도록 CNN기법을 사용하여 Image-to-Text 형태의 모바일 비주얼 검색 서비스에 대해 제안한다.

  • PDF

Development of Speech Recognition System based on User Context Information in Smart Home Environment (스마트 홈 환경에서 사용자 상황정보 기반의 음성 인식 시스템 개발)

  • Kim, Jong-Hun;Sim, Jae-Ho;Song, Chang-Woo;Lee, Jung-Hyun
    • The Journal of the Korea Contents Association
    • /
    • v.8 no.1
    • /
    • pp.328-338
    • /
    • 2008
  • Most speech recognition systems that have a large capacity and high recognition rates are isolated word speech recognition systems. In order to extend the scope of recognition, it is necessary to increase the number of words that are to be searched. However, it shows a problem that exhibits a decrease in the system performance according to the increase in the number of words. This paper defines the context information that affects speech recognition in a ubiquitous environment to solve such a problem and develops user localization method using inertial sensor and RFID. Also, we develop a new speech recognition system that demonstrates better performances than the existing system by establishing a word model domain of a speech recognition system by context information. This system shows operation without decrease of recognition rate in smart home environment.

Korea Electronic Technology Institute (멀티미디어 컨텐츠의 지능형 선택/검색 시스템 구현)

  • 이종설;이윤주;박우출;정하중;조위덕
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.61-63
    • /
    • 2002
  • 멀티미디어 컨텐츠의 지능형 선택/검색 시스템(MISS: Multimedia Content Intelligent Selection/search) 는 콘텐츠를 공급하는 서버에 다량의 멀티미디어 컨텐츠들이 존재하며, 이 컨텐츠 중에서 원하는 것을 검색, 선택하는 시스템이다. 지능적 검색, 선택기능을 갖는 MISS 시스템은 인터넷 및 네트워크상에 연결된 시스템들간의 맞춤형 서비스 구현에 필요한 핵심이며, 모든 종류의 멀티미디어 콘텐츠에 적용 가능하다. 현재 WWW 서비스경우는 정보를 찾기 위하여 웹상에서 문서를 찾아주는 텍스트 기반 정보검색기술이 사용되고 있는데, 점점 우리가 접하는 정보의 형태는 텍스트와 함께 화상, 음성, 동영상 등의 멀티미디어화 및 디지털화하고 있다. 사용자들에게는 멀티미디어 데이터를 효과적으로 찾아야 하는 필요성이 증가하고 이에 따라 방대한 양의 분산된 멀티미디어 데이터를 처리할 수 있는 색인 및 검색 도구의 요구가 커지게 되었다. MISS 시스템은 WWW 서비스의 요구에도 적용될 수 있다. MISS 시스템은 다량의 동영상 콘텐츠 중에서 특정 배우, 감독등의 여러 가지 검색 조건으로 콘텐츠를 검색/선택할 수 있고, 하나의 동영상 콘텐츠 내에서 특정Video Segment를 검색할 수 있다. 본 MISS 시스템은 동영상에 대한 Search/Query를 위한DS 구조로써 MPEG-7의 User preference metadata를 이용하였다.

  • PDF

Voice XML

  • Gang, Seon-Mi;Jeong, Tae-Ui
    • Journal of Scientific & Technological Knowledge Infrastructure
    • /
    • s.6
    • /
    • pp.68-81
    • /
    • 2001
  • 현재 진행되고 있는 XML 응용분야의 표준은 각 분야별로 구체적으로 진행되고 있으며 이러한 시점에서 AT&T, 루슨트 테크놀로지스, 모토롤러 등 3사는 전화와 인터넷 서버와의 연동을 음성 처리 기술을 바탕으로 하여 기존 인터넷의 다양한 정보를 검색 처리할 수 있는 VXML(Voice Extensible Markup Language)이라는 인터넷 음성처리 표준안을 마련하고 있다.

  • PDF