• Title/Summary/Keyword: 음성 검색

Search Result 355, Processing Time 0.033 seconds

The Reduction Algorithm of Complexity using Adjustment of Resolution and Search Sequence for Vocoder (해상도 조절과 검색순서 조절을 통한 음성부호화기용 복잡도 감소 알고리즘)

  • Min, So-Yeon;Lee, Kwang-Hyoung;Bae, Myung-Jin
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.8 no.5
    • /
    • pp.1122-1127
    • /
    • 2007
  • We propose the complexity reduction algorithm of real root method that is mainly used in the Vocoder. The real root method is that if polynomial equations have the real roots, we are able to find those and transform them into LSP(Line Spectrum Pairs). However, this method takes much time to compute, because the root searching is processed sequentially in frequency region. The important characteristic of LSP is that most of coefficients are occurred in specific frequency region. So, the searching frequency region is ordered and adjusted by each coefficient's distribution in this paper. Transformation time can be reduced by proposed algorithm than the sequential searching method in frequency region. When we compare this proposed method with the conventional real root method, the experimental result is that the searching time was reduced about 48% in average.

  • PDF

Speech Signal Processing for Performance Improvement of Text-Based Video Segmentation (문자정보 기반 비디오 분할에서 성능 향상을 위한 음성신호처리)

  • 이용주;손종목;강경옥;배건성
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.11b
    • /
    • pp.187-191
    • /
    • 1999
  • 비디오 프로그램에서 영상 내에 포함되어 있는 문자정보는 동영상의 내용 검색 및 색인을 위한 비디오 분할에 사용될 수 있다. 일반적으로 장면 내에 포함되어 있는 문자들은 해상도가 낮고 글자 크기와 형태가 다양하기 때문에 추출과 인식이 어려울 뿐만 아니라 의도하지 않은 배경화면의 문자인 경우도 많기 때문에 내용기반 검색에는 사용되기가 어렵다. 그러나 비디오 내에 포함된 문자정보가 나타나는 시작 프레임과 끝나는 프레임을 검출하여 비디오 프로그램을 분할함으로써 내용기반요약정보를 만들 수 있으며, 동영상의 내용 검색 및 색인에 사용할 수 있다. 일반적으로 문자정보의 추출에 의해서 비디오를 분할할 때 음성정보는 전혀 고려되지 않으므로 분할된 비디오 정보를 재생할 경우음성신호가 단어 또는 어절/음절의 임의의 점에서 시작되고 끝나게 되어 듣기에 부자연스럽게 된다 따라서 본 논문에서는 뉴스방송의 비디오 프로그램에서 문자정보가 포함되어 는 비디오의 시작 프레임과 끝 프레임을 중심으로 그에 대응되는 구간의 음성신호를 검출한 후 이를 적절히 처리하여 분할 된 비디오를 재생할 때 음성신호가 보다 자연스럽게 들릴 수 있도록 하는 방법에 대해 연구하였다.

  • PDF

A Study on the Use of Speech Recognition Technology for Content-based Video Indexing and Retrieval (내용기반 비디오 색인 및 검색을 위한 음성인식기술 이용에 관한 연구)

  • 손종목;배건성;강경옥;김재곤
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.2
    • /
    • pp.16-20
    • /
    • 2001
  • An important aspect of video program indexing and retrieval is the ability to segment video program into meaningful segments, in other words, the ability of content-based video program segmentation. In this paper, a new approach using speech recognition technology has been proposed for content-based video program segmentation. This approach uses speech recognition technique to synchronize closed caption with speech signal. Experimental results demonstrate that the proposed scheme is very promising for content-based video program segmentation.

  • PDF

Design & Implementation of Audio Minute System (음성기반 회의록 시스템 설계 및 구현)

  • Pyo, Sang-Ho;Lee, Sang-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.205-208
    • /
    • 2001
  • 인터넷과 컴퓨터 하드웨어 및 통신망의 발달로 멀티미디어 분야는 고도 정보 사회의 핵심적인 영역으로 부상되고 있으며, 멀티미디어 데이터에 대한 사용자의 요구도 날로 증가하고 있다. 문서, 녹취록, 테이프 형태로 관리되는 멀티미디어 데이터의 경우는 파일의 속성(attribute)에 대한 검색만이 아니라 내용(content)에 대한 검색이 필요하고, 따라서 순차검색 위주인 기존방법은 데이터의 활용 측면에서 문제가 있다. 본 논문에서는 멀티미디어 자료 중 음성 데이터를 저장 관리하는 방안으로 음성 데이터를 화면으로 도시하고 음성의 시작점과 끝점구간을 키로 하여 자동으로 데이터베이스에 삽입한 후 여기에 주석을 입력하는 음성기반 회의록 시스템(Audio Minute System)을 구현하고 그에 따른 기대효과를 제시한다.

  • PDF

A Development of Speech Recognition System for Mobile Card Search (모바일 명함 검색을 위한 음성인식시스템 구현)

  • Hong, In-Suk;Ko, You-Jung;Kim, Yoon-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.138-141
    • /
    • 2009
  • 모바일 명함 관리 시스템은 간편하게 모바일 기기를 이용하여 명함을 등록하고 검색할 수 있으나 모바일 기기의 특징상 화면이 작고 정보를 이용하기 위해서는 펜을 이용하여 검색어를 입력해야하는 불편함이 있다. 이를 해결하기 위해 명령을 음성으로 처리하고자하는 VUI(Voice User Interface)의 필요성이 증가하였다. 또한 모바일 기기의 메모리 공간상의 제약으로 인한 음성인식엔진 탑재의 어려움이 있다. 이에 본 논문에서는 모바일 단말기로부터 음성을 입력받아 인식결과를 모바일 단말기로 되돌려 주는 음성인식 시스템을 구축하고 본 인식시스템과 모바일 클라이언트 시스템을 분산처리 가능한 웹서비스 환경으로 구성하였다.

An Implementation of the Speech-Library and Conversion Web-Services of the Web-Page for Speech-Recognition (음성인식을 위한 웹페이지 변환 웹서비스와 음성라이브러리 구현)

  • Oh, Jee-Young;Kim, Yoon-Joong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2006.11a
    • /
    • pp.478-482
    • /
    • 2006
  • This paper implemented speech-library and the Web Services that conversion the Web page for the speech recognition. The system is consisted of Web services consumer and Web services providers. The Web services consumer has libraries that Speech-library and proxy-library. The Speech -library has functions as follows from the user's speech extracted speech-data and searching the URL in link-table that is mapped with user's speech. The proxy-library calls two web services and is received the returning result. The Web services provider consisted of Parsing Web Services and Speech-Recognition Web Services. Parsing Web Services adds ActiveX control and reconstructs web page using the speech recognition. The speech recognizer is the web service providers that implemented in the previous study. As the result of experiment, we show that reconstructs web page and creates link-Table. Also searching the URL in link-table that is mapped with user's speech. Also confirmed returning the web page to user by searching URL in link-table that is mapped with the result of speech recognition web services.

  • PDF

A Proposal of fast Algorithms of ITU-T G.723.1 for Efficient Multichannel Implementation (효율적인 다채널 구현을 위한 ITU-T G.723,1 음성 부호화기 고속 알고리듬 제안)

  • 정성교;박영철;윤성완;차일환;윤대희
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.67-70
    • /
    • 2000
  • 최근 들어, 인터넷의 폭넓은 보급과 급속한 대중화에 따라 네트워크를 통하여 음성을 전송하거나 저장하려는 시도가 많이 이루어지고 있다. 본 논문에서는 네트워크를 통한 멀티미디어 전송에서 음성부호화 표준으로 널리 상용되는 ITU-T G.723.1 dual-rate speech coder의 효율적인 다채널 구현을 위한 고속 알고리듬을 제안한다. 고속 알고리듬은 부호화 과정에서 많은 계산량을 차지하는 적응 코드북 검색과 고정 코드북 검색 과정에 적용된다. 적응 코드북 검색 과정에서는 지연과 이득을 동시에 찾는 기존의 방법 대신, 지연과 이득을 순차적으로 검색함으로써 계산량을 개선하였다. 전송률에 따라 다른 알고리듬을 사용하는 고정 코드북 검색 과정에서는 다음과 같은 고속 알고리듬을 제안한다. MP-MLQ(Multi-Pulse Maximum Likely Quantization) 방법을 사용하는 높은 전송률(6.3 kbit/s)인 경우, 펄스를 등 간격으로 검색함으로써 계산량을 줄였다. ACELP(Algebraic CELP) 방법을 사용하는 낮은 전송률(5.3 kbit/s)인 경우는 기존의 nested-loop 검색방법 대신, 펄스를 쌍으로 나누어 순차적으로 찾는 depth-first tree 검색 방법을 적용하여 계산량을 감소시켰다. 제안된 고속 알고리듬에 대해 주관적 음질 평가 방법을 수행한 결과, 제안된 방법이 기존의 방법에 비해 음질의 저하가 없음을 확인하였다. 고정 소수점 DSP인 TMS320C6201을 사용하여 고속 알고리듬을 구현한 결과, 높은 전송률의 경우에는 10.29 MIPS, 낮은 전송률의 경우에는 8.70 MIPS의 연산량으로 구현 가능함을 확인하였다.

  • PDF

A Study on Improvement of Retrieval Algorithm for Audio Response Service (음성정보 서비스의 검색 알고리즘 개선 연구)

  • Jeong, Yoo-Hyeon;Kim, Soon-Hyop
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.5
    • /
    • pp.92-95
    • /
    • 1997
  • Thlephone pushbuttons simply consist of 0~9 digits, #, and ${\ast}$). So it is difficulty for user to input the various query command for information retrieval of audio response sevice. We suggest the new retrieval algorithm for audio response service using Korean initial sounds sequences. User those who do not know the retrieval code can retrieve the audio response service by pushing the telephone digit buttons which correspond to initial sounds of its name.

  • PDF

Design of VoiceXML interpreter for search system (검색엔진을 이용한 VoiceXML 검색 인터프리터 개발에 관한 설계)

  • 이동민;윤영선;은성배
    • Proceedings of the IEEK Conference
    • /
    • 2003.07d
    • /
    • pp.1439-1442
    • /
    • 2003
  • 본 연구에서는 휴대 통신 단말 기기나 기존의 전화망에서의 음성 인터페이스를 이용해 인터넷 웹 검색을 가능하게 하는 VoiceXML 인터프리터를 개발하기 위한 설계를 논의한다. 기존의 VoiceXML 인터프리터 시스템은 미리 정해진 시나리오로 구성된 정적 페이지만을 대상으로 하나 제안하는 방법은 인터넷 웹사이트에서 음성 인터페이스만을 이용해 원하는 정보에 대한 검색결과를 HTML로 해석하여 VXML 인터페이스를 통하여 사용자에게 전달한다

  • PDF

Implementation of the Speech Interface for Information Retrieving System (정보검색 시스템의 음성 인터페이스 구현)

  • 김정철;배건성
    • Journal of the Korean Institute of Telematics and Electronics S
    • /
    • v.36S no.5
    • /
    • pp.104-111
    • /
    • 1999
  • 본 논문에서는 HMM 고립단어인식 기술을 이용하여 정보 사용자들이 윈도즈 환경에서 편리하게 정보를 검색할 수 있는 시스템을 구현하였다. 인식 시스템에서 인식단위로 유사음소모델을 이용하여 인식어의 확장성을 고려하였고 기본모델은 SPHINX 시스템에서 사용하는 형태의 음소모델을 연속분포 HMM으로 구현하였다. 정보검색 도구에서는 기능을 단순화하고 검색절차를 음성으로 출력하도록 하여 사용자의 편의성을 고려하였다.

  • PDF