• Title/Summary/Keyword: 음성 검색

Search Result 355, Processing Time 0.023 seconds

A Study on Generation Method of Intonation using Peak Parameter and Pitch Lookup-Table (Peak 파라미터와 피치 검색테이블을 이용한 억양 생성방식 연구)

  • Jang, Seok-Bok;Kim, Hyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.184-190
    • /
    • 1999
  • 본 논문에서는 Text-to-Speech 시스템에서 사용할 억양 모델을 위해 음성 DB에서 모델 파라미터와 피치 검색테이블(lookup-table)을 추출하여 미리 구성하고, 합성시에는 이를 추정하여 최종 F0 값을 생성하는 자료기반 접근방식(data-driven approach)을 사용한다. 어절 경계강도(break-index)는 경계강도의 특성에 따라 고정적 경계강도와 가변적 경계강도로 세분화하여 사용하였고, 예측된 경계강도를 기준으로 억양구(Intonation Phrase)와 액센트구(Accentual Phrase)를 설정하였다. 특히, 액센트구 모델은 인지적, 음향적으로 중요한 정점(peak)을 정확하게 모델링하는 것에 주안점을 두어 정점(peak)의 시간축, 주파수축 값과 이를 기준으로 한 앞뒤 기울기를 추정하여 4개의 파라미터로 설정하였고, 이 파라미터들은 CART(Classification and Regression Tree)를 이용하여 예측규칙을 만들었다. 경계음조가 나타나는 조사, 어미는 정규화된(normalized) 피치값과 key-index로 구성되는 검색테이블을 만들어 보다 정교하게 피치값을 예측하였다. 본 논문에서 제안한 억양 모델을 본 연구실에서 제작한 음성합성기를 통해 합성하여 청취실험을 거친 결과, 기존의 상용 Text-to-Speech 시스템에 비해 자연스러운 합성음을 얻을 수 있었다.

  • PDF

Usability evaluation of navigation aid for searching menu items on mobile phone (휴대전화를 위한 메뉴검색 지원도구의 사용성 평가)

  • Park, Won-Kyu;Han, Sung-H.;Chae, Byung-Kee;Cha, Joo-Hyoung;Kim, Se-Na
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02b
    • /
    • pp.169-174
    • /
    • 2006
  • 최근의 휴대전화는 음성 통화뿐만 아니라 메시지 및 이메일 송/수신, 사진/동영상 촬영 등 다양한 종류의 작업을 수행할 수 있으며, 그 기능이 점차 확장되고 있는 추세이다. 그러나 화면 공간의 제약으로 인한 메뉴 항목명의 축약, 메뉴 항목수의 증가, 메뉴 구조의 복잡화 등의 원인 때문에 많은 사용자들이 메뉴검색에 불편함을 겪고 있다. 이러한 문제점을 해결하기 위해, 본 연구에서는 기존의 메뉴 네비게이션을 통한 검색 방식, 하위 메뉴항목 제시 방식 이외에, 키워드 검색방식 및 유사 키워드 검색 방식을 개발하고 4가지 메뉴 검색방식의 사용성 평가실험을 수행하였다. 사용성 평가 실험 결과, 수행도 측면에서는 메뉴 검색 방식간의 차이가 유의하지 않았지만, 사용자 만족도 측면에서는 통계적으로 유의한 차이가 존재하였다. 4가지 메뉴 검색 방식 중 유사 키워드 방식은 사용자 만족도 측면에서 가장 선호되는 방식으로써, 추후 실제 휴대전화에 적용될 경우 사용자 만족도를 제고할 수 있을 것으로 기대된다.

  • PDF

A Study of Search Space Clustering Algorithm for Steered Response Power (Steered Response Power를 위한 검색 공간 클러스터링 연구)

  • Chung, Jae-Youn;Yook, Dong-Suk
    • Proceedings of the KSPS conference
    • /
    • 2006.11a
    • /
    • pp.88-91
    • /
    • 2006
  • Steered response power(SRP) based algorithm uses a focused beamformer which steers the array to various locations and searches for a peak in output power to localize sound sources. SRP-PHAT, a phase transformed SRP, shows high accuracy, but requires a large amount of computation time. This paper proposes an algorithm that clusters search spaces in advance to reduce computation time of SRP based algorithms.

  • PDF

A Study on Speech Synthesizer Using Distributed System (분산형 시스템을 적용한 음성합성에 관한 연구)

  • Kim, Jin-Woo;Min, So-Yeon;Na, Deok-Su;Bae, Myung-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.3
    • /
    • pp.209-215
    • /
    • 2010
  • Recently portable terminal is received attention by wireless networks and mass capacity ROM. In this result, TTS(Text to Speech) system is inserted to portable terminal. Nevertheless high quality synthesis is difficult in portable terminal, users need high quality synthesis. In this paper, we proposed Distributed TTS (DTTS) that was composed of server and terminal. The DTTS on corpus based speech synthesis can be high quality synthesis. Synthesis system in server that generate optimized speech concatenation information after database search and transmit terminal. Synthesis system in terminal make high quality speech synthesis as low computation using transmitted speech concatenation information from server. The proposed method that can be reducing complexity, smaller power consumption and efficient maintenance.

Implementation of Stock Information System and Methods for Efficient Use of System Resources (KT 증권정보 서비스 시스템의 구현과 시스템 자원의 효율적 활용을 위한 방법 고찰)

  • 박성준
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.323-326
    • /
    • 1998
  • 본 논문에서는 한국통신에서 음성인식을 이용한 전화정보 서비스의 일환으로 개발해 온 증권정보 시스템의 구조와 기능을 설명하고, 시스템을 다채널로 확장함에 있어서 시스템의 자원을 효율적으로 활용하기 위하여 적용한 방법에 대하여 기술하였다. 이 시스템에서는 음성특징을 추출하는 프로세서(DSP0)들과 단억검색을 하는 프로세서(DSP1)들이 분리되어 있으며, 이 둘 간의 개수 비율을 조절함으로써 실시간적 처리 효과를 유지하면서도 시스템의 전체 프로세서의 개수를 줄였다. DSP0와 DSP1 간의 음성 특징 데이터 전송에 있어서는 DSP0에서 발생하는 데이터를 음성이 입력되는 중에 전송할 수 있게 함으로써, DSP1에서는 DSP0과 병렬적으로 작업을 수행시킬 수 있으며, 결과적으로 시스템의 속도를 빠르게 하였다.

  • PDF

Design and Implementation of Personal Telephone Assistant using VXML (VXML을 이용한 개인 전화 도우미의 설계 및 구현)

  • Ha, Jun;Yun, Young-Sun;Eun, Seong-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04b
    • /
    • pp.1197-1200
    • /
    • 2001
  • VXML은 사람 목소리나 전화기의 톤과 같은 음향 입력과 컴퓨터에 의해 합성 또는 녹음된 목소리를 들려주는 음성 출력을 가지는 음성 브라우저를 위한 웹 저작 언어이다. 본 논문에서는 VXML을 이용하여 작은 규모의 회사나 SOHO 사업자들에게 최적화된 ARS 기능, 음성 인식 기술을 이용하여 음성 메시지 저장 및 지능적 검색 기능, 사용자 부재 시 착신 전환 또는 SMS 통보를 찰 수 있는 개인용 전화 도우미 (PTA; Personal Telephone Assistant)의 설계 및 구현에 관하여 기술한다. PTA는 VXML 인터프리터를 내장하고 동적으로 VXML 문서를 적재함으로써 고객맞춤형의 ARS 기능을 지원한다는 장점을 갖는다.

  • PDF

Text/Voice Recognition & Translation Application Development Using Open-Source (오픈소스를 이용한 문자/음성 인식 및 번역 앱 개발)

  • Yun, Tae-Jin;Seo, Hyo-Jong;Kim, Do-Heon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2017.07a
    • /
    • pp.425-426
    • /
    • 2017
  • 본 논문에서는 Google에서 지원하는 오픈소스인 Tesseract-OCR을 이용한 문자/음성 인식 및 번역 앱에 대해 제안한다. 최근 한국어를 포함한 외국어 인식과 번역기능을 이용한 다양한 스마트폰 앱이 개발되어 여행에 필수품으로 자리잡고 있다. 스마트폰의 카메라기능을 이용하여 촬영한 영상을 인식률을 높이도록 처리하고, Crop기능을 넣어 부분 인식기능을 지원하며, Tesseract-OCR의 train data를 보완하여 인식률을 높이고, Google 음성인식 API를 이용한 음성인식 기능을 통해 인식된 유사한 문장들을 선택하도록 하고, 이를 번역하고 보여주도록 개발하였다. 번역 기능은 번역대상 언어와 번역할 언어를 선택할 수 있고 기본적으로 영어, 한국어, 일본어, 중국어로 번역이 가능하다. 이 기능을 이용하여 차량번호 인식, 사진에 포함된 글자를 통한 검색 등 다양한 응용분야에 맞게 앱을 개발할 수 있다.

  • PDF

Detection of Keysound for Indexing ana Retrieval of Multimedia information (멀티미디어 정보의 색인 및 검색을 위한 핵심 사운드 검출)

  • 이용주;배건성
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.759-762
    • /
    • 2000
  • 멀티미디어 정보의 보다 효율적인 검색을 위해서는 비디오 요약정보의 생성 및 색인 작업이 필요하며, 이러한 요약정보를 만들기 위해서는 많은 시간과 비용이 소요된다. 스포츠 비디오 프로그램의 요약정보를 만들 때 오디오 신호를 이용하여 주요 장면을 검출할 경우 이러한 시간과 비용을 줄일 수 있다. 본 연구에서는 축구경기 비디오에서 주요장면을 나타내는 핵심 사운드로 주심의 호르라기 소리 및 아나운서의 "슛" 음성을 정의하고 이를 오디오 신호에서 검출하는 방법에 대해 연구하였다.

  • PDF

장내미생물로부터 황산전이효소 생산균의 분리

  • 김동현;김병택;현성혜;김형수
    • Proceedings of the Korean Society of Applied Pharmacology
    • /
    • 1992.05a
    • /
    • pp.23-23
    • /
    • 1992
  • 횐 쥐에서 sulfotransferase 양성균주를 검색한 결과 호기성 조건보다는 혐기성 조건의 균이 많은 것으로 나타났다. 이러한 곁과는 장내미생물의 대부분이 혐기성균이라는 것과도 일치하는 것이다. 검색용 배지에서 형광을 나타내는 Sulfotransferase를 생산하는 4개 균주에서 가장 활성이 높은 k-36균주에 대하여 동정하였다. K-36 균주는 혐기적 및 호기적 양조건에서 잘 자라는 통성혐기성균이고, Gas를 생산하며 포자를 생성하지 않는 Gram음성의 간균이었다. 이것으로 보아 이균은 Enterobacteriacease의 Klebsiella oxytoca 로 동정했다. K-36에서 분리한 Sulfotransferase의 반응양식은 p-nitrophenylsulfate와 p-nitrophenol이 반응시간과 함께 동량씩 감소하여 반응 생성물인 phenylsulfate와 p-nitrophenol을 생성시켰으며 sulfatase 반응은 진행되지 않았다.

  • PDF