• Title/Summary/Keyword: 음성 검색

Search Result 355, Processing Time 0.026 seconds

음성인식기술을 활용한 VTS 자동 기록 프로그램 개발의 필요성

  • Park, Min-Gyeong;Kim, Myeong-Su;Lee, Sang-Rok;Heo, Yeong-Gwan
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2015.07a
    • /
    • pp.314-315
    • /
    • 2015
  • 최근 음성인식기술이 눈부시게 발전하여 여러 분야에 걸쳐 폭넓게 활용되고 있는 추세에 맞추어, 음성으로 관제의 대부분을 시행하는 VTS에 적용하고자 하였다. 선박 사고 뿐만 아니라, 기타 선박 비리나 정보 공개 요청 등 여러 분야에서 활용할 수 있는 관제내용을 보다 객관적이고 정확하게 기록하고자 VTS 자동 기록 프로그램을 개발하고자 한다.

  • PDF

Design and Implementation of Voice Browser and VXML editor (VXML 편집기와 음성 브라우저의 설계 및 구현)

  • 김경란;홍기형
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.414-416
    • /
    • 2000
  • VXML은 VoiceXML 포럼에서 제안한 대화형 음성 인터페이스 표준으로 음성 관련 소프트웨어 개발을 용이하게 하는 장점이 있다. 또한 음성을 통해 인터넷의 다양한 정보를 검색할 수 있어 급속히 성장하고 있고 웹의 사용과 편리한 인터페이스의 사용자 요구를 충족시킬 수 있다. 본 논문에서는 VXML 문서를 작성할 수 있는 편집기와 VXML 문서를 처리하여 사용자와 상호 작용 할 수 있는 대화형 음성 브라우저의 설계와 구현에 대해 소개한다.

  • PDF

Retrieving English Words with a Spoken Work Transliteration (입말 표기를 이용한 영어 단어 검색)

  • Kim Ji-Seoung;Kim Kwang-Hyun;Lee Joon-Ho
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.39 no.3
    • /
    • pp.93-103
    • /
    • 2005
  • Users of searching Internet English dictionary sometimes do not know the correct spelling of the word in mind, but remember only its pronunciation. In order to help these users, we propose a method to retrieve English words effectively with a spoken word transliteration that is a Korean transliteration of English word pronunciation. We develop KONIX codes and transform a spoken word transliteration and English words into them. We then calculate the phonetic similarity between KONIX codes using edit distance and 2-gram methods. Experimental results show that the proposed method is very effective for retrieving English words with a spoken word transliteration.

음성정보기술 국제 표준화 동향

  • 홍기형
    • Korea Information Processing Society Review
    • /
    • v.11 no.2
    • /
    • pp.33-41
    • /
    • 2004
  • 언제, 어디서, 어떤 장치를 사용하더라도 정보의 검색이나 접근이 가능해지는 유비쿼터스 환경이 가시화되고 있어, 음성을 사용한 사용자 인터페이스의 중요성이 증대하고 있다. 음성인식, 합성, 화자인증 등 음성 등의 음성처리엔진의 기술 수준이 상용화 단계에 접어들고, 이동 중과 같이 모니터 등 시각적 인터페이스의 사용이 용이하지 않은 상황에서도 정보 접근기 요구가 증대함에 따라 음성은 정보시스템 의 중요한 인터페이스로 자리매김 하고 있다. 음성정보기술은 인간의 가장 자연스러운 상호작용 수단인 음성을 이용하여. 시스템에 명령을 내리고, 시스템의 명령 수행 결과를 음성으로 전달하는 음성을 이용한 정보 시스템 인터페이스를 구현하기 위 한 기술을 의미한다. 또한, 음성정보시스템은 음성을 이용한 사용자인터페이스가 가능한 정보시스템을 뜻하며, (그림 1)과 같이 음성처리엔진, 사용자 접속망, 사용자 프로파일 및 음성응용시스템으로 구성된다.(중략)

  • PDF

Conformer-based Elderly Speech Recognition using Feature Fusion Module (피쳐 퓨전 모듈을 이용한 콘포머 기반의 노인 음성 인식)

  • Minsik Lee;Jihie Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.39-43
    • /
    • 2023
  • 자동 음성 인식(Automatic Speech Recognition, ASR)은 컴퓨터가 인간의 음성을 텍스트로 변환하는 기술이다. 자동 음성 인식 시스템은 다양한 응용 분야에서 사용되며, 음성 명령 및 제어, 음성 검색, 텍스트 트랜스크립션, 자동 음성 번역 등 다양한 작업을 목적으로 한다. 자동 음성 인식의 노력에도 불구하고 노인 음성 인식(Elderly Speech Recognition, ESR)에 대한 어려움은 줄어들지 않고 있다. 본 연구는 노인 음성 인식에 콘포머(Conformer)와 피쳐 퓨전 모듈(Features Fusion Module, FFM)기반 노인 음성 인식 모델을 제안한다. 학습, 평가는 VOTE400(Voide Of The Elderly 400 Hours) 데이터셋으로 한다. 본 연구는 그동안 잘 이뤄지지 않았던 콘포머와 퓨전피쳐를 사용해 노인 음성 인식을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 콘포머 모델보다 높은 수준의 정확도를 보임으로써 노인 음성 인식을 위한 딥러닝 모델 연구에 기여했다.

  • PDF

A Development of an URL Navigator using Speech Recognition (음성인식을 이용한 URL Navigator 개발)

  • Jeon, Han-Gil;Hong, In-Suk;Kim, Yoon-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.122-125
    • /
    • 2009
  • 기존의 인터넷 익스플로러는 높은 보급률의 이점을 지니고 있지만 인터넷을 이용하기 위한 기본지식의 필요성과 키보드, 마우스와 같은 장치를 이용한 입력방식은 장애인 및 고령층의 사용자들이 이용하기에는 불편하다. 이와 같은 문제점을 해결하고자 본 논문에서는 웹 서비스 기술을 이용하여 기존의 음성인식 시스템을 웹 서비스로 재구성하고 클라이언트가 음성인식 웹 서비스를 요청하고 음성명령이 가능하도록 인터넷 익스플로러에 음성명령이 가능한 Navigaotr를 Toolbar 형태의 프로그램을 구현하였다. 본 시스템은 클라이언트가 사용하는 음성 Navigator Toolbar와 웹 서비스를 통해서 음성 서비스를 제공하는 음성 서비스 프로바이더로 구성된다. 음성 Navigator Toolbar는 인터넷 환경에서 음성데이터를 바이너리 포맷형식인 DIME을 이용하여 음성 서비스 프로바이더로 전송하고 반환 결과를 가지고 URL Navigator를 통해 인터넷 페이지를 이동시킨다. 음성 서비스 프로바이더는 사용자가 전송한 음성데이터를 인식기를 통해 인식하고 결과를 가지고 정보 Database를 검색하여 실제 인터넷 주소를 사용자에게 반환한다.

A Study on the Frequency Scaling Methods Using LSP Parameters Distribution Characteristics (LSP 파라미터 분포특성을 이용한 주파수대역 조절법에 관한 연구)

  • 민소연;배명진
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.3
    • /
    • pp.304-309
    • /
    • 2002
  • We propose the computation reduction method of real root method that is mainly used in the CELP (Code Excited Linear Prediction) vocoder. The real root method is that if polynomial equations have the real roots, we are able to find those and transform them into LSP. However, this method takes much time to compute, because the root searching is processed sequentially in frequency region. In this paper, to reduce the computation time of real root, we compare the real root method with two methods. In first method, we use the mal scale of searching frequency region that is linear below 1 kHz and logarithmic above. In second method, The searching frequency region and searching interval are ordered by each coefficient's distribution. In order to compare real root method with proposed methods, we measured the following two. First, we compared the position of transformed LSP (Line Spectrum Pairs) parameters in the proposed methods with these of real root method. Second, we measured how long computation time is reduced. The experimental results of both methods that the searching time was reduced by about 47% in average without the change of LSP parameters.

Semantic Ontology Speech Recognition Performance Improvement using ERB Filter (ERB 필터를 이용한 시맨틱 온톨로지 음성 인식 성능 향상)

  • Lee, Jong-Sub
    • Journal of Digital Convergence
    • /
    • v.12 no.10
    • /
    • pp.265-270
    • /
    • 2014
  • Existing speech recognition algorithm have a problem with not distinguish the order of vocabulary, and the voice detection is not the accurate of noise in accordance with recognized environmental changes, and retrieval system, mismatches to user's request are problems because of the various meanings of keywords. In this article, we proposed to event based semantic ontology inference model, and proposed system have a model to extract the speech recognition feature extract using ERB filter. The proposed model was used to evaluate the performance of the train station, train noise. Noise environment of the SNR-10dB, -5dB in the signal was performed to remove the noise. Distortion measure results confirmed the improved performance of 2.17dB, 1.31dB.

Phoneme-based Recognition of Korean Speech Using HMM(Hidden Markov Model) and Genetic Algorithm (HMM과 GA를 이용한 한국어 음성의 음소단위 인식)

  • 박준하;조성원
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 1997.10a
    • /
    • pp.291-295
    • /
    • 1997
  • 현재에 주로 개발되어 상용화가 시작되고 있는 음성인식 시스템의 대부분은 단어인식을 기분으로 하는 시스템으로 적용 단어수를 늘려줌으로서 인식범위를 늘일 수 있으나, 그에 따라 검색해야하는 단어수가 늘어남으로서 전체적인 시스템의 속도 및 성능이 저하되는 경향이 있다. 이러한 단점의 극복을 위하여 본 논문에서는 HMM(Hidden Markov Model)과 GA(Genetic Algorithm)를 이용한 한국어 음성의 음소단위 인식 시스템을 구현하였다. 음성 특징으로는 LPC Cepstrum 계수를 사용하였으며, 인식시는 인식대상이 되는 단어에 대하여 GA(Genetic Algorithm)을 통하여 각 음소를 분리하고, 음소단위로 학습된 HMM 파라미터를 적용하여 인식함으로써 각각의 음소별 가능하도록 하는 방법을 제안하였다.

  • PDF

Development of the Operating and Management System for a Vocabulary Independent Speech Recognition System (단어독립 음성인식 시스팀을 위한 운용시스팀 개발)

  • 전예임
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.65-68
    • /
    • 1995
  • 이 논문은 현재 주식시장에 상장되어 있는 약 700개 회사의 현재주가를 음성인식을 이용하여 검색할 수 있는 대어휘, 화자독립, 단어독립 음성인식 시스팀의 운용자를 위한 운용관리 시스팀에 대해 기술하였다. KT-STOCK은 시스팀의 음성안내에 따라 사용자가 전화기에 상장회사 이름을 말하면, 이 시스팀은 그 회사의 현재 증권정보를 말해준다. 이 시스팀의 운용관리 시스팀은 주식시장에 상장된 종목의 변화에 따라서 인식대상 단어를 추가하거나 삭제, 조회할 때 그 처리를 용이하게 할 수 있도록 구현되었다.

  • PDF