• Title/Summary/Keyword: 음성 분석

Search Result 3,084, Processing Time 0.027 seconds

시간특성을 고려한 음성신호의 발성율 검출에 관한 연구

  • 김익성;서지호;배명진
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.109-111
    • /
    • 2004
  • 발성율은 일정한 시간동안 발성되는 음성신호 내에 몇 개의 음절이 포함되어 있는 지를 나타낸다. 발성율은 화자마다 다르고 각 음소들의 특징에 따라 변화할 수 있다. 발성율의 사전 측정이 이루어 진다면 음성부호화 측면에서도 중용한 정보로 사용될 수 있다. 기존의 음성부호화기는 발성율에 관계없이 고정적인 분석 구간을 정하여 전송률을 결정하고 있다. 따라서, 발성율을 미리 측정한다면, 발성율이 느린 부분과 빠른 부분에 각기 다른 부호화 방법을 적용하여 음질을 향상할 수도 있고 전송률을 가변적으로 적용할 수 도 있게 된다. 정확한 발성율을 측정하기 위해서는 음절의 변화를 추정하여야 한다. 음절의 변화를 추정하기 위한 방법으로 음성신호의 에너지 포락선 측정법과 LSP를 이용한 측정법이 각각 제안된 바 있으나, 본 논문에서는 위 두 가지 방법을 혼합한 방법을 사용하였다. 에너지 변동은 음성신호의 시간영역 처리방법으로 LSP 파라미터는 음성신호의 선형예측 분석에 의해 구해질 수 있다.

  • PDF

Feature Extraction through the post processing of WFBA based on MMSE-STSA for Robust Speech Recognition (강인한 음성인식을 위한 MMSE-STSA기반 후처리 가중필터뱅크분석을 통한 특징추출)

  • Jung Sungyun;Bae Keunsung
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.39-42
    • /
    • 2004
  • 본 논문에서는, 잡음음성에 강인한 음성인식을 위한 특징추출 방법을 제시한다. 제시한 방법은 2 단계 잡음제거 과정으로 구성되어 있다. 첫번째 단계는 MMSE-STSA 음성개선기법을 통해 잡음음성신호를 개선시키는 과정이고, 두 번째 단계는, MMSE-STSA 의 개선된 음성에 후처리 가중필터뱅크분석을 통해 잔여잡음의 영향을 감소시키는 과정이다. 제안한 방법의 성능평가를 위해, AURORA2의 잡음음성 DB 중 테스트 집합 A 에 대해 인식실험을 수행하고, 결과를 기존 방법들과 비교, 검토한다.

  • PDF

Implementation of the Web Service Provider for the Speech Recognition Web Page (음성 인식용 웹페이지를 위한 웹서비스 제공자의 구현)

  • 오지영;김윤중
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11a
    • /
    • pp.257-260
    • /
    • 2003
  • 본 논문은 일반 웹페이지를 음성인식이 가능한 웹페이지로 전환하고, 이 페이지가 사용 될 수 있는 웹서비스를 구현하였다. 본 연구에서 구현한 시스템은 웹서비스 소비자와 웹서비스 제공자로 구성되어 있다. 웹서비스 소비자는 다음에 설명하는 두개의 웹서비스 제공자를 호출하는 기능과 재구성된 웹페이지외 xml 문서를 저장하는 기능, xml 문서로부터 사용자의 음성과 매핑되는 URL을 검색하는 기능을 포함하고 있다. 웹서비스 제공자는 웹페이지를 변환하는 웹서비스 제공자와 음성인식 웹서비스 제공자이다. 웹페이지 변환 웹서비스 제공자는 일반 웹페이지를 분석하여 필요한 태그를 변환하는 기능과 하이퍼링크 값인 URL을 추출하는 기능으로 구성되어 있다. 사용자의 음성을 분석하고 인식하는 음성인식기는 기존의 연구에서 구현된 음성인식 웹서비스 제공자를 이용하였다.

  • PDF

Text-to-Speech System Using Logatom (Logatom을 사용한 문서음성변환 시스템)

  • Cho Kwansun;Lee Chulhee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.7-10
    • /
    • 1999
  • 본 논문에서는 logatom 기반 무제한 한국어 TTS 시스템 구현을 제안한다. 이를 위하여 한국어를 대표할 만한 문서코퍼스를 선택하여 분석하고 이를 바탕으로 합성에 필요한 logatom을 설계한다. 일반적으로 음성코퍼스를 통해 음성세그먼트를 추출하여 접속에 기반한 TTS 시스템에서는 음성세그먼트를 의미있는 단어 또 는 어절로부터 추출한다. 하지만 음성세그먼트 추출시 고려되는 사항은 합성단위에 기초한 음소간의 결합형태이므로 본 논문에서는 음성세그먼트 추출을 위하여 무의미한 음소열인 logatom을 설계한다. Logatom은 문장 세그먼트의 어절내 위치와 문서코퍼스 분석 결과 얻어진 음소간의 결합형태를 기반으로 설계된다. 제안된 시스템의 합성음질을 평가하기 위하여 CVC 기반 logatom을 사용하여 임의의 문장을 합성해 본 결과 대부분의 음성세그먼트 접속이 자음에서 이루어지고 어절의 위치를 고려한 logatom 설계로 인하여 어절 내에서는 비교적 자연스러운 합성음을 얻을 수 있었다.

  • PDF

Automatic Generation of Voice Web Pages Based on SALT (SALT 기반 음성 웹 페이지의 자동 생성)

  • Ko, You-Jung;Kim, Yoon-Joong
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.3
    • /
    • pp.177-184
    • /
    • 2010
  • As a voice browser is introduced, voice dialog application becomes available on the Web environment. The voice dialog application consists of voice Web pages that need to translate the dialog scripts into SALT(Speech Application Language Tags). The current Web pages have been designed for visual. They, however, are potentially capable of using voice dialog. This paper, therefore, proposes an automated voice Web generation method that finds the elements for voice dialog from Web pages based HTML and converts them into SALT. The automatic generation system of a voice Web page consists of a lexical analyzer and a syntactic analyzer that converts a Web page which is described in HTML to voice Web page which is described in HTML+SALT. The converted voice Web page is designed to be able to handle not only the current mouse and keyboard input but also voice dialog.

Voice Conference System Based On Circular ad hoc (원헝 ad hoc 방식의 음성 컨퍼런스 시스템)

  • Kim Chul-Han
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 2003.08a
    • /
    • pp.123-126
    • /
    • 2003
  • 최근 컴퓨터 및 통신 기술의 발전으로 인터넷 전화 서비스가 증가하고 있다. 지금까지의 인터넷 전화 서비스는 1:1 방식의 서비스가 주류를 이루었으나, 점차 다자간 음성 채팅, 원격 강의 등과 같은 N:N 방식의 음성 컨퍼런스 서비스에 대한 수요가 급증하고 있다. 그러나 기존의 음성 컨퍼런스 시스템은 별도의 컨퍼런스 서버 구축, 부하 집중 사용자 수의 증가에 따른 음성 트래픽 증가 등의 문제로 일정한 통화 품질을 유지하기 어렵다는 단점이 있다. 따라서, 본 논문에서는 이와 같은 문제를 개선하기 위한 ad hoc 방식의 음성 컨퍼런스 시스템을 제안하였다. 그리고 이 시스템의 성능 분석을 통하여 최소 4명의 참여자까지 일정한 음성 품질이 보장됨을 확인함으로써 본 논문에서 제안하는 시스템의 타당성을 검증하였다.

  • PDF

Current Status and the Prospect of Speech Signal Processing Technology in Korea (한국에서의 음성 신호 처리 기술의 현황과 전망)

  • 안수길
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.17-23
    • /
    • 1995
  • 최근 우리나라에서는 음성신호처리 기술을 바탕으로한 여러 가지 시스템이 상용화되고, 또 그에 따라 관련분야의 연구도 더욱 활발해지고 있다. 본 고에서는 최근 몇 년간 발표되었던 연구결과들을 바탕으로 현재 국내에서 dam성신호처리 관련분야에서의 연구현황을 소개하고 향후의 연구방향 및 미래의 연구 경향을 예측해보고자 g나다. 이를 위해서, 음성신호처리 분야를 음성분석, 음성 합성, 음성 인식, 음성 부호화의 네 세부 분야로 나누고 각 분야별로 국내 현황 그리고 앞으로의 전망을 제시한다.

  • PDF

링 방식의 음성 멀티캐스팅 시스템

  • 김철한;이정태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.268-270
    • /
    • 2001
  • 최근 컴퓨터 및 통신 기술의 발전으로 인터넷 전화 서비스가 증가하고 있다. 지금까지의 인터넷 전화 서비스는 1:1 방식의 서비스가 주류를 이루었으나, 점차 다자간 음성 채팅, 원격 강의 등과 같은 N:N 방식의 음성 멀티캐스팅 서비스에 대한 수요가 급증하고 있다. 그러나 기존의 음성 멀티캐스팅 시스템은 별도의 멀티캐스팅 서버 구축, 부하 집중, 사용자 수의 증가에 따른 음성 트래픽 증가 등의 문제로 일정한 통화품질을 유지하기 어렵다는 단점이 있다. 따라서, 본 논문에서는 이와 같은 문제를 개선하기 위한 링 방식의 음성 멀티캐스팅 시스템을 제안하고, 이 시스템의 성능 분석을 통하여 최소 4명의 참여자까지 일정한 음성품질이 보장됨을 확인함으로써 타당성을 검증하였다.

Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification (화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석)

  • Hong, Chunho;Cho, Youngho
    • Journal of Internet Computing and Services
    • /
    • v.22 no.6
    • /
    • pp.33-40
    • /
    • 2021
  • Automatic Speech Recognition(ASR) is a technology that analyzes human speech sound into speech signals and then automatically converts them into character strings that can be understandable by human. Speech recognition technology has evolved from the basic level of recognizing a single word to the advanced level of recognizing sentences consisting of multiple words. In real-time voice conversation, the high recognition rate improves the convenience of natural information delivery and expands the scope of voice-based applications. On the other hand, with the active application of speech recognition technology, concerns about related cyber attacks and threats are also increasing. According to the existing studies, researches on the technology development itself, such as the design of the Automatic Speaker Verification(ASV) technique and improvement of accuracy, are being actively conducted. However, there are not many analysis studies of attacks and threats in depth and variety. In this study, we propose a cyber attack model that bypasses voice authentication by simply manipulating voice frequency and voice speed for AI voice recognition service equipped with automated identification technology and analyze cyber threats by conducting extensive experiments on the automated identification system of commercial smartphones. Through this, we intend to inform the seriousness of the related cyber threats and raise interests in research on effective countermeasures.