• 제목/요약/키워드: 음성 분석

검색결과 3,062건 처리시간 0.03초

시간특성을 고려한 음성신호의 발성율 검출에 관한 연구

  • 김익성;서지호;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.109-111
    • /
    • 2004
  • 발성율은 일정한 시간동안 발성되는 음성신호 내에 몇 개의 음절이 포함되어 있는 지를 나타낸다. 발성율은 화자마다 다르고 각 음소들의 특징에 따라 변화할 수 있다. 발성율의 사전 측정이 이루어 진다면 음성부호화 측면에서도 중용한 정보로 사용될 수 있다. 기존의 음성부호화기는 발성율에 관계없이 고정적인 분석 구간을 정하여 전송률을 결정하고 있다. 따라서, 발성율을 미리 측정한다면, 발성율이 느린 부분과 빠른 부분에 각기 다른 부호화 방법을 적용하여 음질을 향상할 수도 있고 전송률을 가변적으로 적용할 수 도 있게 된다. 정확한 발성율을 측정하기 위해서는 음절의 변화를 추정하여야 한다. 음절의 변화를 추정하기 위한 방법으로 음성신호의 에너지 포락선 측정법과 LSP를 이용한 측정법이 각각 제안된 바 있으나, 본 논문에서는 위 두 가지 방법을 혼합한 방법을 사용하였다. 에너지 변동은 음성신호의 시간영역 처리방법으로 LSP 파라미터는 음성신호의 선형예측 분석에 의해 구해질 수 있다.

  • PDF

강인한 음성인식을 위한 MMSE-STSA기반 후처리 가중필터뱅크분석을 통한 특징추출 (Feature Extraction through the post processing of WFBA based on MMSE-STSA for Robust Speech Recognition)

  • 정성윤;배건성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.39-42
    • /
    • 2004
  • 본 논문에서는, 잡음음성에 강인한 음성인식을 위한 특징추출 방법을 제시한다. 제시한 방법은 2 단계 잡음제거 과정으로 구성되어 있다. 첫번째 단계는 MMSE-STSA 음성개선기법을 통해 잡음음성신호를 개선시키는 과정이고, 두 번째 단계는, MMSE-STSA 의 개선된 음성에 후처리 가중필터뱅크분석을 통해 잔여잡음의 영향을 감소시키는 과정이다. 제안한 방법의 성능평가를 위해, AURORA2의 잡음음성 DB 중 테스트 집합 A 에 대해 인식실험을 수행하고, 결과를 기존 방법들과 비교, 검토한다.

  • PDF

음성 인식용 웹페이지를 위한 웹서비스 제공자의 구현 (Implementation of the Web Service Provider for the Speech Recognition Web Page)

  • 오지영;김윤중
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.257-260
    • /
    • 2003
  • 본 논문은 일반 웹페이지를 음성인식이 가능한 웹페이지로 전환하고, 이 페이지가 사용 될 수 있는 웹서비스를 구현하였다. 본 연구에서 구현한 시스템은 웹서비스 소비자와 웹서비스 제공자로 구성되어 있다. 웹서비스 소비자는 다음에 설명하는 두개의 웹서비스 제공자를 호출하는 기능과 재구성된 웹페이지외 xml 문서를 저장하는 기능, xml 문서로부터 사용자의 음성과 매핑되는 URL을 검색하는 기능을 포함하고 있다. 웹서비스 제공자는 웹페이지를 변환하는 웹서비스 제공자와 음성인식 웹서비스 제공자이다. 웹페이지 변환 웹서비스 제공자는 일반 웹페이지를 분석하여 필요한 태그를 변환하는 기능과 하이퍼링크 값인 URL을 추출하는 기능으로 구성되어 있다. 사용자의 음성을 분석하고 인식하는 음성인식기는 기존의 연구에서 구현된 음성인식 웹서비스 제공자를 이용하였다.

  • PDF

Logatom을 사용한 문서음성변환 시스템 (Text-to-Speech System Using Logatom)

  • 조관선;이철희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.7-10
    • /
    • 1999
  • 본 논문에서는 logatom 기반 무제한 한국어 TTS 시스템 구현을 제안한다. 이를 위하여 한국어를 대표할 만한 문서코퍼스를 선택하여 분석하고 이를 바탕으로 합성에 필요한 logatom을 설계한다. 일반적으로 음성코퍼스를 통해 음성세그먼트를 추출하여 접속에 기반한 TTS 시스템에서는 음성세그먼트를 의미있는 단어 또 는 어절로부터 추출한다. 하지만 음성세그먼트 추출시 고려되는 사항은 합성단위에 기초한 음소간의 결합형태이므로 본 논문에서는 음성세그먼트 추출을 위하여 무의미한 음소열인 logatom을 설계한다. Logatom은 문장 세그먼트의 어절내 위치와 문서코퍼스 분석 결과 얻어진 음소간의 결합형태를 기반으로 설계된다. 제안된 시스템의 합성음질을 평가하기 위하여 CVC 기반 logatom을 사용하여 임의의 문장을 합성해 본 결과 대부분의 음성세그먼트 접속이 자음에서 이루어지고 어절의 위치를 고려한 logatom 설계로 인하여 어절 내에서는 비교적 자연스러운 합성음을 얻을 수 있었다.

  • PDF

SALT 기반 음성 웹 페이지의 자동 생성 (Automatic Generation of Voice Web Pages Based on SALT)

  • 고유정;김윤중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권3호
    • /
    • pp.177-184
    • /
    • 2010
  • 음성 브라우저가 등장함에 따라, 음성 대화 어플리케이션이 웹 환경에서 사용이 가능하게 되었다. 음성 대화 어플리케이션은 음성 웹 페이지로 구성되어 있다. 음성 웹 페이지의 대화 스크립트는 SALT(Speech Application Language Tags) 언어 등으로 기술되어야 한다. 기존 웹 페이지들은 음성 대화를 고려하지 않고 시각용(visual)용으로 제작되었지만, 이들 웹 페이지에도 음성 대화를 이용하여 처리할 수 있는 요소들이 있다. 따라서 본 논문에서는 시각용으로 제작된 HTML 웹 페이지로부터 대화처리가 가능한 요소들을 추출하고 해당대화를 SALT로 생성해내는 음성 웹 페이지의 자동 생성방법을 제안하였다. 제안한 음성 웹 페이지의 자동 생성기는 어휘 분석기와 구문 분석기로 구성된 번역기로, HTML로 기술된 웹 페이지를 HTML+SALT로 기술된 음성 웹 페이지로 변환한다. 변환된 음성 웹 페이지는 기존의 마우스, 키보드롤 이용한 처리도 가능하고 음성 대화 처리도 가능하도록 설계되었다.

원헝 ad hoc 방식의 음성 컨퍼런스 시스템 (Voice Conference System Based On Circular ad hoc)

  • 김철한
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 한국정보통신설비학회 2003년도 하계학술대회
    • /
    • pp.123-126
    • /
    • 2003
  • 최근 컴퓨터 및 통신 기술의 발전으로 인터넷 전화 서비스가 증가하고 있다. 지금까지의 인터넷 전화 서비스는 1:1 방식의 서비스가 주류를 이루었으나, 점차 다자간 음성 채팅, 원격 강의 등과 같은 N:N 방식의 음성 컨퍼런스 서비스에 대한 수요가 급증하고 있다. 그러나 기존의 음성 컨퍼런스 시스템은 별도의 컨퍼런스 서버 구축, 부하 집중 사용자 수의 증가에 따른 음성 트래픽 증가 등의 문제로 일정한 통화 품질을 유지하기 어렵다는 단점이 있다. 따라서, 본 논문에서는 이와 같은 문제를 개선하기 위한 ad hoc 방식의 음성 컨퍼런스 시스템을 제안하였다. 그리고 이 시스템의 성능 분석을 통하여 최소 4명의 참여자까지 일정한 음성 품질이 보장됨을 확인함으로써 본 논문에서 제안하는 시스템의 타당성을 검증하였다.

  • PDF

한국에서의 음성 신호 처리 기술의 현황과 전망 (Current Status and the Prospect of Speech Signal Processing Technology in Korea)

  • 안수길
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.17-23
    • /
    • 1995
  • 최근 우리나라에서는 음성신호처리 기술을 바탕으로한 여러 가지 시스템이 상용화되고, 또 그에 따라 관련분야의 연구도 더욱 활발해지고 있다. 본 고에서는 최근 몇 년간 발표되었던 연구결과들을 바탕으로 현재 국내에서 dam성신호처리 관련분야에서의 연구현황을 소개하고 향후의 연구방향 및 미래의 연구 경향을 예측해보고자 g나다. 이를 위해서, 음성신호처리 분야를 음성분석, 음성 합성, 음성 인식, 음성 부호화의 네 세부 분야로 나누고 각 분야별로 국내 현황 그리고 앞으로의 전망을 제시한다.

  • PDF

링 방식의 음성 멀티캐스팅 시스템

  • 김철한;이정태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.268-270
    • /
    • 2001
  • 최근 컴퓨터 및 통신 기술의 발전으로 인터넷 전화 서비스가 증가하고 있다. 지금까지의 인터넷 전화 서비스는 1:1 방식의 서비스가 주류를 이루었으나, 점차 다자간 음성 채팅, 원격 강의 등과 같은 N:N 방식의 음성 멀티캐스팅 서비스에 대한 수요가 급증하고 있다. 그러나 기존의 음성 멀티캐스팅 시스템은 별도의 멀티캐스팅 서버 구축, 부하 집중, 사용자 수의 증가에 따른 음성 트래픽 증가 등의 문제로 일정한 통화품질을 유지하기 어렵다는 단점이 있다. 따라서, 본 논문에서는 이와 같은 문제를 개선하기 위한 링 방식의 음성 멀티캐스팅 시스템을 제안하고, 이 시스템의 성능 분석을 통하여 최소 4명의 참여자까지 일정한 음성품질이 보장됨을 확인함으로써 타당성을 검증하였다.

화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석 (Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification)

  • 홍천호;조영호
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.33-40
    • /
    • 2021
  • 음성인식(ASR: Automatic Speech Recognition)은 사람의 말소리를 음성 신호로 분석하고, 문자열로 자동 변화하여 이해하는 기술이다. 초기 음성인식 기술은 하나의 단어를 인식하는 것을 시작으로 두 개 이상의 단어로 구성된 문장을 인식하는 수준까지 진화하였다. 실시간 음성 대화에 있어 높은 인식률은 자연스러운 정보전달의 편리성을 극대화하여 그 적용 범위를 확장하고 있다. 반면에, 음성인식 기술의 활발한 적용에 따라 관련된 사이버 공격과 위협에 대한 우려 역시 증가하고 있다. 기존 연구를 살펴보면, 자동화자식별(ASV: Automatic Speaker Verification) 기법의 고안과 정확성 향상 등 기술 발전 자체에 관한 연구는 활발히 이루어지고 있으나, 실생활에 적용되고 있는 음성인식 서비스의 자동화자 식별 기술에 대한 사이버 공격 및 위협에 관한 분석연구는 다양하고 깊이 있게 수행되지 않고 있다. 본 연구에서는 자동화자 식별 기술을 갖춘 AI 음성인식 서비스를 대상으로 음성 주파수와 음성속도를 조작하여 음성인증을 우회하는 사이버 공격 모델을 제안하고, 상용 스마트폰의 자동화자 식별 체계를 대상으로 실제 실험을 통해 사이버 위협을 분석한다. 이를 통해 관련 사이버 위협의 심각성을 알리고 효과적인 대응 방안에 관한 연구 관심을 높이고자 한다.

A SPECTROGRAPHICAL STUDY OF KOREAN VOWELS

  • 이현복;지민제
    • 대한음성학회지:말소리
    • /
    • 제6호
    • /
    • pp.4-12
    • /
    • 1983
  • 이 논문은 음향 분석기를 이용하여 한국어의 단순모음 8개를 음향 음성학적으로 분석하고 그 결과를, 이 현복의 1971년 논문 "현대 서울말의 모음 음가"에서 기분 모음을 기준으로 하여 기술한 단순 모음의 소리값과 비교하는 데어 목적이 있다. 특히, 한국어의 모음 1)길고 세게 날 때, 2)짧고 세게 날 때, 그리고 3) 여리게 날 때의 세가지 환경에 따라 변이음의 음가가 달리 나타난다는 이 현복의 이론을 음향 음성학적으로 확인해 보는 것이 연구를 하는 주요 관심사이다. 이 실험에 사용된 자료는 위에 말한 이 현복의 논문과 "한국어 음성학"(김선기, 1937, 1971; 영문)에 제시된 낱말로 이루어져 있으며, 이를 스웨덴에 유학중인 지 민제가 자신의 목소리로 직접 녹음하여 위메오 대한 음성학과의 음향 음성학 실험실에서 음향분석기로 분석한 다음, 각 모음의 제1 및 제2포인트를 측정하여 리를 토대로 음향도를 만들었다. 이 실험 결과는 다음과 같이 요약할 수 있다. : 1)그림 2,3과 포먼트 표에서 보인 바와 같이, 모음 /이, 에, 오, 으/는 각각 이 현복의 주장대로 환경에 따라 세 개의 분명히 다른 음가를 나타내고 있다. 2) 한편 모음 /애, 아, 우, 어/는 모음의 길이에 따라 다만 두 종류의 음가 변동이 나타날 뿐이며 강세의 유무에 따른 음가 차이는 드러나지 않았다. 3) 이 현복의 주장대로 모음 /에/와 /애/mss 음가의 차이가 크지 않으므로 음운 대립이 무디어질 수 있음을 이번 실험 결과로 확인 하였다. 특히 강세가 없는 /에/는 강세가 있는 /애/와 소리값이 거의 같았다. 4) 이 현복은 표준말에서 /어/의 음가가 세대에 따라 다르며, 안정된 세대의 말씨에서는 /어:/가 /어/에 비해 높고 중앙화한 소리값을 지닌다는 주장을 하였다. 그러나 이 실험 연구에서는 녹음한 이가 젊은 세대이어서 인지 그러한 현상이 나타나지 않았고, 다만 /어:/는 /어/보다 높이만이 높은 것으로 나타났다. 5) 이번 실험 연구에서 모음의 소리값이 장단과 강세에 따라 달라진다는 이 현복의 주장이 대체로 증명된 셈이나, 종합적이고 확고한 결론을 내리려면 좀 더 광범한 실험 연구가 필요하다고 본다. 특히 안정된 세대의 말씨를 직접 녹음하여 음향 음성학적으로 분석함이 필요하다.

  • PDF