• 제목/요약/키워드: 음성 생성

검색결과 689건 처리시간 0.045초

후두와 성도의 해부, 생리 및 병리

  • 정광윤
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 1995년도 제4회 학술대회 심포지움 및 워크샵
    • /
    • pp.63-78
    • /
    • 1995
  • 음성의 생성기전은 폐의 호기에 의하여 성대가 진동하여 원음이 발생하고, 원음이 하인두, 구인두, 비인두, 구강 등의 성도를 통과하면서 공명이 일어나며, 혀와 입술의 운동에 의하여 조음이 일어나서 결국은 음성이 생성되게 된다. 저자는 음성을 생성하는 후두 및 성도의 음성외과학적 구조 및 생리에 대하여 주로 언급하고, 성도에 발생하는 다양한 질환중 음성에 영향을 주는 질환만을 선택하여 간략히 설명하고자 한다. (중략)

  • PDF

언어 모델 기반 음성 특징 추출을 활용한 생성 음성 탐지 (Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction)

  • 김승민;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.439-449
    • /
    • 2024
  • 최근 음성 생성 기술의 급격한 발전으로, 텍스트만으로도 자연스러운 음성 합성이 가능해졌다. 이러한 발전은 타인의 음성을 생성하여 범죄에 이용하는 보이스피싱과 같은 악용 사례를 증가시키는 결과를 낳고 있다. 음성 생성 여부를 탐지하는 모델은 많이 개발되고 있으며, 일반적으로 음성의 특징을 추출하고 이러한 특징을 기반으로 음성 생성 여부를 탐지한다. 본 논문은 생성 음성으로 인한 악용 사례에 대응하기 위해 새로운 음성 특징 추출 모델을 제안한다. 오디오를 입력으로 받는 딥러닝 기반 오디오 코덱 모델과 사전 학습된 자연어 처리 모델인 BERT를 사용하여 새로운 음성 특징 추출 모델을 제안하였다. 본 논문이 제안한 음성 특징 추출 모델이 음성 탐지에 적합한지 확인하기 위해 추출된 특징을 활용하여 4가지 생성 음성 탐지 모델을 만들어 성능평가를 진행하였다. 성능 비교를 위해 기존 논문에서 제안한 Deepfeature 기반의 음성 탐지 모델 3개와 그 외 모델과 정확도 및 EER을 비교하였다. 제안한 모델은 88.08%로 기존 모델보다 높은 정확도와 11.79%의 낮은 EER을 보였다. 이를 통해 본 논문에서 제안한 음성 특징 추출 방법이 생성 음성과 실제 음성을 판별하는 효과적인 도구로 사용될 수 있음을 확인하였다.

생성적 적대 신경망을 이용한 음향 도플러 기반 무 음성 대화기술 (An acoustic Doppler-based silent speech interface technology using generative adversarial networks)

  • 이기승
    • 한국음향학회지
    • /
    • 제40권2호
    • /
    • pp.161-168
    • /
    • 2021
  • 본 논문에서는 발성하고 있는 입 주변에 40 kHz의 주파수를 갖는 초음파 신호를 방사하고 되돌아오는 신호의 도플러 변이를 검출하여 발성음을 합성하는 무 음성 대화기술을 제안하였다. 무음성 대화 기술에서는 비 음성 신호로 부터 추출된 특징변수와 해당 음성 신호의 파라메터 간 대응 규칙을 생성하고 이를 이용하여 음성신호를 합성하게 된다. 기존의 무 음성 대화기술에서는 추정된 음성 파라메터와 실제 음성 파라메터간의 오차가 최소화되도록 대응규칙을 생성한다. 본 연구에서는 추정 음성 파라메터가 실제 음성 파라메터의 분포와 유사하도록 생성적 적대 신경망을 도입하여 대응 규칙을 생성하도록 하였다. 60개 한국어 음성을 대상으로 한 실험에서 제안된 기법은 객관적, 주관적 지표상 으로 기존의 신경망 기반 기법보다 우수한 성능을 나타내었다.

키워드 음성인식을 위한 음성합성 기반 자동 학습 기법 (A Automated Method for Training Keyword Spotter based on Speech Synthesis)

  • 임재봉;이종수;조용훈;백윤주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.494-496
    • /
    • 2021
  • 최근 경량 딥러닝 기반 키워드 음성인식은 가전, 완구, 키오스크 등 다양한 응용에 음성 인터페이스를 쉽게 적용할 수 있는 기술로서 주목받고 있다. 키워드 음성인식은 일부 키워드만 인식 가능한 음성인식 기술로서 저성능 디바이스에서 활용 가능한 장점이 있다. 그러나 응용에 따라 필요한 키워드에 대하여 다시 음성데이터를 수집해야하고 이를 학습하여 모델을 새로 준비해야하는 단점이 있다. 따라서 본 연구에서는 음성데이터 수집 없이 음성합성을 통해 생성한 음성으로만 키워드 음성인식 모델을 학습하는 음성합성 기반 자동 학습 기법을 제안하였다. 생성한 음성데이터를 활용하고자하는 시도가 활발히 이루어지고 있으나, 기존 연구에서는 정확도를 유지하기 위하여 수집한 실제 음성데이터가 필요한 한계가 있다. 제안한 자동 학습 기법은 생성한 음성데이터에 대해 복합 데이터 증대 기법을 적용하여 실제 음성데이터 없이 키워드 음성인식의 정확도를 높였다. 제안한 기법에 대하여 상용 음성합성 서비스를 기반으로 수집한 한국어 키워드 데이터세트를 활용하여 성능평가를 진행하였다. 20개 한국어 키워드에 대해 실험한 결과, 제안한 기법을 적용하여 학습시킨 키워드 음성인식 모델의 정확도는 86.44%임을 확인하였다.

음성 처리 시스템의 서비스 시나리오 생성기 (Service Scenario Creator of Voice Processing System)

  • 황병철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (중)
    • /
    • pp.1313-1316
    • /
    • 2002
  • 본 논문은 음성 처리 시스템의 서비스 시나리오 생성기에 관한 것으로, 좀더 상세하게는, 음성 처리 시스템의 서비스 시나리오를 생성하기 위한 단위 서비스 상태를 각각 정의하고 수행하는 다수의 상태 정의 모듈과, 시나리오 작성자가 상기 다수의 상태 정의 모듈 중 서비스 시나리오의 작성에 필요한 상태 정의 모듈들을 추출하고 추출된 각 상태 정의 모듈의 입력 값, 비교 값 및 분기할 다음 상태 정의 모듈 명을 지정할 수 있도록 유저 인터페이스 기능을 제공하는 유저 인터페이스 모듈과, 시나리오 작성자에 의하여 추출된 상태 정의 모듈들에 상기 지정된 입력 값, 비교 값 및 분기할 다음 상태 정의 모듈 명을 입력하여 서비스 시나리오를 생성하는 서비스 시나리오 생성 모듈과, 생성된 서비스 시나리오를 제어부가 실행할 수 있는 실행 코드로 변환하여 제어부에 제공하는 실행 코드 변환 모듈로 이루어지는 음성 처리 시스템의 서비스 시나리오 생성기에 관한 것이다.

  • PDF

음성인식기술을 이용한 자막생성 연구 (Subtitle generation using Speech recognition)

  • 안충현;장인선
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.48-49
    • /
    • 2016
  • 본 논문에서는 동영상, 팟캐스트 오로부터 자막을 생성하여 청각장애인의 미디어 접근권을 향상시키는 음성인식기술을 적용한 자막생성에 대하여 제안한다. 또한 레퍼런스 음성 DB 와 드라마, 팟캐스트 오디오로부터 생성된 자막의 정확도에 대해 평가하였다. 오디오를 이용하여 생성된 자막은 사극의 경우에는 다소 정확도가 낮게 평가되었으나, 전체적으로는 약 80%이상의 정확도를 갖는 것으로 파악되었다.

  • PDF

모바일 음성 웹 페이지의 자동 생성 시스템에 관한 연구 (A Study On the Automatic Generation System of Mobile Voice Web Page)

  • 고유정;김윤중
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.153-156
    • /
    • 2008
  • 모바일 기기는 화면의 크기가 작아 스타일러스나 펜으로 웹 컨텐츠를 이용하기에는 불편함이 있다. 이에 따라 음성으로 웹의 컨텐츠를 개발하기 위한 포준 언어인 VoiceXML(Voice Extenxible Markup Language), SALT(Speech application Language Tags)가 빠르게 보급되고 있다. 이를 이용하기 위해서는 기존의 모바일 웹페이지를 음성 웹 표준 기술에 맞게 변환해줘야 한다. 따라서 본 논문에서는 WML(Wireless Markup Language)로 구성된 모바일 웹 페이지를 SALT 음성기술을 이용하여 음성명령이 가능한 모바일 음성 웹페이지(WML + SALT)로 자동 생성하는 시스템을 구현 하고자 한다. 이에 따라 사용자는 음성명령을 통해 컨텐츠를 제어함으로써 편리함을 제공하고, 개발자는 자동 생성 시스템을 이용함으로써 기존의 모바일 웹 페이지를 음성 웹 페이지를 변환하기 위한 개발시간과 비용을 감소 할 수 있다.

SALT 기반 음성 웹 페이지의 자동 생성 (Automatic Generation of Voice Web Pages Based on SALT)

  • 고유정;김윤중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권3호
    • /
    • pp.177-184
    • /
    • 2010
  • 음성 브라우저가 등장함에 따라, 음성 대화 어플리케이션이 웹 환경에서 사용이 가능하게 되었다. 음성 대화 어플리케이션은 음성 웹 페이지로 구성되어 있다. 음성 웹 페이지의 대화 스크립트는 SALT(Speech Application Language Tags) 언어 등으로 기술되어야 한다. 기존 웹 페이지들은 음성 대화를 고려하지 않고 시각용(visual)용으로 제작되었지만, 이들 웹 페이지에도 음성 대화를 이용하여 처리할 수 있는 요소들이 있다. 따라서 본 논문에서는 시각용으로 제작된 HTML 웹 페이지로부터 대화처리가 가능한 요소들을 추출하고 해당대화를 SALT로 생성해내는 음성 웹 페이지의 자동 생성방법을 제안하였다. 제안한 음성 웹 페이지의 자동 생성기는 어휘 분석기와 구문 분석기로 구성된 번역기로, HTML로 기술된 웹 페이지를 HTML+SALT로 기술된 음성 웹 페이지로 변환한다. 변환된 음성 웹 페이지는 기존의 마우스, 키보드롤 이용한 처리도 가능하고 음성 대화 처리도 가능하도록 설계되었다.

시각 장애인 홈페이지 빌더의 인터페이스 디자인에 관한 연구 (A Study on the interface design of the homepage builder focusing on the domestic portal sites)

  • 하태현;백현기
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2005년도 춘계학술대회
    • /
    • pp.497-503
    • /
    • 2005
  • 본 연구의 목표는 시각장애인을 위해 음성 인식, 음성 합성 기술을 이용하여 일반인과 마찬가지로 개인의 특성에 맞는 홈페이지를 구축하게 하는 웹 사이트 자동 생성 툴을 개발하는 것이며, 음성매일, 개인 일정, 주소록, 북마크 등을 생성 할 수 있는 개인정보관리기능은 물론 개인 맞춤 정보 생성 기능을 제공하며, 시각장애인들이 원하는 정보를 스스로 제공하여 일반인과 공유함으로써 의사소통의 통로 역할을 담당 할 수 있게 한다. 웹 사이트 자동 생성 툴에서는 기본적인 명령어를 음성인식으로 처리할 수 있게 지원하며 음성출력이 지원되는 TTS를 추가적으로 제공한다. 본 연구개발을 통해 시각장애인들이 사회적 소외감을 없애며 정보화 시대에 동등한 위치에서 생활 할 수 있도록 하는 것이다.

  • PDF

효과적인 음성 인식 평가를 위한 심층 신경망 기반의 음성 인식 성능 지표 (Speech Recognition Accuracy Measure using Deep Neural Network for Effective Evaluation of Speech Recognition Performance)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2291-2297
    • /
    • 2017
  • 본 논문에서는 음성 데이터베이스를 평가하기 위해 여러 가지의 음성 특성 지표 추출 알고리즘을 설명하고 심층 신경망 기반의 새로운 음성 성능 지표 생성 방법을 제안한다. 선행 연구에서는 효과적인 음성 인식 성능 지표를 생성하기 위해 대표적인 음성 인식 성능 지표인 단어 오인식률(Word Error Rate, WER)과 상관도가 높은 여러 가지 음성 특성 지표들을 조합하여 새로운 성능 지표를 생성하였다. 생성된 음성 성능 지표는 다양한 잡음 환경에서 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 입증 하였다. 본 논문에서는 심층 신경망을 기반으로 한 음성 특성 지표 추출 방법에 대해 설명하며 선행 연구에서 조합에 사용한 GMM(Gaussian Mixture Model) 음향 모델 확률 값을 심층 신경망 학습을 통해 추출한 확률 값으로 대체해 조합함으로써 단어 오인식률과 보다 높은 상관도를 갖는 것을 확인한다.