• Title/Summary/Keyword: 음성 정보

Search Result 3,366, Processing Time 0.034 seconds

Customized Speech Synthesis for Children with Characteristic Behavioral Patterns (어린이 행동 패턴에 기반한 개별화된 음성 합성)

  • Lee, Ho-Joon;Park, Jong-C.
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.571-578
    • /
    • 2006
  • 음성을 통한 사용자 간의 정보 교환 방법은 추가적인 훈련 과정이나 장비가 필요하지 않고 공간 제약이 거의 없기 때문에 노약자 등 사용자의 연령대에 관계없이 사용될 수 있다. 또한 음성 정보는 시각이나 촉각 등 다른 정보 수단과의 상호 작용으로 상승 효과를 유발할 수 있기 때문에 사람과 기계 사이의 인터페이스로 활용될 경우 정보 전달력을 높이면서 사용자 친화적인 서비스를 제공할 수 있다. 그러나 동일한 상황에서 동일한 유형의 음성 정보가 사용자에게 지속적으로 제공될 경우 표현상의 단조로움으로 인해 정보 전달력이 급감할 수 있는 문제점도 지니고 있다. 따라서 음성을 통한 정보 전달의 경우 동일 상황이라 하더라도 사용자의 행동 패턴, 심리 상태, 주변 환경 등에 따라 차별화된 문장 구조 및 어휘의 선택으로 긴장감을 유지시켜 줄 수 있어야 한다. 본 논문에서는 5 세 전후의 어린이를 대상으로 그들의 행동 패턴 분석에 기반하여 개별화된 음성 합성 결과를 제공하는 시스템을 제안한다. 이를 위해 유치원이라는 물리적 공간에서 어린이들의 주된 행동 패턴을 분석하고, 현직 유치원 교사를 대상으로 동일한 정보를 전달하는 조건을 통하여 어린이의 행동 패턴과 위치 정보, 연령 및 성격에 따른 발화 문장의 문장 구조와 어휘적 특성을 파악한다. 최종적으로, 개별화된 음성 합성 결과를 위해 유치원 공간을 시뮬레이션 하고 RFID 를 이용하여 어린이의 행동 패턴 및 위치 정보를 파악한다. 그리고 각 상황에 따라 분석된 발화문의 문장 구조와 어휘 특성을 반영하여 음성으로 합성될 문장의 문장 구조 및 어휘를 재구성하여 사용자 개별화된 음성 합성 결과를 생성한다. 이러한 결과를 통해 어린이의 행동 패턴이 발화문의 문장 구조 및 어휘에 미치는 영향에 대해서 살펴보고 재구성된 결과 발화문을 평가한다.

  • PDF

An Information Extraction Approach for Spoken Language Understanding in a Hostile Environment. (열악한 환경의 음성 언어 이해를 위한 정보 추출 접근 방식)

  • Eun, Ji-Hyun;Lee, Chang-Ki;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.20-24
    • /
    • 2004
  • 본 논문에서는 환경 잡음과 원거리 음성 입력 그리고 노인 발화 등의 열악한 음성 인식 환경에서의 음성 언어이해(spoken language understanding)를 위한 정보 추출 접근 방식에 대해 논하고 있다. 정보 추출의 목적은 미리 정의된 slot에 적절한 값을 찾는 것이다. 음성 언어 이해를 위한 정보 추출은 필수적인 요소만을 추출하는 것을 목적으로 하는 개념 집어내기(concept spotting) 접근 방식을 사용한다. 이러한 방식은 미리 정의된 개념 구조 slot에만 관심을 가지기 때문에. 음성 언어 이해에서 사용되는 정보 추출은 언어를 완전히 이해한다기보다는 부분적으로 이해하는 방식을 취하고 있다. 음성 입력 언어는 주로 열등한 인식 환경에서 이루어지기 때문에 많은 인식 오류를 가지고 이로 인해 텍스트 입력에 비해 이해하기 어렵다. 이러한 점을 고려하여, 특정 정보에 집중함으로써 음성 언어를 이해하고자 시도하였다. 도로 정보 안내 영역을 대상으로 한 실험에서 텍스트 입력(WER 0%)과 음성 입력(WER 39.0%)이 주어졌을 때, 개념 집어내기 방식의 F-measure 값은 각각 0.945, 0.823을 나타내었다.

  • PDF

Current States and Future Plans for Speech Corpora at SITEC (음성정보기술산업지원센터의 음성 코퍼스 구축 현황 및 계획)

  • Kim Bong-Wan;Lee Yong-Ju
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.49-52
    • /
    • 2002
  • 최근 컴퓨터와 인간간의 대화 수단으로 음성을 활용하는 기술인 음성정보기술이 발달함에 따라 대어휘 연속 음성 인식 및 무제한 어휘 음성 합성의 고도화를 위한 연구가 진행되고 있다. 음성합성의 경우에도 최근 대형의 음성 데이터 베이스로부터 임의 길이의 음성 부분을 골라내어 접속함으로써 좋은 합성 품질을 얻고 있다. 따라서 이러한 연구에 사용될 음성 코퍼스에 관한 요구와 관심이 높아지고 있다. 본 논문에서는 음성정보기술산업지원센터(SITEC)에서 구축중인 음성 코퍼스의 현황과 향후 계획에 관하여 보고한다. 방음실환경에서의 인식 및 합성 연구용 코퍼스, 아동용 음성 코퍼스, Dictation용 음성 코퍼스, 자동차내 소음 및 음성 코퍼스 등의 구축 내용이 소개된다.

  • PDF

Strategy for Implementing A Voice Web Browser Based WIPI (WIPI기반 음성 웹브라우저 구현 방안)

  • Yu Se-Young;Kim Byung-Ki
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2006.05a
    • /
    • pp.501-504
    • /
    • 2006
  • 인터넷 및 휴대폰들이 일반화되고 음성처리 기술이 실용화 단계로 발전함에 따라 음성 응용분야가 새로운 이슈로 떠오르고 있다. 음성처리 기술은 사람의 말을 알아들을 수 있는 귀와 사람에게 말을 할 수 있는 입을 마련해주는 새로운 분야다. 그리고, 음성으로 웹의 컨텐츠를 개발하기 위한 표준 언어인 VoiceXML, SALT가 빠르게 보급되고 있다. 음성인식과 음성합성 기술이 꾸준히 발전하여 음성 포털 서비스나 자동 음성 안내 시스템 등에 음성인식과 음성합성 기술이 채택되는 등 상용화 수준에 이르렀다. 사람에게 가장 편리한 정보 습득 방법은 음성이고 이러한 음성을 적용한 음성 웹 브라우저를 현재 유선 상에서 사용하고 있다. 하지만 아직까지 무선 플랫폼에 적용하여 사용하는 브라우저는 개발되지 않고 있다. 사용자에게 친숙한 무선인터넷 환경을 제공하고자 무선 음성 웹 브라우저를 구현방안을 제시하고자 한다.

  • PDF

A Design and Implementation of Speech Recognition Preprocessing System using Formant Frequency (포만트 주파수를 이용한 음성인식 전처리 시스템의 설계 및 구현)

  • 김태욱;한승진;김민성;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.198-200
    • /
    • 1999
  • 인간이 발성하는 음성에는 의미에 대한 정보 뿐만 아니라 화자의 성별에 따라 고유한 특성을 가지고 있다. 즉 음성은 고음이 강한 여성음성과 남성음성으로 분류할 수 있다. 그러나, 기존의 HMM을 이용한 음성인식시스템에서는 남성과 여성음성의 이러한 특성이 있음에도 불구하고 이를 고려하지 않고, 하나의 HMM으로 구성하고 있다. 본 논문에서 제시하는 알고리즘으로 실험한 결과 남성과 여성의 포만트 주파수가 100~30Hzck이가 나는 것을 알 수 있었고, 이러한 특성을 고려하여 남성과 여성의 음성을 구별할 수 있는 방법을 제안한다. 또한 남성과 여성음성을 각각 구분하여 GMM을 훈련시킨 후 인식과정에서 입력된 음성의 포만트 특성에 따라 남성음성이면 남성 HMM으로 여성음성이면 여성 HMM으로 인식을 수행함으로써 기존의 인식방법보다 남성음성은 5.2% 여성음성은 4.4% 향상된 결과를 얻었다.

  • PDF

Conformer-based Elderly Speech Recognition using Feature Fusion Module (피쳐 퓨전 모듈을 이용한 콘포머 기반의 노인 음성 인식)

  • Minsik Lee;Jihie Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.39-43
    • /
    • 2023
  • 자동 음성 인식(Automatic Speech Recognition, ASR)은 컴퓨터가 인간의 음성을 텍스트로 변환하는 기술이다. 자동 음성 인식 시스템은 다양한 응용 분야에서 사용되며, 음성 명령 및 제어, 음성 검색, 텍스트 트랜스크립션, 자동 음성 번역 등 다양한 작업을 목적으로 한다. 자동 음성 인식의 노력에도 불구하고 노인 음성 인식(Elderly Speech Recognition, ESR)에 대한 어려움은 줄어들지 않고 있다. 본 연구는 노인 음성 인식에 콘포머(Conformer)와 피쳐 퓨전 모듈(Features Fusion Module, FFM)기반 노인 음성 인식 모델을 제안한다. 학습, 평가는 VOTE400(Voide Of The Elderly 400 Hours) 데이터셋으로 한다. 본 연구는 그동안 잘 이뤄지지 않았던 콘포머와 퓨전피쳐를 사용해 노인 음성 인식을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 콘포머 모델보다 높은 수준의 정확도를 보임으로써 노인 음성 인식을 위한 딥러닝 모델 연구에 기여했다.

  • PDF

A Study on the Speech Recognition Reliability of Traffic Information ARS (교통정보 안내전화 음성인식 신뢰성에 대한 연구)

  • Han, Dae-Cheol;Moon, Hak-Yong;Ryu, Seung-Ki
    • Proceedings of the KIEE Conference
    • /
    • 2011.07a
    • /
    • pp.1246-1247
    • /
    • 2011
  • 지능형교통시스템(ITS) 구축 사업을 통해 수집된 소통정보, 대중교통정보 등의 교통관련 정보를 제공하기 위한 방법으로 교통정보 안내전화(ARS)를 적용하여 도로 이용자에게 교통정보를 제공하고 있다. 도로 이용자에게 보다 편리한 교통정보 서비스를 제공하기 위한 일환으로 교통정보 안내전화(ARS)에 음성인식을 적용하고 있다. 그러나 초기 ARS에 음성인식을 적용한 결과 음성인식 성공률은 상당히 높은 것으로 나타났으나, 이용자가 증가하여 샘플링 수가 증가함에 따라 음성 인식 성공률은 점차 저하되고 있는 실정이다. 이를 해결하기 위한 방안으로 충분한 샘플링을 확보하여 주기적이고 지속적인 음성인식에 대한 튜닝을 실시하여 음성인식에 대한 성공률을 향상 시킬 필요가 있다.

  • PDF

Post Correction of Speech Recognition using Discourse Information (담화 정보를 이용한 음성 인식 후처리)

  • Kim, Ju-Hee;Kang, Sang-Woo;Seon, Choong-Nyoung;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.147-151
    • /
    • 2010
  • 본 연구는 대화 시스템에서 처리되는 사용자 발화의 의도 분석 기법과 담화 정보를 사용하여 음성 인식 결과로서의 인식 후보 문장들을 재순위하는 방법을 제안한다. 담화 정보는 사용자 발화의 의도 분석에 매우 중요한 자질로 사용되고 있기 때문에 음성 인식 결과들의 후보를 선택하는 문제에서도 담화 정보는 매우 중요한 자질로 사용될 수 있다. 음성 인식 결과의 후보 문장들을 모두 의도 분석 과정을 거치고 각각의 후보 의도들과 이전 담화 정보의 연관성을 이용하여 음성 인식 결과를 재순위화 한다. 실험을 통하여 재순위 과정을 수행한 결과 1순위 음성 인식 결과는 재순위 과정을 거치지 않는 결과에 비해 7.08%의 오류 감소율을 보였다.

  • PDF

Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition (이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출)

  • Shin, Min-Hwa;Park, Ji-Hun;Kim, Hong-Kook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2010.07a
    • /
    • pp.150-151
    • /
    • 2010
  • 본 논문에서는 잡음환경에서의 이중채널 음성인식을 위한 통계모델 기반 음성구간 검출 방법을 제안한다. 제안된 방법에서는 다채널 입력 신호로부터 얻어진 공간정보를 이용하여 음성 존재 및 부재 확률모델을 구하고 이를 통해 음성구간 검출을 행한다. 이때, 공간정보는 두 채널간의 상호 시간 차이와 상호 크기 차이로, 음성 존재 및 부재 확률은 가우시안 커널 밀도 기반의 확률모델로 표현된다. 그리고 음성구간은 각 시간 프레임 별 음성 존재 확률 대비 음성 부재 확률의 비를 추정하여 검출된다. 제안된 음성구간 검출 방법의 평가를 위해 검출된 구간만을 입력으로 하는 음성인식 성능을 측정한다. 실험결과, 제안된 공간정보를 이용하는 통계모델 기반의 음성구간 검출 방법이 주파수 에너지를 이용하는 통계모델 기반의 음성구간 검출 방법과 주파수 스펙트럼 밀도 기반 음성구간 검출 방법에 비해 각각 15.6%, 15.4%의 상대적 오인식률 개선을 보였다.

  • PDF

음성 합성 및 발성 변환 기술

  • 김종국;이기영;배명진
    • The Magazine of the IEIE
    • /
    • v.31 no.6
    • /
    • pp.52-62
    • /
    • 2004
  • 음성은 인간과 인간의 의사소통 수단으로 가장 편리하게 사용되는 매체이다. 음성 중에는 여러 가지 정보가 포함되어 있지만 가장 기본적이고 중요한 것이 의미정보 즉 언어적 정보이다. 또한 음성에는 누가 말하고 있는가를 나타내는 개인성 정보, 말하는 사람의 감정을 전해주는 정서 정보 등이 있다.(중략)

  • PDF