• 제목/요약/키워드: digital speech communication

검색결과 91건 처리시간 0.022초

자연음 TTS(Text-To-Speech) 엔진 구현 (Implementation of TTS Engine for Natural Voice)

  • 조정호;김태은;임재환
    • 디지털콘텐츠학회 논문지
    • /
    • 제4권2호
    • /
    • pp.233-242
    • /
    • 2003
  • TTS(Text-To-Speech) 시스템은 텍스트 문장을 자연스러운 음성으로 출력하는 시스템이다. 자연스러운 음성을 출력하기 위해서 언어에 대한 전문적 지식을 비롯하여 많은 시간과 노력이 요구된다. 또한 영어의 음운 변환은 음소에 따라 형태소에 따라 의미에 따라 다양한 변환을 가진다. 이를 일괄적으로 처리하기란 매우 힘든 일이다. 이러한 문제들을 해결하기 위하여 모음과 자음의 변화의 규칙을 적용한 시스템을 구현한다. 이 시스템은 문장의 분석을 통해 분류하고 음소 규칙 데이터를 통해 자연스러운 음성을 출력하게 되는 이전 과정을 통해 특수문자나 숫자 등을 정규화하여 처리한다. 이렇게 처리된 문자 데이터를 운율규칙을 통해 최종 출력한다. 그 결과, 40개의 음소 규칙 데이터를 통해 보다. 정확한 음성을 출력할 수 있었으며, 시스템의 효율성도 높였다. 본 논문에서 제시한 시스템은 각종 통신장비와 자동화기기에 적용하여 다양한 분야에 활용될 수 있을 것이다.

  • PDF

난청인을 위한 문자통역서비스 제도화 연구 (A study on the Institutionalization of Speech-to-text Services for the Deaf People)

  • 전동일;서정민
    • 디지털융복합연구
    • /
    • 제15권4호
    • /
    • pp.53-63
    • /
    • 2017
  • 본 연구는 난청인의 의사소통 증진을 위하여 문자통역서비스 활용 현황과 제도화 방안을 찾아보는데 있다. 연구결과는 첫째, 조사 대상자의 문자통역서비스 이용경험자는 17.8% 수준이었고 젊은 층일수록 이용경험률이 높았다. 문자통역서비스 제공기관은 복지기관(38.3%), 민간단체(18.3%), 공공기관(18.3%) 순이었다. 문자통역서비스를 위해 필요한 제도방안을 제시하면 다음과 같다. 첫째, 문자통역서비스는 "장애인차별금지 및 권리구제 등에 관한 법률"의 정당한 편의 중의 하나라는 것을 적극 홍보해야 한다. 둘째, "장애인복지법"의 일부 조항에 문자통역서비스를 추가 열거해 주어야 한다. 셋째, 난청인을 위한 서비스를 제공하기 위한 전달체계가 마련되어야 하며, 수화통역서비스와 복지서비스를 통합적으로 제공할 수 있도록 정비되어야 한다. 대면 접촉을 위한 문자통역서비스 방식의 개선방안이나 ICT를 활용하여 문자통역서비스를 발전시킬 수 있다면, 직업재활에서의 새로운 장애 근로자의 유입뿐만 아니라 난청인의 삶의 만족도 개선될 수 있을 것이다.

주파수가중 스펙트럼성형필터와 위너필터를 결합한 음성 스펙트럼 강조 (Speech Spectrum Enhancement Combined with Frequency-weighted Spectrum Shaping Filter and Wiener Filter)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제20권10호
    • /
    • pp.1867-1872
    • /
    • 2016
  • 디지털신호처리 분야에서 다양한 환경에서 존재하는 배경잡음을 제거하여 음성신호의 품질을 개선시키는 것은 반드시 필요한 문제이다. 음향학적으로 배경잡음을 제거할 때 고려해야 할 중요한 점은 인간의 청각기전이 주로 음성의 진폭 스펙트럼의 정보에 의존하여 문제 해결을 하고 있다는 사실이다. 본 논문에서는 음성의 진폭 스펙트럼의 추출을 주요 목적으로 하는 주파수가중 스펙트럼성형필터의 특성을 도입한다. 따라서 본 논문에서는 배경잡음으로 중첩된 음성신호 성분 중에 이 진폭 스펙트럼 정보를 추출하여, 위너 필터법과 음향학적인 모델에 의한 주파수가중 스펙트럼성형필터를 사용한 알고리즘을 제안한다. 본 실험에서는 스펙트럼 왜곡률(SD)에 의하여 제안한 알고리즘의 출력 SD가 기존의 다른 방법과 비교하여 약 5.28 dB 이상 개선되었다.

TETRA 시스템을 위한 안전한 소그룹과 그룹통신 서비스 (Secure Subgroup and Group Communication Service for TETRA System)

  • 이수연;정진욱
    • 융합보안논문지
    • /
    • 제3권1호
    • /
    • pp.31-37
    • /
    • 2003
  • 무선통신 시스템의 표준으로 되어있는 TETRA(Trans-European Trunked RADIO) 시스템의 그룹 서비스와 소그룹 서비스의 안전한 통신을 위한 모델을 제안한다. 먼저, TETRA 시스템의 통신 서비스를 위해 인가된 구성원만이 데이터를 수신할 수 있어야하므로 안전한 브로드캐스팅 기술이 필요하다. 따라서, 본 논문에서 제안한 모델을 적용하면 소그룹 내부적으로 안전한 TETRA 통신 서비스를 위해 소그룹 키를 공유하고 그룹 내에서 이루어지는 TETRA 그룹통신 서비스를 위해 인가된 모든 구성원들이 안전하게 그룹 키를 공유하게 된다. 또한, TETRA 시스템의 통신서비스에서 그룹통신을 행함과 동시에 소그룹통신이 가능하게 된다.

  • PDF

Development of a Cryptographic Dongle for Secure Voice Encryption over GSM Voice Channel

  • Kim, Tae-Yong;Jang, Won-Tae;Lee, Hoon-Jae
    • Journal of information and communication convergence engineering
    • /
    • 제7권4호
    • /
    • pp.561-564
    • /
    • 2009
  • A cryptographic dongle, which is capable of transmitting encrypted voice signals over the CDMA/GSM voice channel, was designed and implemented. The dongle used PIC microcontroller for signals processing including analog to digital conversion and digital to analog conversion, encryption and communicating with the smart phone. A smart phone was used to provide power to the dongle as well as passing the encrypted speech to the smart phone which then transmits the signal to the network. A number of tests were conducted to check the efficiency of the dongle, the firmware programming, the encryption algorithms, and the secret key management system, the interface between the smart phone and the dongle and the noise level.

DESIGN OF DESIRABLE LOUDNESS RATINGS FOR ISDN TELEPHONE

  • Hong, Jin-Woo;Kang, Kyeong-Ok;Kang, Seong-Hoon
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.1070-1075
    • /
    • 1994
  • This paper describes the method for designing loudness ratings as transmission quality for ISDN telephone connected to fully digital network. To design the desirable loudness ratings for ISDN telephone, the model system of digital speech communication for subjective test is developed and opinion tests for establishing the optimal CODEC input level, the range of overall loudness rating, and sidetone masking rating are performed. As the results, the desirable ranges of loudness ratings are proposed as 6 to 8dB for sending, 0 to 2dB for receiving, and 10 to 14dB for sidetone masking rating.

  • PDF

디지털 휴먼을 활용하여 교수-학생 상호작용을 촉진시키는 학습지원 시스템 구현 (Implementation of a Learning Support System that Facilitates Teacher-Student Interaction Utilizing a Digital Human)

  • 정규성;임찬형;이해찬;부라윤;설순욱
    • 실천공학교육논문지
    • /
    • 제14권3호
    • /
    • pp.523-533
    • /
    • 2022
  • 코로나19 팬데믹을 지나면서 동영상 수업과 실시간 온라인 교육은 활성화되었지만 교수자와 학습자 간의 상호작용 부족 문제는 여전히 해결해야 할 과제로 남아 있다. 본 논문은 실시간 온라인 수업의 교육 효과와 만족도를 높이는데 중요한 역할을 하는 상호작용의 문제를 개선하기 위해 디지털 휴먼을 활용하는 학습지원 시스템을 설계하고 구현한다. 본 논문에서 디지털 휴먼은 수업에 참여하는 가상의 학습자로서 다른 학습자들이 익명 채팅 시스템을 통해 등록한 질문을 교수자에게 대신 질문해 준다. 또한, 수업의 조력자로서 교수자가 강의하는 음성 메시지를 실시간으로 분석하여 학습자에게 수업의 요약본 형태로 제공함으로써 상호작용을 촉진한다. 제안한 시스템이 실제 온라인 실시간 수업에 활용 가능한지 검증하기 위해 Zoom 수업에 적용한다. 실험 결과 디지털 휴먼 기반의 학습지원시스템을 통하여 촉진된 질의응답과 실시간 수업 요약이 성공적으로 제공됨을 보인다.

회의실의 명료성(STI) 향상을 위한 오디오신호 처리 및 시스템 설계 (Audio Signal Processing and System Design for improved intelligibility in Conference Room)

  • 강철용;이석주;조광연;이선희
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.225-232
    • /
    • 2017
  • 최근에 오디오 신호의 디지털 전송기술의 발전 및 디지털 전송기술을 이용한 오디오 네트워크 장비들의 출시가 이루어지고 있다. 이에 따라 음향시스템의 설계 및 시공에 있어서도 오디오 네트워크 기술 및 장비의 적용이 적극적으로 이루어지고 있다. 회의실이라는 공간은 다수의 참가자가 상호의견교환 및 의사전달을 하는 공간으로, 발언내용이 참석자에게 잘 전달되어야 한다. 마이크 및 스피커 등의 전기음향 장치를 이용하는 것 만 아니라 오디오 네트워크를 이용한 사례를 통해 회의실의 명료도 향상을 개선하고 실제 사례를 통해 오디오 네트워크를 이용한 음향시스템 설계의 적용과 향후 발전방향을 전망한다.

코덱 입력레벨을 이용한 디지털 전화기의 송화음량정격 설계 (The establishment of sending loudness rating for digital telephone using the input level of CODEC)

  • 홍진우;장대영
    • 한국통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.326-332
    • /
    • 1996
  • 본 논문은 음량정격의 평가척도를 적용하여 디지털 음성통신 서비스 단말기인 디지털 전화기의 통화품질을 연구한 것으로서 디지털 전화기의 송화음량정격을 설계하는 방법을 제시하고 바람직한 전송특성의 범위를 제시하였다. 송화음량정격을 설계하기 위해서 디지털 전화기의 코덱 입력레벨을 최적으로 규정하기 위한 주관평가 실험이 수행되었다. 실험 결과로 부터 70dBspl의 청취레벨에서 -12dB~-18dB 사이의 코덱 입력레벨이 코덱의 양자화 잡음이나 왜곡을 유발하지 않는 것으로 나타났으며, 최적의 코덱 입력레벨은 -15dB임을 알 수 있었다. 이 결과를 디지털 전화기의 송화감도에 적용하여 디지털 전화기의 바람직한 통화품질을 설정하기 위한 송화음량정격의 범위는 6.2dB 이상으로 설계되어야 함을 확인하였다.

  • PDF

소프라노 1인의 모음곡 발성 시 제 1 포먼트의 변화양상 (The First Formant Characteristics in Vocalize of One Soprano)

  • 송윤경;진성민
    • 대한후두음성언어의학회지
    • /
    • 제16권1호
    • /
    • pp.10-14
    • /
    • 2005
  • Background and Objectives : Vowels are characterized on the basis of formant patterns. The first formant(F1) is determined by high-low placement of the tongue, and the second formant (F2) by front-back placement of the tongue. The fundamental frequency(F0) of a soprano often exceed the normal frequency of the first formant. And the vocal intensity is boosted when F0 is high and a harmonic coincides with a formant. This is called a formant tuning. Experienced singers thus learned how to tune their formants over a resonable range by lowering the tongue to maximize their vocal intensity. So, the current study aimed to identify the formant tuning in one experienced soprano by comparing the first formants of vowel [i] in three different voice production : speech, ascending scale, and vocalize. Materials and Method : All voices recordings of vowel [i] in speech, ascending scale (from F4 note to A4 note), and vocalize(:Ridente la calam") were made with digital audio tape-corder in a sound treated room. And the captured data were analyzed by the long term average(LTA) power spectrum using the FFT algorithm of the Computerized Speech Lab(CSL, Kay elementrics, Model, 4300B). Results : Although the first formant of vowel [i] in speech was 238Hz, those of ascending scale [i] were 377Hz, 405Hz, 453Hz respectively in F4(349z), G4(392Hz), A4(440Hz) note, and 722Hz, 820Hz, 918Hz respectively in F5 (698Hz), G5(784Hz), A5(880Hz) note. In vocalize, first formants of [i] were 380Hz, 398Hz, 453Hz respectively in F4, G4, A4 note, and 720Hz, 821Hz, 890Hz respectively in F5, G5, A5 note. Conclusion : These results showed that the first formant of ascending scale and vocalize sustained higher frequency than fundamental frequency in high pitch. This finding implicates that the formant tuning of vowel [i] in ascending scale was also noted in vocalize.

  • PDF