• 제목/요약/키워드: voice problem

검색결과 338건 처리시간 0.028초

신뢰성있는 화상회의를 위한 CTI System 설계 (The Design of a CTI System for reliable video-conference)

  • 이종열;정현우;박원배
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(1)
    • /
    • pp.225-228
    • /
    • 2000
  • In this paper, a design of the reliable video-conference system using CTI(Computer Telephony Integration) technology is proposed. When video-conference is run on the current existing Internet, the transmission delay problem for voice data traffic can be frequently occurred. In order to transmit the real-time voice data through the Internet efficiently, some complicated algorithms such as CODEC(Code/Decode) should be applied. It can cause further excessive processing delay which can affect the overall performance. The voice traffic is usually transmitted through the reliable PSTN(Public Switched Telephone Network) in the CTI system. In this paper a new architecture, in which PSTN for voice traffic and Internet for video traffic are used at the same time instead of using Internet by itself, is proposed to relieve the problems on a video conference.

  • PDF

이종 무전기의 통신접속지연차에 따른 음성통신성능 개선 연구 (Heterogeneous Study of Voice Communication Delay According to Connection Delay Difference of Heterogeneous Radios)

  • 박진희;이순화
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.29-35
    • /
    • 2013
  • 우리나라 재난관리 기관에서는 재난발생시 대응활동을 위해 이종의 재난통신 무전기를 사용하고 있다. 이러한 무전기들은 통신 방식에 따라 각기 다른 통신접속지연을 보이므로 이들 간에 원활한 음성통신을 위해서는 시간차에 따른 보정기술이 필요하다. 이에 본 논문에서는 아날로그와 디지털 그리고 직접 통신과 기지국 통신에 따른 각각의 통신지연에 따른 무전기간 음성 전송권 획득 및 음성데이터의 손실 문제를 해결하기 위한 방안을 제시하였다.

음원 파라미터 모델과 인공신경망을 이용한 음성장애 검출 (Screening of Voice Disorder using Source Parameter Model and Artificial Neural Network)

  • 파벨시틸;조철우;미샤파벨
    • 음성과학
    • /
    • 제15권2호
    • /
    • pp.89-97
    • /
    • 2008
  • There is a number of clinical conditions that affect directly or indirectly the physical properties of the vocal folds and thereby the pressure waveforms of elicited sounds. If the relationships between the clinical conditions and the voice quality are sufficiently reliable, it should be possible to detect these diseases or disorders. The focus of this paper is to determine the set of features and their values that would characterize the speaker's state of vocal folds. To the extent that these features can capture the anatomical, physiological, and neurological aspects of the speaker they can be potentially used to mediate an unobtrusive approach to diagnosis. We will show a new approach to this problem supported with results obtained from two disordered voice corpora.

  • PDF

항공기에서 보안 강화된 음성 데이터 저장 방식 (A Security-Enhanced Storing Method for the Voice Data in the Aircraft)

  • 조승훈;서정배;문용호
    • 대한임베디드공학회논문지
    • /
    • 제6권4호
    • /
    • pp.255-261
    • /
    • 2011
  • In this paper, we propose a security-enhanced storing method for the voice data obtained during the flight. When an emergency occurs during flight, the flight data in the storage device such as DTS or Blackbox can be exposed to antagonist or enemy. Currently, zeroize function is embedded in these devices in order to prevent this situation. However, this could not be operated if the system is malfunctioned or the pilot is wounded in the emergency. In order to solve this problem, the voice data compressed by the ADPCM is encrypted in the proposed method composed of the AES algorithm and a reordering method. The simulation results show that the security for the voice date is further enhanced due to the proposed method.

데이터 증강기법을 이용한 음성 위조 공격 탐지모형의 성능 향상에 대한 연구 (Data augmentation in voice spoofing problem)

  • 최효정;곽일엽
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.449-460
    • /
    • 2021
  • 본 논문에서는 음성위조공격탐지(Voice spoofing detection) 문제에 데이터 증강을 적용한다. ASVspoof 2017은 리플레이 공격 탐지에 대해 다루며 진짜 사람의 음성과 환경이나 녹음·재생 장치의 조건들을 다르게 하여 위조한 가짜 음성을 분류하는 것을 목적으로 한다. 지금까지 이미지 데이터에 대한 데이터 증강 연구가 활발히 이루어졌으며 음성에도 데이터 증강을 시도하는 여러 연구가 진행되어왔다. 하지만 음성 리플레이 공격에 대한 데이터 증강시도는 이루어지지 않아 본 논문에서는 데이터 증강기법을 통한 오디오 변형이 리플레이 공격 탐지에 어떠한 영향을 미치는지에 대해 탐구해본다. 총 7가지의 데이터 증강기법을 적용해보았으며 그 중 DVC, Pitch 음성 증강기법이 성능향상에 도움되었다. DVC와 Pitch는 기본 모델 EER의 약 8% 개선을 보여주었으며, 특히 DVC는 57개의 환경변수 중 일부 환경에서 눈에 띄는 정확도 향상이 있었다. 가장 큰 폭으로 증가한 RC53의 경우 DVC가 기본 모델 정확도의 약 45% 향상을 이끌어내며 기존에 탐지하기 어려웠던 고사양의 녹음·재생 장치를 잘 구분해냈다. 본 연구를 토대로 기존에 증강기법의 효과에 대한 연구가 이루어지지 않았던 음성 위조 탐지 문제에서 DVC, Pitch 데이터 증강기법이 성능 향상에 도움이 된다는 것을 알아내었다.

저시력자를 위한 모바일 보이스 웹 브라우저 개발 (Mobile Voice Web Browser for the Low Vision)

  • 박주현;이한나;신지은;동서연;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제23권11호
    • /
    • pp.1418-1427
    • /
    • 2020
  • The web has become indispensable in all of our daily lives. We communicate, study and get information with others through the web. This behavior also continues in the smart phone environment. The biggest problem is that the small display screen of a smart phone degrades the accuracy in selecting or manipulating content for people with low vision. To compensate for this, voice guidance services that combine touch and voice, such as VoiceOver and Talkback, are currently provided to smart phone devices. However, restrictions arise in GUI, TTS control problems, and content expansion and selection. In addition, unnecessary content is also output by voice, which causes fatigue for low vision people to use. In this study, we propose a mobile web browser interface that selects and enlarges a desired area from web browsers and contents, or outputs it as a voice so that people with low vision can easily use the mobile web browser. In this paper, we propose a context selective focusing function that enables selection for each element of web content. In addition, we intend to develop a mobile voice web browser that can enlarge the selected content or output it by voice.

후두 전 절제 환자에서 음성재활을 위한 기관식도발성 (Tracheoesophageal Shunt Voice in Total Laryngectomee)

  • 왕수건;장선미
    • 대한후두음성언어의학회지
    • /
    • 제19권1호
    • /
    • pp.21-27
    • /
    • 2008
  • Total laryngectomy is the most useful procedure tor advanced laryngopharyngeal cancer, but it remains the major problem such as loss of voice. Voice restoration is essential for every patients who undergo a total laryngectomy. Ideal voice rehabilitation methods can resolve three factors. First, every laryngectomee can produce voice sufficient for communication, second every patient should be allowed to use both hands freely during phonation, and last, the voice restoration methods should be easy and safe without complication during and after treatment. Among various voice rehabilitation procedures during or after total laryngectomy, it can be divided electronic and pneumatic methods. In pneumatic methods, there are also divided both pulmonary air and non-pulmonary air methods. The non-pulmonary air methods include esophageal speech, buccal speech, and pharyngeal speech. Pulmonary air methods are divided into surgical and non-surgical such as pneumatic speech aid. In the surgical methods, there are neoglottic operation, tracheopharyngeal shunt, and tracheopharyngeal shunt operations. Recently, tracheoesophageal shunt with or without prosthesis are being recognized the most effective method. Blom-Singer low pressure prosthesis, Panje button, and Provox are well known types of prosthesis in the tracheoesophageal shunt operation. Amatsu method is a kind of famous tracheoesophageal shunt method without using prosthesis. Authors tried to review the published articles for evaluation of effectiveness and problems of tracheoesophageal shunt operation with or without prosthesis. In conclusion, indwelling type of prosthesis and pharyngeal myotomy and plexus neurectomy are recommended for higher success rate during tracheoesophageal puncture procedure. More over, Amatsu method is also one of the recommended voice rehabilitation procedure during total laryngectomy. In this situation, pharyngeal myotomy and plexus neurectomy may be helpful for better fluent communication.

  • PDF

Phonetic Posterior Grams에 의해 조건화된 적대적 생성 신경망을 사용한 음성 변환 시스템 (Voice Conversion using Generative Adversarial Nets conditioned by Phonetic Posterior Grams)

  • 임진수;강천성;김동하;김경섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.369-372
    • /
    • 2018
  • 본 논문은 매핑 되지 않은 입력 음성과 목표음성 사이에 음성 변환하는 비 병렬 음성 변환 네트워크를 제안한다. 기존 음성 변환 연구에서는 변환 전후 스펙트로그램의 거리 오차를 최소화하는 방법을 주로 학습 한다. 이러한 방법은 MSE의 이미지를 평균 내는 특징으로 인하여 생성된 스펙트로그램의 해상도가 저하되는 문제점이 있었다. 또한, 병렬 데이터를 사용해 연구를 진행했기 때문에 데이터를 수집하는 것에도 어려움이 많았다. 본 논문에서는 입력 음성의 발음 PPGs를 사용하여 비 병렬 데이터 간 학습을 진행 하며, GAN 학습을 통해 더욱 선명한 음성을 생성하는 방법을 사용하였다. 제안한 방법의 유효성을 검증하기 위해서 기존 음성 변환 시스템에서 많이 사용하는 GMM 기반 모델과 MOS 테스트를 진행하였으며 기존 모델에 비하여 성능이 향상되는 결과를 얻었다.

  • PDF

이종 기기 간 음성통신을 위한 자동전환장치의 구현 (Implementation of the automatic switching device for the voice communications between heterogeneous devices)

  • 류창국;이배호
    • 한국전자통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.1321-1328
    • /
    • 2015
  • 무전기의 음성통신은 PTT(: Push To Talk)를 이용한 반이중(half-duplex) 방식으로, 송신 시 단일 통화선로를 점유한다. 전화와 무전기간, UHF와 VHF 간의 인터페이스와 같이 서로 다른 이종 장치 간 음성통신을 위해서는 두 장치간의 자동전환장치가 요구되고, 이 장치는 입력 신호로부터 전송해야 할 음성을 검출하는 음성전환장치의 성능에 따라 전송되는 음성신호의 손실여부에 많은 영향을 받는다. 기존방식은 단순 입력신호의 크기 즉, 에너지 레벨을 통해 기준을 정함으로써 잡음에도 반응하는 문제점을 지니고 있다. 본 논문에서는 음성신호처리기법을 이용하여 입력된 신호가 음성임을 판별함으로써, 이종 기기 사이의 음성을 자동으로 전달하는 장치를 구현하였다. 이를 통해 음성 자동전환장치의 성능향상을 확인하였고, 이종 기기 간 음성 손실 없는 전송을 수행할 수 있었다.

음성녹음 기반의 실감형 어학시스템 콘텐츠 개발 (Development of tangible language content system based on voice recording)

  • 나종원
    • 한국항행학회논문지
    • /
    • 제17권2호
    • /
    • pp.234-239
    • /
    • 2013
  • 기존의 어학시스템 콘텐츠의 문제점은 수업에 대한 집중력 저하와 실제 학습여부를 판단할 수 없었고, 수업 진행자의 평가로 많은 결정이 되었다. 이로 인해 음성녹음 기반에 유비쿼터스 기술과 가상현실 기술을 조합하여 강의실에 프로젝터를 설치하고 각 강의실의 RFID 리더기 부착과 학생의 RFID 태그 부착된 학생증을 통해 영어 등급에 해당하는 콘텐츠를 학습한다. 3차원 영상 콘텐츠로 가상 현실상의 외국인과의 질의응답을 음성녹음 기술을 이용하여 발음과 억양을 동시에 체크 하여 레벨 패스 또는 레벨 실패를 판가름 한다. 이렇게 구성된 시스템은 학생 교육 데이터를 중앙 서버에 DB로 저장후 피드백 과정을 통해 정보를 제공하게 된다. 본 연구로 어학 콘텐츠에서 공통적으로 가질 수 있는 문제점들을 분석하고 문제점에 대하여 음성 녹음기술을 적용하여 기존의 어학콘텐츠에서 해결하지 못했던 문제점을 해결하였고 레벨위주의 수업이 가능하였다. 또한, 흥미위주의 적극적인 수업참여가 되도록 기여하였다.