• 제목/요약/키워드: human voice

검색결과 354건 처리시간 0.054초

음성 비식별화 모델과 방송 음성 변조의 한국어 음성 비식별화 성능 비교 (Comparison of Korean Speech De-identification Performance of Speech De-identification Model and Broadcast Voice Modulation)

  • 김승민;박대얼;최대선
    • 스마트미디어저널
    • /
    • 제12권2호
    • /
    • pp.56-65
    • /
    • 2023
  • 뉴스와 취재 프로그램 같은 방송에서는 제보자의 신원 보호를 위해 음성을 변조한다. 음성 변조 방법으로 피치(pitch)를 조절하는 방법이 가장 많이 사용되는데, 이 방법은 피치를 재조절하는 방식으로 쉽게 원본 음성과 유사하게 음성 복원이 가능하다. 따라서 방송 음성 변조 방법은 화자의 신원 보호를 제대로 해줄 수 없고 보안상 취약하기 때문에 이를 대체하기 위한 새로운 음성 변조 방법이 필요하다. 본 논문에서는 Voice Privacy Challenge에서 비식별화 성능이 검증된 Lightweight 음성 비식별화 모델을 성능 비교 모델로 사용하여 피치 조절을 사용한 방송 음성변조 방법과 음성 비식별화 성능 비교 실험 및 평가를 진행한다. Lightweight 음성 비식별화 모델의 6가지 변조 방법 중 비식별화 성능이 좋은 3가지 변조 방법 McAdams, Resampling, Vocal Tract Length Normalization(VTLN)을 사용하였으며 한국어 음성에 대한 비식별화 성능을 비교하기 위해 휴먼 테스트와 EER(Equal Error Rate) 테스트를 진행하였다. 실험 결과로 휴먼 테스트와 EER 테스트 모두 VTLN 변조 방법이 방송 변조보다 더 높은 비식별화 성능을 보였다. 결과적으로 한국어 음성에 대해 Lightweight 모델의 변조 방법은 충분한 비식별화 성능을 가지고 있으며 보안상 취약한 방송 음성 변조를 대체할 수 있을 것이다.

다양한 언어 정보를 이용한 음소 단위 억양 및 VoiceXML 문서 생성 (Diphone-based Intonation and VoiceXML document Generation using Multi-dimensional Linguistic Information)

  • 이화진;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-76
    • /
    • 2002
  • 최근 음성 합성 과정에서 화자의 의도를 가장 많이 반영하는 언어 정보인 문맥 정보를 사용하려는 시도가 이루어지고 있으나 문맥 정보를 적은 비중으로 사용하기 때문에 자연성 향상에 큰 도움을 주지 못하고 있다. 본 연구에서는 구문 정보, 의미 정보를 억양 생성 과정에 이용함과 동시에 문맥 정보와 음성 정보와의 관계를 음성 데이터를 바탕으로 분석하여 다양한 문맥 정보를 음성 합성 과정에 반영하는 방법을 제안한다. 또한 한국어에서 나타나는 다양한 억양 곡선 유형을 형태소를 이용하여 의다 효율적으로 처리할 수 있는 방법을 제안하여 자연스러운 억양 생성 시스템을 구현하고 시스템의 결과를 음소 단위 억양 생성기와 VoiceXML을 이용하여 적용시켜보고 결과를 논의한다.

  • PDF

VoiceXML을 이용한 VUI 지원 웹브라우저 개발 (Development of a Voice User Interface for Web Browser using VoiceXML)

  • 예상후;장민석
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권2호
    • /
    • pp.101-111
    • /
    • 2005
  • 현재의 웹정보들은 주로 HTML로 기술되어 있으며, 이러한 정보를 얻기 위해 사용자들은 마우스와 키보드와 같은 입력장치를 사용한다. 이와 같이 기존의 GUI 환경은 인간의 가장 자연스러운 정보획득 수단의 하나인 음성을 지원하지 못하고 있다. 이러한 문제를 해결하기 위해 음성 인터페이스를 가진 여러 제품들이 개발되고 있다. 하지만 이들은 상호대화성이나 기존 웹환경을 수용한다는 측면에서 부족한 면을 가지고 있다. 본 논문에서는 현재 무르익어 가는 음성인식 기술과 XML의 파생언어인 VoiceXML을 이용하여, 기존의 인터페이스 환경을 XML 기반의 대화형 음성인터페이스 환경으로 대체하고자 한다. 이를 통해 기존의 인터페이스 환경을 수용한 VUI(Voice User Interface) 환경을 사용자에게 제공할 수 있다. 기존의 환경을 수용하기 위해 "XML Island" 기술을 이용하여 VoiceXML 문서를 HTML 문서에 포함시키며, 대표적인 정보획득화면인 메뉴, 게시판, 검색 엔진에 대한 대화형 음성 시나리오를 제안하고 있다.

초서의 이야기하기 -바흐친의 개념을 통해 본 「서생의 이야기」 (Chaucer's Storytelling: The Clerk's Tale in Terms of Bakhtin's Concept)

  • 이동춘
    • 영어영문학
    • /
    • 제53권2호
    • /
    • pp.281-306
    • /
    • 2007
  • M. M. Bakhtin's dialogic concept of multi-voiced discourse allows us to open up the text of The Clerk's Tale and to account for its radical heterogeneity. Once we recognize the multi-voiced character of The Clerk's Tale, then what was heretofore regarded as discontinuous or ignored can be seen as the clash of several different world-views. Such a conceptual framework gives an added depth and scope to such thematic subjects as sovereignty, the status of women, and rhetorical style. There are three different and antagonistic voices involved in the tale's narration. These voices project different viewpoints or world-views, and they consequently engage each other in a polemic debate. Their relationship with each other is discontinuous and dialectical rather than continuous and harmonious. The first voice is the Petrarchan voice of moral allegory, which is the voice of tradition, authority, and high seriousness. This voice of moral allegory regards the story of Griselda as an exemplum of spiritual constancy and virtuous suffering. The second voice is the Clerkly voice of pathos based on human experience and feeling. This voice is defined by the Clerk's asides and apostrophes interspersed in the narrative proper, which function to engage the Petrarchan voice in a polemical debate. The third voice is the voice of parody, nominally identified with Chaucer the poet, which is located in the second ending, including Envoy. Whereas the other two voices are earnest and serious, the voice of parody is irrelevant, playful and antagonistic to both the Petrarchan voice of moral allegory and the Clerkly voice of secular humility.

한의학에서 음성 진단의 현황과 전망에 관한 연구 (A review of the voice diagnosis studies in Oriental medicine)

  • 조신웅;박영배;박영재
    • 대한한의진단학회지
    • /
    • 제12권2호
    • /
    • pp.18-26
    • /
    • 2008
  • Purpose : To review studies about voice diagnosis in orieltal medicine Method : The papers reviewed in this study were searched through internet search engines. For chinese studies, China National Knowledge Infrastructure(www.cnki.net) was the main source of the information and the key words for Voice diagnosis studies were "(語聲)", "(聲診)", and (TCM). Conclusions : In Oriental Medicine, There are two ways to research about voices. One way is to research through philological consideration with subjectical and experimental diagnosis & studies as human bowel related in traditional studies. The other way is to research through Computerized Speech Lab(CSL), differential diagnosis for Sasang constitution and disease.

  • PDF

PDA 기반 무선 보이스 메신저 설계 및 구현 (Design and Implementation of a Wireless Voice Messenger on Personal Digital Assistants(PDAs))

  • 이용일;신준호;허혜선;홍윤식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (중)
    • /
    • pp.1471-1474
    • /
    • 2002
  • 최근 모바일 컴퓨팅은 계속적인 초소형 모바일 단말기의 출시와 다양한 응용 프로그램의 개발로 산업 전반에 영향을 주고 있다. 동시에 모바일 장비와 무선 네트워크는 서로 불가분의 관계로 이들에 대한 관심과 기대가 커지면서 모바일 컴퓨팅 및 무선 네트워크 기술도 향상되고 있다. 본 논문은 사용자가 지속 적으로 증가되고 모바일 장비인 PDA 에 무선 랜 카드를 장착하여 무선 인터넷에 접속하여, 일정 반경의 인트라넷 안에서 이동하면서 PDA 간에 자신의 음성(voice) 메시지를 송수신할 수 있는 보이스 메신저 시스템을 설계 및 구현하였다.

  • PDF

인간과 로봇 협력작업을 위한 로봇 지능제어알고리즘 개발에 관한 연구 (A Study on Intelligent Control Algorithm Development for Cooperation Working of Human and Robot)

  • 이우송;정양근;박인만;정종교;김희진;김민성;한성현
    • 한국산업융합학회 논문집
    • /
    • 제20권4호
    • /
    • pp.285-297
    • /
    • 2017
  • This study proposed a new approach to develop an Intelligent control algorithm for cooperative working of human and robot based on voice recognition. In general case of speaker verification, Gaussian Mixture Model is used to model the feature vectors of reference speech signals. On the other hand, Dynamic Time Warping based template matching techniques were presented for the voice recognition about several years ago. We converge these two different concepts in a single method and then implement in a real time voice recognition enough to make reference model to satisfy 95% of recognition performance. In this paper it was illustrated the reliability of voice recognition by simulation and experiments for humanoid robot with 18 joints.

Program Development of Emotional Human and Computer Interface

  • Jung, Seul;Cho, Kiho
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2002년도 ICCAS
    • /
    • pp.102.3-102
    • /
    • 2002
  • $\textbullet$ Human and computer interface(HCI) $\textbullet$ Voice recognition $\textbullet$ Image recognition $\textbullet$ Neural network $\textbullet$ Hopfield net

  • PDF

모음 포먼트 분석을 통한 정신적 피로 평가 (Evaluation of Mental Fatigue Using Vowel Formant Analysis)

  • 하욱현;박성하
    • 산업경영시스템학회지
    • /
    • 제37권1호
    • /
    • pp.26-32
    • /
    • 2014
  • Mental fatigue is inevitable in the workplace. Since mental fatigue can lead to decreased efficiency and critical accidents, it is important to manage mental fatigue from the viewpoint of accident prevention. An experiment was performed to evaluate mental fatigue using the formant frequency analysis of human voices. The experimental task was to mentally add or subtract two one-digit numbers. After completing the tasks with four different levels of mental fatigue, subjects were asked to read Korean vowels and their voices were recorded. Five vowel sounds of "아", "어", "오", "우", and "이" from the voice recorded were then used to extract formant 1 frequency. Results of separate ANOVAs showed significant main effects of mental fatigue on formant 1 frequencies of all five vowels concerned. However, post-hoc comparisons revealed that formant 1 frequencies of "아" and "어" were most sensitive to mental fatigue level employed in this experiment. Formant 1 frequencies of "아" and "어" significantly decrease as the mental fatigue accumulates. The formant frequency extracted from human voice would be potentially applicable for detecting mental fatigue induced during industrial tasks.

전신질환과 관련된 음성장애의 치료 (The Management of Systemic Voice Disorders)

  • 우주현
    • 대한후두음성언어의학회지
    • /
    • 제27권1호
    • /
    • pp.5-10
    • /
    • 2016
  • Variable systemic diseases affect larynx and vocal fold and result in voice change. Asthma and chronic obstructive pulmonary disease make increase of intra-abdomimal pressure followed by reflux of gastric acid, which stimulate vagal-bronchopulomary reflex aggravating cough and respiratory disturbance. Fungal laryngitis in the general population is extremely rare, but can occur in immunocompromised AIDS patients. Although, initially, empirical antifungal therapy for candidiasis is often given without biopsy, diagnostic direct laryngoscopy and biopsy is imperative if a substantial clinical response is not rapidly achieved. In the highly active anti-retroviral therapy era, HIV-positive patients are living longer and are at higher risk for developing non-AIDS-defining malignancies. The incidence of head and neck cancer (HNC) which is related with human papilloma virus infection has increased. The survival is significantly lower among the AIDS-HNC patients with CD4 counts ${\leq}200cells/{\mu}L$. Rheumatoid arthritis (RA) cause voice disturbance by developing cricoarytenoid joints fixation or nodule on vocal fold. Post-menopausal voice disorder (PMVD) is caused by decreased secretion of estrogen-progesterone resulting in decrease of fundamental frequency (F0). Hormonal replacement therapy is helpful to reduce F0 decrease. RA and PMVD result in slight voice change, but it could crucial in professional voice user.

  • PDF