통합 검색 | Korea Science

음성데이터 수집을 위한 발성내용 제시시스팀 (Utterance display system for speech data acquisition)

김경태;이용주;정유현
- 한국음향학회지
- /
- 제12권1호
- /
- pp.5-11
- /
- 1993
본 논문은 발성자의 자연스러운 음성데이터를 수집하기 위한 발성내용 제시시스팀의 구현에 대하여 기술한다. 대량의 음성정보의 수집 및 처리를 위해서는 이와같은 시스팀이 필수적이다. 왜냐하면, 음성정보처리의 성능 평가는 음성데이터와 발성방법에 따라 죄우되므로 실제의 환경에서 사용되는 자연스러운 음성으로 평가되어야만 객관적인 결과를 얻을 수 있기 때문이다. 따라서 이러한 음성데이터를 효율적으로 수집하기 위한 방법으로써 발성내용 제시시스팀에 관하여 기술하고자 한다. 특히, 본 논문에서는 발성해야 할 데이터를 제시하기 위한 방법으로써 발성내용 제시 시스팀에 관하여 기술하고자 한다. 특히, 본 논문에서는 발성해야 할 데이터를 제시하기 위한 요구사항, 기능, PC에 의한 구현에 대하여 기술한다. 본 시스팀은 음성수집 단계뿐만아니라 수집 후의 편집 작업의 편리성을 고려하여 구현하였으며, 4연속 숫자음 등 96명이 발성한 63,840개의 단어를 수집하는데 적용하였고 수집 과정에서 종래의 리스트를 보고 발성하는 방법에 비해 훨씬 효율적이고 자연스러운 발성을 유도할 수 있었다.
PDF

선형 예측 모델을 이용한 비관혈적 과비음성 추정 (A Noninvasive Estimation of Hypernasality using Linear Predictive Model)

고영일;김덕원;나동균;최홍식
- 대한의용생체공학회:의공학회지
- /
- 제20권6호
- /
- pp.591-599
- /
- 1999
연구개에 결함이 있는 사람의 발음은 부적절한 비음이 섞이게 되어 과비음성 비음이 되어 연구개를 복원해주는 시술을 하게 되는데, 과비음성 비음을 정량적으로 측정할 수있다면 시술 결과를 객관화 할 수 있게 된다. 현재 임상적으로 사용되고 있는 방법들은 관혈적이거나 고가의 장비를 필요로 한다. 본 논문에서는 비음의 특징인 스펙트럼에서 zero 의 존재와 비강에 의한 포만트의 존재 사실, 그리고 선형 예측 모델을 이용하여 마이크로폰과 사운드 카드가 장착된 PC로 구현할 수 있는 새로운 과비음성 비음 추정 알고리즘을 제안하였다. 음성 신호의 스펙트럼에 zero가 존재하는 경우, 낮은 차수(order)의 선형 예측 모델이 그 음성을 발음한 성도 시스템에 정확히 적용되지 않는다는 점을 이용하여, 같은 음성에 대한 높은 차수의 선형 예측 모델과의 차이를 이용해서 과비음성의 정량화를 시도했다. 본 논문에서는 제안된 알고리즘은 기존의 Teager Operator를 이용한 알고리즘에 비해서 Nasonmeter 의 측정결과와 더 높은 통계적 상관관계를 보여주었다.
PDF

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation (Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction)

최준휘;류성한;유환조;이근배
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
- /
- pp.211-216
- /
- 2016
현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.
PDF

판소리 발성의 전반적인 음향학적 특징 (General Acoustical Characteristics of Pansori Singing Voice)

문승재
- 대한음성학회지:말소리
- /
- 제42호
- /
- pp.15-24
- /
- 2001
판소리의 특질을 연구하기 위하여 여덟 명창의 소리를 분석하였다. 그 결과 모두에게서 유성음임에도 불구하고 비주기성인 소리를 찾았다. 이러한 현상은 매우 높은 성대밑 공기압에 기인한다고 보았다. 이 비주기성 유성음은 명창들의 일반 대화에서도 나타나서 이러한 현상이 곧 성대의 영구적인 변화에 의한 것임을 추정할 수 있었다. 또한 판소리에서 나타나는 vibrato는 서양의 오페라에 비해 주기가 훨씬 길고 범위는 훨씬 넓음이 확인되었다. 그 외에도 모든 명창의 경우 고주파수 영역에서 매우 높은 에너지를 보여주어서 일반인의 발성과 차이가 남을 알 수 있었고, 특히 일부 명창의 경우는 1000Hz 바로 이하에서 유별나게 강한 harmonics가 나타나서 서양 음악의 소위 singer's formant와 대조를 이루었다.
PDF

화자인식을 위한 관측신뢰도 기반 변형된 HMM 디코더 (Modified HMM Decoder based on Observation Confidence for Speaker Identification)

;민소희;김진영;나승유
- 한국지능시스템학회:학술대회논문집
- /
- 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
- /
- pp.443-446
- /
- 2007
음성신호는 잡음 또는 전송 채널의 특성에 의하여 왜곡되고, 왜곡된 음성은 음성인식 및 화자인식의 성능을 크게 저하시킨다. 이러한 문제점을 극복하기 위해 본 논문에서는 Gaussian mixture model (GMM)에 적용된 신호대잡음비 (SNR)기반 신뢰도 가중 기법[1][2]을 Hidden Markov model(HMM) 디코더에 변형하여 적용하였다. HMM 디코더 변형은 HMM 상태별 관측확률을 논문 [1]에서 제시된 신뢰도로 가중함으로써 이루어졌다. 제안한 방법의 성능을 확인하기 위해 ETRI에서 만든 한국어 화자인식용 휴대폰 음성 DB를 사용하여 문맥종속 화자식별 실험을 하였다. 실험결과 기존 방법에 비해 제안한 방법의 화자인식률이 크게 향상됨을 확인 할 수 있었다.
PDF

SIP Call Signaling을 위한 사용자 인증 기법 (User Authentication Mechanism for SIP Call Signaling)

최경호;임을규
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (D)
- /
- pp.110-115
- /
- 2008
음성 데이터를 IP기반의 패킷망을 통해 전송하는 기술인 VoIP(Voice over Internet Protocol) 기술은 음성 데이터를 기존의 PSTN(Public Switched Telephone Network)망을 통해 전송하는 방식에 비해 비용 절감 등의 장점을 가지고 있다. 그러나 VoIP가 기존의 PSTN망을 대체하기 위해서는 QoS(Quality of Service)의 보장과 보안이 제공되어야 한다는 문제점을 가지고 있다. VoIP망에서 보안을 위해서는 사용자간에 전송되는 음성 데이터에 대한 보안과 초기의 세션 연결 시 사용자를 인증하는 과정이 고려되어져야 한다. 실질적인 대화 내용인 음성 데이터의 보안도 중요한 부분이지만 대화에 참여하는 사용자를 인증하는 과정이 선행되어야 한다. VoIP에서는 세션 연결 설정을 위해 H.323과 SIP를 사용하고 있으며, 최근에는 H.323에 비해 간단한 SIP가 주목을 받고 있다. RFC3261에서는 SIP를 이용해 세션 연결을 하는 과정에서 사용자를 인증하기 위한 몇 가지 인증 메커니즘을 제시하고 있다. 본 논문에서는 SIP를 이용하여 세션을 연결하는 과정에서 사용자의 인증을 위해 사용되는 인증 메커니즘 중 한 가지인 HTTP Digest Authentication의 취약점을 분석하고, 이를 보완하기 위한 새로운 인증 메커니즘을 제시한다.
PDF

지능형 반응공간을 위한 연속적 화자인식에 관한 연구 (A Study of Continuous Speaker Recognition for Intelligent Responsive Space)

권순일
- 한국HCI학회:학술대회논문집
- /
- 한국HCI학회 2007년도 학술대회 1부
- /
- pp.293-297
- /
- 2007
Human Computer Interaction 기술을 구체화 시키기 위한 Intelligent Responsive Space의 개발에 있어서 음성정보는 여러 가지로 유용하게 활용될 수 있다. 음성신호로부터 얻을 수 있는 다양한 정보 중의 하나가 화자인식을 이용한 화자의 신원식별이다. 이 논문에서는 화자인식 인식이 어려운 환경에서도 음성 신호로부터 추출한 특성벡터들을 선택적으로 사용함으로써 화자인식 성능을 높일 수 있는 새로운 방법을 제안하려 한다. 화자를 인식하는데 있어서 인식오류를 발생시킬 가능성이 높은 특성벡터들을 인식을 위한 판단의 대상에서 배제시킴으로써 성능을 향상시킬 수 있다. 실험결과에 의하면 0.25초에서2초 길이의 짧은 음성만으로도 기존의 방법에 비해 20에서 51%의 상대적 성능 향상을 보였다. 새롭게 제안된 방법을 적용하면 기존의 방법들에 비해 세밀하면서도 정확하게 연속적으로 화자들을 인식할 수 있게 된다.
PDF

Perceiver 모델을 이용한 사용자 음성 구간 축약 (Voice Segment Reduction using Perceiver Model)

최연웅;이재준;한현택;이해연
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2022년도 춘계학술발표대회
- /
- pp.491-493
- /
- 2022
최근 스마트 기기에서 오디오 데이터를 이용하는 응용 기술들이 증가하면서, 오디오 데이터에서 관심 있는 구간을 찾아내는 기술의 필요성이 증가하고 있다. 본 논문에서는 Perceiver 모델을 활용하여 오디오 데이터에서 사람의 음성 구간을 검출하고 축약하는 방법을 제안한다. Perceiver 모델은 복잡한 입력 데이터에 대하여 Self-attention을 기반으로 특징을 추출하면서 이전의 특징을 다음 입력으로 다시 학습하는 특징을 갖고 있어서 연속적인 데이터인 오디오에 효율적으로 적용할 수 있다. 외부 및 자체에서 수집한 음성과 비음성 데이터셋에 대하여 실험을 진행하였고, 10초 단위 세그먼트에서 대해서 92.4%의 검출 정확도를 달성하였다.
https://doi.org/10.3745/PKIPS.y2022m05a.491 인용 PDF

지그비 크로스 보청기에서의 자기음성 억제 알고리즘 연구 (A Study on the Self-voice Suppression Algorithm in a ZigBee CROS Hearing Aid)

임원진;고영환;전유용;길세기;윤광섭;이상민
- 전기전자학회논문지
- /
- 제13권3호
- /
- pp.62-71
- /
- 2009
본 연구에서는 편측성 난청인을 위한 저전력 무선통신인 지그비를 이용해 청력이 나쁜 쪽 귀의 소리를 청력이 좋은 쪽 귀로 전송해주는 무선 크로스 보청기를 설계하였다. 일반적으로 크로스 보청기에서는 자기목소리가 크게 려 상대방 음성인식에 영향을 줄 수 있다. 이를 방지하고자 본 연구에서는 자기음성억제 알고리즘을 제안한다. 자기음성억제 알고리즘의 성능평가를 확인하기 위하여 어음명료도검사를 하였다. 실험데이터는 1m 거리의 상대음성인 1음절단어 세트와 자기음성을 함께 녹음한 것을 사용하였다. 그 결과, 어음명료도검사에서 자기음성억제 알고리즘 적용 시 SDT값이 약 11%가량 증가였다. 즉, 자기음성억제 알고리즘이 동시 대화 시 상대방 음성인식 향상에 도움이 된다는 결과를 얻었다.
PDF

양자화 왜곡에 대한 음성품질 평가 (Assessment on the Speech Quality for Quantization Distortion)

김정환
- 전자통신동향분석
- /
- 제10권4호통권38호
- /
- pp.129-142
- /
- 1995
본 고에서는, 음성을 디지털로 부호화하여 전송함으로써 발생되는 신호 대 양자화왜곡 비(Q)의 개념 및 CODEC과의 관계를 분석하고, MNRU를 디지털 회로로 구현하는데 필요한 입력음성 신호레벨, 잡음의 통계적 성질 및 진폭제한이 음성품질에 미치는 영향을 살펴보았다. 또한, 본 연구에서 구현한 MNRU의 성능에 대해 주관평가 실험을 실시하여, 다른 나라의 주관평가 결과와 비교/분석하였다.
https://doi.org/10.22648/ETRI.1995.J.100410 인용 PDF

검색결과 1,996건 처리시간 0.027초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)