통합 검색 | Korea Science

음성부호화기에서의 음성 활동 검출 장치 성능에 관한 연구 (A Study on Performance of Voice Activity Detector in Vocoder)

민소연;이광형;김정재
- 한국산학기술학회:학술대회논문집
- /
- 한국산학기술학회 2009년도 춘계학술발표논문집
- /
- pp.491-494
- /
- 2009
ITU-T에서 인터넷 폰과 화상회의에 사용하기 위하여 개발된 G.723.1 음성 부호화기는 잡음 구간에서의 전송률을 낮추기 위한 방법으로 VAD(Voice Activity Detector)와 CNG(Comfort Noise Generator)를 사용하고 있다. 여기서 VAD는 최종적으로 현재 프레임의 에너지 레벨을 비교하여 음성의 활동 유무를 판정하고 있다. 하지만 G.723.1 VAD에서는 보다 안정적인 판정을 위해 음성 활동 구간 사이에 삽입되어 있는 묵음 구간에 대해서는 거의 대부분 음성이 활동하는 영역으로 판정을 하고 있다. 본 논문에서는 묵음 구간에 대해 보다 정확한 판정을 통하여 기존의 방법에 비해 전송율을 더욱 감소 시킬 수 있는 방법을 제안한다. 실험에서는 묵음구간을 길게 조절한 문장을 사용하여 측정한 결과 약 50% 정도의 전송율을 감소시킬 수 있었으며, MOS 테스트 결과, 음질의 열하는 발생하지 않았다.
PDF

이동통신부호화기에서의 음성 활동 검출 장치 성능에 관한 연구 (A Study on Performance of Voice Activity Detector in Vocoder)

임지선
- 한국산학기술학회:학술대회논문집
- /
- 한국산학기술학회 2010년도 춘계학술발표논문집 1부
- /
- pp.241-244
- /
- 2010
ITU-T에서 인터넷 폰과 화상회의에 사용하기 위하여 개발된 G.723.1 음성 부호화기는 잡음 구간에서의 전송률을 낮추기 위한 방법으로 VAD(Voice Activity Detector)와 CNG(Comfort Noise Generator)를 사용하고 있다. 여기서 VAD는 최종적으로 현재 프레임의 에너지 레벨을 비교하여 음성의 활동 유무를 판정하고 있다. 하지만 G.723.1 VAD에서는 보다 안정적인 판정을 위해 음성 활동 구간 사이에 삽입되어 있는 묵음 구간에 대해서는 거의 대부분 음성이 활동하는 영역으로 판정을 하고 있다. 본 논문에서는 묵음 구간에 대해 보다 정확한 판정을 통하여 기존의 방법에 비해 전송율을 더욱 감소시킬 수 있는 방법을 제안한다. 실험에서는 묵음구간을 길게 조절한 문장을 사용하여 측정한 결과 약 50% 정도의 전송율을 감소시킬 수 있었으며, MOS 테스트 결과, 음질의 열하는 발생하지 않았다.
PDF

他話者의 勵起信號를 이용한 抑揚變換 (Intonatin Conversion using the Other Speaker's Excitation Signal)

이기영;최창석;최갑석;이현수
- 한국음향학회지
- /
- 제14권4호
- /
- pp.21-28
- /
- 1995
본 논문에서는 원음성을 원하는 억양의 음성으로 변환시켜 주기 위한 기초연구로서 타화자의 여기신호를 이용한 억양변환방법을 제안하였다. 이방법에서는 타화자의 여기신호를 억양정보로 이용하였으며, 타화자의 성도스펙트럼과 DTW에 의해 정합되는 원신호의 성도스펙트럼를 추출하여 여기신호의 스펙트럼과 곱한 후 단시간푸리에 역변환해 줌으로써 억양변환된 음성을 합성하였다. 본 방법에 의해 억양변환된 합성음성을 평가하기 이하여 30명의 남성화자가 발성한 한국어 단모음과 문장음성을 대상으로 억양변환실험을 수행한 후 기본주파수의 궤적과 스펙트로그램 및 왜곡측정을 비교하고 MOS테스트를 실시한 결과 제안된 방법에 의해 임의의 음성을 타화자음성의 억양으로 변환시킬 수 있음을 확인하였다.
PDF

스트리밍 비디오 화질 평가를 위한 수신 영상 복원 (Reconstruction of Transmitted Frames for Visual Quality Assessment of Streaming Video)

박수경;심동규
- 대한전자공학회논문지SP
- /
- 제46권1호
- /
- pp.32-40
- /
- 2009
본 논문에서는 단말기상의 출력영상을 기반으로 한 수신영상 복원 방법을 제안한다. 무선 네트워크를 통해 전송되는 비디오 스트리밍의 화질을 평가하기 위해서는 단말기로 전송된 수신 영상에 대한 정보가 필요하다. 그러나 실제 전송된 스트리밍 데이터를 단말기로부터 얻기가 용이하지 않기 때문에 일반적으로 다수의 사람이 직접 화질을 평가하는 방법이 많이 사용된다. 본 논문에서는 단말기로 수신된 스트리밍 영상을 획득하기 위하여 단말기 상에서 출력되는 영상을 기반으로 전송영상을 재구성한다. 이를 위하여 제안한 방법에서는 단말기를 통해 출력되는 영상을 카메라를 이용하여 획득하고, 획득된 영상에서 나타나는 카메라와 단말기 사이의 기하학적 왜곡과 컬러 왜곡을 모델링하여 제거함으로써 전송받은 영상을 재구성하였다. 실험 결과에서는 원영상과 재구성한 영상사이의 PSNR을 측정하여 알고리즘의 성능을 평가하였다. 그 결과 제안한 알고리즘을 통해 $27{sim}28dB$의 PSNR을 얻을 수 있었다. 또한 EPSNR을 이용하여 제안한 알고리즘의 성능을 분석한 결과, 제안한 알고리즘을 통하여 예측된 영상이 MOS 테스트 스케일에서 비교적 좋은 범위에 속하는 것을 확인하였다.
PDF KSCI

Phonetic Posterior Grams에 의해 조건화된 적대적 생성 신경망을 사용한 음성 변환 시스템 (Voice Conversion using Generative Adversarial Nets conditioned by Phonetic Posterior Grams)

임진수;강천성;김동하;김경섭
- 한국정보통신학회:학술대회논문집
- /
- 한국정보통신학회 2018년도 추계학술대회
- /
- pp.369-372
- /
- 2018
본 논문은 매핑 되지 않은 입력 음성과 목표음성 사이에 음성 변환하는 비 병렬 음성 변환 네트워크를 제안한다. 기존 음성 변환 연구에서는 변환 전후 스펙트로그램의 거리 오차를 최소화하는 방법을 주로 학습 한다. 이러한 방법은 MSE의 이미지를 평균 내는 특징으로 인하여 생성된 스펙트로그램의 해상도가 저하되는 문제점이 있었다. 또한, 병렬 데이터를 사용해 연구를 진행했기 때문에 데이터를 수집하는 것에도 어려움이 많았다. 본 논문에서는 입력 음성의 발음 PPGs를 사용하여 비 병렬 데이터 간 학습을 진행 하며, GAN 학습을 통해 더욱 선명한 음성을 생성하는 방법을 사용하였다. 제안한 방법의 유효성을 검증하기 위해서 기존 음성 변환 시스템에서 많이 사용하는 GMM 기반 모델과 MOS 테스트를 진행하였으며 기존 모델에 비하여 성능이 향상되는 결과를 얻었다.
PDF

한국어 반음절단위 규칙합성의 개선을 위한 포만트천이의 변경규칙 (An Alteration Rule of Formant Transition for Improvement of Korean Demisyllable Based Synthesis by Rule)

이기영;최창석
- 한국음향학회지
- /
- 제15권4호
- /
- pp.98-104
- /
- 1996
본 연구에서는 반음절단위 규칙합성에서 연속음성을 합성할 때 조음결합에 의한 천이구간이 없는 반음절의 연결로 접속되어 부자연스러운 합성음이 되는 것을 개선하기 위하여 연쇄모음의 천이구간을 보상하는 방법으로 포만트천이의 변경규칙을 제안하였다. 반음절 단위만으로는 포만트천이가 발생하는 부분을 채울 수 없기 때문에 반음절단위의 음성데이타와 모음의 반음절 단위의 정상부위로부터 세그멘트한 정상모음 42개를 추가하여 데이터베이스를 구축하였으며 포만트를 변경하는 방법으로 포만트합성에서의 공진회로를 이용하였다. 제안한 방법의 타당성을 확인하기 위하여 음성합성시 연쇄모음 부분에 포만트천이의 변경규칙을 적용하여 원음성 및 변경규칙을 적용하지 않은 반음절단위 음성합성방식에 의한 합성음성의 스펙트로그램과 비교하고 MOS 테스트를 실시한 결과 보다 자연스러운 합성음성을 얻을 수 있음을 확인하였다.
PDF

LPCVD로 성장된 텅스텐 게이트의 물리.전기적 특성 분석

노관종;윤선필;황성민;노용한
- 한국진공학회:학술대회논문집
- /
- 한국진공학회 1999년도 제17회 학술발표회 논문개요집
- /
- pp.151-151
- /
- 1999
금속-산화막-반도체(MOS) 소자를 이용하는 집적회로의 발전은 게이트 금속의 규격 감소를 필요로 한다. 규격감소에 따른 저항 증가가 중요한 문제점으로 대두되었으며, 그동안 여러 연구자들에 의하여 금속 게이트에 관련된 연구가 진행되어 왔다. 특히 저항이 낮으며 녹는점이 매우 높은 내화성금속(refractory metal)인 텅스텐(tungsten, W)이 차세대 MOS 소자의 유력한 대체 게이트 금속으로 제안되었다. 텅스텐은 스퍼터링(sputtering)과 화학기상 증착(CVD) 방식을 이용하여 성장시킬 수 있다. 스퍼터링에 의한 텅스텐 증착은 산화막과의 접착성은 우수한 반면에 증착과정 동안에 게이트 산화막(SiO2)에 손상을 주어 게이트 산화막의 특성을 열화시킬 수 있다. 반면, 화학기상 증차에 의한 텅스텐 성장은 스퍼터링보다 증착막의 저항이 상대적으로 낮으나 산화막과의 접착성이 좋지 않은 문제를 해결하여야 한다. 본 연구에서는 감압 화학기상 증착(LPCVD)방식을 이용하여 텅스텐 게이트 금속을 100~150$\AA$ 두께의 게이트 산화막(SiO2 또는 N2O 질화막)위에 증착하여 물리 및 전기적 특성을 분석하였다. 물리적 분석을 위하여 XRD, SEM 및 저항등이 증착 조건에 따라서 측정되었으며, 텅스텐 게이트로 구성된 MOS 캐패시터를 제작하여 절연 파괴 강도, 전하 포획 메커니즘 등과 같은 전기적 특성 분석을 실시하였다. 특히 텅스텐의 접착성을 증착조건의 변화에 따라서 분석하였다. 텅스텐 박막의 SiO2와의 접착성은 스카치 테이프 테스트를 실시하여 조사되었고, 증착시의 기판의 온도에 민감하게 반응하는 것을 알 수 있었다. 또한, 40$0^{\circ}C$ 이상에서 안정한 것을 볼 수 있었다. 텅스텐 박막은 $\alpha$ 및 $\beta$-W 구조를 가질 수 있으나 본 연구에서 성장된 텅스텐은 $\alpha$-W 구조를 가지는 것을 XRD 측정으로 확인하였다. 성장된 텅스텐 박막의 저항은 구조에 따라서 변화되는 것으로 알려져 있다. 증착조건에 따른 저항의 변화는 SiH4 대 WF6의 가스비, 증착온도에 따라서 변화하였다. 특히 온도가 40$0^{\circ}C$ 이상, SiH4/WF6의 비가 0.2일 경우 텅스텐을 증착시킨 후에 열처리를 거치지 않은 경우에도 기존에 발표된 저항률인 10$\mu$$\Omega$.cm 대의 값을 얻을 수 있었다. 본 연구를 통하여 산화막과의 접착성 문제를 해결하고 낮은 저항을 얻을 수 있었으나, 텅스텐 박막의 성장과정에 의한 게이트 산화막의 열화는 심각학 문제를 야기하였다. 즉, LPCVD 과정에서 발생한 불소 또는 불소 화합물이 게이트의 산화막에 결함을 발생시킴을 확인하였다. 향후, 불소에 의한 게이트 산화막의 열화를 최소화시킬 수 있는 공정 조건의 최저고하 또는 대체게이트 산화막이 적용될 경우, 개발된 연구 결과를 산업체로 이전할 수 있는 가능성이 높을 것을 기대된다.
PDF

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안 (UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS)

이정철
- 한국컴퓨터정보학회논문지
- /
- 제15권7호
- /
- pp.91-98
- /
- 2010
대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 그러나 자연성, 개인성, 어조, 감정구현 등에서 활용성을 높이기 위해서는 음성DB의 크기가 비례적으로 증가하게 되므로 음운환경과 음향적 특성이 유사한 다수의 음편들을 제거하여 음성DB의 크기를 감축하기 위한 연구가 필수적이다 본 논문에서는DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위음편 데이터베이스 구축 방법을 제안한다. 그리고 클러스터링방법에 대한 성능 평가를 위해서 언어 처리기, 운율 처리기, 음편 선택기, 합성음 생성기, 합성단위 음편데이터베이스, 음성신호 출력기로 구성되는 한국어 TTS 기본 시스템을 이용하여 합성음을 생성하였고 트리 클러스터링 방법 CM1, CM2와 전체 DB (Full DB)와 감축된 DB(Reduced DB)의 4가지 조합별로 제작된 음편 데이터베이스를 이용하여 각 조합에 대한 MOS 테스트를 수행하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 청취실험 결과 높은 MOS를 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.
https://doi.org/10.9708/jksci.2010.15.7.091 인용 PDF KSCI

뮤직비디오 브라우징을 위한 중요 구간 검출 알고리즘 (Salient Region Detection Algorithm for Music Video Browsing)

김형국;신동
- 한국음향학회지
- /
- 제28권2호
- /
- pp.112-118
- /
- 2009
본 논문은 모바일 단말기, Digital Video Recorder (DVR) 등에 적용할 수 있는 뮤직비디오 브라우징 시스템을 위한 실시간 중요 구간 검출 알고리즘을 제안한다. 입력된 뮤직비디오는 음악 신호와 영상 신호로 분리되어 음악 신호에서는 에너지기반의 음악 특징값 최고점기반의 구조분석을 통해 음악의 후렴 구간을 포함하는 음악 하이라이트 구간을 검출하고, SVM AdaBoost 학습방식에서 생성된 모델을 이용해 음악신호를 분위기별로 자동 분류한다. 음악신호로부터 검출된 음악 하이라이트 구간과 영상신호로부터 검출된 가수, 주인공의 얼굴이 나오는 영상장면을 결합하여 최종적으로 중요구간이 결정된다. 제안된 방식을 통해 사용자는 모바일 단말기나 DVR에 저장되어 있는 다양한 뮤직비디오들을 분위기별로 선택한 후에 뮤직비디오의 30초 내외의 중요구간을 빠르게 브라우징하여 자신이 원하는 뮤직비디오를 선택할 수 있게 된다. 제안된 알고리즘의 성능을 측정하기 위해 200개의 뮤직비디오를 정해진 수동 뮤직비디오 구간과 비교하여 MOS 테스트를 실행한 결과 제안된 방식에서 검출된 중요 구간이 수동으로 정해진 구간보다 사용자 만족도 측면에서 우수한 결과를 나타내었다.
https://doi.org/10.7776/ASK.2009.28.2.112 인용 PDF KSCI

적응 지각 필터를 이용한 오디오 음질 개선 알고리즘 (Audio Enhancement Algorithm Using Adaptive Perceptual Filter)

엄혜영;한헌수;홍민철;차형태
- 한국음향학회지
- /
- 제22권8호
- /
- pp.687-693
- /
- 2003
본 논문에서는 적응적인 방식으로 필터의 성능을 향상시킴으로써 잡음에 의해 열화된 오디오 신호의 음질을 개선하는 알고리즘을 제안한다. 주파수 영역으로 변환된 잡음에 의해 열화된 신호를 바크 대역으로 분할하여 청각 자극 에너지를 계산하고, 필터를 적응적으로 적용하여 잡음 에너지를 제거함으로써 본래의 신호를 획득하는 방식을 사용하였다. 기존의 방식에서는 묵음 구간에서 획득한 잡음 에너지를 사용하여 필터를 구성하여 사용하며, 이때 잡음의 에너지가 급격하게 변화한다면 음질의 개선률이 급격하게 감소함을 알 수 있다. 그러나 제안하는 방식에서는 잡음 에너지가 급격하게 변화하여도 음질 개선률에는 변화가 적음을 알 수 있었다. 기존 방식과의 비교를 위하여 신호대 잡음비와 잡음대 마스킹비를 비교하였고 청각 테스트를 수행하여 그 결과로부터 향상된 음질 개선을 확인할 수 있었다.
PDF KSCI

검색결과 35건 처리시간 0.025초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)