• 제목/요약/키워드: 음성 분석

검색결과 3,084건 처리시간 0.026초

C# 언어를 이용한 음성 분석 시스템의 구현

  • 김윤중;오지영;오신영
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2001년도 추계공동학술대회 논문자료집 정보화 젼략 패러다임의 변화에 대한 보기술의 대응
    • /
    • pp.185-187
    • /
    • 2001
  • PDF

선천성 심장병 환아에서 음향학적 요소의 변동 (Acoustic variations associated with congenital heart disease)

  • 오정은;최윤미;김선준;주찬웅
    • Clinical and Experimental Pediatrics
    • /
    • 제53권2호
    • /
    • pp.190-194
    • /
    • 2010
  • 목 적 : 애성 및 음성 변동은 심장병 환자에서 관찰될 수 있는데 이러한 음성 변동 정도를 음향학적 지표의 평가로 분석하여, 소아에서 선천성 심장병 종류에 따른 음성 변동을 음향학적 요소로 분석하고자 하였다. 방 법 : 수술 전 선천성 심장병 환아 94명을 연구 대상으로 하였고 심실 중격 결손, 동맥관 개존, 심방 중격 결손, 폐동맥 협착, 활로 사징이 포함되었으며, 음성 변동을 조사하기 위한 음향 지표 분석은 통증 자극을 통하여 얻어진 음성 자료를 multi-dimensional voice program system을 이용하여 평가하였다. 연구에 사용된 음향 지표로 average fundamental frequency, length of analyzed sample, jitter percent, shimmer, noise to harmonic ratio를 분석하였다. 결 과 : 음향 지표인 average fundamental frequency은 동맥관 개존, 심실 중격 결손, 활로 사징 경우에서 유의한 감소를 나타냈으며, length of analyzed sample은 연구 대상 선천성 심장병 환아에서 대조군에 비해 의미있는 차이를 나타내지 않았다. Jitter percent, shimmer, noise to harmonic ratio는 심실 중격 결손, 동맥관 개존, 심방 중격 결손에서 대조군에 비해 증가되었다. 이러한 음성 변동은 연구 대상 선천성 심장병 중 동맥관 개존에서 음도변이, 강도변이, 음성의 소음 정도가 가장 뚜렷하게 나타났으며, 동맥관 개존, 심실 중격 결손, 심방 중격 결손 순으로 그 음성 변동의 특징을 나타냈다. 결 론 : 수술 전 선천성 심장병 환아에서 음성을 음향학적 지표로 비교 분석한 결과 음향학적 지표들이 심장 질환의 유형별 차이를 보이는데 좌우 단락 심질환군에서 현저한 비정상적 음향학적 지표를 나타냈다.

강인 음성 인식을 위한 가중화된 음원 분산 및 잡음 의존성을 활용한 보조함수 독립 벡터 분석 기반 음성 추출 (Speech extraction based on AuxIVA with weighted source variance and noise dependence for robust speech recognition)

  • 신의협;박형민
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.326-334
    • /
    • 2022
  • 이 논문에서는 배경 잡음이 포함되는 환경에서 강인한 음성 인식을 하기 위한 전처리 단계로서 쓰이는 목표 음성 향상 방법을 제안한다. 보조 함수 기반의 독립 벡터 분석(Auxiliary-function-based Independent Vector Analysis, AuxIVA) 기법을 기반으로 가중 공분산 행렬에서 시간에 따라 변하는 분산에 의해서 가중치가 결정된다. 목표 음성에 대한 시간-주파수별 기여도를 나타내는 마스크를 통해 분산의 크기를 조절한다. 이러한 마스크는 음성 향상을 위해서 학습된 신경망 혹은 목표 화자로부터의 직선 성분의 기여도를 찾기 위한 확산성으로부터 추정할 수 있다. 이에 더하여 둘러싼 잡음에 대한 출력들은 서로 다차원 독립 성분 분석을 도입하여 의존성을 주어 안정적으로 노이즈 성분을 추출할 수 있다. 이 AuxIVA 기반의 목표 음성 추출 알고리즘은 또한 노이즈에 대해서 비음수 행렬 분해(Non-negative Matrix Factorization, NMF)를 비음수 텐서 분해(Non-negative Tensor Factorization, NTF)로 확장하여 독립 단순 행렬 분석(Independent Low-Rank Matrix Analysis, ILRMA)의 틀에서도 수행될 수 있다. 이러한 확장을 통해서 여전히 잡음 출력 채널에서의 채널간 의존성을 유지할 수 있다. CHiME-4데이터셋에 대한 실험 결과는 소개된 알고리즘에 대한 효과를 보여준다.

인터넷 전화에서 통화품질 향상을 위한 묵음 처리 기법

  • 황인환;최대석;이정태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.222-224
    • /
    • 2000
  • 본 연구에서는 인터넷전화에서 전체 음성 트래픽의 56% 이상을 차지하는 묵음을 제거해줌으로써 네트워크 트래픽을 줄여 통화품질을 향상시키기 위한 방안을 제안하고 그 성능을 분석하였다. 묵음을 검출하기 위해서 평균 에너지 값을 이용하는 방법을 사용하였으며, 묵음을 제거함으로써 발생하는 음성과 묵음간의 부자연스러움에 대한 해결 방안 및 음성이면서 묵음구간에 포함되어 제거되는 프레임에 대한 보상기법을 제안하였다.

  • PDF

고음질의 음성합성을 위한 퍼지벡터양자화의 퍼지니스 파라메타선정에 관한 연구 (A Study on Fuzziness Parameter Selection in Fuzzy Vector Quantization for High Quality Speech Synthesis)

  • 이진이
    • 한국지능시스템학회논문지
    • /
    • 제8권2호
    • /
    • pp.60-69
    • /
    • 1998
  • 본 눈문에서는 퍼지 벡터양자호를 이용하여 음성을 합성하는 방법을 제시하고,원음에 가까운 합성음을 얻기 위하여 퍼지벡터양자화의 성능을 최적화 하는 Fuzziness갑의 선정방법을 연구한다. 퍼지벡터 양자화를 이용하여 음성을 합성할때, 분석단에서는 입력 음성패턴과 코드북의 음성패턴의 유사도를 나타내는 퍼지 소속함수값을 출력하고, 합성단에서는 분석단에서 얻은 퍼지소속 함수값, fuzziness값, 그리고 FCM(Fuzzy-C-Means) 연산식을 이용하여 음성을 합성한다. 시뮬레이션을 통하여 벡터양자화에 의해 합성된 음성과 퍼지 벡터양자화에 의해 합성된 음성을 코드북의 크기에 따라 비교한 결과, 퍼지벡터양자화를 이용한 음성합성의 성능이 코드북 크기가 절반으로 줄어도 벡터양자화에 의한 성능과 거의 같음을 알수 있다. 이것은 VQ(Vecotr Quantiz-ation)에 의한 음성합성 결과와 같은 성능을 얻기 위해서 퍼지 VQ를 사용하면, 코드북 저장을 위한 메모리의 크기를 절반으로 줄일 수 있음을 의미한다. 그리고 SQNR을 최대로 하는 퍼지 벡터양자화를 얻기 위한 최적 Fuzziness값은 음성분석 프레임의 분산값이 크면 작게 선정해야 하고, 작으면 크게 선정 해야함을 밝혔다. 또한 합성음들을 주파수 영역의 스펙트로그램에서 비교한 결과 포만트 주파수와 피치주파수에서 퍼지 VQ에 의한 합성음이 VQ에 의한 것보다 원 음성에 더 가까움을 알 수 있었다.

  • PDF

음성신호 에너지 및 LP 분석 기반 적응적 배경음혼합 알고리즘 (An Adaptive Background Sound Mixing Algorithm Based on Energy and LP Analysis of Speech Signal)

  • 강진아;전찬준;김홍국;김명보;김지운
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2010년도 추계학술대회
    • /
    • pp.260-261
    • /
    • 2010
  • 본 논문에서는 제작된 콘텐츠에 배경음을 간편하고 효과적으로 혼합하기 위해서 녹음된 신호(전경음)를 분석하여 배경음 에너지를 적응적으로 조절하는 배경음혼합 알고리즘을 제안한다. 이를 위해, 제안된 알고리즘은 등청감 곡선 (equal-loudness curve) 및 linear prediction (LP) 분석에 기반하여 전경음신호의 청감 에너지 및 음성신호 존재여부를 결정한다. 이에 따라 전경음에 음성신호가 존재하는 경우에는 음성이 명확하게 들릴 수 있도록 혼합된 배경음의 에너지를 하향 조절하고, 반대로 전경음에 음성신호가 존재하지 않는 경우에는 배경음이 명확하게 들릴 수 있도록 혼합된 배경음의 에너지를 상향 조절한다. 제안된 알고리즘의 효율성을 검증하기 위해, 고정 가중치를 이용하여 배경음을 혼합하는 경우와의 음질 선호도 조사를 실시한 결과, 제안된 알고리즘에 대한 높은 선호도를 보였다.

  • PDF

구문형태소 단위를 이용한 음성 인식의 후처리 모델 (A Model for Post-processing of Speech Recognition Using Syntactic Unit of Morphemes)

  • 양승원;황이규
    • 한국산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.74-80
    • /
    • 2002
  • 한국어 연속 음성 인식결과의 성능향상을 위해서 자연어 처리 기술을 이용한 후처리 기법이 사용된다. 그러나 자연어 처리 기법이 대부분 띄어쓰기가 있는 정형화된 입력 문장에 대한 분석을 수행하여 왔기 때문에 형태소 분석기를 직접 음성인식 결과의 향상에 사용하는 데에는 어려운 점이 많다. 본 논문에서는 띄어쓰기를 고려하지 않는 기능어 기반의 최장일치 형태소 해석 방법인 구문 형태소 단위의 분석을 이용한 음정인식 결과의 향상 모델을 제안한다. 제안된 모델을 통해 연속음성 인식 결과에서 자주 발생하는 용언과 보조 용언 및 의존 명사 사이의 음운들 사이의 구조적 정보를 활용함으로써 음성 인식 결과의 성능을 향상시키는 방법에 대해 기술한다.

  • PDF

패킷 CDMA망에서 예약 및 채널 상태 감지 기법을 적용한 MAC 프로토콜의 성능 분석 (Performance Analysis of MAC Protocol with Packet Reservation and Status Sensing for Packet CDMA Networks)

  • 임인택
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 1999년도 춘계종합학술대회
    • /
    • pp.126-130
    • /
    • 1999
  • 패킷 CDMA망에서 음성과 데이터를 통합 서비스하기 위해서는 각 서비스가 요구하는 QoS를 만족시키면서 채널을 효율적으로 사용할 수 있는 MAC 프로토콜이 필수적으로 요구된다. 본 논문에서는 마이크로셀룰러 환경의 패킷 CDMA망에서 음성과 데이터 서비스를 통합하기 위한 RRS$^2$-CDMA (Packet Reservation and Status Sensing in CDMA network) MAC 프로토콜을 제안하고, 이에 대한 성능을 분석하였다. 음성 트래픽인 경우에는 매 발음 구간 동안 채널 예약 방식으로 서비스되고, 데이터 트래픽인 경우에는 매 패킷이 발생할 때마다 기지국으로부터 수신한 채널의 상태 정보를 이용하여 음성 단말기가 사용하지 않는 임의의 채널을 선택하여 서비스된다. 성능 분석을 통하여, 본 논문에서 제안한 기법은 음성과 데이터 트래픽이 요구하는 서비스 품질을 만족하면서 시스템 용량을 향상시킬 수 있음을 알 수 있었다.

  • PDF

다채널 음성분석장치를 이용한 정상 성인에서의 발성 방식에 따른 음성변수 분석 (Analysis of Voice Parameters on Different Phonatory Tasks using Multi-Channel Phonatory Function Analyzer in Healthy Adults)

  • 성명훈;이상준;김광현;노종렬;권택균;이강진;박광석;최종민
    • 대한후두음성언어의학회지
    • /
    • 제13권2호
    • /
    • pp.132-138
    • /
    • 2002
  • Background and Objectives : The complex physiologic structure of the larynx can vibrate in three or more different ways that yield acuostically and perceptually distinct vocal quality. The purpose of this study is to examine the normal range of voice parameters in Multi-Channel Phonatory Function Analyzer and investigate the difference of voice parameters according to the phonatory patterns. Materials and Methods : Forty normal adult speakers (20 men and 20 women) with age ranging from third to forth decades pronounce low, comfortable, and high tone /a/ ; comfortable tone /${\ae}$/, /i/, /o/, and /u/ : fry, falsetto. Voice was analyzed by Newly developed multi-channel phonatory function analyzer. Results : The normal range of voice parameters in this system was similar to the existing data. Fry shows high jitter and falsetto low SQ. Fry and falsetto show low OQ in men but no difference in women. Jitter, OQ and SQ were different between men and women in modal register, whereas there was no gender difference in fry and falsetto. In frequency magnitude spectrum and EGG, modal register, fry and falsetto have distinguishing pattern. Conclusions : Modal register, fry and falsetto are distinguishable in voice parameters and show different vibratory patterns.

  • PDF