• 제목/요약/키워드: speaker variation

검색결과 74건 처리시간 0.028초

DSP를 이용한 전류구동 스피커의 저주파 공진 보상 (Compensation of low Frequency Resonance in Current Driven Loudspeakers using DSP)

  • 박종필;은창수
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.584-588
    • /
    • 2021
  • 음향시스템을 구성하는 스피커의 임피던스는 고정된 값으로 인식되고 있다. 그러나 스피커의 임피던스는 입력신호의 주파수 변화에 따라 계속 변화하고 그 변화량은 스피커의 공진 주파수 대역에서 매우 크다. 스피커의 음압 레벨은 스피커를 구성하는 코일에 흐르는 전류에 따라 결정되는데 스피커를 전압 구동 할 경우 변화하는 임피던스에 의해 음압 레벨의 왜곡이 발생한다. 스피커를 전류 구동 할 경우 이러한 문제는 해결되지만 저주파에서 공진의 영향으로 음압 레벨의 왜곡이 발생하는데 이는 음향시스템의 음질 저하를 가져올 수 있다. 본 논문에서는 전류구동 음향시스템의 음질 개선을 위해 DSP(Digital Signal Processing)를 이용하여 음압레벨의 왜곡을 보정하는 공진 보상회로를 제안한다. 본 논문은 스피커의 등가 모델을 이용한 음향 시스템의 전류 구동 모의실험을 통해 주파수 변화에 따른 음압 레벨 왜곡을 확인하고 이를 보정하는 회로를 제안하는 것으로 구성하였다. 제안한 회로는 상태변수필터를 이용하여 구성하였고 주파수 및 출력이 조절 가능하여 다양한 음향 시스템에 적용 가능 할 것으로 보인다.

  • PDF

가변 길이 입력 발성에서의 화자 인증 성능 향상을 위한 통합된 수용 영역 다양화 기법 (Integrated receptive field diversification method for improving speaker verification performance for variable-length utterances)

  • 신현서;김주호;허정우;심혜진;유하진
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.319-325
    • /
    • 2022
  • 화자 인증 시스템에서 입력 발성 길이의 변화는 성능을 하락시킬 수 있는 대표적인 요인이다. 이러한 문제점을 개선하기 위해, 몇몇 연구에서는 시스템 내부의 특징 가공 과정을 여러가지 서로 다른 경로에서 수행하거나 서로 다른 수용 영역(Receptive Field)을 가진 합성곱 계층을 활용하여 다양한 화자 특징을 추출하였다. 이러한 연구에 착안하여, 본 연구에서는 가변 길이 입력 발성을 처리하기 위해 보다 다양한 수용 영역에서 화자 정보를 추출하고 이를 선택적으로 통합하는 통합된 수용 영역 다양화 기법을 제안한다. 제안한 통합 기법은 입력된 특징을 여러가지 서로 다른 경로에서 다른 수용 영역을 가진 합성곱 계층으로 가공하며, 가공된 특징을 입력 발성의 길이에 따라 동적으로 통합하여 화자 특징을 추출한다. 본 연구의 심층신경망은 VoxCeleb2 데이터세트로 학습되었으며, 가변 길이 입력 발성에 대한 성능을 확인하기 위해 VoxCeleb1 평가 데이터 세트를 1 s, 2 s, 5 s 길이로 자른 발성과 전체 길이 발성에 대해 각각 평가를 수행하였다. 실험 결과, 통합된 수용 영역 다양화 기법이 베이스라인 대비 동일 오류율을 평균적으로 19.7 % 감소시켜, 제안한 기법이 가변 길이 입력 발성에 의한 성능 저하를 개선할 수 있음을 확인하였다.

발성의 강도와 주파수 변화에 따른 성대 움직임의 정량적 분석 (Quantification of Glottal Cycle According to the Variation of Frequency and Intensity in Normal Speaker)

  • 손영익;이경아;류준선;백정환
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 1996년도 제6회 학술대회 심포지움
    • /
    • pp.92-92
    • /
    • 1996
  • 비디오스트로보스코피 화상의 정량화를 통한 glottal cycle의 객관적인 평가는 여러 질환의 감별 및 치료전후의 결과를 비교하는데 중요한 역할을 담당할 수 있으리라 사려되나 아직은 정상 발성시나 병적인 조건에서의 참고치나 그 의미에 대하여 보고된 경우는 흔치 않은 실정이다. 이에 저자들은 정상성인을 대상으로 발성의 주파수와 강도의 변화에 따른 glottal cycle의 변화를 정량화 함으로써 추후 연구나 임상적용 둥의 기본자료로서 활용하고자 하였다. (중략)

  • PDF

음성인식을 위한 퍼지 카오스 차원의 고찰 (Consideration on the Fuzzy Chaos Dimension for Speech Recognition)

  • 유병욱;김승겸;박현숙;김창석
    • 음성과학
    • /
    • 제4권2호
    • /
    • pp.25-39
    • /
    • 1998
  • This paper deals with fuzzy correlation dimension for an appropriate speech recognition. The proposed fuzzy correlation dimension has absorbed time variation value of strange attractor as utilizing fuzzy membership function at calculation of integral correlation when the results of proposed dimension are applied to speech recognition fuzzed correlation dimension is superior to speech recognition, and correlation dimension is superior to speaker discrimination.

  • PDF

MODELING QUANTITATIVE VARIATION - In the Kyungnam Dialect of Korean -

  • Cho, Yong-Hyung
    • 음성과학
    • /
    • 제1권
    • /
    • pp.137-152
    • /
    • 1997
  • The objectives of this paper are to see how the declination is realized in the different positions/lengths of the utterance, to see if the $F_0$ value throughout the utterance changes in a predictable way, and if so, to find out the best quantitative model which fits the declination. The experiment results are as follows. First, the peak value over the utterance can be affected by the position of the peak and length of the utterance. Second, the choice of quantitative models is dependent on the different list lengths. Third, in everyone's speech, there is a baseline (the lowest $F_0$ value a speaker can use), and the $F_0$ will not fall below the baseline. Forth, the peak $F_0$ of the last word in each list shows little variation in pitch value (target $F_0$) while the number of words in the list affects the starting $F_0$ values.

  • PDF

초점과 관련된 의문문 억양 패턴 실험 (Pitch Patterns of Interrogative Sentences in relation to the Focus)

  • 김미란;신동현;최재웅;김기호
    • 음성과학
    • /
    • 제7권4호
    • /
    • pp.203-217
    • /
    • 2000
  • In spoken language, the characteristics of prosodic realization are related to the meaning of utterance. The pitch pattern of an interrogative sentence which differs from that of declarative sentences can be considered in this respect.. If we consider the question-answer pair, we can find that the most important variation comes from the intended meaning of asking. In this paper, we experiment with four kinds of interrogative sentences and show that the difference in pitch patterns of interrogative sentences can be explained in relation to the focus phenomena that is, the differences of the boundary tones in interrogative sentences are due to the differences in the prosodic domain of focus. For a relevant explanation with the focus phenomena, we divided focus into the categories: emphatic focus, which plays a role in delivering the speaker's intended meaning for the sentence interpretation, and informational focus, delivers the central intended meaning of the utterance. The results can be summarized in three points. First, High boundary tone delivers the meaning of asking. Second, the realization of different boundary tones that are found in wh-question and alternative question are just phonetic variations caused by focusing. Third, the high rise boundary tone in echo questions is related to the meaning of surprise or incredulity, and this relation is a consensus of existing opinion, that is, the speaker's attitude of surprise can raise the pitch range. From these results we can distinguish between boundary type and phonetic variation, and we can also give appropriate meaning to the different boundary tones in interrogative sentences that have been regarded as merely a part of sentence type.

  • PDF

켑스트럼으로부터 변환된 로그 스펙트럼을 이용한 포먼트 평활화 켑스트럴 평균 차감법 (Formant-broadened CMS Using the Log-spectrum Transformed from the Cepstrum)

  • 김유진;정혜경;정재호
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.361-373
    • /
    • 2002
  • 본 논문에서는 음성 인식과 화자 인식에서 채널 변이 정규화를 위해 널리 사용되는 전통적인 켑스트럴 평균차감법 (CMS: Cepstral Mean Subtraction)의 성능을 향상시키기 위한 정규화 방법을 제안한다. 기존의 켑스트럴 평균 차감법은 장구간 켑스트럼의 평균으로 채널 성분을 추정하므로 유성음의 포먼트에 의해 채널 성분이 편향되는 단점을 가진다. 제안된 포먼트 평활화 켑스트럴 평균 차감법 (FBCMS; Formant-broadened CMS)은 켑스트럼으로부터 변환된 로그 스펙트럼에서 포먼트 위치를 쉽게 찾을 수 있고, 포먼트는 전극점 모델로 표현되는 성도 전달 함수의 우세 극점에 대응된다는 사실에 근거한다. 따라서 제안된 방법은 켑스트럼으로부터 음성의 포먼트를 구하고, 이로부터 포먼트의 대역폭을 확장한 켑스트럼을 구한 후 평균함으로써 채널 켑스트럼 성분으로부터 우세 극점들의 영향을 제거한다. 전극점 모델의 우세 극점을 얻기 위해 다항식 인수분해 과정을 거치지 않으므로 연산량을 줄일 수 있으며 포먼트에 해당하는 우세 극점만으로 선택적으로 처리할 수 있다. 본 연구에서는 4가지의 모의 채널을 이용하여 전통적인 켑스트럴 평균 차감법, 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CMS) 그리고 제안된 방법의 비교실험을 수행하였다. 실제 채널 켑스트럼과 추정된 채널 켑스트럼과의 거리를 측정하는 실험에서 음성에 의한 편향을 완화시켜 실제 채널에 보다 가까운 평균 켑스트럼을 얻을 수 있음을 확인하였다. 또한 문장독립 화자 식별에서 제안된 방법은 전통적인 켑스트럴 평균 차감법보다 우세하고 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CU)과는 비슷한 결과를 보였다. 결과적으로 제안된 방법은 전통적인 켑스트럴 평균 차감법에 기반하여 효과적인 채널 정규화가 가능하다는 것을 보였다.

MRI에 의한 모음의 성도 단면적 측정 및 면적 변이에 따른 합성 연구 (Measurement of the vocal tract area of vowels By MRI and their synthesis by area variation)

  • 양병곤
    • 음성과학
    • /
    • 제4권1호
    • /
    • pp.19-34
    • /
    • 1998
  • The author collected and compared midsagittal, coronal, coronal oblique, and transversal images of Korean monophthongs /a, i, e, o, u, i, v/ produced by a healthy male speaker using 1.5 T MR, VISION. Area was measured by computer software after tracing the cross-section at different points along the tract. Results showed that the width of the oral and pharyngeal cavities varied compensatorily from each other on the midsagittal dimension. Formant frequency values estimated from the area functions of the seven vowels showed a strong correlation (r=0.978) with those analyzed from the spoken vowels. Moreover, almost all of 35 students who listened to the synthesized vowels from area data perceived the synthesized vowels as equivalent to the spoken ones. Movement of constriction points of vowel /u/ with wider lip opening sounded /i/ and led to slight changes in vowel quality. Jaw and tongue movement led to major volume variation with an anatomical limitation. Each comer vowel varied systematically from a somewhat constant volume of the average area. Thus, the author proposed that any simulation studies related to vocal tract area variation should reflect its constant volume. The results may be helpful to verify exact measurement of the vocal tract area through vowel synthesis and a simulation study before having any operation of the vocal tract.

  • PDF

강인한 음성 인식 시스템을 사용한 감정 인식 (Emotion Recognition using Robust Speech Recognition System)

  • 김원구
    • 한국지능시스템학회논문지
    • /
    • 제18권5호
    • /
    • pp.586-591
    • /
    • 2008
  • 본 논문은 음성을 사용한 인간의 감정 인식 시스템의 성능을 향상시키기 위하여 감정 변화에 강인한 음성 인식 시스템과 결합된 감정 인식 시스템에 관하여 연구하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향에 관한 연구와 감정 변화의 영향을 적게 받는 음성 인식 시스템을 구현하였다. 감정 인식은 음성 인식의 결과에 따라 입력 문장에 대한 각각의 감정 모델을 비교하여 입력 음성에 대한 최종감정 인식을 수행한다. 실험 결과에서 강인한 음성 인식 시스템은 음성 파라메터로 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신호편의 제거 방법으로 CMS를 사용한 HMM 기반의 화자독립 단어 인식기를 사용하였다. 이러한 음성 인식기와 결합된 감정 인식을 수행한 결과 감정 인식기만을 사용한 경우보다 좋은 성능을 나타내었다.

LSP 파라미터를 이용한 발성측정법 (On a Study of Measurement Method of Utterance Velocity for the Reduction of Transmission Rate in CELP Vocoder.)

  • 장경아;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(4)
    • /
    • pp.199-202
    • /
    • 2000
  • Speaking Rate has variety depends on the situation and habit of speakers. It has been many studied about speaking rate In speaker recognition. The study of speaking rate in speech recognition is one of considerable matter when It is recognized the speakers and it is measured by many speech data base and complicate estimation for accuracy. In this paper, conventional vocoder process the speech signal when encoding and transmitting without regard to speaking rate so in order to apply the speaking rate for vocoder It should be considered the simpler algorithm and less computation amount than the conventional method of speaking rate used In speech recognition. We proposed the speaking rate algorithm which is used the simple parameter with Line Spectrum Pair (LSP). The proposed peaking rate method is measured by the information of LSP in speech. We measured the variety rate of phenomenon about utterances which have different velocity, respectively. As a result, It has distinct variation rate of phenomenon between utterances uttered fast and slow and the rate is 42.8% higher in case of uttered fast than in case of uttered slow.

  • PDF