• 제목/요약/키워드: Speaker identification

검색결과 152건 처리시간 0.026초

어레이 마이크로폰용 광대역 소형 위상교정기의 설계 (Design of the broadband and compact phase-calibrator for array microphones)

  • 주형식;김양한
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2004년도 추계학술대회논문집
    • /
    • pp.1032-1035
    • /
    • 2004
  • Pressure distribution is measured by way microphones to identify noise sources in the space. For example, beam-forming method or acoustic holography use phase information to identify the source. Therefore, the phase is significant information to correctly identify the source position. However, due to the microphone characteristics and measuring systems, measured signals always have errors, which make the identification difficult. Therefore, phase calibration of microphones is needed. Duct and speaker systems are generally used as calibrators. Acoustic characteristics of the calibrator are, of course, functions of many Parameters of the system: i.e. duct size, frequency, and microphone spacing. In this paper, design parameters which effect on the performance and size of the calibrators are considered. Then the parameters would be applied to design and real product of the phase-calibrator.

  • PDF

Lie Detection Technique using Video from the Ratio of Change in the Appearance

  • Hossain, S.M. Emdad;Fageeri, Sallam Osman;Soosaimanickam, Arockiasamy;Kausar, Mohammad Abu;Said, Aiman Moyaid
    • International Journal of Computer Science & Network Security
    • /
    • 제22권7호
    • /
    • pp.165-170
    • /
    • 2022
  • Lying is nuisance to all, and all liars knows it is nuisance but still keep on lying. Sometime people are in confusion how to escape from or how to detect the liar when they lie. In this research we are aiming to establish a dynamic platform to identify liar by using video analysis especially by calculating the ratio of changes in their appearance when they lie. The platform will be developed using a machine learning algorithm along with the dynamic classifier to classify the liar. For the experimental analysis the dataset to be processed in two dimensions (people lying and people tell truth). Both parameter of facial appearance will be stored for future identification. Similarly, there will be standard parameter to be built for true speaker and liar. We hope this standard parameter will be able to diagnosed a liar without a pre-captured data.

청각장애인용 방송에서 화자 식별을 위한 얼굴 인식 알고리즘 및 전처리 연구 (Face Recognition and Preprocessing Technique for Speaker Identification in hard of hearing broadcasting)

  • 김나연;조숙희;배병준;안충현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.450-452
    • /
    • 2020
  • 본 논문에서는 딥러닝 기반 얼굴 인식 알고리즘에 대해 살펴보고, 이를 청각장애인용 방송에서 화자를 식별하고 감정 표현 자막을 표출하기 위한 배우 얼굴 인식 기술에 적용하고자 한다. 우선, 배우 얼굴 인식을 위한 방안으로 원샷 학습 기반의 딥러닝 얼굴 인식 알고리즘인 ResNet-50 기반 VGGFace2 모델의 구성에 대해 이해하고, 이러한 모델을 기반으로 다양한 전처리 방식을 적용하여 정확도를 측정함으로써 실제 청각장애인용 방송에서 배우 얼굴을 인식하기 위한 방안에 대해 모색한다.

  • PDF

확률적 방법을 이용한 음성 개성 변환 (Voice Personality Transformation Using a Probabilistic Method)

  • 이기승
    • 한국음향학회지
    • /
    • 제24권3호
    • /
    • pp.150-159
    • /
    • 2005
  • 본 논문에서는 임의의 음성을 특정 화자가 발성한 것처럼 들리도록 변환하는 음성 개성 변환 알고리즘에 대해 연구하였다. 제안된 기법은 화자의 음성을 LPC 켑스트럼, 피치, 발성 속도를 사용하여 표현하였으며 각각에 대한 변환 규칙을 생성하여 변환을 수행하였다. LPC 켑스트럼은 혼합 가우시안 모델을 이용한 확률적으로 모델링하고, 두 화자간의 대응관계를 조건 확률로 나타내었다. 확률적인 모델링에 필요한 각종 파라메터들을 얻기 위해 최대 가능도 기법이 사용되었으며, 변환 LPC 켑스트럼은 최소 자승 오차 방법에 근거하여 얻어지도록 하였다. 운율 변환을 위한 변수로 본 논문에서는 피치와 발성 속도를 사용하였으며, 두 음성간의 평균값 비율을 사용하여 운율 변환을 수행하였다. 제안된 기법은 기존 벡터 양자화 기반의 기법과 비교에서, 객관적인 척도로 사용한 평균 켑스트럼 거리 감소율, 가능도 증가율 면에서 우수한 성능을 나타내었다. 주관적인 테스트에서도 기존의 방법과 유사한 인식율을 얻었으며 특히 완만하게 변화하는 스펙트럼 궤적에 따른 고음질이 얻어짐을 확인할 수 있었다.

켑스트럼으로부터 변환된 로그 스펙트럼을 이용한 포먼트 평활화 켑스트럴 평균 차감법 (Formant-broadened CMS Using the Log-spectrum Transformed from the Cepstrum)

  • 김유진;정혜경;정재호
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.361-373
    • /
    • 2002
  • 본 논문에서는 음성 인식과 화자 인식에서 채널 변이 정규화를 위해 널리 사용되는 전통적인 켑스트럴 평균차감법 (CMS: Cepstral Mean Subtraction)의 성능을 향상시키기 위한 정규화 방법을 제안한다. 기존의 켑스트럴 평균 차감법은 장구간 켑스트럼의 평균으로 채널 성분을 추정하므로 유성음의 포먼트에 의해 채널 성분이 편향되는 단점을 가진다. 제안된 포먼트 평활화 켑스트럴 평균 차감법 (FBCMS; Formant-broadened CMS)은 켑스트럼으로부터 변환된 로그 스펙트럼에서 포먼트 위치를 쉽게 찾을 수 있고, 포먼트는 전극점 모델로 표현되는 성도 전달 함수의 우세 극점에 대응된다는 사실에 근거한다. 따라서 제안된 방법은 켑스트럼으로부터 음성의 포먼트를 구하고, 이로부터 포먼트의 대역폭을 확장한 켑스트럼을 구한 후 평균함으로써 채널 켑스트럼 성분으로부터 우세 극점들의 영향을 제거한다. 전극점 모델의 우세 극점을 얻기 위해 다항식 인수분해 과정을 거치지 않으므로 연산량을 줄일 수 있으며 포먼트에 해당하는 우세 극점만으로 선택적으로 처리할 수 있다. 본 연구에서는 4가지의 모의 채널을 이용하여 전통적인 켑스트럴 평균 차감법, 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CMS) 그리고 제안된 방법의 비교실험을 수행하였다. 실제 채널 켑스트럼과 추정된 채널 켑스트럼과의 거리를 측정하는 실험에서 음성에 의한 편향을 완화시켜 실제 채널에 보다 가까운 평균 켑스트럼을 얻을 수 있음을 확인하였다. 또한 문장독립 화자 식별에서 제안된 방법은 전통적인 켑스트럴 평균 차감법보다 우세하고 극점 필터화 켑스트럴 평균 차감법 (Pole-filtered CU)과는 비슷한 결과를 보였다. 결과적으로 제안된 방법은 전통적인 켑스트럴 평균 차감법에 기반하여 효과적인 채널 정규화가 가능하다는 것을 보였다.

언어별, 연령별, 수준별 집단에 의한 모음간 영어 파열음 유/무성 인지 연구 (A Perceptual Study on the Temporal Cues of English Intervocalic Plosives for Various Groups Depending on Background Language, English Listening Ability, and Age)

  • 강석한
    • 음성과학
    • /
    • 제13권2호
    • /
    • pp.133-145
    • /
    • 2006
  • In order to understand the various groups' perceptual pattern in both VCV trochee and iambus, this study examined the identification correctness and cue robustness for the unit intervals in light of background language, age, and English listening ability. The 4 groups of Native Speakers of English, Korean College Students of High Listening Achievement, Korean College Students of Low Listening Achievement, and Korean Elementary Students took part in the experiments. Tokens of $/d{\ae}per,\;d{\ae}per,\;d{\ae}per,\;d{\ae}per,\;d{\ae}per,\;d{\ae}per$ in trochee and of $/{\eth}{\partial}\;p{\ae}d,\;{\eth}{\partial}\;b{\ae}d,\;{\eth}{\partial}\;t{\ae}d,\;{\eth}{\partial}\;d{\ae}d,\;{\eth}{\partial}\;k{\ae}d,\;{\eth}{\partial}\;g{\ae}d/$ in iambus were extracted and modified into experimental signals composed of two digits(voiced-1, voiceless-0) by following the temporal intervals, in which the signals consisted of preceding vowel, closure, VOT, and post-vowel. In the first experiment of identification correctness in VCV iambus environment, all groups showed almost 100% correctness rate, while in trochee environment all groups were different(native speaker 87%, college high 74%, college low 70%, elementary 65%). In the second experiment of cue robustness, all groups showed the similar perceptual pattern in both environments. There was the order of robustness cues in VCV trochee: pre-vowel ${\gg}$ closure ${\gg}$ VOT ${\gg}$ post-vowel, while the order in VCV iambus: VOT ${\gg}$ post-vowel ${\gg}$ closure ${\gg}$ pre-vowel. In some condition, however, we found moderately different perceptual pattern depending on language, age and listening level.

  • PDF

변형된 AMDF를 이용한 피치 주기 검출 알고리즘 (Pitch Period Detection Algorithm Using Modified AMDF)

  • 서현수;배상범;김남호
    • 한국정보통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.23-28
    • /
    • 2006
  • 피치 주기는 음성 인식, 화자 식별, 음성 분석 및 합성 등과 같은 음성 신호 처리 분야에 있어서 중요한 요소이며, 이러한 피치 주기 검출에 관련된 다양한 알고리즘이 지금까지 연구되고 있다. 피치 검출에 사용되는 알고리즘의 하나인 AMDF(average magnitude difference function)는 각 계곡점의 거리를 피치 주기로 계산한다. 이때, 피치 주기 검출을 위한 계곡점 선정에 있어서 알고리즘이 복잡해지는 문제점이 발생한다. 따라서 본 논문에서는 AMDF의 회전변환을 이용하여 전체 최소 계곡점을 음성 신호의 피치 주기로 검출하는 간단한 알고리즘을 제안하였으며, 시뮬레이션을 통해 기존의 방법들과 비교하였다.

프레임단위유사도정규화를 이용한 문맥독립화자식별시스템의 성능 향상 (Improving A Text Independent Speaker Identification System By Frame Level Likelihood Normalization)

  • 김민정;석수영;정현열;정호열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.487-490
    • /
    • 2001
  • 본 논문에서는 기존의 Caussian Mixture Model을 이용한 실시간문맥독립화자인식시스템의 성능을 향상시키기 위하여 화자검증시스템에서 좋은 결과를 나타내는 유사도정규화 ( Likelihood Normalization )방법을 화자식별시스템에 적용하여 시스템을 구현하였으며, 인식실험한 결과에 대해 보고한다. 시스템은 화자모델생성단과 화자식별단으로 구성하였으며, 화자모델생성단에서는, 화자발성의 음향학적 특징을 잘 표현할 수 있는 GMM(Gaussian Mixture Model)을 이용하여 화자모델을 작성하였으며. GMM의 파라미터를 최적화하기 위하여 MLE(Maximum Likelihood Estimation)방법을 사용하였다. 화자식별단에서는 학습된 데이터와 테스트용 데이터로부터 ML(Maximum Likelihood)을 이용하여 프레임단위로 유사도를 계산하였다. 계산된 유사도는 유사도 정규화 과정을 거쳐 스코어( SC)로 표현하였으며, 가장 높은 스코어를 가지는 화자를 인식화자로 결정한다. 화자인식에서 발성의 종류로는 문맥독립 문장을 사용하였다. 인식실험을 위해서는 ETRI445 DB와 KLE452 DB를 사용하였으며. 특징파라미터로서는 켑스트럼계수 및 회귀계수값만을 사용하였다. 인식실험에서는 등록화자의 수를 달리하여 일반적인 화자식별방법과 프레임단위유사도정규화방법으로 각각 인식실험을 하였다. 인식실험결과, 프레임단위유사도정규화방법이 인식화자수가 많아지는 경우에 일반적인 방법보다 향상된 인식률을 얻을수 있었다.

  • PDF

The effect of L2 experience on perception of Korean nasals

  • Yoo, Juyeon;Kang, Seokhan
    • 말소리와 음성과학
    • /
    • 제8권4호
    • /
    • pp.63-69
    • /
    • 2016
  • Twenty five English native speakers with two different L2 experienced groups and nineteen native Koreans heard both Korean word-initial nasals (/m/ and /n/) in three vowel contexts (low, mid, and high) produced by a native Korean speaker. The experiment examined the hypothesis that Korean nasals are more likely to be judged or perceived correctly by the L2-experienced English learners of Korean than the unexperienced counterparts. The result showed that L2 experienced group was more sensitive to effects of vowel height in judging the Korean nasals in which the perception of nasals before the high vowels was more subject to it. In addition, place of nasal articulation causes asymmetry relations - bilabial nasal /m/ is more likely to be perceived as plosives rather than alveolar nasal /n/. The study found that the L2 experience has a somewhat limited role in perceiving the nasals correctly in the word-initial position, especially before the high vowels, in that even the L2 experienced English subjects have difficulty in identifying the Korean nasals correctly in this environment. Nevertheless, low L2 proficiency might be accounted for the difficulty in the bilabial nasal identification observed by the L2 experienced group.

대칭 신경회로망과 그 응용에 관한 연구 (A Study on the Symmetric Neural Networks and Their Applications)

  • 나희승;박영진
    • 대한기계학회논문집
    • /
    • 제16권7호
    • /
    • pp.1322-1331
    • /
    • 1992
  • 본 연구에서는 Fig.3과 같은 다층 퍼셉트론을 사용하기로 한다. 그리고 위 에서 언급한 세가지점에서 다층퍼셉트론을 다시 살펴보아 해결하고자 하는 문제에 맞 도록 다층퍼셉트론을 개선시켜 보기로 한다. 따라서 본 연구의 목적은 제한조건을 갖는 문제를 풀기위한 새로운 형태의 다층퍼셉트론 설계 및 이에 적합한 학습규칙을 적용하여 보다 간단한 구조와 빠른 학습시간을 갖는 신경망을 구성하는데 있다.