• Title/Summary/Keyword: 화자 분할

Search Result 47, Processing Time 0.022 seconds

The Attitudinal Force of Psuedo-Quotation Sentences in Korean (유사인용문의 화법 구조)

  • 김종현
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.178-185
    • /
    • 2000
  • 청자를 직접 대면한 상황에서 1인칭 화자는 {X, Y, 말했다}의 인용구조를 갖추지 않은'[...]고'의 '유사인용문'을 사용하여 주관적 관점을 표현한다. '-다고'로 종결되는 유사인용문 형식이 인용문의 화법과 유사한 기저구조를 지니는 것으로 보고, 화법구조상에서 관점문과 보고문의 의미적 속성을 밝혀나가는 과정에서 유상인용문의 발화 효과와 화자의 발언의도를 설명한다. 화자가 취하는 관점의 선택에 따라 1인칭 화자인 [나] 이외에 다른 제 3 의 주체, 사회적 구속력 등이 화자의 배경지식에 자리잡는 것을 가능세계의 논리적 분할의 측면에서 구분하고 이것이 유사인용문 화자의 발언 동기에 반영되는 정도의 차이에 따라서 화자의 단언적 태도와 완곡의 태도가 각각 실현되는 것임을 보인다.

  • PDF

A Study on Modified Clustering Algorithm for Text-Dependent Speaker Verification System (문장종속 화자확인 시스템을 위한 개선된 군집화 알고리즘에 관한 연구)

  • 강철호;정희석
    • The Journal of the Acoustical Society of Korea
    • /
    • v.23 no.7
    • /
    • pp.548-553
    • /
    • 2004
  • In this paper we propose modified LBG algorithm to minimize quantization errors. When we apply conventional LBG algorithm for speaker verification system, problems that result from small amount of training data can be generated. That is, quantization error comes from fixed-sized codebook without any consideration for speaker characteristics and splitting vector in the wrong direction worsen performance of speaker verification system. So, we propose modified clustering method that has variable sized codebook according to speaker characteristics and makes right splitting direction by finding the farthest member away from mean and then find another member from the member. Simulation results show effectiveness of the proposed algorithm.

Segment unit shuffling layer in deep neural networks for text-independent speaker verification (문장 독립 화자 인증을 위한 세그멘트 단위 혼합 계층 심층신경망)

  • Heo, Jungwoo;Shim, Hye-jin;Kim, Ju-ho;Yu, Ha-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.40 no.2
    • /
    • pp.148-154
    • /
    • 2021
  • Text-Independent speaker verification needs to extract text-independent speaker embedding to improve generalization performance. However, deep neural networks that depend on training data have the potential to overfit text information instead of learning the speaker information when repeatedly learning from the identical time series. In this paper, to prevent the overfitting, we propose a segment unit shuffling layer that divides and rearranges the input layer or a hidden layer along the time axis, thus mixes the time series information. Since the segment unit shuffling layer can be applied not only to the input layer but also to the hidden layers, it can be used as generalization technique in the hidden layer, which is known to be effective compared to the generalization technique in the input layer, and can be applied simultaneously with data augmentation. In addition, the degree of distortion can be adjusted by adjusting the unit size of the segment. We observe that the performance of text-independent speaker verification is improved compared to the baseline when the proposed segment unit shuffling layer is applied.

A Statistical Approach to Phoneme Segmentation through Multi-step Compensation (다단계 보상 기능을 갖는 통계적 방법에 의한 음소 분할)

  • 김홍국;이황수;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • v.10 no.5
    • /
    • pp.69-76
    • /
    • 1991
  • 본 논문에서는 통계적 방법에 의한 음소의 자동분할에 관한 알고리즘을 제안하였다. 우선 음성 신호를 AR 모델로 모델링한 후 스펙트럼이 변화하기 전과 변화한 후의 모델에 대해서 likelihood ratio 와 mutual information을 고려한 test statistics 로부터 모델 계수가 변화하는 곳을 예측해 내고 이 곳을 음소의 경계로 판단한다. 이 경우 검파되지 못하는 대부분의 음소는 짧은 자음이었으며 Signed front-to-back maximum area ratio을 이용하여 개선하였다. 또한 false alarm error을 줄이기 위해 두 segment 사이의 distortion 으로부터 smoothing을 하였다. 3명의 화자에 대한 실험 결과 non-detection error는 10%, false alarm error는 20% 정도로 나타났지만 화자간에 알고리즘의 성능 변화가 거의 없으 며 특히 분할된 경계치 분포는 전체 음소의 90% 이상이 이 30ms 이내에 위치하였다.

  • PDF

I-vector similarity based speech segmentation for interested speaker to speaker diarization system (화자 구분 시스템의 관심 화자 추출을 위한 i-vector 유사도 기반의 음성 분할 기법)

  • Bae, Ara;Yoon, Ki-mu;Jung, Jaehee;Chung, Bokyung;Kim, Wooil
    • The Journal of the Acoustical Society of Korea
    • /
    • v.39 no.5
    • /
    • pp.461-467
    • /
    • 2020
  • In noisy and multi-speaker environments, the performance of speech recognition is unavoidably lower than in a clean environment. To improve speech recognition, in this paper, the signal of the speaker of interest is extracted from the mixed speech signals with multiple speakers. The VoiceFilter model is used to effectively separate overlapped speech signals. In this work, clustering by Probabilistic Linear Discriminant Analysis (PLDA) similarity score was employed to detect the speech signal of the interested speaker, which is used as the reference speaker to VoiceFilter-based separation. Therefore, by utilizing the speaker feature extracted from the detected speech by the proposed clustering method, this paper propose a speaker diarization system using only the mixed speech without an explicit reference speaker signal. We use phone-dataset consisting of two speakers to evaluate the performance of the speaker diarization system. Source to Distortion Ratio (SDR) of the operator (Rx) speech and customer speech (Tx) are 5.22 dB and -5.22 dB respectively before separation, and the results of the proposed separation system show 11.26 dB and 8.53 dB respectively.

A Study on the Speaker Adaptation in HMM Using Variable Number of Branches in Each State (상태당 가지수를 가변시킨 HMM을 이용한 화자적응화에 관한 연구)

  • 김광태;서정일;한유수;홍재근
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.3
    • /
    • pp.90-95
    • /
    • 1998
  • 본 논문에서는 CHMM인 CDHMM과 ARHMM을 이용하여 화자적응화 하는 방법을 각각 연구하였다. CDHMM에서는 최대사후화확률 추정법에 의하여 각 상태마다 하나의 가 지를 이용하여 화자에 적응시킨다. 본 논문에서는 음성의 다양한 음향학적 특징을 표현하기 위하여 상태마다 여러 개의 가지를 갖는 방법을 제안하였다. 상태마다의 적절한 가지 수를 결정하기 위하여 각 상태에 속하는 프레임 수와 특징 벡터들의 분산행렬의 행렬식값을 이용 하였다. ARHMM에서는 특징벡터로 선형예측계수를 사용하기 때문에 최대사후화확률 추정 법을 사용할 수 없게 된다. 따라서 화자독립모델을 이용하여 적응화자에 대한 음성을 Viterbi 알고리듬으로 상태별로 분할한 후 k-means 알고리듬을 이용하여 각 상태마다 하나 의 가지를 갖는 모델로 적응시키는 방법을 제안하였다.

  • PDF

A Study on the Phoneme Segmentation Using Neural Network (신경망을 이용한 음소분할에 관한 연구)

  • 이광석;이광진;조신영;허강인;김명기
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.17 no.5
    • /
    • pp.472-481
    • /
    • 1992
  • In this paper, we proposed a method of segmenting speech signal by neural network and its validity is proved by computer simulation. The neural network Is composed of multi layer perceptrons with one hidden layer. The matching accuracies of the proposed algorithm are measured for continuous vowel and place names. The resulting average matching accuracy is 100% for speaker-dependent case, 99.5% for speaker-independent case and 94.5% for each place name when the neural network 1,; trained for 6 place names simultaneously.

  • PDF

The Recognition of Korean Continuous Speech using Syntactic Analysis and Level Building (구문 분석과 Level Building을 이용한 한국어 연속음 인식)

  • 안태옥;변용규;김순협
    • The Journal of the Acoustical Society of Korea
    • /
    • v.5 no.4
    • /
    • pp.27-36
    • /
    • 1986
  • 본 논문은 특정 화자에 대한 하국어 연속음의 효율적인 인식을 위하여, 구문분석과 OGS기법으 로 변형시킨 Level Building을 이용한 인식시스템에 대해서 제안하고 있다. 본 시스템에서 사용하는 template는 연속음을 분할시킨 단독음이며 소구간 경로 및 본 논문에서 제안한 전체 경로 제약에 의해 거리 계산값이 최소인 super reference를 구함으로써 인식된다. 본 연구에서 사용한 연속음은 단독음 11 자로 구성된 13개의 전철역명으로서 2인의 남성과 1인의 여성화자에 의해 10번씩 발음한 130단어를 테 스트하였는데 97.7%의 단어인식을 보였다.

  • PDF

A Study on Unspecified Speaker Recognition by Selective Pattern-Block Neural Network (선택적 패턴블럭 신경회로망을 이용한 불특정 화자 인식)

  • 강명광
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.96-99
    • /
    • 1995
  • 본 연구는 특징 파라메터의 특성을 고려한 신경회로망에 관한 연구로서 패턴블럭 선택적 신경회로망을 제안하고, 제안한 신경회로망의 성능을 평가하기 위하여 한국어 단모음에 대한 불특정 화자 인식 실험을 하였다. 각 패턴에 따른 특징 파라메터의 변화를 고려하지 않은 기존의 패턴매칭 알고리즘에 비하여 제안된 신경회로망은 인가된 패턴을 파라메터의 특성에 맞게 몇 개의 부패턴으로 분할한 후 가장 최적의 부패턴을 선택하여 학습하고 인지하는 것이 그 특성이다.

  • PDF

Improvement in Supervector Linear Kernel SVM for Speaker Identification Using Feature Enhancement and Training Length Adjustment (특징 강화 기법과 학습 데이터 길이 조절에 의한 Supervector Linear Kernel SVM 화자식별 개선)

  • So, Byung-Min;Kim, Kyung-Wha;Kim, Min-Seok;Yang, Il-Ho;Kim, Myung-Jae;Yu, Ha-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.6
    • /
    • pp.330-336
    • /
    • 2011
  • In this paper, we propose a new method to improve the performance of supervector linear kernel SVM (Support Vector Machine) for speaker identification. This method is based on splitting one training datum into several pieces of utterances. We use four different databases for evaluating performance and use PCA (Principal Component Analysis), GKPCA (Greedy Kernel PCA) and KMDA (Kernel Multimodal Discriminant Analysis) for feature enhancement. As a result, the proposed method shows improved performance for speaker identification using supervector linear kernel SVM.