• 제목/요약/키워드: blind speech segmentation

검색결과 6건 처리시간 0.019초

Blind speech segmentation과 에너지 가중치를 이용한 문장 종속형 화자인식기의 성능 향상 (Performance improvement of text-dependent speaker verification system using blind speech segmentation and energy weight)

  • 김정곤;김형순
    • 대한음성학회지:말소리
    • /
    • 제47호
    • /
    • pp.131-140
    • /
    • 2003
  • We propose a new method of generating client models for HMM based text-dependent speaker verification system with only a small amount of training data. To make a client model, statistical methods such as segmental K-means algorithm are widely used, but they do not guarantee the quality or reliability of a model when only limited data are avaliable. In this paper, we propose a blind speech segmentation based on level building DTW algorithm as an alternative method to make a client model with limited data. In addition, considering the fact that voiced sounds have much more speaker-specific information than unvoiced sounds and energy of the former is higher than that of the latter, we also propose a new score evaluation method using the observation probability raised to the power of weighting factor estimated from the normalized log energy. Our experiment shows that the proposed methods are superior to conventional HMM based speaker verification system.

  • PDF

음절핵의 위치정보를 이용한 우리말의 음소경계 추출 (Utilization of Syllabic Nuclei Location in Korean Speech Segmentation into Phonemic Units)

  • 신옥근
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.13-19
    • /
    • 2000
  • 음성신호의 음소경계 추출방법 중 음소에 대한 사전지식 없이 음성 데이타, 혹은 특징벡터의 변화를 감지하여 음소경계를 추출해 내는 맹목 세그먼테이션은 연속음형 인식시스템이나 코퍼스 제작에 중요한 역할을 하며 많은 연구가 진행되어 왔다. 이러한 맹목 세그먼테이션 방법은 사전지식을 필요로 하지 않아 비교적 쉽게 접근할 수 있으나 음운학적인 지식, 또는 음소나 음소경계에 대한 지식과 경험 데이타 등을 이용하는 지식 기반 세그먼테이션 방법에 비해 성능이 좋지 못한 단점이 있다. 본고에서는 우리말의 연속 음성을 맹목 세그먼테이션해서 후보 경계를 추출한 다음, 음절핵의 위치정보를 이용하여 후보 경계를 후처리함으로써 세그먼테이션 효율을 높이는 방법을 제안한다. 제안하는 방법의 전처리과정에서는 확률적인 거리 모델을 이용한 클러스터링 방법을 이용하였으며, 후처리과정에서는 음절의 핵 사이에 위치할 수 있는 음소의 수는 제한된다는 선험적인 지식을 이용하였다. 실험결과, 제안하는 방법을 이용했을 때의 삽입오류는 맹목 세그먼테이션에 비해 약 25% 감소하였다.

  • PDF

유성음과 무성음의 경계를 이용한 연속 음성의 세그먼테이션 (Segmentation of continuous Korean Speech Based on Boundaries of Voiced and Unvoiced Sounds)

  • 유강주;신욱근
    • 한국정보처리학회논문지
    • /
    • 제7권7호
    • /
    • pp.2246-2253
    • /
    • 2000
  • In this paper, we show that one can enhance the performance of blind segmentation of phoneme boundaries by adopting the knowledge of Korean syllabic structure and the regions of voiced/unvoiced sounds. eh proposed method consists of three processes : the process to extract candidate phoneme boundaries, the process to detect boundaries of voiced/unvoiced sounds, and the process to select final phoneme boundaries. The candidate phoneme boudaries are extracted by clustering method based on similarity between two adjacent clusters. The employed similarity measure in this a process is the ratio of the probability density of adjacent clusters. To detect he boundaries of voiced/unvoiced sounds, we first compute the power density spectrum of speech signal in 0∼400 Hz frequency band. Then the points where this paper density spectrum variation is greater than the threshold are chosen as the boundaries of voiced/unvoiced sounds. The final phoneme boundaries consist of all the candidate phoneme boundaries in voiced region and limited number of candidate phoneme boundaries in unvoiced region. The experimental result showed about 40% decrease of insertion rate compared to the blind segmentation method we adopted.

  • PDF

주요고유성분분석을 이용한 연속음성의 세그멘테이션 (Segmentation of Continuous Speech based on PCA of Feature Vectors)

  • 신옥근
    • 한국음향학회지
    • /
    • 제19권2호
    • /
    • pp.40-45
    • /
    • 2000
  • 음소에 대한 사전지식 없이 음성의 신호나 특징벡터 만으로부터 음소별 경계를 추출하는 맹목 세그멘테이션의 한가지 방법은 음소별 특징벡터들 사이의 거리를 최소화하는 경계를 찾는 것이다. 이런 방법에서 특징벡터들 사이의 거리척도로 유클리드 거리가 자주 사용되고 있지만 한 음소의 특징벡터들 사이에도 많은 변화가 있어 단순한 유클리드 거리척도만으로는 음소별 경계를 추출하기에 효율적이지 못하다. 본고에서는 한 음소에 속하는 특징벡터들의 전체적인 추이를 반영한 특징벡터들 사이의 거리를 구하기 위해 주요고유성분분석법(principal component analysis)을 이용하는 방법을 제안한다. 이 방법에서는 각 특징벡터들과 이들을 주요고유성분에 투영한 점 사이의 거리를 척도로 이용한다. 제안하는 거리척도를 LBDP 알고리즘에 적용하여 연속음성의 음소간 경계를 추출하는 실험을 수행하였다. 실험 결과, 단순한 유클리드 거리를 척도로 할 때 보다 약 3-6% 정도의 누락오류를 줄일 수 있어 유용하게 이용될 수 있음을 보였다.

  • PDF

전화망을 위한 어구 종속 화자 확인 시스템 (Text-dependent Speaker Verification System Over Telephone Lines)

  • 김유진;정재호
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 추계종합학술대회 논문집
    • /
    • pp.663-667
    • /
    • 1999
  • In this paper, we review the conventional speaker verification algorithm and present the text-dependent speaker verification system for application over telephone lines and its result of experiments. We apply blind-segmentation algorithm which segments speech into sub-word unit without linguistic information to the speaker verification system for training speaker model effectively with limited enrollment data. And the World-mode] that is created from PBW DB for score normalization is used. The experiments are presented in implemented system using database, which were constructed to simulate field test, and are shown 3.3% EER.

  • PDF

화자확인 시스템을 위한 분절 알고리즘 (A Blind Segmentation Algorithm for Speaker Verification System)

  • 김지운;김유진;민홍기;정재호
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.45-50
    • /
    • 2000
  • 본 논문에서는 하위단어에 기반한 전화선 채널에서의 어구 종속 화자 확인 시스템을 위한 음성 분할 알고리즘인, 파라미트릭 필터링에 기반한 델타 에너지를 제안한다. 제안한 알고리즘은 특정 밴드의 주파수를 기준으로 대역폭을 변화시키며 필터링한 후 델타 에너지를 이용하는 방법으로 다른 알고리즘에 비해 주변환경에 강인한 것으로 나타났다. 이를 이용해 음성을 하위단어로 분할하고, 각 하위단어를 이용해 화자의 성문을 모델링하였다. 제안한 알고리즘의 성능 평가를 위해 EER(Equal Error Rate)를 사용한다. 그 결과 단일 모델의 EER이 약 6.1%, 하위 단어 모델의 EER이 약 4.0%로 본 논문에서 제안한 알고리즘을 사용했을 때 약 2%의 성능이 향상되었다.

  • PDF