• 제목/요약/키워드: concatenation

검색결과 86건 처리시간 0.019초

화자적응화 연속음성 인식 시스템의 구현에 관한 연구 (A Study on Realization of Continuous Speech Recognition System of Speaker Adaptation)

  • 김상범;김수훈;허강인;고시영
    • 한국음향학회지
    • /
    • 제18권3호
    • /
    • pp.10-16
    • /
    • 1999
  • 본 연구에서는 소량의 음성 데이터만으로 적응화가 가능한 MAPE(최대사후확률추정)을 이용한 연속음성 인식시스템 개발에 대해 연구하였다. 음절단위 모델을 구축한 후 적응화 하고자 하는 화자의 데이터를 연결학습법과 Viterbi 알고리즘으로 음절단위의 추출을 자동화 한 후 MAPE로 적응화하였다. 자동차 제어문에 대해 화자 적응화한 경우의 인식률(O(n)DP인 경우)은 77.18%로 적응화 전의 결과보다 약 6%향상되었다.

  • PDF

그래프에 기반한 전역적 정합 방법 (Graph-Based framework for Global Registration)

  • 김현우;홍기상
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.671-674
    • /
    • 2000
  • In this paper, we present a robust global registration algorithm for multi-frame image mosaics. When we perform a pair-wise registration recovering a projective transformation between two consecutive frames, severe mis-registration among multiple frames, which are not consecutive, can be detected. It is because the concatenation of those pair-wise transformations leads to global alignment errors. To overcome those mis-registrations, we propose a new algorithm using multiple frames for constructing image mosaics. We use a graph to represent the temporal and spatial connectivity and show that global registration can be obtained through the search for an optimal path in the constructed graph. The definition of an adequate objective function characterizing the global registration provides a direct manipulation of the graph. In the presence of moving objects, especially large ones compared with low texture backgrounds, by using the likelihood ratio as the objective function, we can deal with some of the most challenging videos like basketball or soccer Moreover, the algorithm can be parallelized so it can be more efficiently implemented. Finally, we give some experimental results from real videos.

  • PDF

HMM 기반의 한국어 음성합성에서 음색변환에 관한 연구 (A Study on the Voice Conversion with HMM-based Korean Speech Synthesis)

  • 김일환;배건성
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.65-74
    • /
    • 2008
  • A statistical parametric speech synthesis system based on the hidden Markov models (HMMs) has grown in popularity over the last few years, because it needs less memory and low computation complexity and is suitable for the embedded system in comparison with a corpus-based unit concatenation text-to-speech (TTS) system. It also has the advantage that voice characteristics of the synthetic speech can be modified easily by transforming HMM parameters appropriately. In this paper, we present experimental results of voice characteristics conversion using the HMM-based Korean speech synthesis system. The results have shown that conversion of voice characteristics could be achieved using a few sentences uttered by a target speaker. Synthetic speech generated from adapted models with only ten sentences was very close to that from the speaker dependent models trained using 646 sentences.

  • PDF

청각장애아동과 건청아동의 성도면적 추정 성능 (Performance of Vocal Tract Area Estimation from Deaf and Normal Children's Speech)

  • 김세환;김남;권오욱
    • 대한음성학회지:말소리
    • /
    • 제56호
    • /
    • pp.159-172
    • /
    • 2005
  • This paper analyzes the vocal tract area estimation algorithm used as a part of a speech analysis program to help deaf children correct their pronunciations by comparing their vocal tract shape with normal children's. Assuming that a vocal tract is a concatenation of cylinder tubes with a different cross section, we compute the relative vocal tract area of each tube using the reflection coefficients obtained from linear predictive coding. Then, we obtain the absolute vocal tract area by computing the height of lip opening with a formula modified for children's speech. Using the speech data for five Korean vowels (/a/, /e/, /i/, /o/, and /u/), we investigate the effects of the sampling frequency, frame size, and model order on the estimated vocal tract shape. We compare the vocal tract shapes obtained from deaf and normal children's speech.

  • PDF

전문가 설문에 의한 AHP 가중치 산출의 적용한계에 관한 연구 (A Study on application limitation of AHP priority vector with Expert measurement)

  • 김웅이;김도현;최연철
    • 한국항공운항학회지
    • /
    • 제18권3호
    • /
    • pp.92-98
    • /
    • 2010
  • The AHP methodology compares criteria, or alternatives with respect to a criterion, in a natural, pairwise mode. AHP has been applied in a wide variety of applications multi objective decision making being just one. If a group of expert with different aspect, they need some way to revise expert group. We proposed the concatenation of expert to survey the AHP pairwise question for multi-attribute decision making. In this paper, we suggest a way to revise the expert's priorities in hierarch using concept of different group opinion.

자모 및 음절 임베딩 결합을 이용한 오타에 효과적인 한국어 형태소 분석 (Effective Korean POS Tagging for Typing Errors Using the Concatenation of Jamo and Syllable Embedding)

  • 김혜민;양선;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.574-579
    • /
    • 2018
  • 본 논문에서는 한국어 형태소 분석 시스템을 제안하는데, 연구 목표는 오타 없는 문서를 대상으로 한 경우에도 높은 성능을 유지하면서, 동시에 오타가 있는 문서에서도 우수한 성능을 산출하는 것이다. 실험은 크게 두 종류로 나누어서 진행된다. 주 실험인 첫 번째 실험에서는, 자모 임베딩과 음절 임베딩을 결합(concatenate)한 벡터를 입력으로 Bidirectional LSTM CRFs을 수행함으로써, 세종말뭉치 대상으로 어절 정확도 97%, 그리고 1, 2, 5 어절마다 오타가 출현한 경우에서도 각각 80.09%, 87.53%, 92.49%의 높은 성능을 산출하였다. 추가 실험인 두 번째 실험에서는, 실생활에서 자주 발생하는 오타들을 집계하여 그 중에서 11가지 오타 유형을 선정 후, 각 유형에 대해 변환된 임베딩 벡터를 적용함으로써, 해당 오타를 포함한 문장에서 93.05%의 우수한 성능을 산출하였다.

  • PDF

'Hanmal' Korean Language Diphone Database for Speech Synthesis

  • Chung, Hyun-Song
    • 음성과학
    • /
    • 제12권1호
    • /
    • pp.55-63
    • /
    • 2005
  • This paper introduces a 'Hanmal' Korean language diphone database for speech synthesis, which has been publicly available since 1999 in the MBROLA web site and never been properly published in a journal. The diphone database is compatible with the MBROLA programme of high-quality multilingual speech synthesis systems. The usefulness of the diphone database is introduced in the paper. The paper also describes the phonetic and phonological structure of the database, showing the process of creating a text corpus. A machine-readable Korean SAMPA convention for the control data input to the MBROLA application is also suggested. Diphone concatenation and prosody manipulation are performed using the MBR-PSOLA algorithm. A set of segment duration models can be applied to the diphone synthesis of Korean.

  • PDF

반음절단위를 이용한 한국어 음성합성에 관한 연구 (A Study on the Korean Text-to-Speech Using Demisyllable Units)

  • 윤기선;박성한
    • 대한전자공학회논문지
    • /
    • 제27권10호
    • /
    • pp.138-145
    • /
    • 1990
  • 본 논문에서는 합성단위를 반음절로 하여 적은 데이터 베이스를 차지하면서도, 합성음의 자연스러움을 향상 시키기 위한 한국어 규칙 합성법을 제시한다. 반음절 음성신호를 분석하기 위해 12차 선형 예측법을 사용하며, 합성음의 자연성과 명료성을 위해 음절간 접속 규칙, 모음부의 연결규칙을 개발한다. 또한 신경망 모델을 이용한 음운 변동 규칙과 운율규칙을 적용한다.

  • PDF

ABS/OLA Sinusoidal 모델에서 위상계승을 이용한 단위음성의 연결 (Speech Unit Concatenation by Phase Succession in an ABS/OLA Sinusoidal Model)

  • 배재현;변효진;오영환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.11-14
    • /
    • 1999
  • 본 논문에서는 중첩가산 Sinusoidal 합성방식에서 매칭된 정현파별로 위상을 계승하는 단위음성 연결방법을 제안한다. 선행 단위음의 마지막 프레임, 후행 단위음의 첫 프레임, 후행 단위음의 나머지 프레임의 단계로 나누어 각 단계마다 제안한 방식으로 선행 프레임의 위상을 계승하였다. 실험결과 후행 단위음의 연결 위치를 이동하는 기존의 방식을 사용한 연결음에 비해 연결부분에서 음성파형의 급격한 변화가 줄었다.

  • PDF

W-CDMA 시스템에서 터보 부호의 새로운 복호지연 감소방식에 관한 연구 (A Study on the New Delay Stopping Criterion of Turbo Code in W-CDMA System)

  • 박노진;신명식
    • 정보통신설비학회논문지
    • /
    • 제8권4호
    • /
    • pp.207-215
    • /
    • 2009
  • In recent digital communication systems, the performance of Turbo Code used as the error correction coding method depends on the interleaver size influencing the free distance determination and iterative decoding algorithms of the turbo decoder. However, some iterations are needed to get a better performance, but these processes require large time delay. Recently, methods of reducing the number of iteration have been studied without degrading original performance. In this paper, the new method combining ME (Mean Estimate) stopping criterion with SDR (sign difference ratio) stopping criterion of previous stopping criteria is proposed, and the fact of compensating each method's missed detection is verified Faster decoding realizes that reducing the number of iterative decoding about 1~2 times by adopting our proposed method into serially concatenation of both decoder. System Environments were assumed DS-CDMA forward link system with intense MAI (multiple access interference).

  • PDF