• 제목/요약/키워드: segmentation error rate

검색결과 55건 처리시간 0.021초

비교사 분할 및 병합으로 구한 의사형태소 음성인식 단위의 성능 (Performance of Pseudomorpheme-Based Speech Recognition Units Obtained by Unsupervised Segmentation and Merging)

  • 방정욱;권오욱
    • 말소리와 음성과학
    • /
    • 제6권3호
    • /
    • pp.155-164
    • /
    • 2014
  • This paper proposes a new method to determine the recognition units for large vocabulary continuous speech recognition (LVCSR) in Korean by applying unsupervised segmentation and merging. In the proposed method, a text sentence is segmented into morphemes and position information is added to morphemes. Then submorpheme units are obtained by splitting the morpheme units through the maximization of posterior probability terms. The posterior probability terms are computed from the morpheme frequency distribution, the morpheme length distribution, and the morpheme frequency-of-frequency distribution. Finally, the recognition units are obtained by sequentially merging the submorpheme pair with the highest frequency. Computer experiments are conducted using a Korean LVCSR with a 100k word vocabulary and a trigram language model obtained by a 300 million eojeol (word phrase) corpus. The proposed method is shown to reduce the out-of-vocabulary rate to 1.8% and reduce the syllable error rate relatively by 14.0%.

한국인 화자의 외래어 발음 변이 양상과 음절 기반 외래어 자소-음소 변환 (Pronunciation Variation Patterns of Loanwords Produced by Korean and Grapheme-to-Phoneme Conversion Using Syllable-based Segmentation and Phonological Knowledge)

  • 류혁수;나민수;정민화
    • 말소리와 음성과학
    • /
    • 제7권3호
    • /
    • pp.139-149
    • /
    • 2015
  • This paper aims to analyze pronunciation variations of loanwords produced by Korean and improve the performance of pronunciation modeling of loanwords in Korean by using syllable-based segmentation and phonological knowledge. The loanword text corpus used for our experiment consists of 14.5k words extracted from the frequently used words in set-top box, music, and point-of-interest (POI) domains. At first, pronunciations of loanwords in Korean are obtained by manual transcriptions, which are used as target pronunciations. The target pronunciations are compared with the standard pronunciation using confusion matrices for analysis of pronunciation variation patterns of loanwords. Based on the confusion matrices, three salient pronunciation variations of loanwords are identified such as tensification of fricative [s] and derounding of rounded vowel [ɥi] and [$w{\varepsilon}$]. In addition, a syllable-based segmentation method considering phonological knowledge is proposed for loanword pronunciation modeling. Performance of the baseline and the proposed method is measured using phone error rate (PER)/word error rate (WER) and F-score at various context spans. Experimental results show that the proposed method outperforms the baseline. We also observe that performance degrades when training and test sets come from different domains, which implies that loanword pronunciations are influenced by data domains. It is noteworthy that pronunciation modeling for loanwords is enhanced by reflecting phonological knowledge. The loanword pronunciation modeling in Korean proposed in this paper can be used for automatic speech recognition of application interface such as navigation systems and set-top boxes and for computer-assisted pronunciation training for Korean learners of English.

윤곽선 정보의 전송이 불필요한 분할기반 영상 부호화 방법 (Segmentation-based tnage Coding Method without Need for Transmission of Contour Information)

  • 최재각;강현수;고창림;권오준;이종극
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권5호
    • /
    • pp.187-195
    • /
    • 2005
  • 본 논문은 윤곽선 정보의 전송이 불필요한 새로운 분할기반 영상 부호화 방법을 제안한다. 분할기반 영상 부호화에서 전송해야할 전체 정보 중 윤곽선 정보가 다른 정보에 비해 상대적으로 많은 부분을 차지하기 때문에 윤곽선 정보가 전체 전송정보의 병목현상으로 작용한다. 제안된 방법은 현재 프레임을 분할하는 대신, 복호화된 이전 프레임을 분할함으로써, 복호기로 분할된 영역에 대한 윤곽선 정보를 전송하지 않아도 되는 장점이 있다. 따라서 윤곽선 정보를 전송하지 않음으로써 여분의 비트를 오차신호와 같은 다른 정보의 전송에 할당하여 부호화 화질을 개선할 수 있다 실험결과에 나타난 것처럼, 전송 비트율이 제한된 초저전송율 부호화에서 급격한 움직임으로 데이타 발생이 크게 증가할 경우 기존 블록기반 부호화에서는 PSNR이 20dB 부근까지 떨어지지만 제안된 방법은 급격한 PSNR 저하없이 우수한 재생화질 을 나타내었다.

3원 변량분석을 이용한 구분적으로 일정한 모델의 에너지 함수 최소화를 위한 매개변수들 추정 (The Estimation of Parameters to minimize the Energy Function of the Piecewise Constant Model Using Three-way Analysis of Variance)

  • 주기세;조덕상;서재형
    • 한국항행학회논문지
    • /
    • 제16권5호
    • /
    • pp.846-852
    • /
    • 2012
  • 영상분할 결과는 알고리즘에 관련된 매개변수들에 따라 다르기 때문에 최적 분할을 위하여 시행 착오법이 많이 이용된다. 본 논문에서는 3차원 변량 분석법을 이용하여 영역기반 active contour 방법에 관련된 최적 매개변수들을 결정하는 방법을 제안한다. 3원 변량 분석법에 의해서 추출된 결과와 사용자가 영상에서 직접 그린 결과가 상호 비교된다. 마지막으로 각 매개변수들의 주요 효과와 상호작용 효과를 측정하고 최적 값을 추출하기 위하여 점 추정 및 구간 추정 값을 계산한다. 본 논문에서 제안한 방법은 구간 상수 모델을 대상으로 영상분할시 최적 매개변수들을 추출하는데 큰 도움을 줄 것이다.

음절핵의 위치정보를 이용한 우리말의 음소경계 추출 (Utilization of Syllabic Nuclei Location in Korean Speech Segmentation into Phonemic Units)

  • 신옥근
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.13-19
    • /
    • 2000
  • 음성신호의 음소경계 추출방법 중 음소에 대한 사전지식 없이 음성 데이타, 혹은 특징벡터의 변화를 감지하여 음소경계를 추출해 내는 맹목 세그먼테이션은 연속음형 인식시스템이나 코퍼스 제작에 중요한 역할을 하며 많은 연구가 진행되어 왔다. 이러한 맹목 세그먼테이션 방법은 사전지식을 필요로 하지 않아 비교적 쉽게 접근할 수 있으나 음운학적인 지식, 또는 음소나 음소경계에 대한 지식과 경험 데이타 등을 이용하는 지식 기반 세그먼테이션 방법에 비해 성능이 좋지 못한 단점이 있다. 본고에서는 우리말의 연속 음성을 맹목 세그먼테이션해서 후보 경계를 추출한 다음, 음절핵의 위치정보를 이용하여 후보 경계를 후처리함으로써 세그먼테이션 효율을 높이는 방법을 제안한다. 제안하는 방법의 전처리과정에서는 확률적인 거리 모델을 이용한 클러스터링 방법을 이용하였으며, 후처리과정에서는 음절의 핵 사이에 위치할 수 있는 음소의 수는 제한된다는 선험적인 지식을 이용하였다. 실험결과, 제안하는 방법을 이용했을 때의 삽입오류는 맹목 세그먼테이션에 비해 약 25% 감소하였다.

  • PDF

드러난 영역 예측을 이용한 초저 비트율 동영상 부호화 (Very Low Bit Rate Video Coding Algorithm Using Uncovered Region Prediction)

  • 정영안;한성현;최종수;정차근
    • 한국통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.771-781
    • /
    • 1997
  • In order to solve the problem of uncovered background region due to the region-due to the region-based motion estimation, this paper presents a new method which generates the uncovered region memory using motion estimation and shows the application of the algorithm for very low bit rate video coding. The proposed algorithm can be briefly described as follows it detects the changed region by using the information of FD(frame difference) and segmentation, and then as for only that region the backward motion estimation without transmission of shape information is done. Therefore, from only motion information the uncovered background region memory is generated and updated. The contents stored in the uncovered background region memory are referred whenever the uncovered region comes into existence. The regions with large prediction error are transformed and coded by using DCT. As results of simulation, the proposed algorithm shows the superior improvement in the subjective and objective image quality due to the remarkable reduction of transmission bits for prediction error.

  • PDF

Augmentation of Hidden Markov Chain for Complex Sequential Data in Context

  • Sin, Bong-Kee
    • Journal of Multimedia Information System
    • /
    • 제8권1호
    • /
    • pp.31-34
    • /
    • 2021
  • The classical HMM is defined by a parameter triple �� = (��, A, B), where each parameter represents a collection of probability distributions: initial state, state transition and output distributions in order. This paper proposes a new stationary parameter e = (e1, e2, …, eN) where N is the number of states and et = P(|xt = i, y) for describing how an input pattern y ends in state xt = i at time t followed by nothing. It is often said that all is well that ends well. We argue here that all should end well. The paper sets the framework for the theory and presents an efficient inference and training algorithms based on dynamic programming and expectation-maximization. The proposed model is applicable to analyzing any sequential data with two or more finite segmental patterns are concatenated, each forming a context to its neighbors. Experiments on online Hangul handwriting characters have proven the effect of the proposed augmentation in terms of highly intuitive segmentation as well as recognition performance and 13.2% error rate reduction.

반복 semi-blind 위너 필터링을 이용한 이진영상의 복원 (Restoration of Bi-level Images via Iterative Semi-blind Wiener Filtering)

  • 김정태
    • 전기학회논문지
    • /
    • 제57권7호
    • /
    • pp.1290-1294
    • /
    • 2008
  • We present a novel deblurring algorithm for bi-level images blurred by some parameterizable point spread function. The proposed method iteratively searches unknown parameters in the point spread function and noise-to-signal ratio by minimizing an objective function that is based on the binariness and the difference between two intensity values of restoring image. In simulations and experiments, the proposed method showed improved performance compared with the Wiener filtering based method in terms of bit error rate after segmentation.

Brain MR Multimodal Medical Image Registration Based on Image Segmentation and Symmetric Self-similarity

  • Yang, Zhenzhen;Kuang, Nan;Yang, Yongpeng;Kang, Bin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권3호
    • /
    • pp.1167-1187
    • /
    • 2020
  • With the development of medical imaging technology, image registration has been widely used in the field of disease diagnosis. The registration between different modal images of brain magnetic resonance (MR) is particularly important for the diagnosis of brain diseases. However, previous registration methods don't take advantage of the prior knowledge of bilateral brain symmetry. Moreover, the difference in gray scale information of different modal images increases the difficulty of registration. In this paper, a multimodal medical image registration method based on image segmentation and symmetric self-similarity is proposed. This method uses modal independent self-similar information and modal consistency information to register images. More particularly, we propose two novel symmetric self-similarity constraint operators to constrain the segmented medical images and convert each modal medical image into a unified modal for multimodal image registration. The experimental results show that the proposed method can effectively reduce the error rate of brain MR multimodal medical image registration with rotation and translation transformations (average 0.43mm and 0.60mm) respectively, whose accuracy is better compared to state-of-the-art image registration methods.

화자확인 시스템을 위한 분절 알고리즘 (A Blind Segmentation Algorithm for Speaker Verification System)

  • 김지운;김유진;민홍기;정재호
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.45-50
    • /
    • 2000
  • 본 논문에서는 하위단어에 기반한 전화선 채널에서의 어구 종속 화자 확인 시스템을 위한 음성 분할 알고리즘인, 파라미트릭 필터링에 기반한 델타 에너지를 제안한다. 제안한 알고리즘은 특정 밴드의 주파수를 기준으로 대역폭을 변화시키며 필터링한 후 델타 에너지를 이용하는 방법으로 다른 알고리즘에 비해 주변환경에 강인한 것으로 나타났다. 이를 이용해 음성을 하위단어로 분할하고, 각 하위단어를 이용해 화자의 성문을 모델링하였다. 제안한 알고리즘의 성능 평가를 위해 EER(Equal Error Rate)를 사용한다. 그 결과 단일 모델의 EER이 약 6.1%, 하위 단어 모델의 EER이 약 4.0%로 본 논문에서 제안한 알고리즘을 사용했을 때 약 2%의 성능이 향상되었다.

  • PDF