• 제목/요약/키워드: normalization method

검색결과 640건 처리시간 0.028초

DHMM 음성 인식 시스템을 위한 양자화 기반의 화자 정규화 (Quantization Based Speaker Normalization for DHMM Speech Recognition System)

  • 신옥근
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.299-307
    • /
    • 2003
  • 화자독립 음성인식기에서 화자사이의 성도 길이의 영향을 최소화시켜 인식 성능을 개선하는 화자 정규화에 대한 많은 연구가 있어 왔다. 본 연구에서는 벡터양자화기를 이용하여 화자 검증이 가능하다는 사실에 착안하여 벡터 양자화기를 이용한 비교적 간단한 선형 워핑 화자정규화방법을 제안한다. 제안하는 방법에서는 먼저 정규화에 이용될 최적의 코드북을 생성한 다음, 이 코드 북을 이용하여 화자의 선형 워핑계수를 추출하고 추출된 워핑계수는 멜 켑스트럼 추출시에 사용되는 멜스케일 필터뱅크를 워핑하기 위해 이용된다. 본고에서 제안한 워핑계수 추출 및 적용 방법의 성능을 확인하기 위해 이산 HMM을 이용한 13가지의 단음절 한글 숫자음 인식기를 이용하여 인식실험을 수행하였으며, 실험 결과 약 29%의 오인식률 감소를 보여 제안하는 화자 정규화방법이 다른 라인서치 워핑계수추출 방법보다 간단한 동시에 효용가치가 있음을 확인하였다.

표준화 기반 유의한 유전자 선택 방법 조합을 이용한 마이크로어레이 분류 시스템 설계 (The Design Of Microarray Classification System Using Combination Of Significant Gene Selection Method Based On Normalization.)

  • 박수영;정채영
    • 한국정보통신학회논문지
    • /
    • 제12권12호
    • /
    • pp.2259-2264
    • /
    • 2008
  • 정보력 있는 유전자는 특정한 실험 조건의 특성을 나타내주는 발현수준의 유전자를 의미한다. 이 유전자들은 여러 집단 간의 발현수준에서 유의한 차이를 보여주며, 실제로 집단 간의 차이를 유발하는 유전자일 확률이 높아 특정 생물학적 현상과 관련 있는 정보적 유전자를 찾는 연구에 이용될 수 있다. 본 논문에서는 먼저 그 동안 제안된 여러 표준화 방법들 중에서 가장 널리 사용되고 있는 방법들을 이용하여 데이터를 표준화 한 후 제안한 유사성 척도 조합 방법으로 정보력 있는 유전자들을 추출할 수 있는 시스템을 고안하였다. 다층퍼셉트론 신경망 분류기를 이용하여 각 표준화 방법들의 성능을 비교분석하였다. 그 결과 Lowess 표준화 후 피어슨 적률 상관 계수와 유클리디안 거리 계수 조합을 이용하여 선택된 200 유전자들을 멀티퍼셉트론 신경망 분류기로 분류한 결과 93.84%의 향상된 분류 성능을 보였다.

Active Shape Model을 이용한 외형기반 얼굴표정인식에 관한 연구 (A Study on Appearance-Based Facial Expression Recognition Using Active Shape Model)

  • 김동주;신정훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.43-50
    • /
    • 2016
  • 본 논문에서는 ASM(Active Shape Model) 특징점(Landmark)을 이용하여 정밀한 얼굴영역을 획득하고, 외형기반 접근법으로 표정을 인식하는 방법에 대하여 제안한다. 외형기반 표정인식은 EHMM(Embedded Hidden Markov Model) 및 이진패턴 히스토그램 특징과 SVM(Support Vector Machine)을 사용하는 알고리즘으로 구성되며, 제안 방법의 성능평가는 공인 CK 데이터베이스와 JAFFE 데이터베이스를 이용하여 수행되었다. 더불어, 성능비교는 기존의 눈 거리 기반의 얼굴 정규화 방법과 비교를 통하여 수행되었고, 또한 ASM 전체 특징점 및 변형된 특징을 SVM으로 인식하는 기하학적 표정인식 방법론과 성능비교를 수행하였다. 실험 결과, 제안 방법은 거리기반 얼굴정규화 영상을 사용한 방법보다 CK 데이터베이스 및 JAFFE 데이터베이스 경우, 최대 6.39%와 7.98%의 성능향상을 보였다. 또한, 제안 방법은 기하학적 특징점을 사용한 방법보다 높은 인식 성능을 보였으며, 이로부터 제안하는 표정인식 방법의 효용성을 확인하였다.

Modified SNR-Normalization Technique for Robust Speech Recognition

  • Jung, Hoi-In;Shim, Kab-Jong;Kim, Hyung-Soon
    • The Journal of the Acoustical Society of Korea
    • /
    • 제16권3E호
    • /
    • pp.14-18
    • /
    • 1997
  • One fo the major problems in speech recognition is the mismatch between training and testing environments. Recently, SNR normalization technique, which normalizes the dynamic range of frequency channels in mel-scaled filterbank, was proposed[1]. While it showed improved robustness against additive noise, it requires a reliable speech detection mechanism and several adaptation parameters to be optimized. In this paper, we propose a modified SNR normalization technique. In this technique, we take simply the maximum of filterbank output and predetermined masking constant for each frequency band. According to the speaker-independent isolated word recognition in car noise environments, proposed modification yields better recognition performance that the original SNR normalization method, with rather reduced complexity.

  • PDF

Super-resolution in Music Score Images by Instance Normalization

  • Tran, Minh-Trieu;Lee, Guee-Sang
    • 스마트미디어저널
    • /
    • 제8권4호
    • /
    • pp.64-71
    • /
    • 2019
  • The performance of an OMR (Optical Music Recognition) system is usually determined by the characterizing features of the input music score images. Low resolution is one of the main factors leading to degraded image quality. In this paper, we handle the low-resolution problem using the super-resolution technique. We propose the use of a deep neural network with instance normalization to improve the quality of music score images. We apply instance normalization which has proven to be beneficial in single image enhancement. It works better than batch normalization, which shows the effectiveness of shifting the mean and variance of deep features at the instance level. The proposed method provides an end-to-end mapping technique between the high and low-resolution images respectively. New images are then created, in which the resolution is four times higher than the resolution of the original images. Our model has been evaluated with the dataset "DeepScores" and shows that it outperforms other existing methods.

방향 정규화 및 CNN 딥러닝 기반 차량 번호판 인식에 관한 연구 (A Study on the License Plate Recognition Based on Direction Normalization and CNN Deep Learning)

  • 기재원;조성원
    • 한국멀티미디어학회논문지
    • /
    • 제25권4호
    • /
    • pp.568-574
    • /
    • 2022
  • In this paper, direction normalization and CNN deep learning are used to develop a more reliable license plate recognition system. The existing license plate recognition system consists of three main modules: license plate detection module, character segmentation module, and character recognition module. The proposed system minimizes recognition error by adding a direction normalization module when a detected license plate is inclined. Experimental results show the superiority of the proposed method in comparison to the previous system.

심층신경망을 이용한 짧은 발화 음성인식에서 극점 필터링 기반의 특징 정규화 적용 (Applying feature normalization based on pole filtering to short-utterance speech recognition using deep neural network)

  • 한재민;김민식;김형순
    • 한국음향학회지
    • /
    • 제39권1호
    • /
    • pp.64-68
    • /
    • 2020
  • 가우스 혼합 모델-은닉 마코프 모델(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)을 이용하는 전통적인 음성인식 시스템에서는, 극점 필터링 기반의 켑스트럼 특징 정규화 방식이 잡음 환경에서 짧은 발화의 인식 성능을 향상시키는데 효과적이었다. 본 논문에서는 심층신경망(Deep Neural Network, DNN)을 이용하는 최신의 음성인식 시스템에서도 이 방식의 유용성이 있는지 검토한다. AURORA 2 DB에 대한 실험 결과, 특히 훈련 및 테스트 환경 사이의 불일치가 클 때에, 극점 필터링 기반의 켑스트럼 평균 분산 정규화 방식이 극점 필터링을 사용하지 않는 방식에 비해 매우 짧은 발화의 인식 성능을 개선시킴을 보여 준다.

Rank-Based Nonlinear Normalization of Oligonucleotide Arrays

  • Park, Peter J.;Kohane, Isaac S.;Kim, Ju Han
    • Genomics & Informatics
    • /
    • 제1권2호
    • /
    • pp.94-100
    • /
    • 2003
  • Motivation: Many have observed a nonlinear relationship between the signal intensity and the transcript abundance in microarray data. The first step in analyzing the data is to normalize it properly, and this should include a correction for the nonlinearity. The commonly used linear normalization schemes do not address this problem. Results: Nonlinearity is present in both cDNA and oligonucleotide arrays, but we concentrate on the latter in this paper. Across a set of chips, we identify those genes whose within-chip ranks are relatively constant compared to other genes of similar intensity. For each gene, we compute the sum of the squares of the differences in its within-chip ranks between every pair of chips as our statistic and we select a small fraction of the genes with the minimal changes in ranks at each intensity level. These genes are most likely to be non-differentially expressed and are subsequently used in the normalization procedure. This method is a generalization of the rank-invariant normalization (Li and Wong, 2001), using all available chips rather than two at a time to gather more information, while using the chip that is least likely to be affected by nonlinear effects as the reference chip. The assumption in our method is that there are at least a small number of non­differentially expressed genes across the intensity range. The normalized expression values can be substantially different from the unnormalized values and may result in altered down-stream analysis.

Building Hybrid Stop-Words Technique with Normalization for Pre-Processing Arabic Text

  • Atwan, Jaffar
    • International Journal of Computer Science & Network Security
    • /
    • 제22권7호
    • /
    • pp.65-74
    • /
    • 2022
  • In natural language processing, commonly used words such as prepositions are referred to as stop-words; they have no inherent meaning and are therefore ignored in indexing and retrieval tasks. The removal of stop-words from Arabic text has a significant impact in terms of reducing the size of a cor- pus text, which leads to an improvement in the effectiveness and performance of Arabic-language processing systems. This study investigated the effectiveness of applying a stop-word lists elimination with normalization as a preprocessing step. The idea was to merge statistical method with the linguistic method to attain the best efficacy, and comparing the effects of this two-pronged approach in reducing corpus size for Ara- bic natural language processing systems. Three stop-word lists were considered: an Arabic Text Lookup Stop-list, Frequency- based Stop-list using Zipf's law, and Combined Stop-list. An experiment was conducted using a selected file from the Arabic Newswire data set. In the experiment, the size of the cor- pus was compared after removing the words contained in each list. The results showed that the best reduction in size was achieved by using the Combined Stop-list with normalization, with a word count reduction of 452930 and a compression rate of 30%.

잡음환경에서의 음성인식을 위한 켑스트럼의 확률분포 정규화 기법 (Cepstrum PDF Normalization Method for Speech Recognition in Noise Environment)

  • 석용호;이황수;최승호
    • 한국음향학회지
    • /
    • 제24권4호
    • /
    • pp.224-229
    • /
    • 2005
  • 본 논문에서는 부가잡음 환경에서의 강인한 음성인식을 위해 켑스트럼의 확률밀도 (pdf) 정규화 기법을 제안한다. 기존의 방법들은 켑스트럼의 평균 및 분산 등 주로 1, 2차 통계치 만을 정규화 하지만 제안한 방법은 깨끗한 음성과 잡음이 부가된 음성의 켑스트럼의 pdf를 동일하게 함으로써 켑스트럼의 통계치를 완벽하게 정규화 한다. 목표 pdf로는 다양한 확률분포를 고려하기 위하여 일반 (generalized) 가우시안 분포를 선택하였다. 또한 인식시 계산량을 감축하기 위하여 표 참조방법 (table lookup method)를 개발하였다. 화자독립 고립단어 인식 실험에서 제안된 기법이 기존 방법들보다 우수한 성능을 보였으며, 특히 잡음이 심한 환경에서 성능향상이 두드러졌다.