• 제목/요약/키워드: 정규화 코드북

검색결과 10건 처리시간 0.027초

정규화 코드북을 이용한 분할 벡터 구조의 ISF 적응적 양자화 기법 (A Method of Adaptive ISF Split Vector Quantization Using Normalized Codebook)

  • 박지강;임종하;홍기봉;이인성
    • 한국음향학회지
    • /
    • 제30권5호
    • /
    • pp.265-272
    • /
    • 2011
  • 본 논문에서는 ISF 계수의 순서화 성질을 이용하여 광대역 음성부화기의 분할구조 벡터양자화기의 단점을 보완함으로써 ISF 계수 양자화의 성능을 개선하는 알고리즘을 제안한다. 음성 부호화기의 ISF 벡터양자화기는 계산량과 메모리 수요량을 줄이기 위하여 벡터분할 구조를 사용한다. 이러한 벡터 분할구조의 양자화기는 분할된 벡터 사이의 상관도를 이용하지 못하였다. 제안하는 알고리즘은 ISF 계수의 순서화 특징을 이용하여 정규화 코드북을 만든다. 그리고 양자화 된 분할 벡터로 정규화 코드북의 분포범위를 적응적으로 변화시킴으로써 양자화 하여야 할 분할 벡터의 코드북을 효율적으로 만들어 준다. 제안된 알고리즘은 분할 벡터사이의 저하된 상관도를 순서화 특징을 통하여 다시 이용하는 방법으로 표준화 코덱인 AMR-WB의 ISF 양자화기에 적용하여 1.5 bit정도의 성능 개선을 얻었다.

선별적인 관측열 추출을 통한 DHMM 음성인식의 성능 개선 (Speech Recognition Imptovement Using Extraction Selective Observation in DHMM)

  • 김우창;조선호;고수정;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.374-376
    • /
    • 2000
  • 음성인식 시스템에 사용하는 알고리즘 중에 하나인 DHMM은 코드북을 이용하여 음성의 프레임들에 대한 특징을 관측열로 추출하여 음성의 패턴에 대한 훈련과 인식을 수행하게 된다. 그러나 음성은 유성음과 무성음의 특징 차이가 많이 나게 되므로 하나의 코드북을 이용하게 되면 코드북 오차에 의하여 성질이 전혀 다른 코드북 인덱스를 DHMM의 관측열로 사용하게 된다. 본 논문에서는 음성의 유성음과 무성음에 대한 선별적인 작업을 통해 서로 다른 코드북을 만들어 관측열을 추출하고 선행 관측과 현 관측과의 거리 비교 연산을 통하여 관측의 시간축을 정규화한 관측열을 음성인식에 사용하였다. 본 논문에서 제시하는 인식 방법을 사용하여 실험한 결과, 기존의 인식 방법보다 5.33% 향상된 결과를 얻었다.

  • PDF

연속음성 인식기를 위한 벡터양자화기 기반의 화자정규화 (Vector Quantizer Based Speaker Normalization for Continuos Speech Recognition)

  • 신옥근
    • 한국음향학회지
    • /
    • 제23권8호
    • /
    • pp.583-589
    • /
    • 2004
  • 포만트 등의 음향학적인 정보를 이용하지 않는 연속음성인식 (CSR)을 위한 벡터 양자화기 기반의 화자 정규화 방법을 제안한다. 이 방법은 앞서 제안한 간단한 숫자음 인식기를 위한 화자정규화 방법을 개선한 것으로, 코드북의 크기를 증가시켜 가면서 벡터양자화기를 반복적으로 학습시킴으로써 정규화된 코드북을 구한 다음, 치를 이용하여 시험용화자의 워핑계수를 추정한다. 코드북 생성과 워핑계수 추정을 위해 모음 음소의 집합과 자음과 모음을 포함한 모든 음소의 집합 등 두 가지 음소집합을 이용i,겨 실험하였으며, 추정한 워핑계수에 상응하는 구간선형 워핑함수를 이용하여 인식기의 학습과 시험에 사용될 특징벡터를 워핑하였다. TIMIT 코퍼스와 HTK toolkit을 이용한 음소인식 실험을 수행하여 제안하는 방법의 성능을 조사한 결과, 포만트를 이용한 워핑 방법과 비슷한 성능을 가짐을 확인하였다.

DHMM 음성 인식 시스템을 위한 양자화 기반의 화자 정규화 (Quantization Based Speaker Normalization for DHMM Speech Recognition System)

  • 신옥근
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.299-307
    • /
    • 2003
  • 화자독립 음성인식기에서 화자사이의 성도 길이의 영향을 최소화시켜 인식 성능을 개선하는 화자 정규화에 대한 많은 연구가 있어 왔다. 본 연구에서는 벡터양자화기를 이용하여 화자 검증이 가능하다는 사실에 착안하여 벡터 양자화기를 이용한 비교적 간단한 선형 워핑 화자정규화방법을 제안한다. 제안하는 방법에서는 먼저 정규화에 이용될 최적의 코드북을 생성한 다음, 이 코드 북을 이용하여 화자의 선형 워핑계수를 추출하고 추출된 워핑계수는 멜 켑스트럼 추출시에 사용되는 멜스케일 필터뱅크를 워핑하기 위해 이용된다. 본고에서 제안한 워핑계수 추출 및 적용 방법의 성능을 확인하기 위해 이산 HMM을 이용한 13가지의 단음절 한글 숫자음 인식기를 이용하여 인식실험을 수행하였으며, 실험 결과 약 29%의 오인식률 감소를 보여 제안하는 화자 정규화방법이 다른 라인서치 워핑계수추출 방법보다 간단한 동시에 효용가치가 있음을 확인하였다.

적응적인 확장된 코드북을 이용한 분할 벡터 양자화기 구조의 ISF 양자화기 개선 (A Method For Improvement Of Split Vector Quantization Of The ISF Parameters Using Adaptive Extended Codebook)

  • 임종하;정규혁;홍기봉;이인성
    • 한국음향학회지
    • /
    • 제30권1호
    • /
    • pp.1-8
    • /
    • 2011
  • 본 논문에서는 ISF 계수의 순서화 성질을 이용하여 분할구조 벡터양자화기의 단점을 보완하여 ISF 계수 양자화의 성능을 높이는 알고리듬을 제안하고, 이를 이용한 광대역 음성 부호화기용 ISF 계수 양자화기를 설계한다. 16차 이상의 광대역 코덱의 ISF 계수는 계산량과 메모리 사용을 줄이기 위해서 분할구조의 벡터 양자화기를 사용한다. 분할구조 양자화기는 ISF 계수간의 상관도를 충분히 활용하지 못하는 단점이 발생한다. 제안하는 알고리듬은 이러한 단점을 극복하기 위하여 ISF 계수의 순서화 성질을 이용한다. ISF 계수의 순서화 성질을 이용하여 각 서브벡터의 불필요한 코드북 (Codebook Redundancy)을 검색할 수 있다. 이러한 불필요한 코드북은 ISF 계수의 순서화 성질, ISF 계수 예측과정과 기존 코드북의 보간법 (Interpolation)을 통해 적응적인 확장된 코드북으로 교체되어 양자화기의 성능을 향상시킨다. 제안된 알고리듬은 기존의 분할구조 양자화기에서 사용되지 못했던 17 %가량의 불필요한 코드북 인덱스를 적응적인 확장된 코드북에 할당하여, 표준화된 코덱인 AMR-WB의 ISF 계수 양자화기에 비해서 주파수 왜곡 관점에서 약 2 bit 가량의 이득을 보는 결과를 얻었다.

다단계 벡터 양자화를 이용한 웨이브렛 리프팅 기반 ECG 압축 (Wavelet Lifting based ECG Signal Compression Using Multi-Stage Vector Quantization)

  • 박서영;정규혁;김영주;이인성;주기호
    • 전자공학회논문지SC
    • /
    • 제43권6호
    • /
    • pp.76-82
    • /
    • 2006
  • ECG와 같은 생체 신호를 장시간 저장하기 위해서는 많은 메모리를 필요로 한다. 따라서 본 논문에서는 다단계 벡터양자화 기법을 적용하여 ECG의 웨이브렛 리프팅 계수를 압축하는 방법을 제안한다. 첫 번째 단계의 코드북은 ECG의 웨이브렛 리프팅 계수를 양자화하고 두 번째 단계 코드북은 오차 신호의 웨이브렛 리프팅 계수에 대해 J개의 후보 코드벡터를 구해 양자화하여 복원 오차를 최소화하도록 하였다. 두 코드북의 코드벡터는 웨이브렛 계수의 에너지 분포특성을 이용해서 고주파 성분의 계수를 제거함으로써 코드북의 검색 시간과 복잡성을 감소 시켰다. 실험 결과 CDR이 276.62 bit/sec에서 3%이하의 PRD를 얻었다.

MSVQ/TDRNN을 이용한 음성인식 (Speech Recognition Using MSVQ/TDRNN)

  • 김성석
    • 한국음향학회지
    • /
    • 제33권4호
    • /
    • pp.268-272
    • /
    • 2014
  • 본 논문에서는 MSVQ(Multi-Section Vector Quantization)와 시간지연 회귀 신경회로망(TDRNN)을 이용한 하이브리드 구조의 음성인식 방법을 제안한다. MSVQ는 음성의 길이를 일정한 구간 수로 정규화한 코드북을 생성하고, 시간지연 회귀 신경회로망은 이 코드북을 이용하여 음성을 인식한다. 시간지연 회귀 신경회로망은 음성의 시계열 문맥정보를 잘 학습할 수 있는 구조로 구성되었다. 음성특징으로 인지선형예측(PLP) 계수가 사용되었다. 음성인식 실험을 수행한 결과 MSVQ/TDRNN 음성인식기는 97.9 %의 화자독립 음성 인식률을 보였다.

가변프레임 길이정규화를 이용한 단어음성인식 (Isolated-Word Speech Recognition using Variable-Frame Length Normalization)

  • 신찬후;이희정;박병철
    • 한국음향학회지
    • /
    • 제6권4호
    • /
    • pp.21-30
    • /
    • 1987
  • 단어음성인식에서 발성속도의 차이에 따른 단어음성 길이의 비선형적 변화는 정확한 인식을 어렵게 하는 주요한 원인이 되어 왔다. DP매칭은 시간축의 비선형 신축에 의해 시간정규화를 행함으로써 인식결과에 대한 신뢰성을 상당히 높였으나 시간정규화 파정에 요구되는 과도한 계산부담이 문제로 되어 있다. 본 논문에서는 시간정규화가 필요없는 방법으로 멀티섹션벡터양자화에 새로운 길이정규화법을 적용하는 방법을 제안한다. 이 방법은 종래의 고정프레임 길이정규화에 의해 멀티섹션코드북을 작성할 때보다. 정규화길이의 실정에 훨씬 융통성을 가질 수 있으므로 분석 및 거리계산의 양면에서 시간 단축을 가능케 하여 좀더 신속히 인식결과를 얻을 수 있는 장점이 있다

  • PDF

3차원 객체 인식을 위한 RGB-D 영상 특징점 추출 및 특징 기술자 생성 방법 (RGB-D Image Feature Point Extraction and Description Method for 3D Object Recognition)

  • 박노영;장영균;우운택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.448-450
    • /
    • 2012
  • 본 논문에서는 Kinect 방식의 RGB-D 영상센서를 사용하여, 깊이(Depth) 영상으로부터 3차원 객체의 기하정보를 표현하는 표면 정규 벡터(Surface Normal Vector)를 추출하고, 그 결과를 영상화하는 방법을 제안하며, 제안된 방법으로 생성된 영상으로부터 깊이 영상의 특징점 및 특징 기술자를 추출하여 3차원 객체 인식 성능을 향상시키는 방법을 제안한다. 또한 생성된 RGB-D 특징 기술자들을 객체 단위로 구분 가능한 코드북(CodeBook) 학습을 통한 인식방법을 제안하여 객체의 인식 성능을 높이는 방법을 제안한다. 제안하는 RGB-D 기반의 특징 추출 및 학습 방법은 텍스쳐 유무, 카메라 회전 및 이동 변화 등의 환경변화에 강건함을 실험적으로 증명하였으며, 이 방법은 Kinect 방식의 RGB-D 영상을 사용하는 3차원 객체/공간 인식 및 추적, 혹은 이를 응용하는 증강현실 시스템에 적용하여 사용될 수 있다.

제한된 귀환채널에서 시공간블록부호화를 적용한 다중화 시스템의 성능 (Performance of Space Time Block Coded-Spatial Multiplexing Systems in Limited Feedback Channel)

  • 황현철;신승훈;임종경;김석호;곽경섭
    • 한국통신학회논문지
    • /
    • 제30권9A호
    • /
    • pp.772-780
    • /
    • 2005
  • 본 논문에서는 시공간블록부호화된 공간다중화 시스템에서 제한된 귀환채널을 효과적으로 활용할 수 있는 전처리 기법을 제안하고 성능을 분석한다. 전처리기는 기존의 대각-가중-시공간블록부호화 다이버서티 시스템을 공간다중화 시스템으로 확장하여 경험적으로 설계된다. 제안된 시스템에 대해 심볼 오율의 상위한계를 귀환채널 오류를 고려하여 분석하였다. 또한 모의 실험을 통해 4.akbps의 귀환채널 전송율에서 정규화된 도플러 주파수가 0.01이상이 되면 기존의 안테나선택기법과 코드북선택기법에 비해 심볼오율 성능이 우수함을 확인하였다.