통합 검색 | Korea Science

문맥 독립 화자인식을 위한 공간 분할 벡터 양자기 설계 (A Classified Space VQ Design for Text-Independent Speaker Recognition)

임동철;이행세
- 정보처리학회논문지B
- /
- 제10B권6호
- /
- pp.673-680
- /
- 2003
이 논문은 문맥 독립 화자인식에 사용될 벡터 양자기의 설계법 개선에 관한 연구이다. 구체적으로 벡터 양자기 코드북 생성 과정에서 특징 벡터 공간을 분할하여, 양자기 설계 시 학습에 필요한 계산 복잡도를 획기적으로 줄이는 방법을 제안한다. 제안된 공간 분할 벡터 양자기 설계법은 저자가 제안한 문맥 종속 화자인식을 위한 준비반복 벡터 양자기 설계법의 벡터 공간에 대한 일반화이다. 공간 분할 벡터 양자기 설계법은 종래의 설계법이 코드북 생성에 반복적 학습 설계를 사용한다는 것과 대조를 이룬다. 또한 공간 분할 벡터 양자기 설계법의 특징은 다음과 같다. 첫째, 이 설계법은 특징 벡터 공간을 분할한 공간 분할 군집을 이용함으로써 반복 학습을 하지 않는다. 둘째, 설계된 각 양자 영역은 공간 분할 군집의 양자 영역을 원용하며, 양자점은 각각의 통계 분포에 대해 최적점으로 설정된다. 셋째, 공간 분할 군집은 특징 벡터 집합에 대해 표본 벡터 생성법(CSVQ1, 2), 특징 벡터 공간에 대해 균일 초격자 구조 생성법(CSYQ3)으로 형성하였다. 수치 실험은 화자 10명이 발성한 50개의 문장에 대해 문맥 독립 화자인식 실험으로 수행되었다. 특징계수는 12차 멜켑스트럼 벡터를 사용하였고 각각의 공간 분할 코드북 생성법에 대해 코드북 크기를 32부터 128까지 변화시키면서 기존의 벡터 양자기 인식법과 비교하였다. 제안된 방법은 표본 벡터 생성법을 사용한 경우 인식률 100%로 기존의 방법과 같은 결과를 보였다. 따라서 제안된 공간 분할 벡터 양자기 설계법은 설계에 필요한 계산량이 획기적으로 줄면서 인식률은 보존되어 문맥 독립 화자 인식에 새로운 대안이 되며 또한 특징 벡터 공간을 설정할 수 있는 다양한 응용에 적용이 가능할 것으로 사료된다.
https://doi.org/10.3745/KIPSTB.2003.10B.6.673 인용 PDF KSCI

표본 적응 프로덕트 양자기에 기초한 격자 벡터 양자화의 엔트로피 부호화와 무기억성 가우시언 분포에 대한 성능 분석 (Entropy-Coded Lattice Vector Quantization Based on the Sample-Adaptive Product Quantizer and its Performance for the Memoryless Gaussian Source)

김동식
- 전자공학회논문지
- /
- 제49권9호
- /
- pp.67-75
- /
- 2012
높은 전송률에서 엔트로피 제한 양자화를 수행 시 최적의 양자기는 격자(lattice) 형태의 부호책을 가지는데, 규칙적인 구조로 인하여 양자화 과정이 단순하며, 격자의 형태에 따라 여러 양자화 알고리듬이 제안되어있다. 이러한 격자 벡터 양자기(vector quantizer: VQ)는 표본 적응 프로덕트 양자기(sample-adaptive product quantizer: SAPQ)를 사용하여 구현이 가능하며, 그 출력도 단순하게 엔트로피 부호화가 가능하다. 본 논문에서는 SAPQ에 기초한 엔트로피 부호화 방법을 제안하고, 무기억성(memoryless) 가우시언 분포에 대하여 여러 제안한 격자 VQ를 구현하고 양자화 에러 곡선을 엔트로피에 대하여 구하여 그 성능을 비교하였다. 실험을 통하여 전송률이 증가하면서 균등 분포에 이론적으로 얻는 이득과 비슷한 이득을 무기억성 가우시언 분포에서도 SAPQ의 출력을 엔트로피 부호화함으로 얻을 수 있음을 확인하였다.
https://doi.org/10.5573/ieek.2012.49.9.067 인용 PDF

예측오차 열의 중복성 제거에 의한 비트율 개선 (Improvement of Bit Rate by Removing the Repeated Sequences of Prediction Errors)

김형철;조제황
- 한국음향학회지
- /
- 제17권8호
- /
- pp.68-72
- /
- 1998
본 논문에서는 기존의 DPCM에 의한 압축방법보다 더 낮은 비트율을 갖는 압축방 법을 제안한다. 각 화소의 예측오차 값은 DPCM방법에 의해 양자화되고, 양자화된 예측오차 의 열은 예측오차의 학습된 열로 구성된 코드북과 비교된다. 비교과정은 벡터양자화 방법과 동일하고, 그 결과 코드북의 주소를 생성한다. 제안된 방법은 DPCM과 동일한 복원 영상의 화질을 보이지만, 더 낮은 비트율을 얻을 수 있다.
PDF

Multi-frame AR model을 이용한 LPC 계수 양자화 (Quantization of LPC Coefficients Using a Multi-frame AR-model)

정원진;김무영
- 한국음향학회지
- /
- 제31권2호
- /
- pp.93-99
- /
- 2012
음성코딩 시 성도는 Linear Predictive Coding (LPC) 계수를 이용해서 모델링 한다. 일반적으로 LPC 계수는 양자화와 선형보간 관점에서 유리한 Line Spectral Frequency (LSF) 파라미터로 변경하여 사용한다. 10차 이상의 다차원 LSF 데이터를 벡터 양자화를 이용하여 직접 코딩하게 되면 벡터 내 상관관계 (intra-frame correlation)를 모두 이용할 수 있으므로 rate-distortion 관점에서는 높은 효율을 기대할 수 있다. 하지만, 계산량과 메모리 요구량이 높아져서 실제 코딩 시스템에서는 사용할 수 없게 되므로, 차원을 나누어 압축하는 Split Vector Quantization (SVQ)이 이용된다. 또한, LSF 데이터는 과거 벡터와의 벡터 간 상관관계 (inter-frame correlation)가 높으므로, 이를 이용한 Predictive Split Vector Quantization (PSVQ)이 사용되고 있다. PSVQ는 SVQ 보다 높은 rate-distortion 성능을 보인다. 본 논문에서는 음성 저장 장치를 위한 최적의 PSVQ를 구현하기 위해서 다수의 과거 프레임 정보와의 벡터 간상관관계 (inter-frame correlation)를 고려한 Multi-Frame AR-model 기반 SVQ (MF-AR-SVQ)를 제안하였다. 기존 PSVQ와 비교해 보았을 때, MF-AR-SVQ는 계산량과 메모리 요구량의 큰 증가 없이, 평균 spectral distortion 관점에서 약 1비트의 성능 향상을 보였다.
https://doi.org/10.7776/ASK.2012.31.2.093 인용 PDF KSCI

멀티미디어 정보검색에 적합한 영상정보의 벡터 양자화 코드북 설계 및 특징추출 (VQ Codebook Design and Feature Extraction of Image Information for Multimedia Information Searching)

서석배;김대진;강대성
- 전자공학회논문지S
- /
- 제36S권8호
- /
- pp.101-112
- /
- 1999
본 논문에서는 멀티미디어 정보검색을 위하여 영상정보의 특징추출에 적합한 벡터 양자화 코드북 설계 방법을 제안한다. 기존의 벡터 양자화의 경우 영상에 대한 특징을 추출할 경우 보통 영상을 복원한 다음 수행하므로 많은 시간과 메모리가 소요되며, DCT(discrete cosine transform)를 이용한 방법처럼 블록화 현상을 동반한다. 이를 개선하기 위하여 본 논문에서는 웨이브렛 변환과 주성분 해석을 이용한 벡터 양자화 코드북 설계 방법을 제안한다. 웨이브렛 변환은 높은 압축률에서도 블록화 없는 영상을 복원하기 위해서 도입되었으며, 주성분해석은 데이터를 여러 그룹으로 분할하기 위해 도입되었다. 신경회로만인 SOM(self-organizing map)을 이용한 벡터 양자화와 비교실험에서 비슷한 성능을 보이면서도 처리 시간을 대폭 단축시킬 수 있음을 볼 수 있었다.
PDF

칼라 벡터각을 이용한 칼라 기반 영상 검색과 위치 추정 (Color-Based Image Retrieval and Lacalization using Color Vector Angle)

이호영;이호근;김윤태;남재열;하영호
- 한국통신학회논문지
- /
- 제26권6B호
- /
- pp.810-819
- /
- 2001
칼라가 물체 인식에 아주 효율적인 단서를 제공하지만 칼라 분포는 시청 조건과 카메라의 위치에 아주 큰 영향을 받는다. 생김새와 모양의 변화에 의한 칼라 분포 변화 문제를 해결하기 위해 본 논문에서는 밝기 값의 변화에 영향을 받지 않고, 색상(hue) 성분에 민감한 칼라 벡터각(color vector angle)을 이용하여 칼라 에지를 추출한 후, 영상의 화소들을 평탄 화소와 에지 화소로 구분하여 칼라 특징 값을 추출하였다. 에지 화소의 경우에는 에지 주위 칼라 쌍의 전체 분포를 HLS 색좌표계의 비균일 양자화를 통해 칼라 인접 히스토그램(color adjacency histogram)으로 표현하고, 평탄 화소의 경우에는 HLS 색좌표계의 비균일 양자화와 칼라 벡터각 균일 양자화를 통해 칼라 벡터각 히스토그램(color vector angle histogram)을 구성하여 공간적인 칼라분포를 표현하였다. 제안한 칼라 히스토그램을 이용하여 영상 검색에 적용하여 성능을 실험한 결과, 작은 빈의 수를 가지는 제안한 방법이 기존의 방법들보다 훨씬 효율적이고, 생김새와 모양의 변화에 아주 강건한 영상 검색이 가능하였고, 기존의 칼라 히스토그램 역투사 방법보다 훨씬 정확한 물체 위치 추정이 가능함을 확인할 수 있었다.
PDF

효율적인 가변차원 하모닉 크기 양자화기법 (Efficient Variable Dimension Quantization of Harmonic Magnitude)

신경진;이인성
- 한국음향학회지
- /
- 제20권7호
- /
- pp.47-54
- /
- 2001
본 논문은 스펙트럴 크기 파라미터들에 대한 효율적인 가변 차원 양자화 기법을 제안한다. 특히, 하모닉 부호화 기에서의 스펙트럴 크기값 계수들은 가변차원이기 때문에 가변 차원의 양자화를 필요로 한다. 따라서, 본 논문에서는 스펙트럴 크기값 계수들에 대해 가변 이산 코사인 변환(DCT: Discrete Cosine Transform) 및 가변 차원에 적합한 훈련구조를 가지는 비정방형 변환 벡터 양자화 (NSTVQ: Nonsquare Transform Vector Quantization)를 홀수/짝수 구조 및 분할(Split) 구조 그리고 다단계(Multi-stage) 구조 등과 결합시킨 효율적인 양자화 기법을 제안한다. 제안된 양자화 기법의 성능평가는 스펙트럴의 크기값에 대한 주파수 왜곡(SD: Spectral Distortion) 값을 사용하였으며, 다단계 비정방형 변환 벡터 양자화(MSNSTVQ: Multi-Stage Nonsquare Transform Vector Quantization)가 가장 좋은 성능을 나타내었다.
PDF

광대역 음성 부호화기용 선 스펙트럼 주파수 계수 양자화기 설계 (Design of the LSF Parameter Quantizer for the Wideband Speech Codec)

지상현;강상원;윤병식
- 한국음향학회지
- /
- 제20권4호
- /
- pp.29-34
- /
- 2001
본 논문에서는 고품질 음성 서비스를 가능하게 하는 광대역 음성 부호화기의 선 스펙트럼 주파수 (line spectral frequency: ISF) 계수 양자화기를 설계하였다. 광대역 음성 부호화기를 위한 효율적인 LSF 계수 양자화기를 설계하기 위하여, 인접 프레임간의 상관도를 이용하였으며, 각 해당 프레임의 ISF 계수에 대한 양자화를 인접 프레임간 상관도가 높은 프레임과 상관도가 낮은 프레임으로 나누어 독립적으로 수행하였다. 인접 프레임간 상관도가 높은 프레임의 LSF계수 양자화를 위하여 예측 피라미드형 벡터 양자화기 (predictive pyramid vector quantizer: PPVQ)를 사용하여 양자화하였고, 상관도가 낮은 프레임의 LSF 계수는 피라미드형 벡터 양자화기 (PVQ)를 사용하여 양자화 하였다. PPVQ에서 예측기로 1차 AR 예측기를 사용하였다. 광대역 음성 부호화기를 위해 본 논문에서 설계된 UF 계수양자화기를 평균스펙트럼 왜곡(spectral distortion: SD) 성능 관점에서 실험한 결과, LSF계수 양자화에 할당된 비트가 프레임당 40비트일 때, 평균 SD값이 1 dB 내외이고, 2 dB 이상 및 4 dB 이상 outlier가 각각 3.87%및 0.01%인 transparent한 성능을 얻을 수 있었다.
PDF

LPC Cepstral 벡터 양자화에 의한 저 전송율 CELP 음성부호기의 스펙트럼 표기 (Spectrum Representation Based on LPC Cepstral VQ for Low Bit Rate CELP Coder)

정재호
- 한국통신학회논문지
- /
- 제19권4호
- /
- pp.761-771
- /
- 1994
본 논문에서는, 매우 낮은 전송율이 요구되는 음성통신의 환경하에서 CELP 음성 부호기를 사용할 경우, 스펙트럼에 대한 정보를 어떻게 효과적으로 나타낼 것인가에 대하여 고찰하였다. 구체적으로, 스펙트럼에 대한 정보를 나타내는 LPC 파라메타를 cepstrum으로 변형시키고, 변형된 LPC cepstrum계수들을 효과적으로 벡터 양자화하는 방법을 제시하였다. 벡터 양자화에 사용되는 코드-북의 설계를 위하여, 주파수 대역에서 서로 다른 의미를 갖는 세계의 cepstral distance measure들을 시도하였으며, 각각에 대한 성능이 분석되어졌다. 시뮬레이션을 통하여, 본 논문에서 제시한 LPC cepstral 벡터 양자화 방식이 스펙트럼에 대한 정보를 매우 효과적으로 나타낼 수 있음을 보였다.
PDF

삼각 부등식을 이용한 빠른 벡터 양자화 코드북 생성 (An Efficient Vector Quantization Codebook generation using a Triangle Inequality)

이현진
- 디지털콘텐츠학회 논문지
- /
- 제13권3호
- /
- pp.309-315
- /
- 2012
액티브 데이터는 벡터 양자화 코드북이 생성될 때 소속된 군집이 변경되는 입력 데이터이다. 벡터 양자화 코드북 생성 알고리즘의 수행 과정을 살펴보면, 전체 입력 데이터 중 실제 액티브 데이터는 알고리즘이 반복될 수록 감소된다. 따라서 액티브 데이터를 정확히 추정하여, 추정된 액티브 데이터에 대해서 코드북 생성을 수행하면, 전체 코드북 생성 시간을 크게 단축할 수 있다. 본 논문에서는 삼각 부등식을 이용하여 액티브 데이터를 선택하는 방법을 제안한다. 실험결과 액티브 데이터들을 빠른 시간에 추정할 할 수 있었고, 이를 통해 전체 벡터 양자화 코드북 생성 시간 측면에서 우수한 성능을 보였다.
https://doi.org/10.9728/dcs.2012.13.3.309 인용 PDF KSCI

검색결과 318건 처리시간 0.032초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)