통합 검색 | Korea Science

음성 인식에서 음소 클러스터 수의 효과 (The Effect of the Number of Phoneme Clusters on Speech Recognition)

이창영
- 한국전자통신학회논문지
- /
- 제9권11호
- /
- pp.1221-1226
- /
- 2014
본 논문에서는 음성 인식의 효율을 높이기 위하여 음소 클러스터 개수의 효과에 대해 연구하였다. 이를 위하여 음소 클러스터 개수를 바꾸어 가면서 수정된 k-평균 군집 알고리듬을 사용하여 코우드북을 작성하였다. 그런 다음, 퍼지 벡터 양자화와 은닉 마코브 모델을 사용하여 음성인식 테스트를 수행하였다. 실험 결과 두 개의 영역이 구분되어 나타났다. 음소 클러스터 개수가 클 때 인식 성능은 대체로 그와 무관하지만, 개수가 작을 때에는 그 감소와 더불어 인식 오류율이 비선형적으로 증가하는 것으로 나타났다. 수치 해석적 계산으로부터, 이 비선형 영역은 멱승함수에 의해 모델링 될 수 있었다. 또한 300개의 고립단어 인식의 경우에, 166개의 음소클러스터가 최적의 수임을 보일 수 있었다. 이는 음소당 3개 정도의 변화에 해당하는 값이다.
https://doi.org/10.13067/JKIECS.2014.9.11.1221 인용 PDF KSCI

수정된 MSDS를 이용한 영상의 후처리 기법 (A Image Post-processing Method using Modified MSDS)

김은석;채병조;오승준
- 한국통신학회논문지
- /
- 제24권8B호
- /
- pp.1480-1489
- /
- 1999
본 논문에서는 블록 기반 DCT 부호화 방식의 단점인 블록화 현상을 제거하기 위하여 MSDS 방법을 개선한 후 처리 기법을 제안한다. MSDS방법의 문제점인 예측된 DCT 계수값의 범위를 제한하기 위하여 입력 영상의 블록 경계 화소차 분포를 규정할 수 있는 OSLD(Overlapped Sub-Laplacian Distribution)를 정의한다. 블록화 현상은 블록간의 기울기를 이용하여 불연속 정도를 측정함으로써 정량화 되고, 정량화 된 값을 최소화하도록 양자화 오류값을 예측한다. OSLD를 이용하여 각 블록들을 네 가지 형태로 분류하고 이를 에지 부류와 평탄 부류로 구분한다. 에지 부류로 판별된 블록에서는 예측된 양자화 오류의 범위가 해당되는 양자화 간격보다 크면 이 간격으로 예측된 양자화 오류를 보정한다. 본 방법을 사용하여 실험 영상에서 블록화 현상을 제거할 때 기존의 MSDS 방법에서 요구하였던 입력 영상에 따라 실험적으로 문턱값을 설정하였던 문제점을 해결하고, PSNR 값을 영상에 따라 0.1∼0.3 dB 정도 향상시키면서 시각적으로 화질을 향상시킬 수 있다.
PDF

새로운 계층적 이동 보상 피라미드 부호화 방식 연구 (A Study on New Hierarchical Motion Compensation Pyramid Coding)

전준현
- 방송공학회논문지
- /
- 제8권2호
- /
- pp.181-197
- /
- 2003
대역 분할 부호화(Sub-Band Coding: SBC)방식은 계층적 피라미드(hierarchical pyramid) 구조를 갖고 있어 움직임 예측 시 상위 계층에서는 전체적인 이동특성을 추정하고 하위 계층에서는 국부적인 세부 이동 특성을 추정할 수가 있어 실제 동영상 움직임 보상 성능이 매우 우수하다. 이와 같은 계층적 이동보상피라미드를 이용한 기존의 저대역(low-band) 이동보상 피라미드 방식에는 다음 두 가지 문제점들로 인해 매우 심각한 화질 저하가 발생한다. 첫째는 저대역 이동보상 피라미드의 각 계층에서 양자화기가 포함된 부호화기를 사용할 경우 하위 계층의 재생 영상일수록 상위 계층에서 누적된 양자화 오차(quantization error)들을 그대로 포함하기 때문에 연속된 영상에서의 정확한 이동 보상이 어렵게 된다. 둘째는 피라미드의 계층적 구조 모순으로 상위 계층예서 잘못된 움직임 추정(motion estimation)은 하위 계층으로 진행될수록 막대한 성능 저하의 원인이 된다. 본 논문에서는 우선 대역분할 부호화 방식을 이용한 대역별 계층적 이동보상에 대한 수학적 분석을 하였으며, 이를 바탕으로 제안되었던 통과 대역(pass-band) 이동보상 피라미드 방식이 누적된 양자화 오차 요인이 제거됨으로서 기존의 저대역 이동보상 피라미드에 비해 성능이 우수하다는 것을 이론적으로 분석하여 이를 증명하였다. 또한 계층적 이동보상 피라미드에서 매우 중요한 최고 계층의 초기 이동벡터 추정을 위하여 에지 패턴 분류를 이용한 이동벡터 추정 방식을 새로이 제안하였으며, 실험 결과 성능의 우수함이 입증되었다.
PDF KSCI

왜곡-비트율 추정에 근거한 MPEG-2 비디오의 순방향 비트율 제어 (Forward rate control of MPEG-2 video based on distortion-rate estimation)

홍성훈;김성대;최재각;홍성용
- 한국통신학회논문지
- /
- 제23권8호
- /
- pp.2010-2024
- /
- 1998
비디오 부호화에 있어서 평균화질의 향상뿐만 아니라 이웃한 영상들간에 일관된 화질을 유지하는 것은 매우 중요하다. 본 논문에서는 MPEG-2 비디오에 대한 왜곡-비트율 추정방식과 이 추정결과를 이용히여 일정 비트율(CBR)로 부호화되는 MPEG-2 비디오가 일관된 화질을 유지하면서도 향상된 평균화질을 얻도록 하는 순방향 비트율 제어방식을 제안한다. 본 논문에서 제안하는 왜곡-비트율 추정은 부호화에 사용되는 양자화 스텝 크기에 따라한 영상에서 발생하는 비트량과 왜곡을 예측하거나, 역으로 발생하는 비트량이나 왜곡에 대한 양자화 스텝 크기를 예측할 수 있다. 제안된 추정 방식의 장점은 실제의 비디오 부호화 응용에 적용할 수 있을 만큼 계산량이 적고 정확하다는 것이다. 한편 제안된 비트율 제어는 프레임 단위로 왜곡-비트율 추정, 목표 비트 할당, 왜곡 제한 그리고 VBV(Video B Buffer Verification) 제한 절차에 의해서 부호화에 적용할 양자화 파라메터를 결정하고, 이 양자화 파라메터를 적용하여 영상을 부호화 함으로써 일관되고도 향상된 화질을 유지한다. 또한 화면전환이나 기준영상의 화질열화 등에 의하여 화질저하가 오래 지속되는 문제를 B-picture 제거와 기준영상에 대하여 최소 비트량 할당을 보장함으로써 해결한다. 그리고 제안된 순방향 비트율 제어방식과 MPEG-2의 TM5(Test Model 5)에서 제안한 비트율 제어를 비교한 실험 결과들을 통하여 제안된 방식이 영상들 간에 일관된 화질을 유지할 뿐만 아니라 평균화질도 향상 됨을 확인한다.
PDF

유전알고리즘과 진화프로그램을 이용한 퍼지제어기의 성능 향상에 관한 연구 (A Study on the Performance Improvement of Fuzzy Controller Using Genetic Algorithm and Evolution Programming)

이상부;임영도
- 한국지능시스템학회논문지
- /
- 제7권4호
- /
- pp.58-64
- /
- 1997
FLC(퍼지 제어기 : Fuzzy Logic Controller)는 고전적 제어기보다 외란(disturbance)에 강하고 초기 치의 과도측성(overshoot)이 우수하다. 그리고 미지의 프로세스(process)나 복잡한 시스템의 수학적인 모델링이 불가능한 경우에도 퍼지 추론에 의하여 적절한 제어량을 얻을 수 있다. 그러나 퍼지변수의 양자화 단계 크기에 의해 출력값이 항상 미세한 오차를 가지므로 목표치에 정확히 수럼하지 못한다.[1]. 이 미세한 오차를 제거하기 위한 여러 방법이 [2~4]있지만 본 논문에서는 FLC에 GA(유전알고리즘 : Genetic Algorithm)와 EP(진화프로그래밍 : Evolution programming)를 결합한 GA-FLC, EPFLC Hybrid 제어기를 제안한다. 이 Hybrid 제어기의 츨력 특성과 FLC의 출력 특성을 비교 분석하고, 이 Hybrid 제어기가 오차없이 목표치에 잘 수렴하는 것을 보이고자 한다. 또한 이 두 종류의 Hybrid제어기 수렴 속도 성능도 비교한다.
PDF

휘도를 고려한 기준색 선택 기반의 다단계 벡터 오차 확산법 (Multi-level Vector Error Diffusion Based on Primary Color Selection Considering Lightness)

박태용;조양호;이명영;하영호
- 대한전자공학회논문지SP
- /
- 제41권5호
- /
- pp.77-85
- /
- 2004
본 논문에서는 64개 기준색을 사용한 다단계 벡터 오차 확산법에서 나타나는 밝은 영역에서의 색 자극 문제를 개선하는 방법을 제안하였다. 벡터 오차 확산법은 양자화 과정에서 입력 벡터와 기준색 벡터간의 기하학적 거리만을 이용하기 때문에 밝은 영역에서 어두운 기준색이 선택되는 색 자극이 발생한다 이러한 문제를 해결하기 위해서 오차 보정된 입력 벡터의 채도를 계산하여 유채색과 무채색으로 나누고, 유채색일 경우 입력 벡터의 휘도를 이용하여 밝은 영역, 중간 밝기 영역, 어두운 영역으로 구분한다. 밝은 영역일 경우 60개 유채색 기준색중에서 입력 벡터와의 휘도차가 작은 N개의 후보 기준색을 구성한다. 최종 기준색을 선택할 때는 N개의 후보 기준색과 4개의 무채색 기준색중에서 오차 보정된 입력 벡터와의 최소 기하학적 거리를 가지는 기준색을 출력색으로 결정한다 실험 결과, 제안한 방법은 자은 영역에서 색 자극이 줄어들어 시각적으로 보기 좋은 결과를 보였다.
PDF KSCI

에러 강인성 향상을 위한 다상 다운 샘플링 적용 H.264 동영상 부호화 기술 (Error-Resilience Enhancement based on Polyphase Down Sampling for the H.264 Video Coding Technology)

정은구;지아 지예;김해광;최해철;김재곤
- 방송공학회논문지
- /
- 제10권3호
- /
- pp.340-347
- /
- 2005
이 논문에서는 다상 다운 샘플링 (Polyphase down sampling)에 기반 한 다중 부호화 기법 (multiple description coding)을 H.264 동영상 기술에 적용한 기술을 제시한다. 먼저 입력된 원 매크로블록에 대해서, 움직임 보상된 잔여 매크로블록을 계산한다. 제안하는 기술은 이 잔여 매크로블록을 DCT, 양자화, 엔트로피 부호화 과정을 거쳐 부호화화는 H.264 동영상 부호화 기술에 있어서 DCT 처리 이전에 다상 다운 샘플링을 적용하여 하나의 매크로블록을 4 개의 기술(description)로 나누어 각각을 부호화한다. 복호화에 있어 4 개의 기술이 모두 수신되면, 원래의 영상을 완전히 복호하고, 일부 기술이 수신되지 않으면, 에러 없이 수신된 기술로부터 보간법에 의해 원래의 영상과 유사한 영상을 복호한다. 모의실험은 JVT SVC(Scalable Video Coding) 표준화를 위한 9 개 시험 동영상 전체에 대해 다양한 패킷 손실 형태의 환경에서 수행 되었다. 실험 결과는 제안된 방법이 H.264 기반의 슬라이스 그룹 맵에 기반 한 에러 숨김 방법보다 0.5-5 dB 향상된 성능을 보여주었다.
PDF KSCI

QAM 시스템에서 DSE-MMA 블라인드 등화 알고리즘의 성능 평가 (Performance Evaluation of DSE-MMA Blind Equalization Algorithm in QAM System)

강대수
- 한국인터넷방송통신학회논문지
- /
- 제13권6호
- /
- pp.115-121
- /
- 2013
본 논문은 송신 부호가 대역 제한, 위상 찌그러짐이 존재하는 비선형 통신 채널을 통과할 때 발생되는 부호간 간섭을 보상하기 위한 블라인드 등화 알고리즘인 SE-MMA (Signed-Error MMA)의 roburstness 성능을 개선할 수 있는 DSE-MMA (Dithered Sign-Error MMA)에 관한 것이다. SE-MMA는 등화기의 탭 계수 갱신을 위하여 곱셈 대신 1 bit 양자화기를 사용하므로 알고리즘의 연산량을 줄일 수 있어 H/W 응용에 유리하지만, 양자화 과정에서 발생되는 정보 손실에 의하여 전체적인 블라인드 등화 성능 알고리즘이 MMA보다 열화되는 단점이 있다. DSE-MMA는 SE-MMA의 단점 중에서 roburstness를 나타내는 SER 성능을 개선키 위하여 양자화 전에 dither 신호를 이용하는 Dithered Signed-Error 개념을 MMA에 적용하였으며, SE-MMA 와 MMA 알고리즘이 갖는 부호간 간섭에 의한 진폭과 위상 찌그러짐을 동시 보상 능력을 갖는다. 논문에서 DSE-MMA 블라인드 등화 알고리즘의 성능을 나타내는 지수로는 등화기 출력 신호, 잔류 isi, MD (Maximum Distortion), MSE와 SER를 사용하였으며, 이들 성능 지수를 적용할 때 SE-MMA 알고리즘과 비교하기 위하여 컴퓨터 시뮬레이션을 수행하였다. 시뮬레이션 결과 DSE-MMA가 SE-MMA 보다 roburstness 와 정상 상태 이후 성능 지수의 양에서 개선됨을 알 수 있었지만, 초기 상태에서 정상 상태에 도달하는 수렴 속도에서는 늦어짐을 확인하였다.
https://doi.org/10.7236/JIIBC.2013.13.6.115 인용 PDF KSCI

스테레오 비전에서 향상된 적응형 퍼지 칼만 필터를 이용한 거리 추정 기법 (Distance Estimation Method using Enhanced Adaptive Fuzzy Strong Tracking Kalman Filter Based on Stereo Vision)

임영철;이충희;권순;이종훈
- 전자공학회논문지SC
- /
- 제45권6호
- /
- pp.108-116
- /
- 2008
본 논문에서는 스테레오 비전에서 시차를 이용하여 근거리뿐만 아니라 원거리의 장애 물체에 대해서도 신뢰성 있는 거리를 추정하기 위한 알고리즘을 제안한다. 시차를 이용한 거리 측정에서 양자화 오차는 원거리에서의 거리 정확도를 떨어뜨리게 되므로, 이를 최소화하기 위해 부화소 보간법(sub-pixel interpolation)을 이용하여 시차 정확도를 향상시키고 거리 정확도 및 경로 추적의 최적화를 위해서 향상된 적응형 퍼지 칼만 필터(EAFSTKF : Enhanced Adaptive Fuzzy Strong Tracking Kalman Filter)를 사용한다. 제안한 방법은 차량과 같이 다양한 동적인 움직임에 의한 비선형성에 대하여 기존 칼만 필터에서 발생되는 발산 문제(divergence problem)를 해결할 수 있고, 거리의 정확도 및 신뢰도도 높일 수 있다. 몬테카를로(Monte Carlo) 방법을 이용한 모의실험 결과 제안한 방법은 기존 방법들과 거리 오차율(RMSER : Root Mean Square Error Rate)을 비교하였을 때, strong tracking Kalman filter(STKF)에 비하여 성능이 약 13.5%정도 향상되었음을 보여준다.
PDF KSCI

A Study on Design and Implementation of Speech Recognition System Using ART2 Algorithm

Kim, Joeng Hoon;Kim, Dong Han;Jang, Won Il;Lee, Sang Bae
- International Journal of Fuzzy Logic and Intelligent Systems
- /
- 제4권2호
- /
- pp.149-154
- /
- 2004
In this research, we selected the speech recognition to implement the electric wheelchair system as a method to control it by only using the speech and used DTW (Dynamic Time Warping), which is speaker-dependent and has a relatively high recognition rate among the speech recognitions. However, it has to have small memory and fast process speed performance under consideration of real-time. Thus, we introduced VQ (Vector Quantization) which is widely used as a compression algorithm of speaker-independent recognition, to secure fast recognition and small memory. However, we found that the recognition rate decreased after using VQ. To improve the recognition rate, we applied ART2 (Adaptive Reason Theory 2) algorithm as a post-process algorithm to obtain about 5% recognition rate improvement. To utilize ART2, we have to apply an error range. In case that the subtraction of the first distance from the second distance for each distance obtained to apply DTW is 20 or more, the error range is applied. Likewise, ART2 was applied and we could obtain fast process and high recognition rate. Moreover, since this system is a moving object, the system should be implemented as an embedded one. Thus, we selected TMS320C32 chip, which can process significantly many calculations relatively fast, to implement the embedded system. Considering that the memory is speech, we used 128kbyte-RAM and 64kbyte ROM to save large amount of data. In case of speech input, we used 16-bit stereo audio codec, securing relatively accurate data through high resolution capacity.
https://doi.org/10.5391/IJFIS.2004.4.2.149 인용 PDF KSCI

검색결과 296건 처리시간 0.024초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)