• Title/Summary/Keyword: 벡터화 방식

Search Result 203, Processing Time 0.025 seconds

Design of a Quantization Algorithm of the Speech Feature Parameters for the Distributed Speech Recognition (분산 음성 인식 시스템을 위한 특징 계수 양자화 방식 설계)

  • Lee Joonseok;Yoon Byungsik;Kang Sangwon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.24 no.4
    • /
    • pp.217-223
    • /
    • 2005
  • In this paper, we propose a predictive block constrained trellis coded quantization (BC-TCQ) to quantize cepstral coefficients for the distributed speech recognition. For Prediction of the cepstral coefficients. the 1st order auto-regressive (AR) predictor is used. To quantize the prediction error signal effectively. we use a BC-TCQ. The performance is compared to the split vector quantizers used in the ETSI standard, demonstrating reduction in the cepstral distance and computational complexity.

Vector Quantization Codebook Design Using Unbalanced Binary Tree and DCT Coefficients (불균형 이진트리와 DCT 계수를 이용한 벡터양자화 코드북)

  • 이경환;최정현;이법기;정원식;김경규;김덕규
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.24 no.12B
    • /
    • pp.2342-2348
    • /
    • 1999
  • DCT-based codebook design using binary tree was proposed to reduce computation time and to solve the initial codebook problem. In this method, DCT coefficient of training vectors that has maximum variance is to be a split key and the mean of coefficients at the location is used as split threshold, then balanced binary tree for final codebook is formed. However edge degradation appears in the reconstructed image, since the blocks of shade region are frequently selected for codevector. In this paper, we propose DCT-based vector quantization codebook design using unbalanced binary tree. Above all, the node that has the largest split key is splited. So the number of edge codevector can be increased. From the simulation results, this method reconstructs the edge region sincerely and shows higher PSNR than previous methods.

  • PDF

Classification of infant cries using 3D feature vectors (3D 특징 벡터를 이용한 영아 울음소리 분류)

  • Park, JeongHyeon;Kim, MinSeo;Choi, HyukSoon;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.597-599
    • /
    • 2022
  • 영아는 울음이라는 비언어적 의사 소통 방식을 사용하여 모든 욕구를 표현한다. 하지만 영아의 울음소리를 파악하는 것에는 어려움이 따른다. 영아의 울음소리를 해석하기 위해 많은 연구가 진행되었다. 이에 본 논문에서는 3D 특징 벡터를 이용한 영아의 울음소리 분류를 제안한다. Donate-a-corpus-cry 데이터 세트는 복통, 트림, 불편, 배고픔, 피곤으로 총 5 개의 클래스로 분류된 데이터를 사용한다. 데이터들은 원래 속도의 90%와 110%로 수정하는 방법인 템포조절을 통해 증강한다. Spectrogram, Mel-Spectrogram, MFCC 로 특징 벡터화를 시켜준 후, 각각의 2 차원 특징벡터를 묶어 3차원 특징벡터로 구성한다. 이후 3 차원 특징 벡터를 ResNet 과 EfficientNet 모델로 학습을 진행한다. 그 결과 2 차원 특징 벡터는 0.89(F1) 3 차원 특징 벡터의 경우 0.98(F1)으로 0.09 의 성능 향상을 보여주었다.

Improving Stack LSTMs by Combining Syllables and Morphemes for Korean Dependency Parsing (Stack LSTM 기반 한국어 의존 파싱을 위한 음절과 형태소의 결합 단어 표상 방법)

  • Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Kangil
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.9-13
    • /
    • 2016
  • Stack LSTM기반 의존 파싱은 전이 기반 파싱에서 스택과 버퍼의 내용을 Stack LSTM으로 인코딩하여 이들을 조합하여 파서 상태 벡터(parser state representation)를 유도해 낸후 다음 전이 액션을 결정하는 방식이다. Stack LSTM기반 의존 파싱에서는 버퍼 초기화를 위해 단어 표상 (word representation) 방식이 중요한데, 한국어와 같이 형태적으로 복잡한 언어 (morphologically rich language)의 경우에는 무수히 많은 단어가 파생될 수 있어 이들 언어에 대해 단어 임베딩 벡터를 직접적으로 얻는 방식에는 한계가 있다. 본 논문에서는 Stack LSTM 을 한국어 의존 파싱에 적용하기 위해 음절-태그과 형태소의 표상들을 결합 (hybrid)하여 단어 표상을 얻어내는 합성 방법을 제안한다. Sejong 테스트셋에서 실험 결과, 제안 단어표상 방법은 음절-태그 및 형태소를 이용한 방법을 더욱 개선시켜 UAS 93.65% (Rigid평가셋에서는 90.44%)의 우수한 성능을 보여주었다.

  • PDF

Improving Stack LSTMs by Combining Syllables and Morphemes for Korean Dependency Parsing (Stack LSTM 기반 한국어 의존 파싱을 위한 음절과 형태소의 결합 단어 표상 방법)

  • Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Kangil
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.9-13
    • /
    • 2016
  • Stack LSTM기반 의존 파싱은 전이 기반 파싱에서 스택과 버퍼의 내용을 Stack LSTM으로 인코딩하여 이들을 조합하여 파서 상태 벡터(parser state representation)를 유도해 낸후 다음 전이 액션을 결정하는 방식이다. Stack LSTM기반 의존 파싱에서는 버퍼 초기화를 위해 단어 표상 (word representation) 방식이 중요한데, 한국어와 같이 형태적으로 복잡한 언어 (morphologically rich language)의 경우에는 무수히 많은 단어가 파생될 수 있어 이들 언어에 대해 단어 임베딩 벡터를 직접적으로 얻는 방식에는 한계가 있다. 본 논문에서는 Stack LSTM 을 한국어 의존 파싱에 적용하기 위해 음절-태그과 형태소의 표상들을 결합 (hybrid)하여 단어 표상을 얻어내는 합성 방법을 제안한다. Sejong 테스트셋에서 실험 결과, 제안 단어 표상 방법은 음절-태그 및 형태소를 이용한 방법을 더욱 개선시켜 UAS 93.65% (Rigid평가셋에서는 90.44%)의 우수한 성능을 보여주었다.

  • PDF

A Study on Direct Torque Control of Two-Phase Induction Motor Using Three-Leg Inverter (3레그형 인버터를 사용한 2상 유도전동기의 직접토크제어에 관한 연구)

  • Kim, Kyung-Hwan;Kim, Dong-Ki;Yoon, Duck-Yong
    • Proceedings of the KIPE Conference
    • /
    • 2017.07a
    • /
    • pp.393-394
    • /
    • 2017
  • 유도전동기는 속도 제어가 어렵기 때문에 이를 위한 고가의 벡터제어 인버터가 널리 사용되어 왔다. 이 때문에 최근에는 이를 저가화하기 위하여 제어 알고리즘이 단순하고 구현이 용이한 직접토크제어 방식에 대한 연구가 이루어지고 있다. 한편으로 소용량의 저전력 응용 분야에서는 기계적으로 구조가 단순하고 가격이 저렴한 2상 유도전동기를 적용하려는 노력이 활발해지고 있다. 2상 유도전동기용 인버터의 대표적인 토폴로지는 3상 IPM 소자를 그대로 이용할 수 있는 3레그형이다. 그러나, 3레그형 인버터에서는 출력 전압 벡터가 비대칭 육각형의 형태로 나타나므로 2상 유도전동기에 이러한 직접토크제어 방식을 적용하면 전동기의 발생 토크에 리플이 증가하는 문제가 있다. 본 논문에서는 3레그형 인버터를 사용하는 2상 유도전동기에 직접토크제어 방식을 적용하고 이때 문제가 되는 전동기의 토크 리플을 저감하는 방법에 관하여 연구하였으며, 이것의 유효성은 시뮬레이션을 통하여 유효성을 검증하였다.

  • PDF

Multi-Emotion Recognition Model with Text and Speech Ensemble (텍스트와 음성의 앙상블을 통한 다중 감정인식 모델)

  • Yi, Moung Ho;Lim, Myoung Jin;Shin, Ju Hyun
    • Smart Media Journal
    • /
    • v.11 no.8
    • /
    • pp.65-72
    • /
    • 2022
  • Due to COVID-19, the importance of non-face-to-face counseling is increasing as the face-to-face counseling method has progressed to non-face-to-face counseling. The advantage of non-face-to-face counseling is that it can be consulted online anytime, anywhere and is safe from COVID-19. However, it is difficult to understand the client's mind because it is difficult to communicate with non-verbal expressions. Therefore, it is important to recognize emotions by accurately analyzing text and voice in order to understand the client's mind well during non-face-to-face counseling. Therefore, in this paper, text data is vectorized using FastText after separating consonants, and voice data is vectorized by extracting features using Log Mel Spectrogram and MFCC respectively. We propose a multi-emotion recognition model that recognizes five emotions using vectorized data using an LSTM model. Multi-emotion recognition is calculated using RMSE. As a result of the experiment, the RMSE of the proposed model was 0.2174, which was the lowest error compared to the model using text and voice data, respectively.

A Differential Index Assignment Scheme for Tree-Structured Vector Quantization (나무구조 벡터양자화 기반의 차분 인덱스 할당기법)

  • 한종기;정인철
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.28 no.2C
    • /
    • pp.100-109
    • /
    • 2003
  • A differential index assignment scheme is proposed for the image encoding system in which a variable-length tree-structured vector quantizer is adopted. Each source vector is quantized into a terminal node of VLTSVQ and each terminal node is represented as a unique binary vector. The proposed index assignment scheme utilizes the correlation between interblocks of the image to increase the compression ratio with the image quality maintained. Simulation results show that the proposed scheme achieves a much higher compression ratio than the conventional one does and that the amount of the bit rate reduction of the proposed scheme becomes large as the correlation of the image becomes large. The proposed encoding scheme can be effectively used to encode R images whose pixel values we, in general, highly correlated with those of the neighbor pixels.

Multi-Dimensional Vector Approximation Tree with Dynamic Bit Allocation (동적 비트 할당을 통한 다차원 벡터 근사 트리)

  • 복경수;허정필;유재수
    • The Journal of the Korea Contents Association
    • /
    • v.4 no.3
    • /
    • pp.81-90
    • /
    • 2004
  • Recently, It has been increased to use a multi-dimensional data in various applications with a rapid growth of the computing environment. In this paper, we propose the vector approximate tree for content-based retrieval of multi-dimensional data. The proposed index structure reduces the depth of tree by storing the many region information in a node because of representing region information using space partition based method and vector approximation method. Also it efficiently handles 'dimensionality curse' that causes a problem of multi-dimensional index structure by assigning the multi-dimensional data space to dynamic bit. And it provides the more correct regions by representing the child region information as the parent region information relatively. We show that our index structure outperforms the existing index structure by various experimental evaluations.

  • PDF

Integration of Motion Compensation Algorithm for Predictive Video Coding (예측 비디오 코딩을 위한 통합 움직임 보상 알고리즘)

  • Eum, Ho-Min;Park, Geun-Soo;Song, Moon-Ho
    • Journal of the Korean Institute of Telematics and Electronics S
    • /
    • v.36S no.12
    • /
    • pp.85-96
    • /
    • 1999
  • In a number of predictive video compression standards, the motion is compensated by the block-based motion compensation (BMC). The effective motion field used for the prediction by the BMC is obviously discontinuous since one motion vector is used for the entire macro-block. The usage of discontinuous motion field for the prediction causes the blocky artifacts and one obvious approach for eliminating such artifacts is to use a smoothed motion field. The optimal procedure will depend on the type of motion within the video. In this paper, several procedures for the motion vectors are considered. For any interpolation or approaches, however, the motion vectors as provided by the block matching algorithm(BMA) are no longer optimal. The optimum motion vectors(still one per macro-block) must minimize the of the displaced frame difference (DFD). We propose a unified algorithm that computes the optimum motion vectors to minimize the of the DFD using a conjugate gradient search. The proposed algorithm has been implemented and tested for the affine transformation based motion compensation (ATMC), the bilinear transformation based motion compensation (BTMC) and our own filtered motion compensation(FMC). The performance of these different approaches will be compared against the BMC.

  • PDF