• 제목/요약/키워드: Encoder-decoder

검색결과 453건 처리시간 0.029초

길쌈부호기를 이용한 LDPC 패리티검사 행렬생성 및 비터비 복호 연계 LDPC 복호기 (LDPC Generation and Decoding concatenated to Viterbi Decoder based on Sytematic Convolutional Encoder)

  • 이종수;황은한;송상섭
    • 스마트미디어저널
    • /
    • 제2권2호
    • /
    • pp.39-43
    • /
    • 2013
  • 본 논문은 오류정정부호의 하나인 LDPC 패리티검사 행렬을 생성 하는 방법에 관한 논문으로 또 다른 오류정정부호의 하나인 길쌈부호를 이용하여 LDPC 패리티검사 행렬을 생성하면 터보부호처럼 LDPC 부호에서도 다양한 부호율을 쉽게 얻을 수 있다는 장점을 가진다. 또한 복호기에서 LDPC에서의 복호방식 뿐 아니라 길쌈부호의 복호방식인 비터비알고리즘도 적용할 수 있는 장점을 가진다. 또한 보통의 오류정정부호의 경우 프레임크기가 커야 오류정정성능이 안정적으로 나오는데, 새로 제시하는 방식을 통해 프레임크기가 작은 부호의 경우에도 성능열화를 어느 정도 막을 수 있다.

  • PDF

Hyperparameter experiments on end-to-end automatic speech recognition

  • Yang, Hyungwon;Nam, Hosung
    • 말소리와 음성과학
    • /
    • 제13권1호
    • /
    • pp.45-51
    • /
    • 2021
  • End-to-end (E2E) automatic speech recognition (ASR) has achieved promising performance gains with the introduced self-attention network, Transformer. However, due to training time and the number of hyperparameters, finding the optimal hyperparameter set is computationally expensive. This paper investigates the impact of hyperparameters in the Transformer network to answer two questions: which hyperparameter plays a critical role in the task performance and training speed. The Transformer network for training has two encoder and decoder networks combined with Connectionist Temporal Classification (CTC). We have trained the model with Wall Street Journal (WSJ) SI-284 and tested on devl93 and eval92. Seventeen hyperparameters were selected from the ESPnet training configuration, and varying ranges of values were used for experiments. The result shows that "num blocks" and "linear units" hyperparameters in the encoder and decoder networks reduce Word Error Rate (WER) significantly. However, performance gain is more prominent when they are altered in the encoder network. Training duration also linearly increased as "num blocks" and "linear units" hyperparameters' values grow. Based on the experimental results, we collected the optimal values from each hyperparameter and reduced the WER up to 2.9/1.9 from dev93 and eval93 respectively.

KI-HABS: Key Information Guided Hierarchical Abstractive Summarization

  • Zhang, Mengli;Zhou, Gang;Yu, Wanting;Liu, Wenfen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권12호
    • /
    • pp.4275-4291
    • /
    • 2021
  • With the unprecedented growth of textual information on the Internet, an efficient automatic summarization system has become an urgent need. Recently, the neural network models based on the encoder-decoder with an attention mechanism have demonstrated powerful capabilities in the sentence summarization task. However, for paragraphs or longer document summarization, these models fail to mine the core information in the input text, which leads to information loss and repetitions. In this paper, we propose an abstractive document summarization method by applying guidance signals of key sentences to the encoder based on the hierarchical encoder-decoder architecture, denoted as KI-HABS. Specifically, we first train an extractor to extract key sentences in the input document by the hierarchical bidirectional GRU. Then, we encode the key sentences to the key information representation in the sentence level. Finally, we adopt key information representation guided selective encoding strategies to filter source information, which establishes a connection between the key sentences and the document. We use the CNN/Daily Mail and Gigaword datasets to evaluate our model. The experimental results demonstrate that our method generates more informative and concise summaries, achieving better performance than the competitive models.

MPEG-7 BiM 부호화기 및 복호화기의 구현 (Implementation of Encoder and Decoder for MPEG-7 BiM)

  • 염지현;김민제;이한규;김혁만
    • 방송공학회논문지
    • /
    • 제12권2호
    • /
    • pp.159-176
    • /
    • 2007
  • 본 논문은 MPEG-7에서 표준화한 BiM 부호화 방식을 이용하여, 특정 스키마 문서에 따라 작성된 XML 인스턴스 문서를 이진형태로 부호화하고 또한 역으로 복호화 하는 소프트웨어 시스템의 구현에 관한 것이다. 본 논문에서는 BiM 부호화기 및 복호화기의 소프트웨어 구조를 클래스 계층구조로 설계하고, 설계한 BiM 부호화기 및 복호화기를 구현한다. 구현된 BiM 부호화기는 평균 90%에 해당하는 부호화 효율을 보였다. BiM 부호화기는 MPEG-7 스키마 문서뿐만 아니라 XML Schema로 정의된 스키마 문서에 따르는 어떤 인스턴스 문서도 부호화할 수 있는 범용 소프트웨어로써, 디지털 방송을 포함한 XML 인스턴스 문서의 부호화가 필요한 많은 응용 분야에서 사용 될 수 있다.

딥러닝 기반의 Semantic Segmentation을 위한 Residual U-Net에 관한 연구 (A Study on Residual U-Net for Semantic Segmentation based on Deep Learning)

  • 신석용;이상훈;한현호
    • 디지털융복합연구
    • /
    • 제19권6호
    • /
    • pp.251-258
    • /
    • 2021
  • 본 논문에서는 U-Net 기반의 semantic segmentation 방법에서 정확도를 향상시키기 위해 residual learning을 활용한 인코더-디코더 구조의 모델을 제안하였다. U-Net은 딥러닝 기반의 semantic segmentation 방법이며 자율주행 자동차, 의료 영상 분석과 같은 응용 분야에서 주로 사용된다. 기존 U-Net은 인코더의 얕은 구조로 인해 특징 압축 과정에서 손실이 발생한다. 특징 손실은 객체의 클래스 분류에 필요한 context 정보 부족을 초래하고 segmentation 정확도를 감소시키는 문제가 있다. 이를 개선하기 위해 제안하는 방법은 기존 U-Net에 특징 손실과 기울기 소실 문제를 방지하는데 효과적인 residual learning을 활용한 인코더를 통해 context 정보를 효율적으로 추출하였다. 또한, 인코더에서 down-sampling 연산을 줄여 특징맵에 포함된 공간 정보의 손실을 개선하였다. 제안하는 방법은 Cityscapes 데이터셋 실험에서 기존 U-Net 방법에 비해 segmentation 결과가 약 12% 향상되었다.

센서네트워크상의 응용을 위한 터보 복호화 오류정정 기법을 이용한 경량화 비디오 부호화 방법 (Low Complexity Video Encoding Using Turbo Decoding Error Concealments for Sensor Network Application)

  • 고봉혁;심혁재;전병우
    • 대한전자공학회논문지SP
    • /
    • 제45권1호
    • /
    • pp.11-21
    • /
    • 2008
  • 종래의 움직임보상 변환 부호화 기술은 부호화기가 복호화기에 비해 매우 복잡한 구조를 갖는다. 하지만 센서네트워크와 같은 에너지 제한 환경을 위한 경량화 부호화기의 필요성이 대두됨에 따라 부호화기 복잡도와 에너지소비의 대부분을 차지했던 움직임 예측/보상과정을 없애기 위한 새로운 부호화 구조에 대한 연구가 이루어져 왔다. Wyner-Ziv 코딩 기술은 이를 가능하게 하는 대표적인 기술로서 터보 코드와 같은 채널 코드를 이용하여 프레임과 보조정보 사이의 잡음을 제거하여 영상을 복원한다. 이때 부호화기는 단순히 현재 프레임에 대한 패리티 정보만을 생성할 뿐 프레임간의 유사성을 이용하는 어떠한 과정도 수행하지 않기 때문에 매우 간단한 구조를 갖게 된다. 하지만 Wyner-Ziv 코딩 구조에서는 잡음이 많은 보조영상을 이용하여 복호화 할 경우 터보 코드의 복호화 오류가 발생한다. 이러한 복호화 오류는 특히 영상 간 움직임이 많거나 occlusion이 존재하는 경우 더 많이 발생하여 마치 복원된 영상에 Salt & Pepper 같은 잡음이 나타난다. 이러한 잡음은 비록 그 발생빈도는 적지만 복원된 영상의 주관적인 화질을 상당히 떨어뜨린다. 본 논문은 심볼단위의 Wyner-Ziv 코딩구조하의 초경량 부호화 기술과, 잘못된 필터 적용으로 영상의 texture를 손상시키는 경우를 최소하기 위하여 복호화 시 각 화소에 터보 코드 복호화 오류가 있는지 여부를 판단하여 선택적으로 미디언 필터를 적용시키는 기술을 제안한다. 제안된 방법은 종래의 움직임보상 변환 부호화 기술과 비교하여 현저하게 연산량이 감소된 경량화 부호화 기술로서 터보 코드 복호화 오류로 발생하는 잡음과 영상의 texture를 구분하여 필터를 적용함으로써 복원된 영상의 주관적인 화질과 PSNR을 동시에 개선한다. 실험결과 PSNR의 경우 평균 최고 약 0.8dB에 달하는 성능이득 효과를 보였다.

FO-CDMA 통신망에서 PCAE와 PCAD 동작특성 분석 (Performance Analysis of the PCAE and PCAD in FO-CDMA Communication Network)

  • 강태구;최영완
    • 정보통신설비학회논문지
    • /
    • 제2권4호
    • /
    • pp.5-16
    • /
    • 2003
  • Parallel Coupler Access Encoder(PCAE)와 Parallel Coupler Access Decoder(PCAD)를 이용한 FO-CDMA(Fiber-Optic Code Division Multiple Access)시스템에서 광정합필터 특성을 실험을 통해 분석하였다. PCAE와 PCAD를 구성하고 있는 즉, 1xN splitter와 Nx1 combiner사이에 접속된 광지연선로의 길이비율을 광직교코드 생성알고리즘에 의해 결정하였고, 부/복호화 과정 및 시그템 성능을 peak to side-lobe ratio(PSR)를 구하여 기존에 제시된 결과와 비교하였다. 기존의 연구에서는 SCAE 및 SCAD를 이용하여 일차신호만을 고려하여 시스템의 성능을 분석하여 성능평가가 정확하지가 않았다. SCAE 및 SCAD는 커플러수를 증가함에 따라 여러 형태의 간섭신호들을 가지므로, 이러한 신호들이 시스템 성능을 현저히 열화 시킨다. 본 논문에서는 $\alpha$(coupling coefficient)값이 커질수록 PCAE와 PCAD를 이용한 PSR이 향상됨을 밝혔고 FO-CDMA 통신망의 성능을 개선하기 위해서는 SCAE와 분석 SCAD 구조보다는 PCAE와 PCAD 구조가 적합함을 제시하였다.

  • PDF

TMS320C5416을 이용한 SOLA-B 알고리즘과 G.729A 보코더의 음질 향상된 가변 전송률 보코더의 실시간 구현 (Real-time Implementation of Variable Transmission Bit Rate Vocoder Improved Speech Quality in SOLA-B Algorithm & G.729A Vocoder Using on the TMS320C5416)

  • 함명규;배명진
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.241-250
    • /
    • 2003
  • In this paper, we implemented the vocoder of variable rate by applying the SOLA-B algorithm to the G.729A to the TMS320C5416 in real-time. This method using the SOLA-B algorithm is that it is reduced the duration of the speech in encoding and is played at the speed of normal by extending the duration of the speech in decoding. But the method applied to the existed G.729A and SOLA-B algorithm is caused the loss of speech quality in G.729A which is not reflected about length variation of speech. Therefore the proposed method is encoded according as it is modified the structure of LSP quantization table about the length of speech is reduced by using the SOLA-B algorithm. The vocoder of variable rate by applying the G.729A and SOLA-B algorithm is represented the maximum complexity of 10.2MIPS about encoder and 2.8MIPS about decoder in 8kbps transmission rate. Also it is evaluated 17.3MIPS about encoder, 9.9MIPS about decoder in 6kbps and 18.5MIPS about encoder, 11.1MIPS about decoder in 4kbps according to the transmission rate. The used memory is about program ROM 9.7kwords, table ROM 4.69kwords, RAM 5.2kwords. The waveform of output is showed by the result of C simulator and Bit Exact. Also, the result of MOS test for evaluation of speech quality of the vocoder of variable rate which is implemented in real-time, it is estimated about 3.68 in 4kbps.

  • PDF

이중 링 Add/Drop 필터와 All-pass 지연 필터로 구성된 이차원 OCDMA 인코더/디코더 (Two-dimensional OCDMA Encoder/Decoder Composed of Double Ring Add/Drop Filters and All-pass Delay Filters)

  • 정영철
    • 한국광학회지
    • /
    • 제33권3호
    • /
    • pp.106-112
    • /
    • 2022
  • 이중 링 add/drop 필터와 all-pass 지연 필터로 구성된 이차원 optical code division multiple access (OCDMA) 인코더/디코더를 제안하고, 설계 예시 및 수치해석을 통하여 실현 가능성을 확인하였다. 제안된 OCDMA 인코더/디코더의 칩 면적은 지연 도파로를 사용하는 기존 OCDMA 인코더/디코더에 비하여 1/3 정도로 줄어든다. 제안된 소자의 성능을 모델링하기 위하여 고속 푸리에 변환(fast Fourier transform, FFT) 및 전달 행렬 기법을 사용하였다. 정확한 코드로 디코딩된 펄스의 중심에서 자기상관 피크 값은 어긋난 파장 호핑 코드 및 스펙트럼 위상 코드로 디코딩된 경우의 최대 교차상관 레벨에 비하여 3배 이상으로 관측되었다. 이를 통하여 forward error correction (FEC) 한계에 해당하는 10-3 이하의 비트 에러 오율을 얻을 수 있음을 알 수 있다.

합성곱 신경망과 인코더-디코더 모델들을 이용한 익형의 유체력 계수와 유동장 예측 (Prediction of aerodynamic force coefficients and flow fields of airfoils using CNN and Encoder-Decoder models)

  • 서장훈;윤현식;김민일
    • 한국가시화정보학회지
    • /
    • 제20권3호
    • /
    • pp.94-101
    • /
    • 2022
  • The evaluation of the drag and lift as the aerodynamic performance of airfoils is essential. In addition, the analysis of the velocity and pressure fields is needed to support the physical mechanism of the force coefficients of the airfoil. Thus, the present study aims at establishing two different deep learning models to predict force coefficients and flow fields of the airfoil. One is the convolutional neural network (CNN) model to predict drag and lift coefficients of airfoil. Another is the Encoder-Decoder (ED) model to predict pressure distribution and velocity vector field. The images of airfoil section are applied as the input data of both models. Thus, the computational fluid dynamics (CFD) is adopted to form the dataset to training and test of both CNN models. The models are established by the convergence performance for the various hyperparameters. The prediction capability of the established CNN model and ED model is evaluated for the various NACA sections by comparing the true results obtained by the CFD, resulting in the high accurate prediction. It is noted that the predicted results near the leading edge, where the velocity has sharp gradient, reveal relatively lower accuracies. Therefore, the more and high resolved dataset are required to improve the highly nonlinear flow fields.