• 제목/요약/키워드: MAP Decoder

검색결과 89건 처리시간 0.02초

Dual-stream Co-enhanced Network for Unsupervised Video Object Segmentation

  • Hongliang Zhu;Hui Yin;Yanting Liu;Ning Chen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권4호
    • /
    • pp.938-958
    • /
    • 2024
  • Unsupervised Video Object Segmentation (UVOS) is a highly challenging problem in computer vision as the annotation of the target object in the testing video is unknown at all. The main difficulty is to effectively handle the complicated and changeable motion state of the target object and the confusion of similar background objects in video sequence. In this paper, we propose a novel deep Dual-stream Co-enhanced Network (DC-Net) for UVOS via bidirectional motion cues refinement and multi-level feature aggregation, which can fully take advantage of motion cues and effectively integrate different level features to produce high-quality segmentation mask. DC-Net is a dual-stream architecture where the two streams are co-enhanced by each other. One is a motion stream with a Motion-cues Refine Module (MRM), which learns from bidirectional optical flow images and produces fine-grained and complete distinctive motion saliency map, and the other is an appearance stream with a Multi-level Feature Aggregation Module (MFAM) and a Context Attention Module (CAM) which are designed to integrate the different level features effectively. Specifically, the motion saliency map obtained by the motion stream is fused with each stage of the decoder in the appearance stream to improve the segmentation, and in turn the segmentation loss in the appearance stream feeds back into the motion stream to enhance the motion refinement. Experimental results on three datasets (Davis2016, VideoSD, SegTrack-v2) demonstrate that DC-Net has achieved comparable results with some state-of-the-art methods.

DISPARITY ESTIMATION/COMPENSATION OF MULTIPLE BASELINED STEREOGRAM USING MAXIMUM A POSTERIORI ALGORITHM

  • Sang-Hwa;Park, Jong-Il;Lee, Choong-Woong
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 KOBA 방송기술 워크샵 KOBA Broadcasting Technology Workshop
    • /
    • pp.49-56
    • /
    • 1999
  • In this paper, the general formula of disparity estimation based on Bayesian Maximum A Posteriori (MAP) algorithm is derived. The generalized formula is implemented with the plane configuration model and applied to multiple baselined stereograms. The probabilistic plane configuration model consists of independence and similarity among the neighboring disparities in the configuration. The independence probabilistic model reduces the computation and guarantees the discontinuity at the object boundary region. The similarity model preserves the continuity or the high correlation of disparity distribution. In addition, we propose a hierarchical scheme of disparity compensation in the application to multiple-view stereo images. According to the experiments, the derived formula and the proposed estimation algorithm outperformed other ones. The proposed probabilistic models are reasonable and approximate the pure joint probability distribution very well with decreasing the computations to O(n(D)) from O(n(D)4) of the generalized formula. And, the hierarchical scheme of disparity compensation with multiple-view stereos improves the performance without any additional overhead to the decoder.

CRFNet: Context ReFinement Network used for semantic segmentation

  • Taeghyun An;Jungyu Kang;Dooseop Choi;Kyoung-Wook Min
    • ETRI Journal
    • /
    • 제45권5호
    • /
    • pp.822-835
    • /
    • 2023
  • Recent semantic segmentation frameworks usually combine low-level and high-level context information to achieve improved performance. In addition, postlevel context information is also considered. In this study, we present a Context ReFinement Network (CRFNet) and its training method to improve the semantic predictions of segmentation models of the encoder-decoder structure. Our study is based on postprocessing, which directly considers the relationship between spatially neighboring pixels of a label map, such as Markov and conditional random fields. CRFNet comprises two modules: a refiner and a combiner that, respectively, refine the context information from the output features of the conventional semantic segmentation network model and combine the refined features with the intermediate features from the decoding process of the segmentation model to produce the final output. To train CRFNet to refine the semantic predictions more accurately, we proposed a sequential training scheme. Using various backbone networks (ENet, ERFNet, and HyperSeg), we extensively evaluated our model on three large-scale, real-world datasets to demonstrate the effectiveness of our approach.

차세대 고속무선 DTV를 위한 터보복호기반의 위상 옵셋 추정 기법 (Phase Offset Estimation Based on Turbo Decoding in Digital Broadcasting System)

  • 박재성;차재상;이종훈;김흥묵;최성웅;조주필;박용운;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제9권2호
    • /
    • pp.111-116
    • /
    • 2009
  • 본 논문은 차세대 고속무선 DTV(Digital Television)를 위한 터보복호기반의 위상 옵셋 추정 기법이 대해 연구하였다. 위상 추정기법은 터보 복호기 외부에 추정기를 두어 다음 상태의 위상을 추정하기 위해 LMS (Least Mean Square) 방식을 사용하였다. 기존의 LMS 방식은 구현이 간결하지만 고정의 스텝 사이즈를 가지고 있으므로 시간에 따라 변화하는 다중 경로 환경에서는 채널 추정이 힘들며 트래킹 능력이 떨어지는 단점을 가지고 있다. 따라서 본 논문에서는 고정 스텝 사이즈가 아닌 채널의 상태에 따라 스텝 사이즈를 변화 시키는 가변 스텝사이즈를 갖는 LMS 방식을 제안한다. 모의실험은 임의의 위상 옵셋에 대하여 수행되었으며, 제안한 방식이 기존의 방식에 비해 개선된 성능을 보임을 알 수 있었다.

  • PDF

경계 방향성을 고려한 스테레오 동영상의 움직임-변이 동시추정 기법 (Edge-Directional Joint Disparity-Motion Estimation of Stereoscopic Sequences)

  • 김용태;서형갑;박창섭;이재호;손광훈
    • 방송공학회논문지
    • /
    • 제9권3호
    • /
    • pp.196-206
    • /
    • 2004
  • 본 논문에서는 스테레오 동영상 CODEC (Coder and decoder)을 위한 효율적인 변이와 움직임의 동시추정 기법을 제안한다. 동시 추정 기법은 좌우 움직임 벡터와 이전 시점의 변이 벡터를 이용해서 현재 시점의 변이 벡터를 예측한다. 하지만 동시추정 기법은 추정 오류가 축적되고 가려진 영역으로 인해 벡터들이 잘못 추정될 경우 성능이 매우 떨어질 수가 있다. 이런 문제점을 해결하기 위해서 동시추정 기법과 별도로 공간적인 변이 벡터의 예측을 수행한다. 즉, 동시 추정과 공간적인 변이 벡터의 예측을 통해서 정확한 변이 벡터들을 구해내어 전체 부호화 효율을 높일 수 있다. 마지막으로 본 논문에서는 역방향 사진트리 분할 기법을 제안한다. 역방향 사진트리 분할 기법은 사진트리 분할 정보를 보내지 않고도 상세한 변이맵을 얻어낼 수 있기 때문에 변이 보상의 성능을 높일 수 있었다. 실험 결과를 통해서 제안 알고리듬이 기존 알고리듬과 비교하여 수행시간이 9배가량 감소하고 주관적 화질에서 좋은 결과를 보임을 확인하였고 객관적 화질 평가에서 0.5~1.5dB가량 PSNR이 높아짐을 확인하였다.

임베디드 보드에서 실시간 의미론적 분할을 위한 심층 신경망 구조 (A Deep Neural Network Architecture for Real-Time Semantic Segmentation on Embedded Board)

  • 이준엽;이영완
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.94-98
    • /
    • 2018
  • 본 논문은 자율주행을 위한 실시간 의미론적 분할 방법으로 최적화된 심층 신경망 구조인 Wide Inception ResNet (WIR Net)을 제안한다. 신경망 구조는 Residual connection과 Inception module을 적용하여 특징을 추출하는 인코더와 Transposed convolution과 낮은 층의 특징 맵을 사용하여 해상도를 높이는 디코더로 구성하였고 ELU 활성화 함수를 적용함으로써 성능을 올렸다. 또한 신경망의 전체 층수를 줄이고 필터 수를 늘리는 방법을 통해 성능을 최적화하였다. 성능평가는 NVIDIA Geforce gtx 1080과 TX1 보드를 사용하여 주행환경의 Cityscapes 데이터에 대해 클래스와 카테고리별 IoU를 평가하였다. 실험 결과를 통해 클래스 IoU 53.4, 카테고리 IoU 81.8의 정확도와 TX1 보드에서 $640{\times}360$, $720{\times}480$ 해상도 영상처리에 17.8fps, 13.0fps의 실행속도를 보여주는 것을 확인하였다.

MIMO-OFDM 시스템을 위한 효율적인 UEP 전송기법 제안 (An Efficient UEP Transmission Scheme for MIMO-OFDM Systems)

  • 이흔철;이병시;;이인규
    • 한국통신학회논문지
    • /
    • 제32권5C호
    • /
    • pp.469-477
    • /
    • 2007
  • 소스 코딩을 통해 얻어지는 대다수의 멀티미디어 데이터 정보는 여러 등급의 다른 비트에러민감도를 가지고 있다. 그러므로 효율적인 시스템 구현을 위해서는 데이터 고유의 비트에러민감도에 따라 서로 다른 수준의 에러 방지를 제공해야 한다. 이 논문에서는 다중안테나 (multiple-in multiple-out : MIMO) 기반의 OFDM시스템에서 효과적인 멀티미디어 정보를 전송하기 위한 차등 에러 방지 기법(Unequal error protection : UEP)을 제안한다. 차등의 에러 방지를 제공하는 시공간 코딩 기법을 설명하고 그 성능을 평가한다. MIMO 기법과 BICM (Bit-interleaved coded modulations) 기술은 보통 RCPC (Rate compatible punctured convolutional codes) 기법과 연계되어 구동된다. 이때 다중안테나 채널 이퀄라이저와 채널코딩 사이에 터보디코딩 기법을 적용하여 최상의 성능을 얻을 수 있는데 기존의 시스템에서는 동일한 에러방지기법(Equal Error Protection : EEP)을 사용하고 있다. 이 논문에서는 이런 시스템 구조에서 보통 사용되는 동일 에러 방지 기법(EEP)와 비교하여 차등 에러방지 기법(UEP)를 사용함으로써 얻을 수 있는 이득을 사용되는 전송파워와 채널밴드 측면에서 설명한다. 특히 제안된 알고리즘을 둘 또는 세 개의 전송 안테나와 두 개의 수신안테나를 갖는 다중안테나 시스템에 적용하고 8PSK 신호를 이용하여 플랫 페이딩 채널에서 성능을 평가하였다.

딥러닝 기반 거리 영상의 Semantic Segmentation을 위한 Atrous Residual U-Net (Atrous Residual U-Net for Semantic Segmentation in Street Scenes based on Deep Learning)

  • 신석용;이상훈;한현호
    • 융합정보논문지
    • /
    • 제11권10호
    • /
    • pp.45-52
    • /
    • 2021
  • 본 논문에서는 U-Net 기반의 semantic segmentation 방법에서 정확도를 개선하기 위한 Atrous Residual U-Net (AR-UNet)을 제안하였다. U-Net은 의료 영상 분석, 자율주행 자동차, 원격 감지 영상 등의 분야에서 주로 사용된다. 기존 U-Net은 인코더 부분에서 컨볼루션 계층 수가 적어 추출되는 특징이 부족하다. 추출된 특징은 객체의 범주를 분류하는 데 필수적이며, 부족할 경우 분할 정확도를 저하시키는 문제를 초래한다. 따라서 이 문제를 개선하기 위해 인코더에 residual learning과 ASPP를 활용한 AR-UNet을 제안하였다. Residual learning은 특징 추출 능력을 개선하고, 연속적인 컨볼루션으로 발생하는 특징 손실과 기울기 소실 문제 방지에 효과적이다. 또한 ASPP는 특징맵의 해상도를 줄이지 않고 추가적인 특징 추출이 가능하다. 실험은 Cityscapes 데이터셋으로 AR-UNet의 효과를 검증하였다. 실험 결과는 AR-UNet이 기존 U-Net과 비교하여 향상된 분할 결과를 보였다. 이를 통해 AR-UNet은 정확도가 중요한 여러 응용 분야의 발전에 기여할 수 있다.

적응 변조 시스템에서 각 MIMO 기법에 따른 최적의 터보 부호화된 V-BLAST 기법 (The Optimal Turbo Coded V-BLAST Technique in the Adaptive Modulation System corresponding to each MIMO Scheme)

  • 이경환;류상진;최광욱;유철우;홍대기;김대진;황인태;김철성
    • 대한전자공학회논문지TC
    • /
    • 제44권6호
    • /
    • pp.40-47
    • /
    • 2007
  • 본 논문에서는 V-BLAST (Vertical-Bell-lab Layered Space Time) 복호 알고리즘의 ordering과 slicing 과정에 MAP(Maximum A Posteriori) 디코더의 외부 정보 (extrinsic information)를 이용한 최적의 터보 부호화된 (Optimal Turbo Coded) V-BLAST 적응 변조 시스템을 제안 후 성능을 관찰한다. 또한, 적응 변조 시스템에서 간단하게 V-BLAST 시스템과 터보 부호화 (Turbo Coding) 기법이 결합된 기존의 터보 부호화된 V-BLAST 기법을 적용한 경우와 기존의 터보 부호화된 V-BLAST 기법에서 V-BLAST 디코딩 알고리즘 대신 ML (Maximum Likelihood) 디코딩 알고리즘을 적용한 경우에 비교하여 전송률 (throughput) 성능과 복잡도를 살펴본다. 게다가, MIMO (Multiput-Input-Multiple-Output) 기법을 적용하여 제안된 시스템의 성능 개선을 확인한다. 모의 실험 결과, 제안된 디코딩 알고리즘은 ML 디코딩 알고리즘에 비해 복잡도가 낮으나, 기존의 시스템에 비해 복잡도가 높다. 하지만, 성능 개선 측면에서 제안된 시스템의 전송률 성능은 기존의 시스템에 비하여 전신호 대 잡음 비(SNR: Signal to Noise Ratio) 구간에서 우수하고, ML 디코딩 알고리즘을 적용한 기존 시스템의 전송률 성능에 거의 근접함을 보인다. 특히, 실험 결과는 각 MIMO 기법에서 제안된 시스템이 기존의 시스템에 비하여 각각 최대 350kbps, 460 kbps, 740 kbps의 전송률 성능 개선을 보여주고, 이것은 제안된 디코딩 알고리즘의 효과가 송 수신안테나의 수가 증가할수록 커진다는 것을 의미한다.