• 제목/요약/키워드: image decoder

검색결과 206건 처리시간 0.018초

하드 파라미터 쉐어링 기반의 보행자 및 운송 수단 거리 추정 (Pedestrian and Vehicle Distance Estimation Based on Hard Parameter Sharing)

  • 서지원;차의영
    • 한국정보통신학회논문지
    • /
    • 제26권3호
    • /
    • pp.389-395
    • /
    • 2022
  • 심층 학습 기술의 발전으로 인해 분류, 객체 검출, 분할과 같은 시각 정보를 이용한 심층 학습이 다양한 분야에서 활용되고 있다. 그 중 자율 주행은 시각 데이터를 잘 활용하는 대표적인 분야 중 하나이다. 본 논문에서는 도로 위의 사람과 운송수단 객체에 대한 개별적인 깊이 값을 예측하는 망을 제안한다. 제안하는 모델은 YOLOv3와 Monodepth를 기반으로 하며, 하드 파라미터 쉐어링을 이용한 인코더와 디코더를 통해 객체 검출과 깊이 추정을 동시에 수행한다. 또한 주의 집중 기법을 사용하여 객체 검출 및 깊이 추정의 정확도를 높이고자 하였다. 깊이 추정은 단안 이미지를 통해 이루어지며, 자가 학습 방법을 통해 학습을 수행하였다.

효율적인 참조 메모리 사용을 위한 블록기반 적응적 비트할당 알고리즘 (Block-based Adaptive Bit Allocation for Reference Memory Reduction)

  • 박시내;남정학;심동규;주영훈;김용석;김현문
    • 대한전자공학회논문지SP
    • /
    • 제46권3호
    • /
    • pp.68-74
    • /
    • 2009
  • 본 논문에서는 비디오 부호화기와 복호화기의 참조 영상 버퍼와 메모리 대역폭을 효과적으로 줄이는 방법을 제안한다. 일반적인 비디오 코덱에서 코딩의 효율을 높이기 위하여 이전 프레임들을 참조하는 방법을 많이 사용하는데, 최근에는 메모리 사용 및 메모리와 프로세서 간의 데이터 대역폭의 효율을 높이기 위하여 참조 프레임을 압축하여 저장하는 방법이 연구되고 있다. 이 방법은 이미 압축 및 복원 과정을 통해 열화가 생긴 참조 영상에 대하여 재 압축을 실행하고, 또 기존의 압축 코덱 내부에 부호화기와 복호화기가 추가되는 경우이기 때문에, 화질의 열화를 최소화하면서 복잡도가 낮은 코덱이 요구된다. 이에 관련된 대부분의 연구는 화질의 열화를 최소화하면서 효과적인 재압축을 할 수 있는 방향으로 진행되며 보통 양자화를 위해 고정길이 비트할당 방법을 사용한다. 본 논문에서는 영상의 특성을 고려한 적응적 블록단위 최대-최소 양자화를 통해 복잡도가 낮으면서 화질의 열화를 최소화 한 방법을 제안한다 제안한 방법에서는 $8{\times}8$ 크기의 블록을 기본 처리 단위로 하여 메모리 접근성을 용이하게 하면서, $8{\times}8$ 블록 내부의 $4{\times}4$ 블록 단위로 적응적인 양자화를 적용한다. 실험결과 기존의 고정길이 비트 할당을 통한 재 압축 방법에 대하여 BD-bitrate 관점에서 평균 1.7%, BD-PSNR 관점에서 평균0.03%의 성능향상을 얻을 수 있었다.

Phased-in 코드를 이용한 움직임 벡터 예측기의 효율적인 부호화 방법 (Efficient Coding of Motion Vector Predictor using Phased-in Code)

  • 문지희;최정아;호요성
    • 방송공학회논문지
    • /
    • 제15권3호
    • /
    • pp.426-433
    • /
    • 2010
  • H.264/AVC 비디오 압축 표준은 압축 효율을 높이기 위해 다양한 크기의 블록을 사용하여 화면 사이의 움직임 예측을 수행한다. H.264/AVC는 가변적인 블록 크기의 움직임 보상을 통해 세밀한 영역의 움직임까지 예측할 수 있어 잔여 영상을 나타내는 정보량을 효과적으로 줄일 수 있다. 복호를 위해서는 각 블록의 움직임 벡터를 전송해야 하는데, 저비트율 환경에서는 움직임 벡터 정보가 전체 비트스트림의 약 40%를 차지한다. 움직임 벡터 정보량을 줄이기 위해 비디오 부호화 전문가 그룹(VCEG)에서는 다양한 움직임 벡터 예측(Motion Vector Competition) 방법을 제안하였다. 다양한 예측 움직임 벡터를 사용하여 실제 전송해야 할 움직임 벡터 차분값(Motion Vector Difference, MVD)의 크기를 줄이기 때문에 압축 효율을 높일 수 있다. 그러나 다양한 예측 움직임 벡터를 사용하기 때문에 선택된 예측 움직임 벡터의 인덱스 정보를 복호기로 전송해야 한다. 이 논문에서는 인덱스 정보를 효율적으로 전송하기 위해 Phased-in 코드를 기반으로 한 새로운 코드워드 표를 제안했다. 실험을 통해 제안한 방법을 이용하여 동일한 화질에서 평균 약 7.24%의 비트율을 절감할 수 있었고, 동일한 비트율에서는 평균 약 0.36dB의 화질을 향상시킬 수 있었다.

고성능 HEVC 부호기를 위한 루프 내 필터 하드웨어 설계 (Hardware Design of In-loop Filter for High Performance HEVC Encoder)

  • 박승용;임준성;류광기
    • 한국정보통신학회논문지
    • /
    • 제20권2호
    • /
    • pp.335-342
    • /
    • 2016
  • 본 논문에서는 고성능 HEVC(High Efficiency Video Coding) 부호기를 위한 루프 내 필터의 효율적인 하드웨어 구조를 제안한다. HEVC는 양자화 에러가 발생하는 복원 영상에서 화질을 향상시키기 위해 디블록킹 필터와 SAO(Sample Adaptive Offset)으로 구성된 루프 내 필터를 사용한다. 그러나 루프 내 필터는 추가적인 연산으로 인하여 부호기와 복호기의 복잡도가 증가되는 원인이 된다. 제안하는 루프 내 필터 하드웨어 구조는 수행 사이클 감소를 위해 디블록킹 필터와 SAO를 3단 파이프라인으로 구현되었다. 또한 제안하는 디블록킹 필터는 6단 파이프라인 구조로 구현되었으며, 효율적인 참조 메모리 구조를 위해 새로운 필터링 순서로 수행된다. 제안하는 SAO는 화소들의 처리를 간소화하며 수행 사이클을 감소시키기 위해 한번에 6개의 화소를 병렬 처리된다. 제안하는 루프 내 필터 하드웨어 구조는 Verilog HDL로 설계되었으며, TSMC $0.13{\mu}m$ CMOS 표준 셀 라이브러리를 사용하여 합성한 결과 약 131K개의 게이트로 구현되었다. 또한 164MHz의 동작 주파수에서 4K@60fps의 실시간 처리가 가능하며, 최대 동작 주파수는 416MHz이다.

Bi-LSTM 모델을 이용한 음악 생성 시계열 예측 (Prediction of Music Generation on Time Series Using Bi-LSTM Model)

  • 김광진;이칠우
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.65-75
    • /
    • 2022
  • 딥러닝은 기존의 분석 모델이 갖는 한계를 극복하고 텍스트, 이미지, 음악 등 다양한 형태의 결과물을 생성할 수 있는 창의적인 도구로 활용되고 있다. 본 고에서는 Niko's MIDI Pack 음원 파일 1,609개를 데이터 셋으로 삼아 전처리 과정을 수행하고, 양방향 장단기 기억 순환 신경망(Bi-LSTM) 모델을 이용하여, 효율적으로 음악을 생성할 수 있는 전처리 방법과 예측 모델을 제시한다. 생성되는 으뜸음을 바탕으로 음악적 조성(調聲)에 적합한 새로운 시계열 데이터를 생성할 수 있도록 은닉층을 다층화하고, 디코더의 출력 게이트에서 인코더의 입력 데이터 중 영향을 주는 요소의 가중치를 적용하는 어텐션(Attention) 메커니즘을 적용한다. LSTM 모델의 인식률 향상을 위한 파라미터로서 손실함수, 최적화 방법 등 설정 변수들을 적용한다. 제안 모델은 MIDI 학습의 효율성 제고 및 예측 향상을 위해 높은음자리표(treble clef)와 낮은음자리표(bass clef)를 구분하여 추출된 음표, 음표의 길이, 쉼표, 쉼표의 길이와 코드(chord) 등을 적용한 다채널 어텐션 적용 양방향 기억 모델(Bi-LSTM with attention)이다. 학습의 결과는 노이즈와 구별되는 음악의 전개에 어울리는 음표와 코드를 생성하며, 화성학적으로 안정된 음악을 생성하는 모델을 지향한다.

다중 레이블 분류의 정확도 향상을 위한 스킵 연결 오토인코더 기반 레이블 임베딩 방법론 (Label Embedding for Improving Classification Accuracy UsingAutoEncoderwithSkip-Connections)

  • 김무성;김남규
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.175-197
    • /
    • 2021
  • 최근 딥 러닝 기술의 발전으로 뉴스, 블로그 등 다양한 문서에 포함된 텍스트 분석에 딥 러닝 기술을 활용하는 연구가 활발하게 수행되고 있다. 다양한 텍스트 분석 응용 가운데, 텍스트 분류는 학계와 업계에서 가장 많이 활용되는 대표적인 기술이다. 텍스트 분류의 활용 예로는 정답 레이블이 하나만 존재하는 이진 클래스 분류와 다중 클래스 분류, 그리고 정답 레이블이 여러 개 존재하는 다중 레이블 분류 등이 있다. 특히, 다중 레이블 분류는 여러 개의 정답 레이블이 존재한다는 특성 때문에 일반적인 분류와는 상이한 학습 방법이 요구된다. 또한, 다중 레이블 분류 문제는 레이블과 클래스의 개수가 증가할수록 예측의 난이도가 상승한다는 측면에서 데이터 과학 분야의 난제로 여겨지고 있다. 따라서 이를 해결하기 위해 다수의 레이블을 압축한 후 압축된 레이블을 예측하고, 예측된 압축 레이블을 원래 레이블로 복원하는 레이블 임베딩이 많이 활용되고 있다. 대표적으로 딥 러닝 모델인 오토인코더 기반 레이블 임베딩이 이러한 목적으로 사용되고 있지만, 이러한 기법은 클래스의 수가 무수히 많은 고차원 레이블 공간을 저차원 잠재 레이블 공간으로 압축할 때 많은 정보 손실을 야기한다는 한계가 있다. 이에 본 연구에서는 오토인코더의 인코더와 디코더 각각에 스킵 연결을 추가하여, 고차원 레이블 공간의 압축 과정에서 정보 손실을 최소화할 수 있는 레이블 임베딩 방법을 제안한다. 또한 학술연구정보서비스인 'RISS'에서 수집한 학술논문 4,675건에 대해 각 논문의 초록으로부터 해당 논문의 다중 키워드를 예측하는 실험을 수행한 결과, 제안 방법론이 기존의 일반 오토인코더 기반 레이블 임베딩 기법에 비해 정확도, 정밀도, 재현율, 그리고 F1 점수 등 모든 측면에서 우수한 성능을 나타냄을 확인하였다.