• 제목/요약/키워드: Encoder Layer

검색결과 96건 처리시간 0.019초

유역정보 기반 Transformer및 LSTM을 활용한 다목적댐 일 단위 유입량 예측 (Prediction of multipurpose dam inflow utilizing catchment attributes with LSTM and transformer models)

  • 김형주;송영훈;정은성
    • 한국수자원학회논문집
    • /
    • 제57권7호
    • /
    • pp.437-449
    • /
    • 2024
  • 딥러닝을 활용하여 유역 특성을 반영한 유량 예측 및 비교 연구가 주목받고 있다. 본 연구는 셀프 어텐션 메커니즘을 통해 대용량 데이터 훈련에 적합한 Transformer와 인코더-디코더(Encoder-Decoder) 구조를 가지는 LSTM-based multi-state-vector sequence-to-sequence (LSTM-MSV-S2S) 모형을 선정하여 유역정보(catchment attributes)를 고려할 수 있는 모형을 구축하였고 이를 토대로 국내 10개 다목적댐 유역의 유입량을 예측하였다. 본 연구에서 설계한 실험 구성은 단일유역-단일훈련(Single-basin Training, ST), 다수유역-단일훈련(Pretraining, PT), 사전학습-파인튜닝(Pretraining-Finetuning, PT-FT)의 세 가지 훈련 방법을 사용하였다. 모형의 입력 자료는 선정된 10가지 유역정보와 함께 기상 자료를 사용하였으며, 훈련 방법에 따른 유입량 예측 성능을 비교하였다. 그 결과, Transformer 모형은 PT와 PT-FT 방법에서 LSTM-MSV-S2S보다 우수한 성능을 보였으며, 특히 PT-FT 기법 적용 시 가장 높은 성능을 나타냈다. LSTM-MSV-S2S는 ST 방법에서는 Transformer보다 높은 성능을 보였으나, PT 및 PT-FT 방법에서는 낮은 성능을 보였다. 또한, 임베딩 레이어 활성화 값과 원본 유역정보를 군집화하여 모형의 유역 간 유사성 학습 여부를 분석하였다. Transformer는 활성화 벡터가 유사한 유역들에서 성능이 향상되었으며, 이는 사전에 학습된 다른 유역의 정보를 활용해 성능이 개선됨을 입증하였다. 본 연구는 다목적댐별 적합한 모형 및 훈련 방법을 비교하고, 국내 유역에 PT 및 PT-FT 방법을 적용한 딥러닝 모형 구축의 필요성을 제시하였다. 또한, PT 및 PT-FT 방법 적용 시 Transformer가 LSTM-MSV-S2S보다 성능이 더 우수하였다.

2차원 비트율-왜곡 모델을 이용한 매크로블록 단위 비트율 제어 (A Macroblock-Layer Rate Control for H.264/AVC Using Quadratic Rate-Distortion Model)

  • 손남례;이귀상;임창훈
    • 한국통신학회논문지
    • /
    • 제32권9C호
    • /
    • pp.849-860
    • /
    • 2007
  • H.264/AVC부호화 방식이 압축성능이 뛰어나더라도 가변길이부호화방식을 따르기 때문에 동영상을 부호화할 때 발생하는 데이터량은 시간의 흐름에 따라 큰 폭으로 변할 수 밖에 없다. 따라서 부호화된 비디오 비트스트림을 고정된 저대역폭의 네트워크를 통해 실시간으로 전송하고자 할 경우에는 부호기로부터 출력되는 비트율을 반드시 제어할 필요가 있다. 기존의 비트율 제어 알고리즘은 각 프레임당 목표 비트를 결정하는 2차원 비트율-왜곡 모델을 채택하고 있다. 본 논문에서는 전송율이 고정된 비디오 채널에서 H.264/AVC 부호화 기법으로 압축된 동영상을 전송할 때 움직임이 많은 영상의 비트율을 보다 효율적으로 제어하는 알고리즘을 제시한다. 제안된 비트율 제어 알고리즘은 2차원 비트율-왜곡 모델식을 이용하여 이전 프레임의 매크로블록과 현재 프레임의 매크로블록간에 움직임 변화량을 예측함으로써 매크로블록 단위로 비트율을 제어한다. 움직임이 많고 장면전환이 빈번한 동영상 샘플을 대상으로 비교 실험한 결과, 비트율 제어의 경우 기존의 알고리즘은 채널전송 환경에 부적합하게 비트율을 초과하지만, 새롭게 제안한 알고리즘은 채널전송에 적합하게 부호화됨을 확인할 수 있었다. 화질 또한 제안한 방법이 기존의 비트율 제어 방법보다 평균적으로 $0.4{\sim}0.9\;dB$로 높게 나타남을 확인하였다.

영상회의 시스템을 위한 RTP/RTCP 구현 및 오디오 데이터 전송을 위용한 QoS 분석 (Implementation of RTP/RTCP for Teleconferencing System and Analysis of Quality-of-Service using Audio Data Transmission)

  • 강민규;황승구;김동규
    • 한국정보처리학회논문지
    • /
    • 제5권12호
    • /
    • pp.3047-3062
    • /
    • 1998
  • 본 논문은 ITU-T에서 제안한 영상회의 시스템에서 오디오/비디오 스트림 데이터를 회의 참여자에 송수신하거나 또는 수신된 멀티미디어 데이터들에 대한 QoS 정보를 송신측에 피드백 하기 위해 제공되는 RTP/RTCP 프로토콜(RFC1889,1890)에 관한 설계 및 구현에 관해 기술한다. RTP는 인코더로부터 전달된 오디오/비디오 데이터를 고정 포맷으로 패킷화하여 모든 회의 참여자에 멀티캐스팅하고, RTCP모듈은 RTP와 함께 연동되면서 수신 패킷을 모니터하여 지연, 지연변이 및 패킷 손실 등의 QoS 값들을 검출하고, 이를 비-정기적으로 송신측에 피드백하도록 구현하였다. 이들 프로토콜은 Windows NT에서 멀티쓰래드 방식으로 구현되었으며, 하위 프로토콜로 socket I/F를 통해서 U에/IP-Multicast를 이용하였다. 또한, 인터넷 환경에서 영상회의 시스템을 수행했을 때 나타나는 여러 QoS 값들을 검출하여 분석하였다. 시험은 오디오 데이터 전송을 이용하였으며 통신 부하가 심한 시간 구간에서 지연과 지연 변이는 음성 인식에 대체로 허용 범위에 충족되나 다량의 패킷 손실에 따른 품질 저하를 분석할 수 있었으며, 대부분의 손실된 패킷들은 비-연속적인 특성을 갖는 것으로 나타났다.

  • PDF

Real-time Segmentation of Black Ice Region in Infrared Road Images

  • Li, Yu-Jie;Kang, Sun-Kyoung;Jung, Sung-Tae
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.33-42
    • /
    • 2022
  • 본 논문에서는 운전자한테 실시간으로 블랙 아이스 경고를 보내기 위해서 도로 영상에서 블랙 아이스 영역 분할을 위한 다중 척도 팽창 컨볼루션 특징 융합에 기반한 딥러닝 모델을 제안한다. 제안한 다중척도 팽창 컨볼루션 특징 융합 네트워크는 인코더 블록에 서로 다른 팽창 비율 컨볼루션을 병렬로 추가하고, 서로 다른 해상도 특징 맵에서 서로 다른 팽창 비율을 설정하고, 다중 단계 특징 정보가 함께 융합된다. 다중 척도 팽창 컨볼루션 특징 융합은 수용 영역을 확장함과 동시에 공간의 세부 정보를 잘 보존하고 팽창 컨볼루션의 효과성을 높임으로써 기존 모델보다 성능을 향상시킨다. 실험 결과를 통해 본 논문 제안한 네트워크 모델은 병렬 평창 컨볼루션 수가 증가함에 따라 성능이 향상되는 것을 알 수 있었다. 제안한 방법의 mIoU 값은 96.46%로 U-Net, FCN, PSPNet, ENet, LinkNet 등 기존 네트워크보다 높았다. 그리고 파라미터는 1,858K개로, 기존 LinkNet모델보다 6배로 축소하였다. Jetson Nano에서 실험 결과 보면, 제안한 방법의 FPS는 3.63로 실시간으로 블랙 아이스 영역을 실시간으로 분할 할 수 있었다.

효율적인 이미지 검색 시스템을 위한 자기 감독 딥해싱 모델의 비교 분석 (Comparative Analysis of Self-supervised Deephashing Models for Efficient Image Retrieval System)

  • 김수인;전영진;이상범;김원겸
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권12호
    • /
    • pp.519-524
    • /
    • 2023
  • 해싱 기반 이미지 검색에서는 조작된 이미지의 해시코드가 원본 이미지와 달라 동일한 이미지 검색이 어렵다. 본 논문은 이미지의 질감, 모양, 색상 등 특징 정보로부터 지각적 해시코드를 생성하는 자기 감독 기반 딥해싱 모델을 제안하고 평가한다. 비교 모델은 오토인코더 기반 변분 추론 모델들이며, 인코더는 완전 연결 계층, 합성곱 신경망과 트랜스포머 모듈 등으로 설계된다. 제안된 모델은 기하학적 패턴을 추출하고 이미지 내 위치 관계를 활용하는 SimAM 모듈을 포함하는 변형 추론 모델이다. SimAM은 뉴런과 주변 뉴런의 활성화 값을 이용한 에너지 함수를 통해 객체 또는 로컬 영역이 강조된 잠재 벡터를 학습할 수 있다. 제안 방법은 표현 학습 모델로 고차원 입력 이미지의 저차원 잠재 벡터를 생성할 수 있으며, 잠재 벡터는 구분 가능한 해시코드로 이진화 된다. CIFAR-10, ImageNet, NUS-WIDE 등 공개 데이터셋의 실험 결과로부터 제안 모델은 비교 모델보다 우수하며, 지도학습 기반 딥해싱 모델과 동등한 성능이 분석되었다.

HDR/WCG 비디오와 3D 오디오를 지원하는 초고품질 방송서비스와 고정 UHD/이동 HD 방송 서비스를 제공하는 ATSC 3.0 기반 UHDTV 방송 시스템 개발 (Development of ATSC3.0 based UHDTV Broadcasting System providing Ultra-high-quality Service that supports HDR/WCG Video and 3D Audio, and a Fixed UHD/Mobile HD Service)

  • 기명석;석진욱;백승권;장대영;이태진;김휘용;오혜주;임보미;배병준;김흥묵;최진수
    • 방송공학회논문지
    • /
    • 제22권6호
    • /
    • pp.829-849
    • /
    • 2017
  • TV디스플레이 대형화, 방송과 통신의 융합화, 신호 압축 및 전송 기술의 고도화로 인해 지상파 디지털 방송은 초고품질 방송, 하이브리드 방송, 고정UHD/이동HD 동시방송을 제공할 수 있는 UHD 방송으로 진화하고 있다. 이러한 지상파 UHDTV 방송을 위한 국내 표준은 북미의 차세대 방송 표준인 ATSC3.0을 근간으로 하고 있다. ATSC3.0은 비디오 압축 표준으로 HEVC 비디오 부호화 표준을, 오디오 압축 표준으로는 MPEG-H 3D 오디오 부호화 표준을 채택하고 있다. 또한 방송망과 IP망에서의 운용을 위해 기존의 MPEG-2 TS 방식을 대신하여 IP기반의 ROUTE/DASH와 MMT를 전송 포맷으로 채택하고 있으며, 4K UHD 방송과 이동 HD 서비스를 동시에 제공하기 위한 다중화 기술을 도입하고 있다. 본 논문에서는 ATSC3.0을 기반으로 HDR/WCG 지원 고품질 비디오 서비스, 10.2채널/4객체 지원 입체음향 서비스, 고정 UHD와 이동 HD 동시방송 서비스를 제공하기 위해 필요한 오디오/비디오 부호화기, ROUTE/DASH 패키저, 다중화 시스템과 물리계층 송수신을 위한 ATSC 3.0 LDM 시스템을 구현하고, 이를 실시간 방송 송수신 환경에 적용하여 서비스 가능성을 검증하고자 하였다.