• 제목/요약/키워드: encoder-decoder

검색결과 453건 처리시간 0.026초

선박-육지간 통신을 위한 실시간 H.264 to MPEG-2 트랜스코딩 (A Real-time H.264 to MPEG-2 Transcoding for Ship to Shore Communication)

  • 손남례;정민아;이성로
    • 대한전자공학회논문지SP
    • /
    • 제48권1호
    • /
    • pp.90-102
    • /
    • 2011
  • 현재 위성방송을 통해 신호를 전송 또는 재전송하는 무선통신서비스를 이용하는 시청자 층은 다양하다. 하지만 방송국은 H.264표준으로 압축된 동영상들을 위성통신을 통하여 전송하기 때문에 H.264표준 디바이스를 갖추지 않는 선박은 실시간으로 데이터를 전송받지 못하는 단점을 가지고 있다. 따라서 본 논문에서는 기존 MPEG-2 표준 디바이스를 사용하고 있는 선박을 위하여 H.264 to MPEG-2 트랜스코딩 방법을 제안한다. 제안한 방법은 H.264 표준의 매크로블록모드의 특성을 분석하여 H.264 to MPEG-2 transcoding의 계산시간 및 화질을 개선한다. 첫째 H.264와 MPEG-2표준의 INTRA 모드 방법이 상이하므로 새로운 방법을 제안한다. 둘째 매크로블록모드가 INTER 모드인 경우에는 H.264표준의 가변블록 안에 존재하는 움직임 벡터의 방향성을 고려하여 새로운 예측움직임벡터 (PMV: predictor motion vector)를 제안한다. 이때 최종움직임벡터는 예측움직임벡터를 그대로 사용하거나, H.264표준의 매크로블록내에 존재하는 가변블록들의 움직임벡터들과 MPEG-2부호기(baseline)의 움직임벡터의 일치율을 비교하여 최종적으로 움직임벡터를 예측할 범위(window size)를 결정한다. 실험결과, 제안한 트랜스코딩방법의 PSNR은 MPEG-2 FSBMA와 거의 일치하고, 트랜스코딩에 필요한 계산시간은 평균적으로 각각 70% 또는 67% 감소하였다.

라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응 (Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition)

  • 정현재;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.29-37
    • /
    • 2020
  • 최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model (GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링 및 디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다.

모순 검증을 통한 다중 움직임 벡터 해상도 시그널링 방법 (Signaling Method of Multiple Motion Vector Resolutions Using Contradiction Testing)

  • 원광현;박영현;전병우
    • 전자공학회논문지
    • /
    • 제52권7호
    • /
    • pp.107-118
    • /
    • 2015
  • 대부분의 비디오 압축 표준들이 1/4 부화소 정밀도와 같은 고정 움직임 벡터 해상도를 사용하고 있는 데 반해, 다중 움직임 벡터 해상도를 지원하는 형태의 구조는 비디오 콘텐츠의 성질에 따라 필요로 하는 만큼의 움직임 벡터 정밀도를 효율적으로 사용할 수 있고, 더 정확한 움직임 예측자 생성이 가능해지므로, 부호화 효율을 향상할 수 있다는 장점이 있다. 그러나 다중 움직임 벡터 해상도 구조는 각각 움직임 벡터에 대해 선택된 움직임 벡터 해상도를 추가로 시그널링 해야 한다는 문제점이 있다. 본 논문에서는 움직임 벡터 해상도의 모순 검증 기반 시그널링 구조를 제안한다. 제안 방법은 여러 개의 후보 중, 각 움직임 벡터에 대해 최소크기의 부호화율을 갖는 움직임 벡터 해상도를 선택한다. 또한, 움직임 벡터 해상도의 시그널링에 따른 오버헤드를 줄이기 위해, 부호화기 및 복호화기 양쪽에서 미리 정의된 기준을 통한 모순 검증 과정을 수행하여 시그널링 할 필요가 없는 후보 움직임 벡터 해상도를 판별하는 과정을 수행한다. 실험 결과, 제안 구조가 고정 움직임 벡터 해상도 기반의 구조와 비교하여 $Bj{\o}ntegaard$ delta bit rate (BDBR)에서 평균 약 4.01%의 이득(최대 15.17%)을 달성함으로써 부호화되는 움직임 정보의 양을 줄이는 데 효과적이라는 것을 검증하였다.

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약 (Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV)

  • 이태석;선충녕;정영임;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.58-65
    • /
    • 2019
  • 문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

비전센서 및 딥러닝을 이용한 항만구조물 방충설비 세분화 시스템 개발 (Development of Fender Segmentation System for Port Structures using Vision Sensor and Deep Learning)

  • 민지영;유병준;김종혁;전해민
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제26권2호
    • /
    • pp.28-36
    • /
    • 2022
  • 매립지 위에 건설되는 항만시설물은 바람(태풍), 파랑, 선박과의 충돌 등 극한 외부 하중에 노출되기 때문에 구조물의 안전성 및 사용성을 주기적으로 평가하는 것이 중요하다. 본 논문에서는 항만 계류시설에 설치된 방충설비의 유지관리를 위하여 비전 및 딥러닝 기반의 방충설비 세분화(segmentation) 시스템을 개발하였다. 방충설비 세분화를 위하여 인코더-디코더 형식과 인간 시각체계의 편심 기능에서 영감을 얻은 수용 영역 블록(Receptive field block) 기반의 합성곱 모듈을 DenseNet 형식으로 개선하는 딥러닝 네트워크를 제안하였다. 네트워크 훈련을 위해 BP형, V형, 원통형, 타이어형 등 다양한 형태의 방충설비 영상을 수집하였으며, 탄성 변형, 좌우 반전, 색상 변환 및 기하학적 변환을 통해 영상을 증강시킨 다음 제안한 딥러닝 네트워크를 학습하였다. 기존의 세분화 모델인 VGG16-Unet과 비교하여 제안한 모델의 세분화 성능을 검증하였으며, 그 결과 본 시스템이 IoU 84%, 조화평균 90% 이상으로 정밀하게 실시간으로 세분화할 수 있음을 확인하였다. 제안한 방충설비 세분화 시스템의 현장적용 가능성을 검증하기 위하여 국내 항만 시설물에서 촬영된 영상을 기반으로 학습을 수행하였으며, 그 결과 기존 세분화 모델과 비교하였을 때 우수한 성능을 보이며 정밀하게 방충설비를 감지하는 것을 확인하였다.

Bi-LSTM 모델을 이용한 음악 생성 시계열 예측 (Prediction of Music Generation on Time Series Using Bi-LSTM Model)

  • 김광진;이칠우
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.65-75
    • /
    • 2022
  • 딥러닝은 기존의 분석 모델이 갖는 한계를 극복하고 텍스트, 이미지, 음악 등 다양한 형태의 결과물을 생성할 수 있는 창의적인 도구로 활용되고 있다. 본 고에서는 Niko's MIDI Pack 음원 파일 1,609개를 데이터 셋으로 삼아 전처리 과정을 수행하고, 양방향 장단기 기억 순환 신경망(Bi-LSTM) 모델을 이용하여, 효율적으로 음악을 생성할 수 있는 전처리 방법과 예측 모델을 제시한다. 생성되는 으뜸음을 바탕으로 음악적 조성(調聲)에 적합한 새로운 시계열 데이터를 생성할 수 있도록 은닉층을 다층화하고, 디코더의 출력 게이트에서 인코더의 입력 데이터 중 영향을 주는 요소의 가중치를 적용하는 어텐션(Attention) 메커니즘을 적용한다. LSTM 모델의 인식률 향상을 위한 파라미터로서 손실함수, 최적화 방법 등 설정 변수들을 적용한다. 제안 모델은 MIDI 학습의 효율성 제고 및 예측 향상을 위해 높은음자리표(treble clef)와 낮은음자리표(bass clef)를 구분하여 추출된 음표, 음표의 길이, 쉼표, 쉼표의 길이와 코드(chord) 등을 적용한 다채널 어텐션 적용 양방향 기억 모델(Bi-LSTM with attention)이다. 학습의 결과는 노이즈와 구별되는 음악의 전개에 어울리는 음표와 코드를 생성하며, 화성학적으로 안정된 음악을 생성하는 모델을 지향한다.

다중 어댑터를 이용한 교차 언어 및 스타일 기반의 제목 생성 (Cross-Lingual Style-Based Title Generation Using Multiple Adapters)

  • 박요한;최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.341-354
    • /
    • 2023
  • 문서의 제목은 문서의 내용을 가장 효율적으로 요약하여 제공해 준다. 이때 독자들이 선호하는 스타일과 언어에 따라 문서의 제목을 다르게 제공해 준다면, 독자들은 문서의 내용을 좀 더 쉽게 예측할 수 있다. 본 연구에서는 문서가 주어졌을 때 언어와 스타일에 따라 제목을 자동 생성하는'교차 언어 및 스타일 기반의 제목 생성 모델을 제안한다. 모델을 학습하기 위해서는 같은 내용을 다른 언어와 다른 스타일로 작성한 병렬데이터가 필요하다. 그러나 이러한 종류의 병렬데이터는 구축하기 매우 어렵다. 반면, 단일 언어와 단일 스타일로 구축된 제목 생성 데이터는 많으므로 본 연구에서는 제로샷(zero-shot) 학습으로 제목 생성을 수행하고자 한다. 교차 언어 및 스타일 기반의 제목 생성을 학습하기 위해 다중 언어로 사전 학습된 트랜스포머 모델에 각 언어, 스타일, 기계번역을 위한 어댑터를 추가하였다. 기계 번역용 병렬데이터를 이용하여 기계번역을 먼저 학습한 후, 동일 스타일의 제목 생성을 학습하였다. 이때, 필요한 어댑터만을 학습하고 다른 부분의 파라미터는 모두 고정시킨다. 교차 언어 및 스타일 기반의 제목을 생성할 때에는 목적 언어와 목적 스타일에 해당하는 어댑터만을 활성화시킨다. 실험 결과로는 각 모델을 따로 학습시켜 파이프라인으로 연결시킨 베이스라인에 비해 본 연구에서 제안한 제로샷 제목 생성의 성능이 크게 떨어지지 않았다. 최근 대규모 언어 모델의 등장으로 인한 자연어 생성에서의 많은 변화가 있다. 그러나 제한된 자원과 제한된 데이터만을 이용하여 자연어 생성의 성능을 개선하는 연구는 계속되어야 하며, 그런 점에서 본 연구의 의의를 모색한다.

딥러닝 기반 탄성파 전파형 역산 연구 개관 (A Review of Seismic Full Waveform Inversion Based on Deep Learning)

  • 편석준;박윤희
    • 지구물리와물리탐사
    • /
    • 제25권4호
    • /
    • pp.227-241
    • /
    • 2022
  • 전파형 역산은 석유가스 탐사를 위한 탄성파 자료처리 분야에서 지층의 속도 모델을 추정하는데 사용되는 역산 기법이다. 최근 탄성파 자료처리에 딥러닝 기술의 활용이 급격하게 증가하고 있는데, 전파형 역산 기술도 마찬가지로 다양한 연구가 이루어지고 있다. 초기에는 머신러닝 기술을 활용한 자료처리 기법이 전파형 역산을 위한 입력자료의 전처리 목적으로 활용되는 수준이었으나, 딥러닝 기술을 통해 전파형 역산을 직접적으로 구현하는 연구가 등장하기 시작하였다. 딥러닝 기술을 활용한 전파형 역산은 순수 데이터 기반 접근법, 물리 기반 신경망 활용법, 인코더-디코더 구조 활용법, 신경망 재매개변수화를 이용한 구현법, 물리정보 기반 신경망 기법 등으로 구분할 수 있다. 이 논문에서는 딥러닝 기반 전파형 역산 기법을 발전 과정 순서로 체계화하여 각각의 접근법에 대한 이론과 특징을 설명하였다. 전파형 역산 기술에 딥러닝 기법을 도입한 초기에는 데이터 과학의 기본 원리에 충실하게 대량의 학습자료를 준비하고 순수 데이터 기반 예측 모델을 적용하여 속도 모델을 역산하는 연구로 시작하였다. 최근 연구 동향은 탄성파 자료의 잔차나 파동방정식 자체의 물리정보를 심층 신경망에 활용하여 순수 데이터 기반 접근법의 단점을 보완해 나가는 방향으로 진행되고 있다. 이러한 발전으로 대량의 학습자료가 필요하지 않고, 전파형 역산의 태생적 한계점인 주기 놓침 현상을 완화하며 계산 시간을 획기적으로 줄일 수 있는 딥러닝 기반 전파형 역산 기술이 등장하고 있다. 딥러닝 기술의 도입으로 전파형 역산 기술은 탄성파 자료처리 분야에서 가치가 더 높아질 것으로 생각된다.

근단 배경 잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 기법 (Speech Reinforcement Based on G.729A Speech Codec Parameter Under Near-End Background Noise Environments)

  • 최재훈;장준혁
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.392-400
    • /
    • 2009
  • 본 논문에서는 근단 (Near-End) 잡음 환경에서 ITU-T의 표준 음성부호화기인 G.729A CS-ACELP 기반의 효과적인 음성강화 기법을 제시한다. 일반적으로 다양한 배경 잡음이 존재하는 근단 환경에서 수신하는 원단 화자 음성의 명료도가 매우 감소하므로, 이를 극복하기 위한 원단 화자 음성 강화 기법이 필요하다. 기존의 음성강화 시스템과는 대조적으로, 다양한 배경 잡음이 존재하는 근단 환경에서 음성부호화기에 기반하여, 원단으로부터 수신된 비트스트림 파라미터 중 여기신호(excitation signal)를 강화하는 알고리즘을 제시한다. 구체적으로, 다양한 배경 잡음이 존재하는 근단 환경에서 G.729A CS-ACELP의 부호화기를 통해 배경 잡음의 여기신호를 추정하고, 추정된 배경 잡음의 여기신호를 기반으로 원단 화자로부터 전송된 음성 신호의 여기신호를 강화시키는데, 특별히 G.729A 복호화기내에서 원단의 음성 신호를 직접 강화하는 알고리즘을 제안한다. 제안된 음성 강화 기법의 성능은 다양한 잡음 환경 하에서 ITU-T P.800의 주관적 음질 측정 방법인 CCR (Comparison Category Rating) 테스트에 의해 평가되었으며, 기존의 SNR 복구 기법과 비교해서 우수한 성능을 보여주었다.

방사성폐기물 핵종분석 검증용 이상 탐지를 위한 인공지능 기반 알고리즘 개발 (Development of an Anomaly Detection Algorithm for Verification of Radionuclide Analysis Based on Artificial Intelligence in Radioactive Wastes)

  • 장승수;이장희;김영수;김지석;권진형;김송현
    • 방사선산업학회지
    • /
    • 제17권1호
    • /
    • pp.19-32
    • /
    • 2023
  • The amount of radioactive waste is expected to dramatically increase with decommissioning of nuclear power plants such as Kori-1, the first nuclear power plant in South Korea. Accurate nuclide analysis is necessary to manage the radioactive wastes safely, but research on verification of radionuclide analysis has yet to be well established. This study aimed to develop the technology that can verify the results of radionuclide analysis based on artificial intelligence. In this study, we propose an anomaly detection algorithm for inspecting the analysis error of radionuclide. We used the data from 'Updated Scaling Factors in Low-Level Radwaste' (NP-5077) published by EPRI (Electric Power Research Institute), and resampling was performed using SMOTE (Synthetic Minority Oversampling Technique) algorithm to augment data. 149,676 augmented data with SMOTE algorithm was used to train the artificial neural networks (classification and anomaly detection networks). 324 NP-5077 report data verified the performance of networks. The anomaly detection algorithm of radionuclide analysis was divided into two modules that detect a case where radioactive waste was incorrectly classified or discriminate an abnormal data such as loss of data or incorrectly written data. The classification network was constructed using the fully connected layer, and the anomaly detection network was composed of the encoder and decoder. The latter was operated by loading the latent vector from the end layer of the classification network. This study conducted exploratory data analysis (i.e., statistics, histogram, correlation, covariance, PCA, k-mean clustering, DBSCAN). As a result of analyzing the data, it is complicated to distinguish the type of radioactive waste because data distribution overlapped each other. In spite of these complexities, our algorithm based on deep learning can distinguish abnormal data from normal data. Radionuclide analysis was verified using our anomaly detection algorithm, and meaningful results were obtained.