• 제목/요약/키워드: 인코더/디코더

검색결과 89건 처리시간 0.023초

생성 모델과 검색 모델을 이용한 한국어 멀티턴 응답 생성 연구 (A study on Korean multi-turn response generation using generative and retrieval model)

  • 이호동;이종민;서재형;장윤나;임희석
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.13-21
    • /
    • 2022
  • 최근 딥러닝 기반의 자연어처리 연구는 사전 훈련된 언어 모델을 통해 대부분의 자연어처리 분야에서 우수한 성능을 보인다. 특히 오토인코더 (auto-encoder) 기반의 언어 모델은 다양한 한국어 이해 분야에서 뛰어난 성능과 쓰임을 증명하고 있다. 그러나 여전히 디코더 (decoder) 기반의 한국어 생성 모델은 간단한 문장 생성 과제에도 어려움을 겪고 있으며, 생성 모델이 가장 일반적으로 쓰이는 대화 분야에서의 세부 연구와 학습 가능한 데이터가 부족한 상황이다. 따라서 본 논문은 한국어 생성 모델을 위한 멀티턴 대화 데이터를 구축하고 전이 학습을 통해 생성 모델의 대화 능력을 개선하여 성능을 비교 분석한다. 또한, 검색 모델을 통해 외부 지식 정보에서 추천 응답 후보군을 추출하여 모델의 부족한 대화 생성 능력을 보완하는 방법을 제안한다.

오류 유형에 따른 생성요약 모델의 본문-요약문 간 요약 성능평가 비교 (Empirical Study for Automatic Evaluation of Abstractive Summarization by Error-Types)

  • 이승수;강상우
    • 인지과학
    • /
    • 제34권3호
    • /
    • pp.197-226
    • /
    • 2023
  • 텍스트 생성요약은 자연어처리의 과업 중 하나로 긴 텍스트의 내용을 보존하면서 짧게 축약된 요약문을 생성한다. 생성요약 과업의 특성 상 본문의 핵심내용을 요약문에서 보존하는 것은 매우 중요하다. 기존의 생성요약 방법론은 정답요약과의 어휘 중첩도(Lexical-Overlap)를 기반으로 본문의 내용과 유창성을 측정했다. ROUGE는 생성요약 요약모델의 평가지표로 많이 사용하는 어휘 중첩도 기반의 평가지표이다. 생성요약 벤치마크에서 ROUGE가 49점대로 매우 높은 성능을 보임에도 불구하고, 생성한 요약문과 본문의 내용이 불일치하는 경우가 30% 가량 존재한다. 본 연구에서는 정답요약의 도움 없이 본문만을 활용해 생성요약 모델의 성능을 평가하는 방법론을 제안한다. 본 연구에서 제안한 평가점수를 AggreFACT의 라벨과 상관도 분석결과, 다음의 두 가지 경우 가장 높은 상관관계를 보였다. 첫 번째는 Transformer 구조의 인코더-디코더 구조에 대규모 사전학습을 진행한 BART와 PEGASUS 등을 생성요약 모델의 베이스라인으로 사용한 경우이고, 두 번째는 요약문 전체에 걸쳐 오류가 발생한 경우이다.

$OakDSPCore^{\circledR}$를 이용한 적응형 다중 비트 (AMR) 음성 부호화기의 실시간 구현 (Real-time Implementation of the AMR Speech Coder Using $OakDSPCore^{\circledR}$)

  • 이남일;손창용;이동원;강상원
    • 한국음향학회지
    • /
    • 제20권6호
    • /
    • pp.34-39
    • /
    • 2001
  • 적응형 다중 비트 (AMR: adaptive multi-rate)은 ETSI (European Telecommunications Standards Institute)에서 채택한 광대역 코드분할 다중화(W-CDMA: wideband cadedivision multiple access)용 음성 부호화표준방식으로서 채널 상태의 변화에 따라 가변적인 전송률을 가진다. 본 논문에서는 적응형 다중 비트 음성 부호화 알고리즘을 분석하고 C프로그램 최적화 과정을 거친 후OakDSPCore/sup R/를 기반으로 설계된 C&S Technology사의 CSD17C00A칩을 이용하여 전과정을 어셈블리어로 실시간 구현하였다. 구현된 코덱은 최대의 계산량을 요구하는6.7 kbps 모드일때 인코더부분이 최대 20.6MIPS이며 디코더부분은 약2.7MIPS의 복잡도를 나타낸다. 사용된 메모리는 약 21.33 kwords, 데이터 RAM메모리는 약 4.25 kwords를 가지며 데이터 ROM메모리는 약 15.1kwords 이다. 구현된 코덱은 최대 약 23.29MIPS의 복잡도를 가지고 있으므로 40MIPS의 성능을 가지는 CSD17C00A를 이용한 보드상에서 실시간 동작이 가능함을 확인하였다. 구현된 프로그램은 ETSI에서 제공하는 21개의 테스트 (test) 벡터를 통하여 bit-exact함을 확인하였다. 그리고 마이크와 스피커를 이용한 실시간 음성 입출력이 음질의 왜곡이나 지연없이 실시간으로 동작함을 확인하였다.

  • PDF

라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응 (Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition)

  • 정현재;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.29-37
    • /
    • 2020
  • 최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model (GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링 및 디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다.

비전센서 및 딥러닝을 이용한 항만구조물 방충설비 세분화 시스템 개발 (Development of Fender Segmentation System for Port Structures using Vision Sensor and Deep Learning)

  • 민지영;유병준;김종혁;전해민
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제26권2호
    • /
    • pp.28-36
    • /
    • 2022
  • 매립지 위에 건설되는 항만시설물은 바람(태풍), 파랑, 선박과의 충돌 등 극한 외부 하중에 노출되기 때문에 구조물의 안전성 및 사용성을 주기적으로 평가하는 것이 중요하다. 본 논문에서는 항만 계류시설에 설치된 방충설비의 유지관리를 위하여 비전 및 딥러닝 기반의 방충설비 세분화(segmentation) 시스템을 개발하였다. 방충설비 세분화를 위하여 인코더-디코더 형식과 인간 시각체계의 편심 기능에서 영감을 얻은 수용 영역 블록(Receptive field block) 기반의 합성곱 모듈을 DenseNet 형식으로 개선하는 딥러닝 네트워크를 제안하였다. 네트워크 훈련을 위해 BP형, V형, 원통형, 타이어형 등 다양한 형태의 방충설비 영상을 수집하였으며, 탄성 변형, 좌우 반전, 색상 변환 및 기하학적 변환을 통해 영상을 증강시킨 다음 제안한 딥러닝 네트워크를 학습하였다. 기존의 세분화 모델인 VGG16-Unet과 비교하여 제안한 모델의 세분화 성능을 검증하였으며, 그 결과 본 시스템이 IoU 84%, 조화평균 90% 이상으로 정밀하게 실시간으로 세분화할 수 있음을 확인하였다. 제안한 방충설비 세분화 시스템의 현장적용 가능성을 검증하기 위하여 국내 항만 시설물에서 촬영된 영상을 기반으로 학습을 수행하였으며, 그 결과 기존 세분화 모델과 비교하였을 때 우수한 성능을 보이며 정밀하게 방충설비를 감지하는 것을 확인하였다.

Efficient CT Image Denoising Using Deformable Convolutional AutoEncoder Model

  • Eon Seung, Seong;Seong Hyun, Han;Ji Hye, Heo;Dong Hoon, Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권3호
    • /
    • pp.25-33
    • /
    • 2023
  • CT 영상의 획득 및 전송 등의 과정에서 발생하는 잡음은 영상의 질을 저하시키는 요소로 작용한다. 따라서 이를 해결하기 위한 잡음제거는 영상처리에서 중요한 전처리 과정이다. 본 논문에서는 딥러닝의 convolutional autoencoder (CAE) 모형에서 기존 컨볼루션 연산 대신 deformable 컨볼루션 연산을 적용한 deformable convolutional autoencoder (DeCAE) 모형을 이용하여 잡음을 제거하고자 한다. 여기서 deformable 컨볼루션 연산은 기존 컨볼루션 연산보다 유연한 영역에서 영상의 특징들을 추출할 수 있다. 제안된 DeCAE 모형은 기존 CAE 모형과 같은 인코더-디코더 구조로 되어있으나 효율적인 잡음제거를 위해 인코더는 deformable 컨볼루션 층으로 구성하고, 디코더는 기존 컨볼루션 층으로 구성하였다. 본 논문에서 제안된 DeCAE 모형의 성능 평가를 위해 다양한 잡음, 즉, 가우시안 잡음, 임펄스 잡음 그리고 포아송 잡음에 의해 훼손된 CT 영상을 대상으로 실험하였다. 성능 실험 결과, DeCAE 모형은 전통적인 필터 즉, Mean 필터, Median 필터와 이를 개선한 Bilateral 필터, NL-means 방법 뿐만 아니라 기존의 CAE 모형보다 정성적이고, 정량적인 척도 즉, MAE (Mean Absolute Error), PSNR (Peak Signal-to-Noise Ratio) 그리고 SSIM (Structural Similarity Index Measure) 면에서 우수한 결과를 보였다.

모바일 환경에서 지하공간객체의 경량화를 위한 단순화 방법 (Simplification Method for Lightweighting of Underground Geospatial Objects in a Mobile Environment)

  • 김종훈;김용태;고훈준
    • 산업융합연구
    • /
    • 제20권12호
    • /
    • pp.195-202
    • /
    • 2022
  • 지하공간정보지도 관리 시스템은 지하공간의 다양한 지하시설물을 3D 메쉬 데이터로 통합하고, 모바일 환경에서 지하시설물의 3D 이미지와 위치를 확인할 수 있도록 지원한다. 그러나 모바일 환경에서 실행되는 일정 지역 안에는 다양한 지하시설물이 존재할 수 있고 층층히 겹쳐 보일 수 있어서 모바일 환경에서 실행하는데 시간이 오래 걸리는 문제가 있다. 본 논문에서는 가시성에서 문제가 되지 않는 범위 내에서 3D 메쉬 데이터의 정점의 개수를 줄여서 데이터의 크기를 줄임으로써 모바일 환경에서 실행 시간을 줄일 수 있는 방법으로 딥러닝 기반 K-means 정점 클러스터링 알고리즘을 제안한다. 첫번째로 우리가 제안하는 방법은 딥러닝 Encoder-Decoder 기반의 모델을 통하여 정재된 정점의 특징 정보를 얻고, 두번째로 특징 정보를 K-means 정점 클러스터링을 통하여 서로 비슷한 정점끼리 묶어서 단순화를 하였다. 실험결과 제안한 방법으로 다양한 지하시설물들의 정점을 30%까지 줄였을 때, 이미지 모형이 약간의 변형은 발생하였지만 사라지는 부분은 없어서 모바일 환경에서 확인하는데 문제가 없었다.

딥러닝 기반 탄성파 전파형 역산 연구 개관 (A Review of Seismic Full Waveform Inversion Based on Deep Learning)

  • 편석준;박윤희
    • 지구물리와물리탐사
    • /
    • 제25권4호
    • /
    • pp.227-241
    • /
    • 2022
  • 전파형 역산은 석유가스 탐사를 위한 탄성파 자료처리 분야에서 지층의 속도 모델을 추정하는데 사용되는 역산 기법이다. 최근 탄성파 자료처리에 딥러닝 기술의 활용이 급격하게 증가하고 있는데, 전파형 역산 기술도 마찬가지로 다양한 연구가 이루어지고 있다. 초기에는 머신러닝 기술을 활용한 자료처리 기법이 전파형 역산을 위한 입력자료의 전처리 목적으로 활용되는 수준이었으나, 딥러닝 기술을 통해 전파형 역산을 직접적으로 구현하는 연구가 등장하기 시작하였다. 딥러닝 기술을 활용한 전파형 역산은 순수 데이터 기반 접근법, 물리 기반 신경망 활용법, 인코더-디코더 구조 활용법, 신경망 재매개변수화를 이용한 구현법, 물리정보 기반 신경망 기법 등으로 구분할 수 있다. 이 논문에서는 딥러닝 기반 전파형 역산 기법을 발전 과정 순서로 체계화하여 각각의 접근법에 대한 이론과 특징을 설명하였다. 전파형 역산 기술에 딥러닝 기법을 도입한 초기에는 데이터 과학의 기본 원리에 충실하게 대량의 학습자료를 준비하고 순수 데이터 기반 예측 모델을 적용하여 속도 모델을 역산하는 연구로 시작하였다. 최근 연구 동향은 탄성파 자료의 잔차나 파동방정식 자체의 물리정보를 심층 신경망에 활용하여 순수 데이터 기반 접근법의 단점을 보완해 나가는 방향으로 진행되고 있다. 이러한 발전으로 대량의 학습자료가 필요하지 않고, 전파형 역산의 태생적 한계점인 주기 놓침 현상을 완화하며 계산 시간을 획기적으로 줄일 수 있는 딥러닝 기반 전파형 역산 기술이 등장하고 있다. 딥러닝 기술의 도입으로 전파형 역산 기술은 탄성파 자료처리 분야에서 가치가 더 높아질 것으로 생각된다.

신경망 기반 비디오 압축을 위한 레이턴트 정보의 방향 이동 및 보상 (Latent Shifting and Compensation for Learned Video Compression)

  • 김영웅;김동현;정세윤;최진수;김휘용
    • 방송공학회논문지
    • /
    • 제27권1호
    • /
    • pp.31-43
    • /
    • 2022
  • 전통적인 비디오 압축은 움직임 예측, 잔차 신호 변환 및 양자화를 통한 하이브리드 압축 방식을 기반으로 지금까지 발전해왔다. 최근 인공 신경망을 통한 기술이 빠르게 발전함에 따라, 인공 신경망 기반의 이미지 압축, 비디오 압축 연구 또한 빠르게 진행되고 있으며, 전통적인 비디오 압축 코덱의 성능과 비교해 높은 경쟁력을 보여주고 있다. 본 논문에서는 이러한 인공 신경망 기반 비디오 압축 모델의 성능을 향상시킬 수 있는 새로운 방법을 제시한다. 기본적으로는 기존 인공 신경망 기반 비디오 압축 모델들이 채택하고 있는 변환 및 복원 신경망과 엔트로피 모델(Entropy model)을 이용한 율-왜곡 최적화(Rate-distortion optimization) 방법을 사용하며, 인코더 측에서 디코더 측으로 압축된 레이턴트 정보(Latent information)를 전송할 때 엔트로피 모델이 추정하기 어려운 정보의 값을 이동시켜 전송할 비트량을 감소시키고, 손실된 정보를 추가로 전송함으로써 손실된 정보에 대한 왜곡을 보정한다. 이러한 방법을 통해 기존의 인공 신경망 기반 비디오 압축 기술인 MFVC(Motion Free Video Compression) 방법을 개선하였으며, 실험 결과를 통해 H.264를 기준으로 계산한 BDBR (Bjøntegaard Delta-Bitrate) 수치(%)로 MFVC(-14%) 보다 두 배 가까운 비트량 감축(-27%)이 가능함을 입증하였다. 제안된 방법은 MFVC 뿐 아니라, 레이턴트 정보와 엔트로피 모델을 사용하는 신경망 기반 이미지 또는 비디오 압축 기술에 광범위하게 적용할 수 있다는 장점이 있다.