• 제목/요약/키워드: 디코더

검색결과 332건 처리시간 0.023초

라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응 (Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition)

  • 정현재;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.29-37
    • /
    • 2020
  • 최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model (GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링 및 디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다.

H.264 기반 선택적인 미세입자 스케일러블 코딩 방법 (A H.264 based Selective Fine Granular Scalable Coding Scheme)

  • 박광훈;유원혁;김규헌
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권4호
    • /
    • pp.309-318
    • /
    • 2004
  • 본 논문에서는 선택적으로 강화계층의 시간적 예측 정보를 사용하는 H.264 기반 선택적인 미 세입자 스케일러블 비디오 코딩 방법을 제안한다. 제안된 방법의 기본계층은 최근 표준화되었으며 고압축률이 특징인 H.264 (MPEG-4 Part 10 AVC) 알고리즘으로 코딩한다. 강화계층은 기본적으로 국제표준인 비트플레인 기반 MPEG-4 (Part 2) 미세입자스케일러블 코딩 방법으로 코딩한다. 본 논문에서는 엔코더측에서 강화계층간 시간적 예측 방법에 의해 발생된 효과적인 영상 정보를 드리프트 현상이 최소화하는 방향으로 선택적으로 적용하여 디코더측에 전송하는 방안을 제안하였다. 강화계층간 예측 방법만을 추가했을 때는 시간적 중복성을 줄여주는 효과를 볼 수 있지만 저비트율 대역에서 엔코더와 디코더간의 참조 저장 영상 불일치로 인한 드리프트 현상이 심하게 발생한다. 제안된 알고리즘은 시간적 예측 결과가 우수하여 코딩효율을 현저히 높혀줄 수 있는 경우에만 선택적으로 강화계층간의 시간적 예측 정보를 사용하였으며, 이로 인하여 저비트율 대역에서의 드리프트 현상을 현저하게 줄 일수 있었으며, 전반적으로 코딩 효율을 높여주는 효과를 가져왔다. 여러 영상 시퀀스를 대상으로 실험한 결과, 제안된 코딩 방법은 현존하는 국제표준인 MPEG-4 기반 미세입자 스케일러블 코딩 방법보다 같은 비트율 대역에서 영상화질이 약 3∼5 dB 높은 성능을 보여주고 있으며, H.264를 기반으로한 미세입자 스케일러블 코딩 방법보다도 약 1∼3 dB 높은 성능을 보여주고 있음을 발견할 수 있었다.

비전센서 및 딥러닝을 이용한 항만구조물 방충설비 세분화 시스템 개발 (Development of Fender Segmentation System for Port Structures using Vision Sensor and Deep Learning)

  • 민지영;유병준;김종혁;전해민
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제26권2호
    • /
    • pp.28-36
    • /
    • 2022
  • 매립지 위에 건설되는 항만시설물은 바람(태풍), 파랑, 선박과의 충돌 등 극한 외부 하중에 노출되기 때문에 구조물의 안전성 및 사용성을 주기적으로 평가하는 것이 중요하다. 본 논문에서는 항만 계류시설에 설치된 방충설비의 유지관리를 위하여 비전 및 딥러닝 기반의 방충설비 세분화(segmentation) 시스템을 개발하였다. 방충설비 세분화를 위하여 인코더-디코더 형식과 인간 시각체계의 편심 기능에서 영감을 얻은 수용 영역 블록(Receptive field block) 기반의 합성곱 모듈을 DenseNet 형식으로 개선하는 딥러닝 네트워크를 제안하였다. 네트워크 훈련을 위해 BP형, V형, 원통형, 타이어형 등 다양한 형태의 방충설비 영상을 수집하였으며, 탄성 변형, 좌우 반전, 색상 변환 및 기하학적 변환을 통해 영상을 증강시킨 다음 제안한 딥러닝 네트워크를 학습하였다. 기존의 세분화 모델인 VGG16-Unet과 비교하여 제안한 모델의 세분화 성능을 검증하였으며, 그 결과 본 시스템이 IoU 84%, 조화평균 90% 이상으로 정밀하게 실시간으로 세분화할 수 있음을 확인하였다. 제안한 방충설비 세분화 시스템의 현장적용 가능성을 검증하기 위하여 국내 항만 시설물에서 촬영된 영상을 기반으로 학습을 수행하였으며, 그 결과 기존 세분화 모델과 비교하였을 때 우수한 성능을 보이며 정밀하게 방충설비를 감지하는 것을 확인하였다.

Efficient CT Image Denoising Using Deformable Convolutional AutoEncoder Model

  • Eon Seung, Seong;Seong Hyun, Han;Ji Hye, Heo;Dong Hoon, Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권3호
    • /
    • pp.25-33
    • /
    • 2023
  • CT 영상의 획득 및 전송 등의 과정에서 발생하는 잡음은 영상의 질을 저하시키는 요소로 작용한다. 따라서 이를 해결하기 위한 잡음제거는 영상처리에서 중요한 전처리 과정이다. 본 논문에서는 딥러닝의 convolutional autoencoder (CAE) 모형에서 기존 컨볼루션 연산 대신 deformable 컨볼루션 연산을 적용한 deformable convolutional autoencoder (DeCAE) 모형을 이용하여 잡음을 제거하고자 한다. 여기서 deformable 컨볼루션 연산은 기존 컨볼루션 연산보다 유연한 영역에서 영상의 특징들을 추출할 수 있다. 제안된 DeCAE 모형은 기존 CAE 모형과 같은 인코더-디코더 구조로 되어있으나 효율적인 잡음제거를 위해 인코더는 deformable 컨볼루션 층으로 구성하고, 디코더는 기존 컨볼루션 층으로 구성하였다. 본 논문에서 제안된 DeCAE 모형의 성능 평가를 위해 다양한 잡음, 즉, 가우시안 잡음, 임펄스 잡음 그리고 포아송 잡음에 의해 훼손된 CT 영상을 대상으로 실험하였다. 성능 실험 결과, DeCAE 모형은 전통적인 필터 즉, Mean 필터, Median 필터와 이를 개선한 Bilateral 필터, NL-means 방법 뿐만 아니라 기존의 CAE 모형보다 정성적이고, 정량적인 척도 즉, MAE (Mean Absolute Error), PSNR (Peak Signal-to-Noise Ratio) 그리고 SSIM (Structural Similarity Index Measure) 면에서 우수한 결과를 보였다.

모바일 환경에서 지하공간객체의 경량화를 위한 단순화 방법 (Simplification Method for Lightweighting of Underground Geospatial Objects in a Mobile Environment)

  • 김종훈;김용태;고훈준
    • 산업융합연구
    • /
    • 제20권12호
    • /
    • pp.195-202
    • /
    • 2022
  • 지하공간정보지도 관리 시스템은 지하공간의 다양한 지하시설물을 3D 메쉬 데이터로 통합하고, 모바일 환경에서 지하시설물의 3D 이미지와 위치를 확인할 수 있도록 지원한다. 그러나 모바일 환경에서 실행되는 일정 지역 안에는 다양한 지하시설물이 존재할 수 있고 층층히 겹쳐 보일 수 있어서 모바일 환경에서 실행하는데 시간이 오래 걸리는 문제가 있다. 본 논문에서는 가시성에서 문제가 되지 않는 범위 내에서 3D 메쉬 데이터의 정점의 개수를 줄여서 데이터의 크기를 줄임으로써 모바일 환경에서 실행 시간을 줄일 수 있는 방법으로 딥러닝 기반 K-means 정점 클러스터링 알고리즘을 제안한다. 첫번째로 우리가 제안하는 방법은 딥러닝 Encoder-Decoder 기반의 모델을 통하여 정재된 정점의 특징 정보를 얻고, 두번째로 특징 정보를 K-means 정점 클러스터링을 통하여 서로 비슷한 정점끼리 묶어서 단순화를 하였다. 실험결과 제안한 방법으로 다양한 지하시설물들의 정점을 30%까지 줄였을 때, 이미지 모형이 약간의 변형은 발생하였지만 사라지는 부분은 없어서 모바일 환경에서 확인하는데 문제가 없었다.

딥러닝 기반 탄성파 전파형 역산 연구 개관 (A Review of Seismic Full Waveform Inversion Based on Deep Learning)

  • 편석준;박윤희
    • 지구물리와물리탐사
    • /
    • 제25권4호
    • /
    • pp.227-241
    • /
    • 2022
  • 전파형 역산은 석유가스 탐사를 위한 탄성파 자료처리 분야에서 지층의 속도 모델을 추정하는데 사용되는 역산 기법이다. 최근 탄성파 자료처리에 딥러닝 기술의 활용이 급격하게 증가하고 있는데, 전파형 역산 기술도 마찬가지로 다양한 연구가 이루어지고 있다. 초기에는 머신러닝 기술을 활용한 자료처리 기법이 전파형 역산을 위한 입력자료의 전처리 목적으로 활용되는 수준이었으나, 딥러닝 기술을 통해 전파형 역산을 직접적으로 구현하는 연구가 등장하기 시작하였다. 딥러닝 기술을 활용한 전파형 역산은 순수 데이터 기반 접근법, 물리 기반 신경망 활용법, 인코더-디코더 구조 활용법, 신경망 재매개변수화를 이용한 구현법, 물리정보 기반 신경망 기법 등으로 구분할 수 있다. 이 논문에서는 딥러닝 기반 전파형 역산 기법을 발전 과정 순서로 체계화하여 각각의 접근법에 대한 이론과 특징을 설명하였다. 전파형 역산 기술에 딥러닝 기법을 도입한 초기에는 데이터 과학의 기본 원리에 충실하게 대량의 학습자료를 준비하고 순수 데이터 기반 예측 모델을 적용하여 속도 모델을 역산하는 연구로 시작하였다. 최근 연구 동향은 탄성파 자료의 잔차나 파동방정식 자체의 물리정보를 심층 신경망에 활용하여 순수 데이터 기반 접근법의 단점을 보완해 나가는 방향으로 진행되고 있다. 이러한 발전으로 대량의 학습자료가 필요하지 않고, 전파형 역산의 태생적 한계점인 주기 놓침 현상을 완화하며 계산 시간을 획기적으로 줄일 수 있는 딥러닝 기반 전파형 역산 기술이 등장하고 있다. 딥러닝 기술의 도입으로 전파형 역산 기술은 탄성파 자료처리 분야에서 가치가 더 높아질 것으로 생각된다.

신경망 기반 비디오 압축을 위한 레이턴트 정보의 방향 이동 및 보상 (Latent Shifting and Compensation for Learned Video Compression)

  • 김영웅;김동현;정세윤;최진수;김휘용
    • 방송공학회논문지
    • /
    • 제27권1호
    • /
    • pp.31-43
    • /
    • 2022
  • 전통적인 비디오 압축은 움직임 예측, 잔차 신호 변환 및 양자화를 통한 하이브리드 압축 방식을 기반으로 지금까지 발전해왔다. 최근 인공 신경망을 통한 기술이 빠르게 발전함에 따라, 인공 신경망 기반의 이미지 압축, 비디오 압축 연구 또한 빠르게 진행되고 있으며, 전통적인 비디오 압축 코덱의 성능과 비교해 높은 경쟁력을 보여주고 있다. 본 논문에서는 이러한 인공 신경망 기반 비디오 압축 모델의 성능을 향상시킬 수 있는 새로운 방법을 제시한다. 기본적으로는 기존 인공 신경망 기반 비디오 압축 모델들이 채택하고 있는 변환 및 복원 신경망과 엔트로피 모델(Entropy model)을 이용한 율-왜곡 최적화(Rate-distortion optimization) 방법을 사용하며, 인코더 측에서 디코더 측으로 압축된 레이턴트 정보(Latent information)를 전송할 때 엔트로피 모델이 추정하기 어려운 정보의 값을 이동시켜 전송할 비트량을 감소시키고, 손실된 정보를 추가로 전송함으로써 손실된 정보에 대한 왜곡을 보정한다. 이러한 방법을 통해 기존의 인공 신경망 기반 비디오 압축 기술인 MFVC(Motion Free Video Compression) 방법을 개선하였으며, 실험 결과를 통해 H.264를 기준으로 계산한 BDBR (Bjøntegaard Delta-Bitrate) 수치(%)로 MFVC(-14%) 보다 두 배 가까운 비트량 감축(-27%)이 가능함을 입증하였다. 제안된 방법은 MFVC 뿐 아니라, 레이턴트 정보와 엔트로피 모델을 사용하는 신경망 기반 이미지 또는 비디오 압축 기술에 광범위하게 적용할 수 있다는 장점이 있다.

인코더와 디코더에 기반한 합성곱 신경망과 순환 신경망의 새로운 하이브리드 접근법 (New Hybrid Approach of CNN and RNN based on Encoder and Decoder)

  • 우종우;김건우;최근호
    • 경영정보학연구
    • /
    • 제25권1호
    • /
    • pp.129-143
    • /
    • 2023
  • 빅데이터 시대를 맞이하여 인공지능 분야는 괄목할만한 성장을 보이고 있으며 특히 딥러닝에 의한 이미지 분류 학습방법이 중요한 영역으로 자리하고 있다. 이미지 분류에서 많이 사용되어 온 CNN의 성능을 더욱 개선하기 위해 다양한 연구가 활발하게 진행되었는데, 이 중에서 대표적인 방법이 CRNN(Convolutional Recurrent Neural Network) 알고리즘이다. CRNN 알고리즘은 이미지 분류를 위한 CNN과 시계열적 요소를 인식하기 위한 RNN의 조합으로 구성되는데, CRNN의 RNN영역에서 사용하는 입력값은 학습 대상의 이미지를 합성곱과 풀링 기법을 적용하여 추출된 결과물을 flatten한 값이고, 이 입력값들은 이미지 내 동일 위상에 있는 픽셀값들이 서로 다른 순서로 나타나기 때문에, RNN에서 의도한 이미지 내 배열 순서를 제대로 학습하기 어렵다는 한계점을 지닌다. 따라서 본 연구는 인코더와 디코더의 개념을 응용한 CNN과 RNN의 새로운 하이브리드 방법을 제안하여, 이미지 분류 성능을 향상시키는 것을 목적으로 하였다. 본 연구에서는 다양한 알고리즘 비교 실험을 통해, 새로운 하이브리드 방법의 효과성을 검증하였다. 본 연구는 인코더와 디코더 개념의 적용 가능성을 넓히고, 제안한 방법이 기존 하이브리드 방법에 비해, 복잡도가 크게 증가하지 않아 모델 학습 시간과 인프라 구축 비용 측면에서 이점을 있다는 점에서 학문적 시사점을 가진다. 또한, 정확한 이미지 분류가 필요한 다양한 분야에서 제공되는 서비스의 품질을 높일 수 있는 가능성을 제시하였다는 점에서 실무적 시사점을 가진다.

두층 섬광결정과 위치민감형광전자증배관을 이용한 소동물 양전자방출단층촬영기 개발: 기초실험 결과 (Development of a Small Animal Positron Emission Tomography Using Dual-layer Phoswich Detector and Position Sensitive Photomultiplier Tube: Preliminary Results)

  • 정명환;최용;정용현;송태용;정진호;홍기조;민병준;최연성;이경한;김병태
    • 대한핵의학회지
    • /
    • 제38권5호
    • /
    • pp.338-343
    • /
    • 2004
  • 목적: 이 연구의 목적은 두층 섬광결정을 사용하여 PET 기기 시야 외곽에서 발생하는 영상 왜곡현상을 최소화하는 고 민감도, 고 분해능의 소동물 PET 시스템을 개발하는 것이다. 대상 및 방법: GATE (Geant4 Application for Tomographic Emission) 시뮬레이션 프로그램을 사용하여 시스템을 모사하였고 시스템 성능을 예측하였으며 시뮬레이션에서 도출한 파라미터를 기준으로 시스템을 설계 제작 하였다. 두층 섬광결정은 Lutetium Oxyorthosilicate (LSO)와 Lutetium-Yttrium Aluminate-Perovskite (LuYAP)으로 구성하였다. 섬광결정의 각 픽셀크기는 $2mm{\times}2mm{\times}8mm$이며 $8{\times}8$로 배열하여 두층 섬광결정으로 구성하였다. 두층 섬광결정 배열을 위치민감형 광전자증배관(Position Sensitive Photomultiplier Tube: PSPMT)과 결합하여 한 개의 검출기를 구성하였으며, 총 16개 검출기를 지름 10 cm, 유효시야 8 cm인 원형으로 배열하였다. 검출기로부터 출력된 데이터는 소켓, 디코더, ADC, FPGA회로를 거쳐 전 처리 컴퓨터에 입력되고 마스터 컴퓨터에 저장 되도록 하였다. 결과: 시스템 개발의 초기 연구로 한쌍 검출기만 사용하여 단층영상을 획득하고 민감도와 공간분해능을 측정하였다. 점선원을 시야 중앙에 위치했을 때 공간분해능은 2.3 mm FWHM이고, 민감도는 10.9 $cps/{\mu}Ci$이었다. 결론: 구축한 시스템을 사용하여 선원의 위치와 모양변화를 정확하게 측정한 사이노그램과 PET 영상을 획득할 수 있었다. 이 연구는 고 분해능 고 민감도 PET 시스템 개발의 초기연구로, 소형 원형 PET 시스템 개발 가능성을 보여준다.lamate을 이용하여 측정한 사구체 여과율과 통계적으로 유의한 상관 관계를 보이지 않았다. 결론: Gates 방법을 이용한 사구체 여과율 측정에서 배후 방사능 관심 영역은 신장의 상방과 양측 신장사이, 즉 혈액 풀 방사능이 많이 분포하는 부위에 설정하는 것이 I-125-iothalamate을 이용한 사구체 여과율과 가장 높은 상관 관계를 보였고, 신장 깊이가 깊지 않은 2군에서 두 사구체 여과율은 더 높은 상관 관계를 보였다.7%$, 25분일 때 $95{\pm}12%$, 40분일 때 $98{\pm}3%$로 통계학적으로 유의한 차이는 없었다(p>0.05). 항응고제 종류에 따른 결합효율은 헤파린을 사용한 경우 $89{\pm}20%$, CPDA를 사용한 경우 $97{\pm}6%$, ACD를 사용한 경우 $98{\pm}4%$로 CPDA와ACD를 사용한 경우에 유의하게 높은 결합효율을 보였다(p<0.001). 결론: 변형 체내 표지법으로 적혈구를 표지시 우수한 결합효율을 유지하기 위해서는 채취하는 혈액의 양은 3 mL 이상, 배양시간은 10분 이상(10분-40분), 항응고제는 ACD나 CPDA tinning 시간은 20분 이상(20-35분)을 유지하고, 가능한 rotating invertor를 사용하는 것이 좋을 것으로 생각된다.KC $\varepsilon$이 K562(Adr)세포에서 많이 발현되었으나, K562와 K562(Adr)세포에서는 verapamil처리에 따른 PKC 아형의 변화는 없었다. 결론: Verapamil은 암세포의 종류에 따라 MIBI와 TF의 섭취를 감소시켰고, 고용량에는 MDR세포의 섭취도 감소시켰으며 이러한 현상은 세포독성 이나 PKC효소 아형과는 관련이 없었다. 그러므로 MDR의 진단시 verapamil을

AMOLED 컬럼 구동회로 응용을 위한 시분할 기법 기반의 면적 효율적인 10b DAC (An Area-Efficient Time-Shared 10b DAC for AMOLED Column Driver IC Applications)

  • 김원강;안태지;이승훈
    • 전자공학회논문지
    • /
    • 제53권5호
    • /
    • pp.87-97
    • /
    • 2016
  • 본 논문에서는 시분할 기법을 적용하여 AMOLED 컬럼 구동회로용 DAC의 유효 채널 면적을 최소화한 2단 저항 열 기반의 10비트 DAC를 제안한다. 제안하는 DAC는 시분할 기법 기반의 DEMUX, 6비트 및 4비트의 2단 저항 열 구조를 기반으로 하는 롬 구조의 디코더를 2단계로 사용하여 기존의 디스플레이용 DAC보다 빠른 변환속도를 가지는 동시에 하나의 패널 컬럼 구동을 위한 DAC의 유효 면적을 최소화하였다. 두 번째 단 4비트 저항 열에서는 DAC 채널의 면적과 부하 영향을 줄이는 동시에 버퍼 증폭기로 인한 채널 간 오프셋 부정합을 제거하기 위해 기존의 단위-이득 버퍼 대신 간단한 구조의 전류원으로 대체하였다. 제안하는 1:24 DEMUX는 하나의 클록과 5비트 2진 카운터만을 사용하여, 하나의 DAC 채널이 24개의 컬럼을 순차적으로 구동할 수 있도록 하였다. 각 디스플레이 컬럼을 구동하는 출력 버퍼 입력 단에는 0.9pF의 샘플링 커패시터와 작은 크기의 source follower를 추가하여 top-plate 샘플링 구조를 사용하면서 채널 전하 주입에 의한 영향을 최소화하는 동시에 출력 버퍼의 신호정착 정확도를 향상시켰다. 제안하는 DAC는 $0.18{\mu}m$ CMOS 공정으로 제작하였으며, DAC 출력의 정착 시간은 입력을 '$000_{16}$'에서 '$3FF_{16}$'으로 인가했을 때 62.5ns의 수준을 보인다. 제안하는 DAC 단위 채널의 면적 및 유효 채널 면적은 각각 $0.058mm^2$$0.002mm^2$이며, 3.3V의 아날로그 및 1.8V의 디지털 전원 전압에서 6.08mW의 전력을 소모한다.