• 제목/요약/키워드: 합성곱 신경망

Search Result 529, Processing Time 0.029 seconds

CNN(Convolutional Neural Network) 알고리즘을 활용한 음성신호 중 비음성 구간 탐지 모델 연구 (A Study on a Non-Voice Section Detection Model among Speech Signals using CNN Algorithm)

  • 이후영
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.33-39
    • /
    • 2021
  • 음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리(NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.

잡음 환경에 효과적인 마스크 기반 음성 향상을 위한 손실함수 조합에 관한 연구 (A study on combination of loss functions for effective mask-based speech enhancement in noisy environments)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.234-240
    • /
    • 2021
  • 본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위해 마스크 기반의 음성 향상 기법을 개선한다. 마스크 기반의 음성 향상 기법에서는 심층 신경망을 기반으로 추정한 마스크를 잡음 오염 음성에 곱하여 향상된 음성을 얻는다. 마스크 추정 모델로 VoiceFilter(VF) 모델을 사용하고 추정된 마스크로 얻은 음성으로부터 잔여 잡음을 보다 확실히 제거하기 위해 Spectrogram Inpainting(SI)기법을 적용한다. 본 논문에서는 음성 향상 결과를 보다 개선하기 위해 마스크 추정을 위한 모델 학습 과정에 사용되는 조합된 손실함수를 제안한다. 음성 구간에 남아 있는 잡음을 보다 효과적으로 제거하기 위해 잡음 오염 음성에 마스크를 적용한 Triplet 손실함수의 Positive 부분을 컴포넌트 손실함수와 조합하여 사용한다. 실험 평가를 위한 잡음 음성 데이터는 TIMIT 데이터베이스와 NOISEX92, 배경음악 잡음을 다양한 Signal to Noise Ratio(SNR) 조건으로 합성하여 만들어 사용한다. 음성 향상의 성능 평가는 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를 이용한다. 실험을 통해 평균 제곱 오차로만 훈련된 기존 시스템과 비교하여, VF 모델은 평균 제곱 오차로 훈련하고 SI 모델은 조합된 손실함수를 사용하였을 때 SDR은 평균 0.5dB, PESQ는 평균 0.06, STOI는 평균 0.002만큼 성능이 향상된 것을 확인했다.

이미지 인식률 개선을 위한 CNN 기반 이미지 회전 보정 알고리즘 (CNN-based Image Rotation Correction Algorithm to Improve Image Recognition Rate)

  • 이동구;선영규;김수현;심이삭;이계산;송명남;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권1호
    • /
    • pp.225-229
    • /
    • 2020
  • 이미지 인식 및 영상처리, 컴퓨터 비전 등의 분야에서 합성곱 인공신경망 (Convolutional Neural Network, CNN)은 다양하게 응용되고 탁월한 성능을 내고 있다. 본 논문에서는 CNN을 활용한 이미지 인식 시스템에서 인식률을 저하시키는 요인 중 하나인 이미지의 회전에 대한 해결책으로써 CNN 기반 이미지 회전 보정 알고리즘을 제안한다. 본 논문에서는 Leeds Sports Pose 데이터셋을 활용하여 이미지를 임의의 각도만큼 회전시킨 학습데이터로 인공지능 모델을 학습시켜 출력으로 회전된 각도를 추정하도록 실험을 진행하였다. 학습된 인공지능 모델을 100장의 테스트 데이터 이미지로 실험하여 mean absolute error (MAE) 성능지표를 기준으로 4.5951의 값을 얻었다.

CARDB를 이용한 반복적인 업-다운 샘플링 네트워크 기반의 단일 영상 초해상도 복원 (Single Image Super-Resolution Using CARDB Based on Iterative Up-Down Sampling Architecture)

  • 김인구;유송현;정제창
    • 방송공학회논문지
    • /
    • 제25권2호
    • /
    • pp.242-251
    • /
    • 2020
  • 최근 단일 영상 초해상도에 깊은 합성 곱 신경망을 적용한 알고리듬이 많이 연구되었다. 현존하는 딥러닝 기반 초해상도 기법들은 네트워크의 후반부에 해상도를 업샘플링 하는 구조를 가진다. 이러한 구조는 저해상도에서 고해상도로 한 번에 매핑을 하기에 많은 정보를 예측하는 높은 확대율에서 비효율적인 구조를 가진다. 본 논문에서는 반복적인 업-다운 샘플링 구조를 기반으로 하여 채널 집중 잔여 밀집 블록을 이용한 단일 영상 초해상도 기법을 제안한다. 제안한 알고리듬은 저해상도와 고해상도의 매핑 관계를 효율적으로 예측하여 높은 확대율에서 기존의 알고리듬에 비해 최대 0.14dB 성능 향상과 개선된 주관적 화질을 보여준다.

시간 축 주의집중 기반 동물 울음소리 분류 (Temporal attention based animal sound classification)

  • 김정민;이영로;김동현;고한석
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.406-413
    • /
    • 2020
  • 본 논문에서는 조류와 양서류 울음소리의 구별 정확도를 높이기 위해 게이트 선형유닛과 자가주의 집중 모듈을 활용해서 데이터의 중요한 부분을 중심으로 특징 추출 및 데이터 프레임의 중요도를 판별해 구별 정확도를 높인다. 이를 위해 먼저 1차원의 음향 데이터를 로그 멜 스펙트럼으로 변환한다. 로그 멜 스펙트럼에서 배경잡음같이 중요하지 않은 정보는 게이트 선형유닛을 거쳐 제거한다. 그러고 난 뒤 시간 축에 자가주의집중기법을 적용해 구별 정확도를 높인다. 사용한 데이터는 자연환경에서 멸종위기종을 포함한 조류 6종의 울음소리와 양서류 8종의 울음소리로 구성했다. 그 결과, 게이트 선형유닛 알고리즘과 시간 축에서 자가주의집중을 적용한 구조의 평균 정확도는 조류를 구분했을 때 91 %, 양서류를 구분했을 때 93 %의 분류율을 보였다. 또한, 기존 알고리즘보다 약 6 % ~ 7 % 향상된 정확도를 보이는 것을 확인했다.

Deep Learning-Based Brain Tumor Classification in MRI images using Ensemble of Deep Features

  • Kang, Jaeyong;Gwak, Jeonghwan
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권7호
    • /
    • pp.37-44
    • /
    • 2021
  • 뇌 MRI 영상의 자동 분류는 뇌종양의 조기 진단을 하는 데 있어 중요한 역할을 한다. 본 연구에서 우리는 심층 특징 앙상블을 사용한 MRI 영상에서의 딥 러닝 기반 뇌종양 분류 모델을 제안한다. 우선 사전 학습된 3개의 합성 곱 신경망을 사용하여 입력 MRI 영상에 대한 심층 특징들을 추출한다. 그 이후 추출된 심층 특징들은 완전 연결 계층들로 구성된 분류 모듈의 입력 값으로 들어간다. 분류 모듈에서는 우선 3개의 서로 다른 심층 특징들 각각에 대해 먼저 완전 연결 계층을 거쳐 특징 차원을 줄인다. 그 이후 3개의 차원이 준 특징들을 결합하여 하나의 특징 벡터를 생성한 뒤 다시 완전 연결 계층의 입력값으로 들어가서 최종적인 분류 결과를 예측한다. 우리가 제안한 모델을 평가하기 위해 웹상에 공개된 뇌 MRI 데이터 셋을 사용하였다. 실험 결과 우리가 제안한 모델이 다른 기계학습 기반 모델보다 더 좋은 성능을 나타냄을 확인하였다.

자기 지도 학습훈련 기반의 Noise2Void 네트워크를 이용한 PET 영상의 잡음 제거 평가: 팬텀 실험 (The Evaluation of Denoising PET Image Using Self Supervised Noise2Void Learning Training: A Phantom Study)

  • 윤석환;박찬록
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제44권6호
    • /
    • pp.655-661
    • /
    • 2021
  • Positron emission tomography (PET) images is affected by acquisition time, short acquisition times results in low gamma counts leading to degradation of image quality by statistical noise. Noise2Void(N2V) is self supervised denoising model that is convolutional neural network (CNN) based deep learning. The purpose of this study is to evaluate denoising performance of N2V for PET image with a short acquisition time. The phantom was scanned as a list mode for 10 min using Biograph mCT40 of PET/CT (Siemens Healthcare, Erlangen, Germany). We compared PET images using NEMA image-quality phantom for standard acquisition time (10 min), short acquisition time (2min) and simulated PET image (S2 min). To evaluate performance of N2V, the peak signal to noise ratio (PSNR), normalized root mean square error (NRMSE), structural similarity index (SSIM) and radio-activity recovery coefficient (RC) were used. The PSNR, NRMSE and SSIM for 2 min and S2 min PET images compared to 10min PET image were 30.983, 33.936, 9.954, 7.609 and 0.916, 0.934 respectively. The RC for spheres with S2 min PET image also met European Association of Nuclear Medicine Research Ltd. (EARL) FDG PET accreditation program. We confirmed generated S2 min PET image from N2V deep learning showed improvement results compared to 2 min PET image and The PET images on visual analysis were also comparable between 10 min and S2 min PET images. In conclusion, noisy PET image by means of short acquisition time using N2V denoising network model can be improved image quality without underestimation of radioactivity.

KOMPSAT 정사모자이크 영상으로부터 U-Net 모델을 활용한 농촌위해시설 분류 (Semantic Segmentation of Hazardous Facilities in Rural Area Using U-Net from KOMPSAT Ortho Mosaic Imagery)

  • 공성현;정형섭;이명진;이광재;오관영;장재영
    • 대한원격탐사학회지
    • /
    • 제39권6_3호
    • /
    • pp.1693-1705
    • /
    • 2023
  • 국토 면적의 약 90%를 차지하는 농촌은 여러가지 공익적 기능을 수행하는 공간으로서 중요성과 가치가 증가하고 있지만 주거지 인근에 축사, 공장, 태양광패널 등 주민생활에 불편을 미치는 시설들이 무분별하게 들어서면서 농촌 환경과 경관이 훼손되고 주민 삶의 질이 낮아지고 있다. 농촌지역의 무질서한 개발을 방지하고 농촌 공간을 계획적으로 관리하기 위해서는 농촌지역 내 위해시설에 대한 탐지 및 모니터링이 필요하다. 주기적으로 취득 가능하고 전체 지역에 대한 정보를 얻을 수 있는 위성영상을 통해 데이터의 취득이 가능하고, 합성곱 신경망 기법을 통한 영상 기반 딥러닝 기술을 활용하여 효과적인 탐지가 가능하다. 따라서 본 연구에서는 의미적 분할(Semantic segmentation)에서 높은 성능을 보이는 U-Net 모델을 이용하여 농촌 지역에서 잠재적으로 위해시설이 될 수 있는 농촌시설을 분류하는 연구를 수행하였다. 본 연구에서는 2020년에 제작된 공간해상도 0.7 m의 KOMPSAT 정사모자이크 광학영상을 한국항공우주연구원으로부터 제공받아 사용하였으며 축사, 공장, 태양광 패널에 대한 AI 학습용 데이터를 직접 제작하여 학습 및 추론을 진행하였다. U-Net을 통해 학습시킨 결과 픽셀 정확도(pixel accuracy)는 0.9739, mean Intersection over Union (mIOU)은 0.7025의 값을 도출하였다. 본 연구 결과는 농촌 지역의 위험 시설물 모니터링에 활용될 수 있으며, 농촌계획 수립에 있어 기초 자료로 활용될 수 있을 것으로 기대된다.

잘피 서식지 모니터링을 위한 딥러닝 기반의 드론 영상 의미론적 분할 (Semantic Segmentation of Drone Imagery Using Deep Learning for Seagrass Habitat Monitoring)

  • 전의익;김성학;김병섭;박경현;최옥인
    • 대한원격탐사학회지
    • /
    • 제36권2_1호
    • /
    • pp.199-215
    • /
    • 2020
  • 잘피는 연안해역에 서식하는 해양수생관속식물로 해양생태계의 중요한 역할을 하고 있어, 주기적인 잘피 서식지의 모니터링이 이루어지고 있다. 최근 효율적인 잘피 서식지의 모니터링을 위해 고해상도의 영상 획득이 가능한 드론의 활용도가 높아지고 있다. 그리고 의미론적 분할에 있어 합성곱 신경망 기반의 딥러닝이 뛰어난 성능을 보임에 따라, 원격탐사 분야에 이를 적용한 연구가 활발하게 이루어지고 있다. 그러나 다양한 딥러닝 모델, 영상, 그리고 하이퍼파라미터에 의해 의미론적 분할의 정확도가 다르게 나타나고, 영상의 정규화와 타일과 배치 크기에서도 정형화되어 있지 않은 상태이다. 이에 따라 본 연구에서는 우수한 성능을 보여주는 딥러닝 모델을 이용하여 드론의 광학 영상에서 잘피 서식지를 분할하였다. 그리고 학습 자료의 정규화 및 타일의 크기를 중점으로 결과를 비교 및 분석하였다. 먼저 정규화와 타일, 배치 크기에 따른 결과 비교를 위해 흑백 영상을 만들고 흑백 영상을 Z-score 정규화 및 Min-Max 정규화 방법으로 변환한 영상을 사용하였다. 그리고 타일 크기를 특정 간격으로 증가시키면서 배치 크기는 메모리 크기를 최대한 사용할 수 있도록 하였다. 그 결과, Z-score 정규화가 적용된 영상이 다른 영상보다 IoU가 0.26 ~ 0.4 정도 높게 나타났다. 또한, 타일과 배치 크기에 따라 최대 0.09까지 차이가 나타나는 것을 확인하였다. 딥러닝을 이용한 의미론적 분할에 있어 정규화, 타일의 배치 크기의 변화에 따른 결과가 다르게 나타났다. 그러므로 실험을 통해 이들 요소에 대한 적합한 결정 과정이 있어야 함을 알 수 있었다.

합성곱 신경망을 활용한 위내시경 이미지 분류에서 전이학습의 효용성 평가 (Evaluation of Transfer Learning in Gastroscopy Image Classification using Convolutional Neual Network)

  • 박성진;김영재;박동균;정준원;김광기
    • 대한의용생체공학회:의공학회지
    • /
    • 제39권5호
    • /
    • pp.213-219
    • /
    • 2018
  • Stomach cancer is the most diagnosed cancer in Korea. When gastric cancer is detected early, the 5-year survival rate is as high as 90%. Gastroscopy is a very useful method for early diagnosis. But the false negative rate of gastric cancer in the gastroscopy was 4.6~25.8% due to the subjective judgment of the physician. Recently, the image classification performance of the image recognition field has been advanced by the convolutional neural network. Convolutional neural networks perform well when diverse and sufficient amounts of data are supported. However, medical data is not easy to access and it is difficult to gather enough high-quality data that includes expert annotations. So This paper evaluates the efficacy of transfer learning in gastroscopy classification and diagnosis. We obtained 787 endoscopic images of gastric endoscopy at Gil Medical Center, Gachon University. The number of normal images was 200, and the number of abnormal images was 587. The image size was reconstructed and normalized. In the case of the ResNet50 structure, the classification accuracy before and after applying the transfer learning was improved from 0.9 to 0.947, and the AUC was also improved from 0.94 to 0.98. In the case of the InceptionV3 structure, the classification accuracy before and after applying the transfer learning was improved from 0.862 to 0.924, and the AUC was also improved from 0.89 to 0.97. In the case of the VGG16 structure, the classification accuracy before and after applying the transfer learning was improved from 0.87 to 0.938, and the AUC was also improved from 0.89 to 0.98. The difference in the performance of the CNN model before and after transfer learning was statistically significant when confirmed by T-test (p < 0.05). As a result, transfer learning is judged to be an effective method of medical data that is difficult to collect good quality data.