• 제목/요약/키워드: 딥 인공신경망

검색결과 259건 처리시간 0.052초

딥 러닝 기반 코로나19 흉부 X선 판독 기법 (A COVID-19 Chest X-ray Reading Technique based on Deep Learning)

  • 안경희;엄성용
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.789-795
    • /
    • 2020
  • 전 세계적으로 유행하는 코로나19로 인해 많은 사망자가 보고되고 있다. 코로나19의 추가 확산을 막기 위해서는 의심 환자에 대해 신속하고 정확한 영상판독을 한 후, 적절한 조치를 취해야 한다. 이를 위해 본 논문은 환자의 감염 여부를 의료진에게 제공해 영상판독을 보조할 수 있는 딥 러닝 기반 코로나19 흉부 X선 판독 기법을 소개한다. 우선 판독모델을 학습하기 위해서는 충분한 데이터셋이 확보되어야 하는데, 현재 제공하는 코로나19 오픈 데이터셋은 학습의 정확도를 보장하기에 그 영상 데이터 수가 충분하지 않다. 따라서 누적 적대적 생성 신경망(StackGAN++)을 사용해 인공지능 학습 성능을 저하하는 영상 데이터 수적 불균형 문제를 해결하였다. 다음으로 판독모델 개발을 위해 증강된 데이터셋을 사용하여 DenseNet 기반 분류모델 학습을 진행하였다. 해당 분류모델은 정상 흉부 X선과 코로나 19 흉부 X선 영상을 이진 분류하는 모델로, 실제 영상 데이터 일부를 테스트데이터로 사용하여 모델의 성능을 평가하였다. 마지막으로 설명 가능한 인공지능(eXplainable AI, XAI) 중 하나인 Grad-CAM을 사용해 입력 영상의 질환유무를 판단하는 근거를 제시하여 모델의 신뢰성을 확보하였다.

CNN(Convolutional Neural Network) 알고리즘을 활용한 음성신호 중 비음성 구간 탐지 모델 연구 (A Study on a Non-Voice Section Detection Model among Speech Signals using CNN Algorithm)

  • 이후영
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.33-39
    • /
    • 2021
  • 음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리(NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.

이미지 캡션 및 재귀호출을 통한 스토리 생성 방법 (Automated Story Generation with Image Captions and Recursiva Calls)

  • 전이슬;조동하;문미경
    • 융합신호처리학회논문지
    • /
    • 제24권1호
    • /
    • pp.42-50
    • /
    • 2023
  • 기술의 발전은 제작 기법, 편집 기술 등 미디어 산업 전반에 걸쳐 디지털 혁신을 이루어 왔고, OTT 서비스와 스트리밍 시대를 관통하며 소비자 관람 형태의 다양성을 가져왔다. 빅데이터와 딥러닝 네트워크의 융합으로 뉴스 기사, 소설, 대본 등 형식을 갖춘 글을 자동으로 생성하였으나 작가의 의도를 반영하고 문맥적으로 매끄러운 스토리를 생성한 연구는 부족하였다. 본 논문에서는 이미지 캡션 생성 기술로 스토리보드 속 사진의 흐름을 파악하고, 언어모델을 통해 이야기 흐름이 자연스러운 스토리를 자동 생성하는 것을 기술한다. 합성곱 신경망(CNN)과 주의 집중기법(Attention)을 활용한 이미지 캡션 생성 기술을 통해 스토리보드의 사진을 묘사하는 문장을 생성하고, 첫 번째 이미지 캡션을 KoGPT-2에 입력하여 생성된 새로운 글과 두 번째 이미지의 캡션을 다음 입력값으로 활용한 재귀적 접근 방안을 제안하여 전후 문맥이 자연스럽고 기획 의도에 맞는 스토리를 생성하는 연구를 진행한다. 본 논문으로 인공지능을 통해 작가의 의도를 반영한 스토리를 자동으로 대량 생성하여 콘텐츠 창작의 고통을 경감시키고, 인공지능이 디지털 콘텐츠 제작의 전반적인 과정에 참여하여 미디어 지능화를 활성화한다.

RBF와 LVQ 인공신경망을 이용한 요(尿) 딥스틱 선별검사에서의 요로감염 분류 (Classification of UTI Using RBF and LVQ Artificial Neural Network in Urine Dipstick Screening Test)

  • 민경기;강명서;신기영;이상식;문정환
    • Journal of Biosystems Engineering
    • /
    • 제33권5호
    • /
    • pp.340-347
    • /
    • 2008
  • Dipstick urinalysis is used as a routine test for a screening test of UTI (urinary tract infection) in primary practice because urine dipstick test is simple. The result of dipstick urinalysis brings medical professionals to make a microscopic examination and urine culture for exact UTI diagnosis, therefore it is emphasized on a role of screening test. The objective of this study was to the classification between UTI patients and normal subjects using hybrid neural network classifier with enhanced clustering performance in urine dipstick screening test. In order to propose a classifier, we made a hybrid neural network which combines with RBF layer, summation & normalization layer and L VQ artificial neural network layer. For the demonstration of proposed hybrid neural network, we compared proposed classifier with various artificial neural networks such as back-propagation, RBFNN and PNN method. As a result, classification performance of proposed classifier was able to classify 95.81% of the normal subjects and 83.87% of the UTI patients, total average 90.72% according to validation dataset. The proposed classifier confirms better performance than other classifiers. Therefore the application of such a proposed classifier expect to utilize telemedicine to classify between UTI patients and normal subjects in the future.

Caffe를 이용한 얼굴 인식 파이프라인 모델 구현 (Implementation of Face Recognition Pipeline Model using Caffe)

  • 박진환;김창복
    • 한국항행학회논문지
    • /
    • 제24권5호
    • /
    • pp.430-437
    • /
    • 2020
  • 제안 모델은 얼굴 검출과 랜드마크 및 얼굴 인식 알고리즘을 이용하여 인공신경망으로 학습을 통해 얼굴 예측률과 인식률을 향상하는 모델을 구현하였다. 제안 모델은 특정 인물의 얼굴 영상에서 랜드마킹을 한 후, 기존에 학습된 Caffe 모델을 이용하여 얼굴검출과 임베딩 벡터 128D를 추출하였다. 학습은 기계학습 알고리즘인 SVM (support vector machine)과 DNN (deep neural network)을 구축하여 학습하였다. 얼굴인식은 학습된 모델을 이용하여 학습된 인물 중 다른 얼굴 영상으로 테스트하였다. 실험 결과, SVM 보다는 DNN으로 학습한 결과가 우수한 예측률과 인식률을 보였다. DNN의 중간층을 증가하게 되면 예측률은 높아지나 인식률이 감소하는 현상이 발생하였다. 이것은 인식하고자 하는 대상이 적음으로써 발생하는 과적합으로 판단된다. 제안 모델은 명확한 얼굴 영상을 추가하여 학습한 결과, 높은 예측률과 인식률의 결과를 얻을 수 있음을 확인할 수 있었다. 본 연구는 좀 더 많은 얼굴 영상 데이터를 이용함으로써 보다 효과적인 딥러닝 구축을 통해 보다 향상된 인식률과 예측률을 얻을 수 있을 것이다.

기계번역 사후교정(Automatic Post Editing) 연구 (Automatic Post Editing Research)

  • 박찬준;임희석
    • 한국융합학회논문지
    • /
    • 제11권5호
    • /
    • pp.1-8
    • /
    • 2020
  • 기계번역이란 소스문장(Source Sentence)을 타겟문장(Target Sentence)으로 컴퓨터가 번역하는 시스템을 의미한다. 기계번역에는 다양한 하위분야가 존재하며 APE(Automatic Post Editing)이란 기계번역 시스템의 결과물을 교정하여 더 나은 번역문을 만들어내는 기계번역의 하위분야이다. 즉 기계번역 시스템이 생성한 번역문에 포함되어 있는 오류를 수정하여 교정문을 만드는 과정을 의미한다. 기계번역 모델을 변경하는 것이 아닌 기계번역 시스템의 결과 문장을 교정하여 번역품질을 높이는 연구분야이다. 2015년부터 WMT 공동 캠페인 과제로 선정되었으며 성능 평가는 TER(Translation Error Rate)을 이용한다. 이로 인해 최근 APE에 모델에 대한 다양한 연구들이 발표되고 있으며 이에 본 논문은 APE 분야의 최신 동향에 대해서 다루게 된다.

기계학습을 이용한 금강유역 옥천의 오염부하량 예측 (Prediction of pollution loads in Geum River using machine learning)

  • 임희성;안현욱
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.445-445
    • /
    • 2018
  • 기후변화에 따른 환경오염은 21세기 인류에게 가장 심각한 문제 중의 하나로 대두되고 있다. 환경적인 측면에서 하천오염은 경제적으로 많은 문제를 발생시키고 있다. 이러한 하천오염 문제를 해결하기 위해서는 오염물질의 농도 측적 및 데이터 축적이 필수적이라 할 수 있다. 그러나 일반적으로 오염물질 부하량에 대한 직접적인 측정은 비용 측면에서 쉽지 않은 것이 사실이다. 또한 실시간으로 BOD, COD, TN, TP 등의 자료를 이용하여 예측하는 것에는 자료의 부족성으로 인해 한계가 있다. 본 연구에서는 구글의 딥러닝 오픈소스 라이브러리인 텐서플로우를 활용하여 기계학습을 통한 하천오염 예측을 목적으로 하고 있다. 기계학습을 위하여 텐서플로우를 활용하여 RNN, LSTM 인공신경망 모형을 구축하였다. 하천오염의 학습과 예측을 위해 결과치 분석을 위한 자료로는 금강 유역에 위치한 옥천 관측소 충청북도 옥천군 이원면 이원대교에 위치한 $36^{\circ}14'31.0''N$ $127^{\circ}40'02.6''E$의 관측소에서 BOD, COD, DO, 부유물질의 자료를 사용하였다. 모형의 학습을 위해서 입력자료는 수위, 유량, 평균기온, 평균풍속 자료를 2004년 ~ 2017년까지의 14년간의 자료를 사용하였다. 연구를 위해 BOD, COD, DO 부유물질 자료는 물환경정보시스템(http://water.nier.go.kr/)의 자료를 활용하고 수위, 유량등의 자료는 국가수자원관리종합정보시스템 (http://www.wamis.go.kr/)의 자료를 사용하였다. 그러나 수온, 수위, 풍속등의 자료는 일 자료가 있는가 반면 BOD, COD, TN, TP등의 자료는 일 자료가 있지 않아 이를 원활히 활용할 수 있도록 예측을 위한 결과치의 선형보간법을 통해 일 자료를 획득한 후 연구를 하였다. RNN, LSTM의 분석 시 학습속도, 반복시행횟수 sequence length의 길이 등의 값을 조절 하면서 결과치를 분석하였다.

  • PDF

최신 기계번역 품질 예측 연구 (Research on Recent Quality Estimation)

  • 어수경;박찬준;문현석;서재형;임희석
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.37-44
    • /
    • 2021
  • 기계번역 품질 예측(Quality Estimation, QE)은 정답 문장(Reference sentence) 없이도 기계번역 결과의 질을 평가할 수 있으며, 활용도가 높다는 점에서 그 필요성이 대두되고 있다. Conference on machine translation(WMT)에서 매년 이와 관련한 shared task가 열리고 있고 최근에는 대용량 데이터 기반 Pretrained language model(PLM)을 적용한 연구들이 주로 진행되고 있다. 본 논문에서는 기계번역 품질 예측 task에 대한 설명 및 연구 동향에 대한 전반적인 survey를 진행했고, 최근 자주 활용되는 PLM의 특징들에 대해 정리하였다. 더불어 아직 활용된 바가 없는 multilingual BART 모델을 이용하여 기존 연구들인 XLM, multilingual BERT, XLM-RoBERTa와 의 비교 실험 및 분석을 진행하였다. 실험 결과 어떤 사전 학습된 다중언어 모델이 QE에 적용했을 때 가장 효과적인지 확인하였을 뿐 아니라 multilingual BART 모델의 QE 태스크 적용 가능성을 확인했다.

인공지능 기반 플랜트 도면 내 심볼 객체 자동화 검출 (Automatic Recognition of Symbol Objects in P&IDs using Artificial Intelligence)

  • 신호진;전은미;권도경;권준석;이철진
    • 플랜트 저널
    • /
    • 제17권3호
    • /
    • pp.37-41
    • /
    • 2021
  • P&ID(Piping and Instrument Diagram)는 플랜트의 장치 및 계장 정보를 집약적으로 담고 있는, 엔지니어링 핵심도면이다. 한 장의 P&ID에는 심볼로 표현된 수백 여개의 정보들이 존재하며, 이에 대한 디지털 전산화 작업이 수작업으로 진행되고 있어 많은 인력과 시간이 소요된다. 기존 연구들은 CNN 모델을 이용하여 도면 객체 검출에 성공하였으나, 도면 한 장당 약 30분, 인식률은 90% 정도로 현장에서 구현하기에는 부족한 성능이다. 따라서 본 연구에서는 영역 검출과 객체 인식을 동시에 처리하는 1-stage 객체 검출 알고리즘을 제안하였다. 이미지 레이블링 오픈소스 툴을 이용하여 학습 데이터를 구축하고 딥러닝 모델 학습을 통해 도면 내 심볼 이미지 인식 방법을 제안한다.

End-to-end 비자기회귀식 가속 음성합성기 (End-to-end non-autoregressive fast text-to-speech)

  • 김위백;남호성
    • 말소리와 음성과학
    • /
    • 제13권4호
    • /
    • pp.47-53
    • /
    • 2021
  • Autoregressive한 TTS 모델은 불안정성과 속도 저하라는 본질적인 문제를 안고 있다. 모델이 time step t의 데이터를 잘못 예측했을 때, 그 뒤의 데이터도 모두 잘못 예측하는 것이 불안정성 문제이다. 음성 출력 속도 저하 문제는 모델이 time step t의 데이터를 예측하려면 time step 1부터 t-1까지의 예측이 선행해야 한다는 조건에서 발생한다. 본 연구는 autoregression이 야기하는 문제의 대안으로 end-to-end non-autoregressive 가속 TTS 모델을 제안한다. 본 연구의 모델은 Tacotron 2 - WaveNet 모델과 근사한 MOS, 더 높은 안정성 및 출력 속도를 보였다. 본 연구는 제안한 모델을 토대로 non-autoregressive한 TTS 모델 개선에 시사점을 제공하고자 한다.