• 제목/요약/키워드: learning through the image

검색결과 925건 처리시간 0.025초

전산화 단층 촬영(Computed tomography, CT) 이미지에 대한 EfficientNet 기반 두개내출혈 진단 및 가시화 모델 개발 (Diagnosis and Visualization of Intracranial Hemorrhage on Computed Tomography Images Using EfficientNet-based Model)

  • 윤예빈;김민건;김지호;강봉근;김구태
    • 대한의용생체공학회:의공학회지
    • /
    • 제42권4호
    • /
    • pp.150-158
    • /
    • 2021
  • Intracranial hemorrhage (ICH) refers to acute bleeding inside the intracranial vault. Not only does this devastating disease record a very high mortality rate, but it can also cause serious chronic impairment of sensory, motor, and cognitive functions. Therefore, a prompt and professional diagnosis of the disease is highly critical. Noninvasive brain imaging data are essential for clinicians to efficiently diagnose the locus of brain lesion, volume of bleeding, and subsequent cortical damage, and to take clinical interventions. In particular, computed tomography (CT) images are used most often for the diagnosis of ICH. In order to diagnose ICH through CT images, not only medical specialists with a sufficient number of diagnosis experiences are required, but even when this condition is met, there are many cases where bleeding cannot be successfully detected due to factors such as low signal ratio and artifacts of the image itself. In addition, discrepancies between interpretations or even misinterpretations might exist causing critical clinical consequences. To resolve these clinical problems, we developed a diagnostic model predicting intracranial bleeding and its subtypes (intraparenchymal, intraventricular, subarachnoid, subdural, and epidural) by applying deep learning algorithms to CT images. We also constructed a visualization tool highlighting important regions in a CT image for predicting ICH. Specifically, 1) 27,758 CT brain images from RSNA were pre-processed to minimize the computational load. 2) Three different CNN-based models (ResNet, EfficientNet-B2, and EfficientNet-B7) were trained based on a training image data set. 3) Diagnosis performance of each of the three models was evaluated based on an independent test image data set: As a result of the model comparison, EfficientNet-B7's performance (classification accuracy = 91%) was a way greater than the other models. 4) Finally, based on the result of EfficientNet-B7, we visualized the lesions of internal bleeding using the Grad-CAM. Our research suggests that artificial intelligence-based diagnostic systems can help diagnose and treat brain diseases resolving various problems in clinical situations.

이미지 캡션 생성을 위한 심층 신경망 모델의 설계 (Design of a Deep Neural Network Model for Image Caption Generation)

  • 김동하;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.203-210
    • /
    • 2017
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하며, 캡션 문장 생성을 위한 매 순환 단계마다 이미지의 시각 정보를 이용할 수 있도록 컨볼루션 신경망 층의 출력을 순환 신경망 층의 초기 상태뿐만 아니라 멀티 모달 층의 입력에도 연결하는 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험들을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 높은 성능을 확인할 수 있었다.

비소세포폐암 환자의 재발 예측을 위한 흉부 CT 영상 패치 기반 CNN 분류 및 시각화 (Chest CT Image Patch-Based CNN Classification and Visualization for Predicting Recurrence of Non-Small Cell Lung Cancer Patients)

  • 마세리;안가희;홍헬렌
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제28권1호
    • /
    • pp.1-9
    • /
    • 2022
  • 비소세포폐암(NSCLC)은 전체 폐암 중 85%의 높은 비중을 차지하며 사망률(22.7%)이 다른 암에 비해 현저히 높은 암으로 비소세포폐암 환자의 수술 후 예후에 대한 예측은 매우 중요하다. 본 연구에서는 종양을 관심영역으로 갖는 비소세포폐암 환자의 수술 전 흉부 CT 영상 패치의 종류를 종양 관련 정보에 따라 총 다섯 가지로 다양화하고, 이를 입력데이터로 갖는 사전 학습 된 ResNet 과 EfficientNet CNN 네트워크를 사용하여 단일 모델과 간접 투표 방식을 이용한 앙상블 모델, 그리고 3 개의 입력 채널을 활용한 앙상블 모델에서의 실험 결과 및 성능을 오분류의 사례와 Grad-CAM 시각화를 통해 비교 분석한다. 실험 결과, 종양 주변부 패치를 학습한 ResNet152 단일 모델과 EfficientNet-b7 단일 모델은 각각 87.93%와 81.03%의 정확도를 보였다. 또한 ResNet152 에서 총 3 개의 입력 채널에 각각 영상 패치, 종양 주변부 패치, 형상 집중 종양 내부 패치를 넣어 앙상블 모델을 구성한 경우에는 정확도 87.93%를, EfficientNet-b7 에서 간접 투표 방식으로 영상 패치와 종양 주변부 패치 학습 모델을 앙상블 한 경우에는 정확도 84.48%를 도출하며 안정적인 성능을 보였다.

A Study on AR Algorithm Modeling for Indoor Furniture Interior Arrangement Using CNN

  • Ko, Jeong-Beom;Kim, Joon-Yong
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권10호
    • /
    • pp.11-17
    • /
    • 2022
  • 본 논문에서는 증강현실 기술을 적용하여 실내 가구 인테리어를 배치하는데 작업의 효율성을 높일 수 있는 모델을 연구하였다. 현재 증강현실을 적용한 기존 시스템에서는 가구의 이미지를 출력할 때 기업 제품의 규모와 성격 등에 따라 정보가 제한적으로 제공되는 문제가 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 AR 레이블링 알고리즘을 제시하였다. AR 레이블링 알고리즘은 촬영된 이미지에서 특징점을 추출하고 실내 위치 정보를 포함한 데이터베이스를 구축하였다. CNN 기법을 활용하여 실내 공간에서 가구의 위치 데이터를 검출해 학습시키는 방법을 채택하였다. 학습한 결과를 통해 실내 위치와 학습시켜 나타낸 위치와의 오차를 현저히 낮출 수 있다는 것을 확인한다. 또한 가구의 정확한 이미지 추출과 함께 가구에 대한 상세한 정보를 받아 사용자가 원하는 가구들을 증강현실을 통해 쉽게 배치할 수 있도록 하는 연구를 진행하였다. 연구 결과 모델의 정확도와 손실률이 99%, 0.026으로 나타나 신뢰성을 확보하여 본 연구가 유의미함을 알 수 있었다. 본 연구 결과는 AR 레이블의 설계, 구현을 통해 원하는 가구들을 실내에 정확히 배치하여 소비자의 만족도와 구매 욕구를 충족시킬 수 있을 것으로 기대된다.

인공지능 서비스 운영을 위한 시스템 측면에서의 연구 (A Study on the System for AI Service Production)

  • 홍용근
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권10호
    • /
    • pp.323-332
    • /
    • 2022
  • AI 기술을 활용한 다양한 서비스가 개발되면서, AI 서비스 운영에 많은 관심이 집중되고 있다. 최근에는 AI 기술도 하나의 ICT 서비스를 보고, 범용적인 AI 서비스 운영을 위한 연구가 많이 진행되고 있다. 본 논문에서는 일반적인 기계학습 개발 절차의 마지막 단계인 기계학습 모델 배포 및 운영에 초점을 두고 AI 서비스 운영을 위한 시스템 측면에서의 연구 결과를 기술하였다. 3대의 서로 다른 Ubuntu 시스템을 구축하고, 이 시스템상에서 서로 다른 AI 모델(RFCN, SSD-Mobilenet)과 서로 다른 통신 방식(gRPC, REST)의 조합으로 2017 validation COCO dataset의 데이터를 이용하여 객체 검출 서비스를 Tensorflow serving을 통하여 AI 서비스를 요청하는 부분과 AI 서비스를 수행하는 부분으로 나누어 실험하였다. 다양한 실험을 통하여 AI 모델의 종류가 AI 머신의 통신 방식보다 AI 서비스 추론 시간에 더 큰 영향을 미치고, 객체 검출 AI 서비스의 경우 검출하려는 이미지의 파일 크기보다는 이미지 내의 객체 개수와 복잡도에 따라 AI 서비스 추론 시간이 더 큰 영향을 받는다는 것을 알 수 있었다. 그리고, AI 서비스를 로컬이 아닌 원격에서 수행하면 성능이 좋은 머신이라고 하더라도 로컬에서 수행하는 경우보다 AI 서비스 추론 시간이 더 걸린다는 것을 확인할 수 있었다. 본 연구 결과를 통하여 서비스 목표에 적합한 시스템 설계와 AI 모델 개발 및 효율적인 AI 서비스 운영이 가능해질 것으로 본다.

음성·영상 신호 처리 알고리즘 사례를 통해 본 젠더혁신의 필요성 (Gendered innovation for algorithm through case studies)

  • 이지연;이혜숙
    • 디지털융복합연구
    • /
    • 제16권12호
    • /
    • pp.459-466
    • /
    • 2018
  • 젠더혁신은 연구개발의 전 과정에서 남녀의 생물학적, 인지적, 사회적 특성 및 행동방식의 차이에 의한 성 젠더 요소를 고려하여 남녀 모두를 위한 보다 나은 연구개발과 지식을 창출하는 과정을 의미한다. 본 논문의 연구목적은 ICT산업, 자동차 산업, 빅데이터, 로봇 산업 등에 활용할 수 있는 영상 음성신호처리에서 문헌연구 및 기존 자료를 분석하고 사례 조사를 통하여 젠더혁신의 중요성을 고찰하는 것이다. 본 연구에서는 젠더 연구를 기반으로 영상 음성신호처리의 관련된 최신 국내외 문헌을 검색하고 총 8편의 논문을 선정한다. 그리고 젠더분석 측면에서, 연구대상, 연구 환경, 연구 설계로 구분하여 살펴본다. 연구결과로써, 노인음성 신호처리, 기계학습과 젠더, 기계번역 기술, 안면 젠더인식 기술의 음성 영상신호 처리 알고리즘 논문 사례 분석을 통하여 기존의 알고리즘에 젠더편향성이 있음을 밝히고 이들 알고리즘 개발에서 상황에 맞는 성 젠더 분석이 필요함을 보인다. 또한 알고리즘 개발에 다양한 성 젠더 요소를 반영하는 젠더혁신 방법과 정책을 제안한다. 추후 ICT에서의 젠더혁신은 남녀 모두의 요구를 반영한 제품과 서비스를 개발로 새로운 시장 창출에 기여할 수 있다.

학생 중심의 유비쿼터스 캠퍼스모델 (Ubiquitous Campus Model for Students Oriented)

  • 김창수;이재혁;정회경
    • 한국정보통신학회논문지
    • /
    • 제11권7호
    • /
    • pp.1407-1413
    • /
    • 2007
  • 오늘날 대학환경은 과거에 비해 급변해 가고 있다. 특히, 대학경영의 어려움을 극복하기 위해서 경쟁력 강화 방안과 이미지 제고와 같은 중장기 발전계획을 수립하고 있다. 이에 많은 대학에서는 유비쿼터스 캠퍼스 (Ubiquitous-Campus) 구축을 통한 대외적인 대학이 미지 제고와 학생에게 보다 편리한 서비스를 제공하기 위해 노력하고 있다. 그러나 유비쿼터스 캠퍼스에 대한 기대가 커지고 있음에도 불구하고, 현재의 시스템은 학생들의 IT(Information Technology) 실태를 파악하지 못했거나 활용실태 분석을 위 한 기본환경을 제공하지 못하고 있다. 이러한 문제점들을 해결하기 위해서는 기술 중심적인 유비쿼터스 캠퍼스 구축 되어야만하며, 이에 못지않게 학생의 IT 인프라 활용분석과 새롭게 요구되는 서비스 구축을 통해 실질적으로 활용할 수 있는 유비쿼터스 캠퍼스 모델이 요구되고 있는 실정이지만, 급변해 가고 있는 대학환경에서 최적화된 유비쿼터스 캠퍼스 모델을 구현하는데 한계가 있다. 이에 본 논문은 유비쿼터스 캠퍼스 구축의 핵심요소인 학습자 분석을 위한 통합분석 데이터베이스 기반의 U-학습, U-취업, U-출력, 개인정보 제공이력 서비스를 통해서 학생이 중심이 되는 유비쿼터스 캠퍼스 모델에 대해 연구하였다.

달기지 건설을 위한 딥러닝 기반 달표면 크레이터 자동 탐지 (A Deep-Learning Based Automatic Detection of Craters on Lunar Surface for Lunar Construction)

  • 신휴성;홍성철
    • 대한토목학회논문집
    • /
    • 제38권6호
    • /
    • pp.859-865
    • /
    • 2018
  • 달 지상 인프라 및 기지 건설은 건설재료나 에너지 확보가 가능한 지역과 연계되어야 하며, 얼음 등의 핵심 자원이 풍부한 영구음영 지역을 형성하는 달 크레이터 지형의 탐지와 정보 수집이 선행되어야 한다. 본 연구에서는 이러한 달 크레이터(crater) 객체 정보를 최신 딥러닝 알고리즘을 이용해 효과적으로 자동 탐지하는 방안에 대해 고찰하였다. 딥러닝 학습을 위해 NASA LRO 달 궤도선의 레이저 고도계 데이터를 기반으로 구축된 9만개의 수치표고모델과 개별 수치표고모델에 존재하는 크레이터들의 위치와 크기를 레이블링한 자료를 활용하였다. 딥러닝 학습은 최신 알고리즘인 Faster RCNN (Regional Convolution Neural Network)을 자체적으로 코드화하여 적용하였다. 이를 통해 학습된 딥러닝 시스템은 학습되지 않은 달표면 이미지 내 크레이터를 자동 인식하는데 적용되었으며, NASA에서 인력에 의해 정의한 크레이터 정보들의 오류를 자동 보정 가능하고, 정의되지 않은 많은 크레이터 까지도 자동 인식 가능함을 보였다. 이를 통해 공학적으로 매우 가치가 있는 각 지역별 크레이터들의 크기 분포 특성 및 발생 빈도 분석 등이 가능하게 되었으며, 향후에는 시간 이력별 변화추이도 분석 가능할 것으로 판단된다.

지식 그래프와 딥러닝 모델 기반 텍스트와 이미지 데이터를 활용한 자동 표적 인식 방법 연구 (Automatic Target Recognition Study using Knowledge Graph and Deep Learning Models for Text and Image data)

  • 김종모;이정빈;전호철;손미애
    • 인터넷정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.145-154
    • /
    • 2022
  • 자동 표적 인식(Automatic Target Recognition, ATR) 기술이 미래전투체계(Future Combat Systems, FCS)의 핵심 기술로 부상하고 있다. 그러나 정보통신(IT) 및 센싱 기술의 발전과 더불어 ATR에 관련이 있는 데이터는 휴민트(HUMINT·인적 정보) 및 시긴트(SIGINT·신호 정보)까지 확장되고 있음에도 불구하고, ATR 연구는 SAR 센서로부터 수집한 이미지, 즉 이민트(IMINT·영상 정보)에 대한 딥러닝 모델 연구가 주를 이룬다. 복잡하고 다변하는 전장 상황에서 이미지 데이터만으로는 높은 수준의 ATR의 정확성과 일반화 성능을 보장하기 어렵다. 본 논문에서는 이미지 및 텍스트 데이터를 동시에 활용할 수 있는 지식 그래프 기반의 ATR 방법을 제안한다. 지식 그래프와 딥러닝 모델 기반의 ATR 방법의 핵심은 ATR 이미지 및 텍스트를 각각의 데이터 특성에 맞게 그래프로 변환하고 이를 지식 그래프에 정렬하여 지식 그래프를 매개로 이질적인 ATR 데이터를 연결하는 것이다. ATR 이미지를 그래프로 변환하기 위해서, 사전 학습된 이미지 객체 인식 모델과 지식 그래프의 어휘를 활용하여 객체 태그를 노드로 구성된 객체-태그 그래프를 이미지로부터 생성한다. 반면, ATR 텍스트는 사전 학습된 언어 모델, TF-IDF, co-occurrence word 그래프 및 지식 그래프의 어휘를 활용하여 ATR에 중요한 핵심 어휘를 노드로 구성된 단어 그래프를 생성한다. 생성된 두 유형의 그래프는 엔터티 얼라이먼트 모델을 활용하여 지식 그래프와 연결됨으로 이미지 및 텍스트로부터의 ATR 수행을 완성한다. 제안된 방법의 우수성을 입증하기 위해 웹 문서로부터 227개의 문서와 dbpedia로부터 61,714개의 RDF 트리플을 수집하였고, 엔터티 얼라이먼트(혹은 정렬)의 accuracy, recall, 및 f1-score에 대한 비교실험을 수행하였다.

Implementation of Extracting Specific Information by Sniffing Voice Packet in VoIP

  • Lee, Dong-Geon;Choi, WoongChul
    • International journal of advanced smart convergence
    • /
    • 제9권4호
    • /
    • pp.209-214
    • /
    • 2020
  • VoIP technology has been widely used for exchanging voice or image data through IP networks. VoIP technology, often called Internet Telephony, sends and receives voice data over the RTP protocol during the session. However, there is an exposition risk in the voice data in VoIP using the RTP protocol, where the RTP protocol does not have a specification for encryption of the original data. We implement programs that can extract meaningful information from the user's dialogue. The meaningful information means the information that the program user wants to obtain. In order to do that, our implementation has two parts. One is the client part, which inputs the keyword of the information that the user wants to obtain, and the other is the server part, which sniffs and performs the speech recognition process. We use the Google Speech API from Google Cloud, which uses machine learning in the speech recognition process. Finally, we discuss the usability and the limitations of the implementation with the example.