• 제목/요약/키워드: 시간 컨볼루션 네트워크

검색결과 10건 처리시간 0.021초

이상 호흡음 탐지를 위한 딥러닝 활용 (Harnessing Deep Learning for Abnormal Respiratory Sound Detection)

  • 변규린;양희규;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.641-643
    • /
    • 2023
  • Deep Learning(DL)을 사용한 호흡음의 자동 분석은 폐 질환의 조기 진단에 중추적인 역할을 한다. 그러나 현재의 DL 방법은 종종 호흡음의 공간적 및 시간적 특성을 분리하여 검사하기 때문에 한계가 있다. 본 연구는 컨볼루션 연산을 통해 공간적 특징을 캡처하고 시간 컨볼루션 네트워크를 사용하여 이러한 특징의 공간적-시간적 상관 관계를 활용하는 새로운 DL 프레임워크를 제한한다. 제안된 프레임워크는 앙상블 학습 접근법 내에 컨볼루션 네트워크를 통합하여 폐음 녹음에서 호흡 이상 및 질병을 검출하는 정확도를 크게 향상시킨다. 잘 알려진 ICBHI 2017 챌린지 데이터 세트에 대한 실험은 제안된 프레임워크가 호흡 이상 및 질병 검출을 위한 4-Class 작업에서 비교모델 성능보다 우수함을 보여준다. 특히 민감도와 특이도를 나타내는 점수 메트릭 측면에서 최대 45.91%와 14.1%의 개선이 이진 및 다중 클래스 호흡 이상 감지 작업에서 각각 보여준다. 이러한 결과는 기존 기술보다 우리 방법의 두드러진 이점을 강조하여 호흡기 의료 기술의 미래 혁신을 주도할 수 있는 잠재력을 보여준다.

동작 인식을 위한 교사-학생 구조 기반 CNN (Teacher-Student Architecture Based CNN for Action Recognition)

  • ;이효종
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권3호
    • /
    • pp.99-104
    • /
    • 2022
  • 대부분 첨단 동작 인식 컨볼루션 네트워크는 RGB 스트림과 광학 흐름 스트림, 양 스트림 아키텍처를 기반으로 하고 있다. RGB 프레임 스트림은 모양 특성을 나타내고 광학 흐름 스트림은 동작 특성을 해석한다. 그러나 광학 흐름은 계산 비용이 매우 높기 때문에 동작 인식 시간에 지연을 초래한다. 이에 양 스트림 네트워크와 교사-학생 아키텍처에서 영감을 받아 행동 인식을 위한 새로운 네트워크 디자인을 개발하였다. 제안 신경망은 두 개의 하위 네트워크로 구성되어있다. 즉, 교사 역할을 하는 광학 흐름 하위 네트워크와 학생 역할을 하는 RGB 프레임 하위 네트워크를 연결하였다. 훈련 단계에서 광학 흐름의 특징을 추출하고 교사 서브 네트워크를 훈련시킨 다음 그 특징을 학생 서브 네트워크를 훈련시키기 위한 기준선으로 지정하여 학생 서브 네트워크에 전송한다. 테스트 단계에서는 광학 흐름을 계산하지 않고 대기 시간이 줄어들도록 학생 네트워크만 사용한다. 제안 네트워크는 실험을 통하여 정확도 면에서 일반 이중 스트림 아키텍처에 비해 높은 정확도를 보여주는 것을 확인하였다.

OpenCL을 이용한 랜더링 노이즈 제거를 위한 뉴럴 네트워크 가속기 구현 (Implementation of Neural Network Accelerator for Rendering Noise Reduction on OpenCL)

  • 남기훈
    • 문화기술의 융합
    • /
    • 제4권4호
    • /
    • pp.373-377
    • /
    • 2018
  • 본 논문에서는 OpenCL을 이용한 랜더링 노이즈 제거를 위한 가속기 구현을 제안한다. 렌더링 알고리즘 중에 고품질 그래픽스를 보장하는 레이트레이싱을 선택하였다. 레이 트레이싱은 레이를 사용하여 렌더링하는데 레이를 적게 사용하면 노이즈가 발생한다. 레이를 많이 사용하게 되면 고화질의 이미지를 생성할 수 있으나 연산 시간이 상대적으로 길어지게 된다. 레이를 적게 사용하면서 연산시간을 줄이기 위해 뉴럴 네트워크를 이용한 LBF(Learning Based Filtering) 알고리즘을 적용하였다. 뉴럴 네트워크를 사용한다고 해서 항상 최적의 결과가 나오지는 않는다. 본 논문에서는 성능향상을 위해 일반적인 행렬 곱셈을 기반으로 하는 새로운 기법의 행렬 곱셈 접근법을 제시하였다. 개발환경으로는 고속병렬 처리가 특화된 OpneCL을 사용하였다. 제안하는 구조는 Kintex UltraScale XKU690T-2FDFG1157C FPGA 보드에서 검증하였다. 하나의 픽셀에 사용되는 파라미터를 계산 시간은 Verilog-HDL 구조보다 약 1.12배 빠른 것으로 확인했다.

최적화된 쿼드트리를 이용한 2차원 연기 데이터의 효율적인 슈퍼 해상도 기법 (Efficient Super-Resolution of 2D Smoke Data with Optimized Quadtree)

  • 최유연;김동희;김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.261-264
    • /
    • 2021
  • 본 논문에서는 SR(Super-Resolution)을 계산하는데 필요한 데이터를 효율적으로 분류하고 분할하여 빠르게 SR연산을 가능하게 하는 쿼드트리 기반 최적화 기법을 제안한다. 제안하는 방법은 입력 데이터로 사용하는 연기 데이터를 다운스케일링(Downscaling)하여 쿼드트리 연산 소요 시간을 감소시키며, 이때 연기의 밀도를 이진화함으로써, 다운스케일링 과정에서 밀도가 손실되는 문제를 피한다. 학습에 사용된 데이터는 COCO 2017 Dataset이며, 인공신경망은 VGG19 기반 네트워크를 사용한다. 컨볼루션 계층을 거칠 때 데이터의 손실을 막기 위해 잔차(Residual)방식과 유사하게 이전 계층의 출력 값을 더해주며 학습한다. 결과적으로 제안하는 방법은 이전 결과 기법에 비해 약15~18배 정도의 속도향상을 얻었다.

  • PDF

A New Residual Attention Network based on Attention Models for Human Action Recognition in Video

  • Kim, Jee-Hyun;Cho, Young-Im
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.55-61
    • /
    • 2020
  • 딥 러닝 기술의 발전과 컴퓨팅 파워 등의 개선으로 인해 비디오 기반 연구는 최근 많은 관심을 얻고 있다. 비디오 데이터가 이미지 데이터와 비교하여 가장 큰 차이는 비디오 데이터에는 많은 양의 시간적, 공간적 정보가 포함되어 있다는 점이다. 이처럼 비디오에 포함된 많은 양의 데이터로 인해 컴퓨터 비전 연구에 있어서 행동 인식은 중요한 연구 과제 중 하나이지만, 비디오와 같이 움직임이 있는 환경에서 인간의 행동 인식은 매우 복잡하고 도전적인 과제이다. 인간에 대한 여러 연구를 바탕으로 인공지능에서는 인간과 유사한 주의(attention)메커니즘이 효율적인 인식 모델이라는 것을 알게 되었다. 이 효율적인 모델은 이미지 정보와 복잡한 연속 비디오 정보를 처리하는 데 이상적이다. 본 논문에서는 이러한 연구배경을 기반으로, 비디오에서 인간의 행동을 효율적으로 인식하기 위해 먼저 인간의 행동에 주목한 후 비디오 행동 인식에 주의메커니즘을 도입하고자 한다. 논문의 주요내용은 두 가지 주의 메카니즘을 기반으로 컨볼루션 신경망을 이용한 새로운 3D 잔류 주의 네트워크를 제안함으로써 비디오에서 인간의 행동을 식별하고자 한다. 제안 모델의 평가 결과 최대 90.7%정도의 정확도를 보였다.

효율적인 교통 체계 구축을 위한 Conv-LSTM기반 사거리 모델링 및 교통 체증 예측 알고리즘 연구 (Conv-LSTM-based Range Modeling and Traffic Congestion Prediction Algorithm for the Efficient Transportation System)

  • 이승용;서부원;박승민
    • 한국전자통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.321-327
    • /
    • 2023
  • 인공 지능이 발전함에 따라 예측 시스템은 우리의 삶에 필수적인 기술 중 하나로 자리를 잡았다. 이러한 기술의 성장에도 불구하고, 21세기 사거리 교통 체증은 계속해서 문제 되어 왔다. 본 논문에서는 Conv-LSTM(: Convolutional-Long Short-Term Memory) 알고리즘을 이용한 사거리 교통 체증 예측 시스템을 제안한다. 제안한 시스템은 교통 체증이 발생하는 사거리에 시간대별 교통 정보를 학습한 데이터를 모델링 한다. 시간의 흐름에 따라 기록된 교통량 데이터로 교통 체증을 예측하며. 예측된 결과를 기반으로 사거리 교통 신호를 제어하고, 일정한 교통량으로 유지한다. VDS(: Vehicle Detection System)센서를 활용하여 도로 혼잡도 데이터를 정의하고, 교통을 원활하게 하기 위하여 각각의 교차로를 Conv-LSTM 알고리즘기반 네트워크 시스템으로 구성하였다.

Multiple Binarization Quadtree Framework for Optimizing Deep Learning-Based Smoke Synthesis Method

  • Kim, Jong-Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.47-53
    • /
    • 2021
  • 본 논문에서는 초해상도(Super-Resolution, SR)을 계산하는데 필요한 물리 기반 시뮬레이션 데이터를 효율적으로 분류하고 분할하여 빠르게 SR연산을 가능하게 하는 쿼드트리 기반 최적화 기법을 제안한다. 제안하는 방법은 입력 데이터로 사용하는 연기 시뮬레이션 데이터를 다운스케일링(Downscaling)하여 쿼드트리 연산 소요 시간을 대폭 감소시킨다. 이 과정에서 연기의 밀도를 이진화함으로써, 다운스케일링 과정에서 밀도가 수치 손실되는 문제를 완화하며 쿼드트리를 구축한다. 학습에 사용된 데이터는 COCO 2017 데이터 셋이며, 인공신경망은 VGG19 기반 네트워크를 사용한다. 컨볼루션 계층을 거칠 때 데이터의 손실을 막기 위해 잔차(Residual) 보완 방식과 유사하게 이전 계층의 출력 값을 더해주며 학습을 진행한다. 실험결과가 연기의 경우 제안된 방법은 이전 접근법에 비해 약 15~18배 정도의 속도향상을 얻었다.

VVC 화면 내 예측에서의 딥러닝 기반 예측 블록 개선을 통한 부호화 효율 향상 기법 (Accurate Prediction of VVC Intra-coded Block using Convolutional Neural Network)

  • 정혜선;강제원
    • 방송공학회논문지
    • /
    • 제27권4호
    • /
    • pp.477-486
    • /
    • 2022
  • 본 논문에서는 컨볼루션 신경망 네트워크를 이용하여 VVC 화면 내 예측으로 얻은 예측 블록을 개선하여 잔차 신호를 보다 줄이는 화면 내 예측 방법을 제안한다. 기존의 화면 내 예측 방법은 일부 고정 규칙을 기반으로 주변의 재구성된 참조 샘플로부터 예측 블록을 생성하므로 복잡한 콘텐츠의 예측 블록을 생성하기 어렵다는 한계가 있다. 또한, 참조 샘플로 이용할 수 있는 정보의 양이 시간적 주변 정보에 비해 적기 때문에 화면 간 예측보다 낮은 부호화 성능을 가진다. 본 연구에서는 앞서 언급한 문제를 해결하기 위해 기존의 비디오 부호화 과정의 화면 내 예측을 통해 생성되는 예측 블록에 CNN을 적용하여 원본 블록과 예측 블록의 차분 신호를 줄이는 화면 내 예측 방법을 제안한다. 부호기에서는 제안 알고리즘의 활성 여부를 나타내는 플래그가 함께 부호화된다. 제안하는 화면 내 예측 방법은 최신 비디오 압축 표준인 Versatile Video Coding의 참조 모델인 VTM version 10.0 대비 휘도 성분에 대하여 향상된 압축 성능을 제공한다.

A Temporal Convolutional Network for Hotel Demand Prediction Based on NSGA3 Feature Selection

  • Keehyun Park;Gyeongho Jung;Hyunchul Ahn
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권10호
    • /
    • pp.121-128
    • /
    • 2024
  • 수요 예측은 관광 산업에서 수익 관리의 중요한 요소이다. 2010년대 이후 관광 산업의 세계화와 SNS와 같은 다양한 형태의 마케팅 및 정보 공유가 증가함에 따라 비선형 활동과 비정형 정보로 인해 예측이 어려워졌다. 이러한 문제를 해결하기 위한 다양한 예측 모델이 연구되었으며, 기계 학습(ML) 모델이 효과적으로 사용되었다. 본 연구에서는 특징 선택 기법(NSGA3)을 시계열 모델에 적용하고 성능을 비교하였다. 호텔 수요 예측에서 TCN 모델은 MAPE 9.73%로, 특징 선택을 적용하지 않았을 때보다 7.05% 성능이 향상된 높은 예측 성능을 보였다. 본 연구 결과는 향상된 예측 성능을 통해 의사결정 지원에 유용할 것으로 기대된다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.