• 제목/요약/키워드: CRNN

검색결과 20건 처리시간 0.023초

심층신경망을 이용한 시간 영역 음향 이벤트 검출 알고리즘 (Time-domain Sound Event Detection Algorithm Using Deep Neural Network)

  • 김범준;문현기;박성욱;정영호;박영철
    • 방송공학회논문지
    • /
    • 제24권3호
    • /
    • pp.472-484
    • /
    • 2019
  • 본 논문에서는 심층신경망을 이용한 시간 영역 음향 이벤트 검출 알고리즘을 제시한다. 본 시스템에서는 주파수 영역으로 변환되지 않은 시간 영역의 음향 데이터를 심층신경망의 입력으로 사용한다. 전반적인 구조는 CRNN 구조를 사용하였으며, GLU, ResNet, Squeeze-and-excitation 블럭을 적용하였다. 그리고 여러 계층에서 추출된 특징을 함께 고려하는 구조를 제안하였다. 또한 본 연구에서는 강한 라벨이 있는 훈련 데이터를 확보하는 것이 현실적으로 어렵다는 전제 아래에서 약한 라벨이 있는 훈련 데이터 약간 그리고 다수의 라벨이 없는 훈련 데이터를 활용하여 훈련을 수행하였다. 적은 수의 훈련 데이터를 효과적으로 사용하기 위해 타임 스트레칭, 피치 변화, 동적 영역 압축, 블럭 혼합 등의 데이터 증강 방법을 적용하였다. 라벨이 없는 데이터에는 의사 라벨을 붙여 부족한 훈련 데이터를 보완하였다. 본 논문에서 제안한 신경망과 데이터 증강 방법을 사용하는 경우, 종래의 방식으로 CRNN 구조의 신경망을 훈련하여 사용하는 경우보다, 음향 이벤트 검출 성능이 약 6 % (f-score 기준)가 개선되었다.

지역 및 광역 리커런트 신경망을 이용한 비선형 적응예측 (Nonlinear Adaptive Prediction using Locally and Globally Recurrent Neural Networks)

  • 최한고
    • 대한전자공학회논문지SP
    • /
    • 제40권1호
    • /
    • pp.139-147
    • /
    • 2003
  • 동적 신경망은 신호예측과 같이 temporal 신호처리가 요구되는 여러 분야에 적용되어 왔다. 본 논문에서는 다층 리커런트 신경망(RNN)의 동특성을 향상시키기 위해 지역 궤환 신경망(LRNN)과 광역 궤환 신경망(CRNN)으로 구성된 합성 신경망을 제안하고, 적응필터로 제안된 신경망을 사용하여 비선형 적응예측을 다루고 있다. 합성 신경망은 LRNN으로 IIR-MLP와 CRNN으로 Elman RNN 신경망으로 구성되어 있다. 제안된 신경망은 비선형 신호예측을 통해 평가되었으며, 예측 성능의 상대적인 비교를 위해 Elman RNN과 IIR-MLP 신경망과 상호 비교하였다. 실험결과에 의하면 합성 신경망은 수렴속도과 정확도에서 더 우수한 성능을 보여줌으로써, 제안된 신경망이 기존의 다층 리커런트 신경망보다 비정적 신호에 대한 비선형 예측에 더 효과적인 예측모델임을 확인하였다.

차분 특징을 이용한 평균-교사 모델의 음향 이벤트 검출 성능 향상 (Performance Improvement of Mean-Teacher Models in Audio Event Detection Using Derivative Features)

  • 곽진열;정용주
    • 한국전자통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.401-406
    • /
    • 2021
  • 최근 들어, 음향 이벤트 검출을 위하여 CRNN(: Convolutional Recurrent Neural Network) 구조에 기반 한 평균-교사 모델이 대표적으로 사용되고 있다. 평균-교사 모델은 두 개의 병렬 형태의 CRNN을 가진 구조이며, 이들의 출력들의 일치성을 학습 기준으로 사용함으로서 약-전사 레이블(label)과 비-전사 레이블 음향 데이터에 대해서도 효과적인 학습이 가능하다. 본 연구에서는 최신의 평균-교사 모델에 로그-멜 스펙트럼에 대한 차분 특징을 추가적으로 사용함으로서 보다 나은 성능을 이루고자 하였다. DCASE 2018/2019 Challenge Task 4용 학습 및 테스트 데이터를 이용한 음향 이벤트 검출 실험에서 제안된 차분특징을 이용한 평균-교사모델은 기존의 방식에 비해서 최대 8.1%의 상대적 ER(: Error Rate)의 향상을 얻을 수 있었다.

피부암 병변 분류를 위한 SCLC-Edge 검출 알고리즘 (SCLC-Edge Detection Algorithm for Skin Cancer Classification)

  • 박준영;김창민;박찬홍
    • 융합신호처리학회논문지
    • /
    • 제23권4호
    • /
    • pp.256-263
    • /
    • 2022
  • 피부암은 세계에서 가장 흔한 질병 중 하나로 국내에선 발병률이 지난 5년 동안 약 100%가 증가했고 미국에선 매년 500만여 명이 피부암을 진단받는다. 피부암은 주로 자외선의 노출로 피부 조직이 오랜 시간 손상되면서 발생하게 된다. 피부암의 악성종양인 흑색종은 피부 위에서 발생하는 멜라닌 세포 모반과 생김새가 유사해 2차 징후가 발생하지 않는 한 일반인이 자각하기 어려운 점이 있다. 본 논문에서는 이러한 피부암의 조기 발견과 분류를 위해 피부암 병변 윤곽선 검출 알고리즘과 피부암 병변 분류를 수행하는 딥러닝 모델인 CRNN을 제안한다. 실험 결과 본 논문에서 제안하는 윤곽선 검출 알고리즘을 이용할 시 분류 정확도가 97%로 가장 높은 정확도를 보였고 Canny 알고리즘의 경우 78%를 보였고 Sobel의 경우 55%, Laplacian의 경우 46%를 보였다.

CTC를 적용한 CRNN 기반 한국어 음소인식 모델 연구 (CRNN-Based Korean Phoneme Recognition Model with CTC Algorithm)

  • 홍윤석;기경서;권가진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.115-122
    • /
    • 2019
  • 지금까지의 한국어 음소 인식에는 은닉 마르코프-가우시안 믹스쳐 모델(HMM-GMM)이나 인공신경망-HMM을 결합한 하이브리드 시스템이 주로 사용되어 왔다. 하지만 이 방법은 성능 개선 여지가 적으며, 전문가에 의해 제작된 강제정렬(force-alignment) 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 이 모델의 문제로 인해 타 언어를 대상으로 한 음소 인식 연구에서는 이 단점을 보완하기 위해 순환 신경망(RNN) 계열 구조와 Connectionist Temporal Classification(CTC) 알고리즘을 결합한 신경망 기반 음소 인식 모델이 연구된 바 있다. 그러나 RNN 계열 모델을 학습시키기 위해 많은 음성 말뭉치가 필요하고 구조가 복잡해질 경우 학습이 까다로워, 정제된 말뭉치가 부족하고 기반 연구가 비교적 부족한 한국어의 경우 사용에 제약이 있었다. 이에 본 연구는 강제정렬이 불필요한 CTC 알고리즘을 도입하되, RNN에 비해 더 학습 속도가 빠르고 더 적은 말뭉치로도 학습이 가능한 합성곱 신경망(CNN)을 기반으로 한국어 음소 인식 모델을 구축하여 보고자 시도하였다. 총 2가지의 비교 실험을 통해 본 연구에서는 한국어에 존재하는 49가지의 음소를 판별하는 음소 인식기 모델을 제작하였으며, 실험 결과 최종적으로 선정된 음소 인식 모델은 CNN과 3층의 Bidirectional LSTM을 결합한 구조로, 이 모델의 최종 PER(Phoneme Error Rate)은 3.26으로 나타났다. 이는 한국어 음소 인식 분야에서 보고된 기존 선행 연구들의 PER인 10~12와 비교하면 상당한 성능 향상이라고 할 수 있다.

회귀예측 신경모델과 카오스 신경회로망을 결합한 고립 숫자음 인식 (Isolated Digit Recognition Combined with Recurrent Neural Prediction Models and Chaotic Neural Networks)

  • 김석현;여지환
    • 한국지능시스템학회논문지
    • /
    • 제8권6호
    • /
    • pp.129-135
    • /
    • 1998
  • 본 논문은 서러 다른 접근방식을 사용하는 카오스 회귀 신경예측모델과 다층 신경회로망이 결합하여 고립음의 인식률을 높이고자 하였다. 전반적으로 다층신경회로망은 MLP와 결합한 인식률은 1.2%에서 2.5% 이상이 개선 되었다. 이는 서로 인식하는 방법이 다르기 때문에 서로 상호 보완되고, 카오스의 다이내믹 성질이 인식률을 개선시켰음을 실험으로 밝혔다. MLP와 결합한 인식률은 카오스 다층신경망일 때가 가장 좋았다. 그러나 학습시 알고리즘이 단순하고, 신뢰도 면에서는 오히려 카오스 단층 신경망이 인식률은 0.5%정도 떨어지지만 더욱 좋다고 생각된다. 주로 MLP는 숫자음 “일”과 “오”에서 우수한 성적을 나타내었고, 카오스 예측 신경망은 숫자음 “영”, “삼”, “칠”에서 우수하였다.

  • PDF

심층신경망을 이용한 PCB 부품의 인쇄문자 인식 (Recognition of Characters Printed on PCB Components Using Deep Neural Networks)

  • 조태훈
    • 반도체디스플레이기술학회지
    • /
    • 제20권3호
    • /
    • pp.6-10
    • /
    • 2021
  • Recognition of characters printed or marked on the PCB components from images captured using cameras is an important task in PCB components inspection systems. Previous optical character recognition (OCR) of PCB components typically consists of two stages: character segmentation and classification of each segmented character. However, character segmentation often fails due to corrupted characters, low image contrast, etc. Thus, OCR without character segmentation is desirable and increasingly used via deep neural networks. Typical implementation based on deep neural nets without character segmentation includes convolutional neural network followed by recurrent neural network (RNN). However, one disadvantage of this approach is slow execution due to RNN layers. LPRNet is a segmentation-free character recognition network with excellent accuracy proved in license plate recognition. LPRNet uses a wide convolution instead of RNN, thus enabling fast inference. In this paper, LPRNet was adapted for recognizing characters printed on PCB components with fast execution and high accuracy. Initial training with synthetic images followed by fine-tuning on real text images yielded accurate recognition. This net can be further optimized on Intel CPU using OpenVINO tool kit. The optimized version of the network can be run in real-time faster than even GPU.

119 소방차 출동 시 실시간 교통상황 분석 및 화재유형 인공지능 적용 연구 (Real-time traffic situation analysis and fire type artificial intelligence application study when 119 fire trucks are dispatched Intelligence research)

  • 이한영;박대우
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.222-224
    • /
    • 2022
  • 우리나라는 매년 2천껀이상의 화재와 매년 2천명 이상의 인명피해가 발생하고 있다. 본 연구는 AI드론이 소방차가 화재현장에 도착하기 전에 실시간 영상 이미지판독 YOLO5를 사용하여 차량이나 입간판등을 판단하여 119소방차의 집입을 원활히 할 수 있도록 조치를 취한다. 화재현장을 촬영하여 현장상황을 송출하고 연기의 성분을 분석하여 화재유형을 판단하여 화재진압시 시간을 단축 시킬 수 있다. 이로 인해 골든타임을 지켜 인명피해를 최소화 할 수 있을것으로 기대한다.

  • PDF

음향 기반 물 사용 활동 감지용 엣지 컴퓨팅 시스템 (The Edge Computing System for the Detection of Water Usage Activities with Sound Classification)

  • 현승호;지영준
    • 대한의용생체공학회:의공학회지
    • /
    • 제44권2호
    • /
    • pp.147-156
    • /
    • 2023
  • Efforts to employ smart home sensors to monitor the indoor activities of elderly single residents have been made to assess the feasibility of a safe and healthy lifestyle. However, the bathroom remains an area of blind spot. In this study, we have developed and evaluated a new edge computer device that can automatically detect water usage activities in the bathroom and record the activity log on a cloud server. Three kinds of sound as flushing, showering, and washing using wash basin generated during water usage were recorded and cut into 1-second scenes. These sound clips were then converted into a 2-dimensional image using MEL-spectrogram. Sound data augmentation techniques were adopted to obtain better learning effect from smaller number of data sets. These techniques, some of which are applied in time domain and others in frequency domain, increased the number of training data set by 30 times. A deep learning model, called CRNN, combining Convolutional Neural Network and Recurrent Neural Network was employed. The edge device was implemented using Raspberry Pi 4 and was equipped with a condenser microphone and amplifier to run the pre-trained model in real-time. The detected activities were recorded as text-based activity logs on a Firebase server. Performance was evaluated in two bathrooms for the three water usage activities, resulting in an accuracy of 96.1% and 88.2%, and F1 Score of 96.1% and 87.8%, respectively. Most of the classification errors were observed in the water sound from washing. In conclusion, this system demonstrates the potential for use in recording the activities as a lifelog of elderly single residents to a cloud server over the long-term.

관심 문자열 인식 기술을 이용한 가스계량기 자동 검침 시스템 (Automatic gasometer reading system using selective optical character recognition)

  • 이교혁;김태연;김우주
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.1-25
    • /
    • 2020
  • 본 연구에서는 모바일 기기를 이용하여 획득한 가스계량기 사진을 서버로 전송하고, 이를 분석하여 가스 사용량 및 계량기 기물 번호를 인식함으로써 가스 사용량에 대한 과금을 자동으로 처리할 수 있는 응용 시스템 구조를 제안하고자 한다. 모바일 기기는 일반인들이 사용하는 스마트 폰에 준하는 기기를 사용하였으며, 획득한 이미지는 가스 공급사의 사설 LTE 망을 통해 서버로 전송된다. 서버에서는 전송받은 이미지를 분석하여 가스계량기 기물 번호 및 가스 사용량 정보를 추출하고, 사설 LTE 망을 통해 분석 결과를 모바일 기기로 회신한다. 일반적으로 이미지 내에는 많은 종류의 문자 정보가 포함되어 있으나, 본 연구의 응용분야인 가스계량기 자동 검침과 같이 많은 종류의 문자 정보 중 특정 형태의 문자 정보만이 유용한 분야가 존재한다. 본 연구의 응용분야 적용을 위해서는 가스계량기 사진 내의 많은 문자 정보 중에서 관심 대상인 기물 번호 및 가스 사용량 정보만을 선별적으로 검출하고 인식하는 관심 문자열 인식 기술이 필요하다. 관심 문자열 인식을 위해 CNN (Convolutional Neural Network) 심층 신경망 기반의 객체 검출 기술을 적용하여 이미지 내에서 가스 사용량 및 계량기 기물번호의 영역 정보를 추출하고, 추출된 문자열 영역 각각에 CRNN (Convolutional Recurrent Neural Network) 심층 신경망 기술을 적용하여 문자열 전체를 한 번에 인식하였다. 본 연구에서 제안하는 관심문자열 기술 구조는 총 3개의 심층 신경망으로 구성되어 있다. 첫 번째는 관심 문자열 영역을 검출하는 합성곱신경망이고, 두 번째는 관심 문자열 영역 내의 문자열 인식을 위해 영역 내의 이미지를 세로 열 별로 특징 추출하는 합성곱 신경망이며, 마지막 세 번째는 세로 열 별로 추출된 특징 벡터 나열을 문자열로 변환하는 시계열 분석 신경망이다. 관심 문자열은 12자리 기물번호 및 4 ~ 5 자리 사용량이며, 인식 정확도는 각각 0.960, 0.864 이다. 전체 시스템은 Amazon Web Service 에서 제공하는 클라우드 환경에서 구현하였으며 인텔 제온 E5-2686 v4 CPU 및 Nvidia TESLA V100 GPU를 사용하였다. 1일 70만 건의 검침 요청을 고속 병렬 처리하기 위해 마스터-슬레이브 처리 구조를 채용하였다. 마스터 프로세스는 CPU 에서 구동되며, 모바일 기기로 부터의 검침 요청을 입력 큐에 저장한다. 슬레이브 프로세스는 문자열 인식을 수행하는 심층 신경망으로써, GPU에서 구동된다. 슬레이브 프로세스는 입력 큐에 저장된 이미지를 기물번호 문자열, 기물번호 위치, 사용량 문자열, 사용량 위치 등으로 변환하여 출력 큐에 저장한다. 마스터 프로세스는 출력 큐에 저장된 검침 정보를 모바일 기기로 전달한다.