• 제목/요약/키워드: End-to-end learning

검색결과 1,128건 처리시간 0.03초

대안적 통째학습 기반 저품질 레거시 콘텐츠에서의 문자 인식 알고리즘 (Character Recognition Algorithm in Low-Quality Legacy Contents Based on Alternative End-to-End Learning)

  • 이성진;윤준석;박선후;유석봉
    • 한국정보통신학회논문지
    • /
    • 제25권11호
    • /
    • pp.1486-1494
    • /
    • 2021
  • 문자 인식은 스마트 주차, text to speech 등 최근 다양한 플랫폼에서 필요로 하는 기술로써, 기존의 방법과 달리 새로운 시도를 통하여 그 성능을 향상시키려는 연구들이 진행되고 있다. 그러나 문자 인식에 사용되는 이미지의 품질이 낮을 경우, 문자 인식기 학습용 이미지와 테스트 이미지간에 해상도 차이가 발생하여 정확도가 떨어지는 문제가 발생된다. 이를 해결하기 위해 본 논문은 문자 인식 모델 성능이 다양한 품질 데이터에 대하여 강인하도록 이미지 초해상도 및 문자 인식을 결합한 통째학습 신경망을 설계하고, 대안적 통째학습 알고리즘을 구현하여 통째 신경망 학습을 수행하였다. 다양한 문자 이미지 중 차량 번호판 이미지를 이용하여 대안적 통째학습 및 인식 성능 테스트를 진행하였고, 이를 통해 제안하는 알고리즘의 효과를 검증하였다.

종방향 주행성능향상을 위한 Latent SAC 강화학습 보상함수 설계 (On the Reward Function of Latent SAC Reinforcement Learning to Improve Longitudinal Driving Performance)

  • 조성빈;정한유
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.728-734
    • /
    • 2021
  • 최근 심층강화학습을 활용한 종단간 자율주행에 대한 관심이 크게 증가하고 있다. 본 논문에서는 차량의 종방향 주행 성능을 개선하는 잠재 SAC 기반 심층강화학습의 보상함수를 제시한다. 기존 강화학습 보상함수는 주행 안전성과 효율성이 크게 저하되는 반면 제시하는 보상함수는 전방 차량과의 충돌위험을 회피하면서 적절한 차간거리를 유지할 수 있음을 보인다.

Development of a Low-cost Industrial OCR System with an End-to-end Deep Learning Technology

  • Subedi, Bharat;Yunusov, Jahongir;Gaybulayev, Abdulaziz;Kim, Tae-Hyong
    • 대한임베디드공학회논문지
    • /
    • 제15권2호
    • /
    • pp.51-60
    • /
    • 2020
  • Optical character recognition (OCR) has been studied for decades because it is very useful in a variety of places. Nowadays, OCR's performance has improved significantly due to outstanding deep learning technology. Thus, there is an increasing demand for commercial-grade but affordable OCR systems. We have developed a low-cost, high-performance OCR system for the industry with the cheapest embedded developer kit that supports GPU acceleration. To achieve high accuracy for industrial use on limited computing resources, we chose a state-of-the-art text recognition algorithm that uses an end-to-end deep learning network as a baseline model. The model was then improved by replacing the feature extraction network with the best one suited to our conditions. Among the various candidate networks, EfficientNet-B3 has shown the best performance: excellent recognition accuracy with relatively low memory consumption. Besides, we have optimized the model written in TensorFlow's Python API using TensorFlow-TensorRT integration and TensorFlow's C++ API, respectively.

심층 신경망 기반 대화처리 기술 동향 (Trends in Deep-neural-network-based Dialogue Systems)

  • 권오욱;홍택규;황금하;노윤형;최승권;김화연;김영길;이윤근
    • 전자통신동향분석
    • /
    • 제34권4호
    • /
    • pp.55-64
    • /
    • 2019
  • In this study, we introduce trends in neural-network-based deep learning research applied to dialogue systems. Recently, end-to-end trainable goal-oriented dialogue systems using long short-term memory, sequence-to-sequence models, among others, have been studied to overcome the difficulties of domain adaptation and error recognition and recovery in traditional pipeline goal-oriented dialogue systems. In addition, some research has been conducted on applying reinforcement learning to end-to-end trainable goal-oriented dialogue systems to learn dialogue strategies that do not appear in training corpora. Recent neural network models for end-to-end trainable chit-chat systems have been improved using dialogue context as well as personal and topic information to produce a more natural human conversation. Unlike previous studies that have applied different approaches to goal-oriented dialogue systems and chit-chat systems respectively, recent studies have attempted to apply end-to-end trainable approaches based on deep neural networks in common to them. Acquiring dialogue corpora for training is now necessary. Therefore, future research will focus on easily and cheaply acquiring dialogue corpora and training with small annotated dialogue corpora and/or large raw dialogues.

딥러닝 모형을 사용한 한국어 음성인식 (Korean speech recognition using deep learning)

  • 이수지;한석진;박세원;이경원;이재용
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.213-227
    • /
    • 2019
  • 본 논문에서는 베이즈 신경망을 결합한 종단 간 딥러닝 모형을 한국어 음성인식에 적용하였다. 논문에서는 종단 간 학습 모형으로 연결성 시계열 분류기(connectionist temporal classification), 주의 기제, 그리고 주의 기제에 연결성 시계열 분류기를 결합한 모형을 사용하였으며. 각 모형은 순환신경망(recurrent neural network) 혹은 합성곱신경망(convolutional neural network)을 기반으로 하였다. 추가적으로 디코딩 과정에서 빔 탐색과 유한 상태 오토마타를 활용하여 자모음 순서를 조정한 최적의 문자열을 도출하였다. 또한 베이즈 신경망을 각 종단 간 모형에 적용하여 일반적인 점 추정치와 몬테카를로 추정치를 구하였으며 이를 기존 종단 간 모형의 결괏값과 비교하였다. 최종적으로 본 논문에 제안된 모형 중에 가장 성능이 우수한 모형을 선택하여 현재 상용되고 있는 Application Programming Interface (API)들과 성능을 비교하였다. 우리말샘 온라인 사전 훈련 데이터에 한하여 비교한 결과, 제안된 모형의 word error rate (WER)와 label error rate (LER)는 각각 26.4%와 4.58%로서 76%의 WER와 29.88%의 LER 값을 보인 Google API보다 월등히 개선된 성능을 보였다.

제한된 학습 데이터를 사용하는 End-to-End 음성 인식 모델 (End-to-end speech recognition models using limited training data)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.63-71
    • /
    • 2020
  • 음성 인식은 딥러닝 및 머신러닝 분야에서 활발히 상용화 되고 있는 분야 중 하나이다. 그러나, 현재 개발되고 있는 음성 인식 시스템은 대부분 성인 남녀를 대상으로 인식이 잘 되는 실정이다. 이것은 음성 인식 모델이 대부분 성인 남녀 음성 데이터베이스를 학습하여 구축된 모델이기 때문이다. 따라서, 노인, 어린이 및 사투리를 갖는 화자의 음성을 인식하는데 문제를 일으키는 경향이 있다. 노인과 어린이의 음성을 잘 인식하기 위해서는 빅데이터를 구축하는 방법과 성인 대상 음성 인식 엔진을 노인 및 어린이 데이터로 적응하는 방법 등이 있을 수 있지만, 본 논문에서는 음향적 데이터 증강에 기반한 재귀적 인코더와 언어적 예측이 가능한 transformer 디코더로 구성된 새로운 end-to-end 모델을 제안한다. 제한된 데이터셋으로 구성된 한국어 노인 및 어린이 음성 인식을 통해 제안된 방법의 성능을 평가한다.

조직내 최종사용자의 합목적적인 정보보호 시스템 사용 내재화와 학습, 피드백 추구 행동 연구 (A Study on the Effect of Learning Activities and Feedback Seeking Behavior toward the End Users' Faithful Appropriation of Information Security System)

  • 김민웅;정기주
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제25권3호
    • /
    • pp.117-146
    • /
    • 2016
  • Purpose The purpose of this paper is to examine factors and mechanism inducing end users' faithful appropriation of information security behavior through the information security system. This study is also trying to find out the role of Employees' adaptive activities like learning and feedback seeking behavior for the information security in organizations. Design/methodology/approach An empirical study was carried out with a sample of employees working in the financial service company. Employees(n = 268) completed a written questionnaire. Structural equation modeling was used to analyze the data. Findings Results indicated that employees' learning activities and feedback seeking behavior fully mediated the effect of major information security factors toward end users' faithfulness of appropriation of information security systems. In order to increase the level of employees information security behavior in accordance with security guideline, organizations should facilitate interactions that support the feedback seeking process between employees on information security awareness and behavior. Additionally, organizations may reinforce these behaviors by periodical training and adopting bounty hunter systems.

측위 안정화를 위한 End to End 기반의 Wi-Fi RTT 네트워크 구조 설계 (End-to-end-based Wi-Fi RTT network structure design for positioning stabilization)

  • 성주현
    • 한국멀티미디어학회논문지
    • /
    • 제24권5호
    • /
    • pp.676-683
    • /
    • 2021
  • Wi-Fi Round-trip timing (RTT) based location estimation technology estimates the distance between the user and the AP based on the transmission and reception time of the signal. This is because reception instability and signal distortion are greater than that of a Received Signal Strength Indicator (RSSI) based fingerprint in an indoor NLOS environment, resulting in a large position error due to multipath fading. To solve this problem, in this paper, we propose an end-to-end based WiFi Trilateration Net (WTN) that combines neural network-based RTT correction and trilateral positioning network, respectively. The proposed WTN is composed of an RNN-based correction network to improve the RTT distance accuracy and a neural network-based trilateral positioning network for real-time positioning implemented in an end-to-end structure. The proposed network improves learning efficiency by changing the trilateral positioning algorithm, which cannot be learned through differentiation due to mathematical operations, to a neural network. In addition, in order to increase the stability of the TOA based RTT, a correction network is applied in the scanning step to collect reliable distance estimation values from each RTT AP.

스마트 그리드 시스템을 위한 전력선 통신 시스템의 종단 간 방식의 간섭 제거 기법 (Interference Cancellation Scheme of End-to-End Method in Power Line Communication System for Smart Grid)

  • 서성일
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.41-45
    • /
    • 2019
  • 본 논문은 스마트 그리드를 위한 전력선 통신 시스템에서 데이터 신뢰성을 향상시키는 딥러닝 기반의 종단 간 방식의 간섭 제거 알고리즘에 대해 연구하였다. 본 논문에서 제안한 기법은 딥러닝 기술을 적용하여 채널에서 발생하는 잡음을 예측하여 제거하는 기술로서 수신단에서 딥러닝에 의해 학습된 잡음들을 활용하여 효과적으로 잡음을 제거함으로써 신호의 품질을 향상시킬 수 있다. 딥러닝 기술의 잡음 예측 정확도를 향상시키기 위해 기존의 잡음 형태를 데이터베이스화하여 활용하였다. 채널 모델로서 Middleton Class A 간섭 모델을 사용하였고, 비트 오류율을 평가하여 성능을 검증하였다. 모의실험을 통해 간섭 제거 기법이 적용된 시스템 모델과 이론적인 모델의 비트오류율을 비교하여 제안하는 시스템이 잡음을 효과적으로 제거하여 신호의 품질 성능을 향상시킬 수 있음을 확인하였다. 제안한 시스템 모델은 전력선 통신뿐만 아니라 일반적인 통신 시스템에서도 신호의 품질을 향상시킬 수 있도록 다양하게 적용이 가능하다.

CCTV 영상의 이상행동 다중 분류를 위한 결합 인공지능 모델에 관한 연구 (A Study on Combine Artificial Intelligence Models for multi-classification for an Abnormal Behaviors in CCTV images)

  • 이홍래;김영태;서병석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.498-500
    • /
    • 2022
  • CCTV는 위험 상황을 파악하고 신속히 대응함으로써, 인명과 자산을 안전하게 보호한다. 하지만, 점점 많아지는 CCTV 영상을 지속적으로 모니터링하기는 어렵다. 이런 이유로 CCTV 영상을 지속적으로 모니터링하면서 이상행동이 발생했을 때 알려주는 장치가 필요하다. 최근 영상데이터 분석에 인공지능 모델을 활용한 많은 연구가 이루어지고 있다. 본 연구는 CCTV 영상에서 관측할 수 있는 다양한 이상 행동을 분류하기 위해 영상데이터 사이의 공간적, 시간적 특성 정보를 동시에 학습한다. 학습에 이용되는 인공지능 모델로 End-to-End 방식의 3D-Convolution Neural Network(CNN)와 ResNet을 결합한 다중 분류 딥러닝 모델을 제안한다.

  • PDF