• 제목/요약/키워드: LSTM-RNN

검색결과 203건 처리시간 0.029초

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation (Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction)

  • 최준휘;류성한;유환조;이근배
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.211-216
    • /
    • 2016
  • 현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.

  • PDF

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation (Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction)

  • 최준휘;류성한;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.211-216
    • /
    • 2016
  • 현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.

  • PDF

검색어 생성을 위한 딥 러닝 기반 문장 분석 연구 (Deep Learning based Sentence Analysis for Query Generation)

  • 나성원;윤경로
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.336-337
    • /
    • 2018
  • 최근 이미지의 Visual 정보를 추출하고 Multi label 분류를 통해 나온 결과의 상관관계를 modeling하여 문장으로 출력하는 CNN-RNN 아키텍처가 많은 발전을 이뤘다. 이 아키텍처의 출력은 이미지의 정보가 요약되어 문장으로 표현되기 때문에 Semantic정보가 풍부하여 유사 콘텐츠 검색에도 사용 가능하다. 하지만 결과 문장에 사람이 포함 되면 광범위한 검색 결과를 얻게 되고 부정확한 결과를 초래하게 된다. 이에 본 논문에서는 문장에서 사람을 인식하여 Identity를 부여함으로써 검색어를 좀 더 구체적으로 생성하고자 한다. 이 문제를 해결하기 위해 자연어 처리의 분야 중 하나인 개체명 인식(Named Entity Recognition) 문제로 다루며, 가장 많이 사용되고 있는 모델인 Bidirectional-LSTM-CRF와 CoNLL2003 dataset을 사용하여 수행 한다.

  • PDF

Two-dimensional attention-based multi-input LSTM for time series prediction

  • Kim, Eun Been;Park, Jung Hoon;Lee, Yung-Seop;Lim, Changwon
    • Communications for Statistical Applications and Methods
    • /
    • 제28권1호
    • /
    • pp.39-57
    • /
    • 2021
  • Time series prediction is an area of great interest to many people. Algorithms for time series prediction are widely used in many fields such as stock price, temperature, energy and weather forecast; in addtion, classical models as well as recurrent neural networks (RNNs) have been actively developed. After introducing the attention mechanism to neural network models, many new models with improved performance have been developed; in addition, models using attention twice have also recently been proposed, resulting in further performance improvements. In this paper, we consider time series prediction by introducing attention twice to an RNN model. The proposed model is a method that introduces H-attention and T-attention for output value and time step information to select useful information. We conduct experiments on stock price, temperature and energy data and confirm that the proposed model outperforms existing models.

Machine Learning based Bandwidth Prediction for Dynamic Adaptive Streaming over HTTP

  • Yoo, Soyoung;Kim, Gyeongryeong;Kim, Minji;Kim, Yeonjin;Park, Soeun;Kim, Dongho
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.33-48
    • /
    • 2020
  • By Digital Transformation, new technologies like ML (Machine Learning), Big Data, Cloud, VR/AR are being used to video streaming technology. We choose ML to provide optimal QoE (Quality of Experience) in various network conditions. In other words, ML helps DASH in providing non-stopping video streaming. In DASH, the source video is segmented into short duration chunks of 2-10 seconds, each of which is encoded at several different bitrate levels and resolutions. We built and compared the performances of five prototypes after applying five different machine learning algorithms to DASH. The prototype consists of a dash.js, a video processing server, web servers, data sets, and five machine learning models.

인공지능 기반 혈당 데이터 예측 및 데이터 무결성 보장 연구 (Predicting Blood Glucose Data and Ensuring Data Integrity Based on Artificial Intelligence)

  • 이태강
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.201-203
    • /
    • 2022
  • 최근 5년간 당뇨병으로 진료받은 환자가 322만 명으로 27.7% 증가하였으며 여전히 손가락 채혈을 통해 혈당을 확인하므로 연속적인 혈당 측정과 혈당 피크 확인이 어렵고 고통스러워한다. 이를 해결하기 위해 14일 간 측정한 혈당 데이터를 기반으로 인공지능 기술을 사용하여 3개월간의 혈당 예측 데이터를 당뇨 환자들에게 제공해준다.

  • PDF

시계열 예측을 고려한 속성 선택 딥러닝 모델 (Feature Selection Deep Learning Model considering Time Series Prediction)

  • 박광호;;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.509-512
    • /
    • 2021
  • 최근 다양한 시계열 데이터의 분석이 딥러닝 방법을 통하여 수행되고 있다. 주로 RNN과 LSTM을 이용하여 많은 시계열 예측이 이루어지고 있다. 하지만 이러한 예측모델을 생성하는데 가장 중요한 것은 어떠한 변수를 얼마나 사용하는지가 중요하다. 이에 대하여, 본 연구에서는 3개의 신경망을 적용하여, 속성을 선택하는 Selection MLP, 속성에 가중치를 부여하는 Extraction MLP 그리고 예측을 진행하는 Prediction MLP로 이루어진 MLP-SEL 구조를 제안한다. 비교를 위하여 다른 순환 신경망에 대하여 시계열 데이터에 대한 예측을 진행하였으며, 그 결과 우리가 제안한 MLP-SEL 모델의 시계열 예측이 좋은 성능을 보였다.

AI 스피커를 이용한 생활소음 감소 (A Study on AI active noise cancellation for daily noise reduction)

  • 이종재;송연주;원채영;김민지;김정민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.1203-1206
    • /
    • 2021
  • 소음은 난청, 스트레스 등의 원인이 된다. 본 연구에서는 ANC(Active Noise Cancellation)을 바탕으로, 기술적인 방법을 통해 소음을 저감 시키는 스피커를 구현하였다. ANC 란 소음 주파수의 위상을 180° 변환하여 주파수와 레벨이 동일한 역 소음을 발생시켜 주변 소음을 저감, 차단하는 기술이다. 현재 시중 제품들에 적용되는 일반적인 ANC 의 경우, 피드백(Feedback) 방식이라는 점과 시간 지연(Time gap)이 발생한다는 한계가 있다. 이를 보완하기 위해 AI 학습으로 소음을 미리 예측하여 시간 지연을 줄이는 방법을 고안했다. 순환 신경망(RNN)의 장기의존성 문제를 해결하는 시계열 예측 딥러닝 알고리즘인 LSTM(Long Short-Term Memory Network) 모델을 사용하였다. 또한, AI 학습 효율을 향상시킬 수 있는 하드웨어 장비들을 활용하였다.

텍스트 형식의 암호 추측기법 동향 (Trend on Text password guessing)

  • 김현준;심민주;엄시우;서화정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.293-296
    • /
    • 2021
  • 텍스트 형식의 암호는 가용성이 높고 비용이 저렴한 장점으로 인해 가장 널리 사용되는 방식이다. 사용자는 암호를 알고 있어야 하므로 기억하기 쉬워야하므로 대부분의 암호는 편향되어 규칙성을 보인다. 암호 크래킹의 대부분은 이러한 규칙을 기반으로 수행된다. 최근에는 GAN, RNN, LSTM의 딥러닝 모델을 사용하여 암호 크래킹 연구에 적용되고 있으며 또한 다가오는 양자 컴퓨터 시대에서는 Grover의 알고리즘을 사용과 편향된 암호의 특성을 기반으로 사용자 암호에 대한 위협이 될 수 있다.

GIS를 이용한 토양정보 기반의 배추 생산량 예측 수정모델 개발 (Development of a modified model for predicting cabbage yield based on soil properties using GIS)

  • 최연오;이재현;심재후;이승우
    • 한국측량학회지
    • /
    • 제40권5호
    • /
    • pp.449-456
    • /
    • 2022
  • 본 연구는 GIS를 통해 토양정보를 수집하고 가공하여 농산물 생산량을 예측하는 모델을 제안한다. 농산물 생산량 예측 딥러닝 알고리즘은 공개된 CNN-RNN 농산물 생산량 예측 모델 구조를 변경하여 국내 농산물 자료 환경에 적합하도록 새롭게 구축하였다. 기존모델은 두 가지 특징을 가지고 있는데 첫 번째는 농산물의 생산량을 해당 필지값이 아닌 당해 평균값으로 대체한다는 것이고 두 번째는 예측하는 연도의 데이터까지 학습한다는 것이다. 새로운 모델은 해당 필지의 값을 그대로 사용하여 데이터의 정확성을 확보하고 예측하고자 하는 연도 이전의 데이터만 가지고 학습할 수 있도록 네트워크 구조를 개선하였다. 제안한 CNN-RNN 모델은 1980년부터 2020년까지의 기상정보, 토양정보, 토양적성도, 생산량 데이터를 학습하여 김장용 가을배추의 지역별 단위면적당 생산량을 예측한다. 2018년부터 2021년까지 4개 연도별 자료에 대하여 계산하고 생산량을 예측한 결과, 테스트 데이터셋에 대한 오차백분율이 약 10% 내외로 실제값과 비교하여 정확도 높은 생산량 예측이 가능했고, 특히 전체 생산량 비중이 큰 지역에서의 생산량은 비교적 근접하게 예측하는 것으로 분석되었다. 또한 제안모델과 기존모델은 모두 학습자료 연도 수가 증가할수록 점점 오차가 작아지므로 학습데이터가 많아질수록 범용 성능은 향상되는 결과를 나타낸다.