• 제목/요약/키워드: Multi-channel LSTM

검색결과 4건 처리시간 0.017초

Multi-channel Long Short-Term Memory with Domain Knowledge for Context Awareness and User Intention

  • Cho, Dan-Bi;Lee, Hyun-Young;Kang, Seung-Shik
    • Journal of Information Processing Systems
    • /
    • 제17권5호
    • /
    • pp.867-878
    • /
    • 2021
  • In context awareness and user intention tasks, dataset construction is expensive because specific domain data are required. Although pretraining with a large corpus can effectively resolve the issue of lack of data, it ignores domain knowledge. Herein, we concentrate on data domain knowledge while addressing data scarcity and accordingly propose a multi-channel long short-term memory (LSTM). Because multi-channel LSTM integrates pretrained vectors such as task and general knowledge, it effectively prevents catastrophic forgetting between vectors of task and general knowledge to represent the context as a set of features. To evaluate the proposed model with reference to the baseline model, which is a single-channel LSTM, we performed two tasks: voice phishing with context awareness and movie review sentiment classification. The results verified that multi-channel LSTM outperforms single-channel LSTM in both tasks. We further experimented on different multi-channel LSTMs depending on the domain and data size of general knowledge in the model and confirmed that the effect of multi-channel LSTM integrating the two types of knowledge from downstream task data and raw data to overcome the lack of data.

Tensile Properties Estimation Method Using Convolutional LSTM Model

  • Choi, Hyeon-Joon;Kang, Dong-Joong
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권11호
    • /
    • pp.43-49
    • /
    • 2018
  • In this paper, we propose a displacement measurement method based on deep learning using image data obtained from tensile tests of a material specimen. We focus on the fact that the sequential images during the tension are generated and the displacement of the specimen is represented in the image data. So, we designed sample generation model which makes sequential images of specimen. The behavior of generated images are similar to the real specimen images under tensile force. Using generated images, we trained and validated our model. In the deep neural network, sequential images are assigned to a multi-channel input to train the network. The multi-channel images are composed of sequential images obtained along the time domain. As a result, the neural network learns the temporal information as the images express the correlation with each other along the time domain. In order to verify the proposed method, we conducted experiments by comparing the deformation measuring performance of the neural network changing the displacement range of images.

다채널 오디오 특징값 및 게이트형 순환 신경망을 사용한 다성 사운드 이벤트 검출 (Polyphonic sound event detection using multi-channel audio features and gated recurrent neural networks)

  • 고상선;조혜승;김형국
    • 한국음향학회지
    • /
    • 제36권4호
    • /
    • pp.267-272
    • /
    • 2017
  • 본 논문에서는 다채널 오디오 특징값을 게이트형 순환 신경망(Gated Recurrent Neural Networks, GRNN)에 적용한 효과적인 다성 사운드 이벤트 검출 방식을 제안한다. 실생활의 사운드는 여러 사운드 이벤트가 겹쳐있는 다성사운드로, 기존의 단일 채널 오디오 특징값으로는 다성 사운드에서 개별적인 이벤트의 검출이 어렵다는 한계가 있다. 이에 본 논문에서는 다채널 오디오 신호를 기반으로 추출된 특징값을 사용하여 다성 사운드 이벤트 검출에 적용하였다. 또한 본 논문에서는 현재 순환 신경망에서 가장 높은 성능을 보이는 장단기 기억 신경망(Long Short Term Memory, LSTM) 보다 간단한 GRNN을 분류에 적용하여 다성 사운드 이벤트 검출의 성능을 더욱 향상시키고자 하였다. 실험결과는 본 논문에서 제안한 방식이 기존의 방식보다 성능이 더 뛰어나다는 것을 보인다.

Bi-LSTM 모델을 이용한 음악 생성 시계열 예측 (Prediction of Music Generation on Time Series Using Bi-LSTM Model)

  • 김광진;이칠우
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.65-75
    • /
    • 2022
  • 딥러닝은 기존의 분석 모델이 갖는 한계를 극복하고 텍스트, 이미지, 음악 등 다양한 형태의 결과물을 생성할 수 있는 창의적인 도구로 활용되고 있다. 본 고에서는 Niko's MIDI Pack 음원 파일 1,609개를 데이터 셋으로 삼아 전처리 과정을 수행하고, 양방향 장단기 기억 순환 신경망(Bi-LSTM) 모델을 이용하여, 효율적으로 음악을 생성할 수 있는 전처리 방법과 예측 모델을 제시한다. 생성되는 으뜸음을 바탕으로 음악적 조성(調聲)에 적합한 새로운 시계열 데이터를 생성할 수 있도록 은닉층을 다층화하고, 디코더의 출력 게이트에서 인코더의 입력 데이터 중 영향을 주는 요소의 가중치를 적용하는 어텐션(Attention) 메커니즘을 적용한다. LSTM 모델의 인식률 향상을 위한 파라미터로서 손실함수, 최적화 방법 등 설정 변수들을 적용한다. 제안 모델은 MIDI 학습의 효율성 제고 및 예측 향상을 위해 높은음자리표(treble clef)와 낮은음자리표(bass clef)를 구분하여 추출된 음표, 음표의 길이, 쉼표, 쉼표의 길이와 코드(chord) 등을 적용한 다채널 어텐션 적용 양방향 기억 모델(Bi-LSTM with attention)이다. 학습의 결과는 노이즈와 구별되는 음악의 전개에 어울리는 음표와 코드를 생성하며, 화성학적으로 안정된 음악을 생성하는 모델을 지향한다.