• 제목/요약/키워드: LSTM-autoencoder

검색결과 25건 처리시간 0.022초

Human Laughter Generation using Hybrid Generative Models

  • Mansouri, Nadia;Lachiri, Zied
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권5호
    • /
    • pp.1590-1609
    • /
    • 2021
  • Laughter is one of the most important nonverbal sound that human generates. It is a means for expressing his emotions. The acoustic and contextual features of this specific sound are different from those of speech and many difficulties arise during their modeling process. During this work, we propose an audio laughter generation system based on unsupervised generative models: the autoencoder (AE) and its variants. This procedure is the association of three main sub-process, (1) the analysis which consist of extracting the log magnitude spectrogram from the laughter database, (2) the generative models training, (3) the synthesis stage which incorporate the involvement of an intermediate mechanism: the vocoder. To improve the synthesis quality, we suggest two hybrid models (LSTM-VAE, GRU-VAE and CNN-VAE) that combine the representation learning capacity of variational autoencoder (VAE) with the temporal modelling ability of a long short-term memory RNN (LSTM) and the CNN ability to learn invariant features. To figure out the performance of our proposed audio laughter generation process, objective evaluation (RMSE) and a perceptual audio quality test (listening test) were conducted. According to these evaluation metrics, we can show that the GRU-VAE outperforms the other VAE models.

LSTM-VAE를 활용한 기계시설물 장치의 이상 탐지 시스템 (Anomaly Detection System in Mechanical Facility Equipment: Using Long Short-Term Memory Variational Autoencoder)

  • 서재홍;박준성;유준우;박희준
    • 품질경영학회지
    • /
    • 제49권4호
    • /
    • pp.581-594
    • /
    • 2021
  • Purpose: The purpose of this study is to compare machine learning models for anomaly detection of mechanical facility equipment and suggest an anomaly detection system for mechanical facility equipment in subway stations. It helps to predict failures and plan the maintenance of facility. Ultimately it aims to improve the quality of facility equipment. Methods: The data collected from Daejeon Metropolitan Rapid Transit Corporation was used in this experiment. The experiment was performed using Python, Scikit-learn, tensorflow 2.0 for preprocessing and machine learning. Also it was conducted in two failure states of the equipment. We compared and analyzed five unsupervised machine learning models focused on model Long Short-Term Memory Variational Autoencoder(LSTM-VAE). Results: In both experiments, change in vibration and current data was observed when there is a defect. When the rotating body failure was happened, the magnitude of vibration has increased but current has decreased. In situation of axis alignment failure, both of vibration and current have increased. In addition, model LSTM-VAE showed superior accuracy than the other four base-line models. Conclusion: According to the results, model LSTM-VAE showed outstanding performance with more than 97% of accuracy in the experiments. Thus, the quality of mechanical facility equipment will be improved if the proposed anomaly detection system is established with this model used.

Non-Intrusive Speech Intelligibility Estimation Using Autoencoder Features with Background Noise Information

  • Jeong, Yue Ri;Choi, Seung Ho
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권3호
    • /
    • pp.220-225
    • /
    • 2020
  • This paper investigates the non-intrusive speech intelligibility estimation method in noise environments when the bottleneck feature of autoencoder is used as an input to a neural network. The bottleneck feature-based method has the problem of severe performance degradation when the noise environment is changed. In order to overcome this problem, we propose a novel non-intrusive speech intelligibility estimation method that adds the noise environment information along with bottleneck feature to the input of long short-term memory (LSTM) neural network whose output is a short-time objective intelligence (STOI) score that is a standard tool for measuring intrusive speech intelligibility with reference speech signals. From the experiments in various noise environments, the proposed method showed improved performance when the noise environment is same. In particular, the performance was significant improved compared to that of the conventional methods in different environments. Therefore, we can conclude that the method proposed in this paper can be successfully used for estimating non-intrusive speech intelligibility in various noise environments.

적대적 생성 모델을 활용한 사용자 행위 이상 탐지 방법 (Anomaly Detection for User Action with Generative Adversarial Networks)

  • 최남웅;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.43-62
    • /
    • 2019
  • 한때, 이상 탐지 분야는 특정 데이터로부터 도출한 기초 통계량을 기반으로 이상 유무를 판단하는 방법이 지배적이었다. 이와 같은 방법론이 가능했던 이유는 과거엔 데이터의 차원이 단순하여 고전적 통계 방법이 효과적으로 작용할 수 있었기 때문이다. 하지만 빅데이터 시대에 접어들며 데이터의 속성이 복잡하게 변화함에 따라 더는 기존의 방식으로 산업 전반에 발생하는 데이터를 정확하게 분석, 예측하기 어렵게 되었다. 따라서 기계 학습 방법을 접목한 SVM, Decision Tree와 같은 모형을 활용하게 되었다. 하지만 지도 학습 기반의 모형은 훈련 데이터의 이상과 정상의 클래스 수가 비슷할 때만 테스트 과정에서 정확한 예측을 할 수 있다는 특수성이 있고 산업에서 생성되는 데이터는 대부분 정답 클래스가 불균형하기에 지도 학습 모형을 적용할 경우, 항상 예측되는 결과의 타당성이 부족하다는 문제점이 있다. 이러한 단점을 극복하고자 현재는 클래스 분포에 영향을 받지 않는 비지도 학습 기반의 모델을 바탕으로 이상 탐지 모형을 구성하여 실제 산업에 적용하기 위해 시행착오를 거치고 있다. 본 연구는 이러한 추세에 발맞춰 적대적 생성 신경망을 활용하여 이상 탐지하는 방법을 제안하고자 한다. 시퀀스 데이터를 학습시키기 위해 적대적 생성 신경망의 구조를 LSTM으로 구성하고 생성자의 LSTM은 2개의 층으로 각각 32차원과 64차원의 은닉유닛으로 구성, 판별자의 LSTM은 64차원의 은닉유닛으로 구성된 1개의 층을 사용하였다. 기존 시퀀스 데이터의 이상 탐지 논문에서는 이상 점수를 도출하는 과정에서 판별자가 실제데이터일 확률의 엔트로피 값을 사용하지만 본 논문에서는 자질 매칭 기법을 활용한 함수로 변경하여 이상 점수를 도출하였다. 또한, 잠재 변수를 최적화하는 과정을 LSTM으로 구성하여 모델 성능을 향상시킬 수 있었다. 변형된 형태의 적대적 생성 모델은 오토인코더의 비해 모든 실험의 경우에서 정밀도가 우세하였고 정확도 측면에서는 대략 7% 정도 높음을 확인할 수 있었다.

Detecting Abnormal Human Movements Based on Variational Autoencoder

  • Doi Thi Lan;Seokhoon Yoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제15권3호
    • /
    • pp.94-102
    • /
    • 2023
  • Anomaly detection in human movements can improve safety in indoor workplaces. In this paper, we design a framework for detecting anomalous trajectories of humans in indoor spaces based on a variational autoencoder (VAE) with Bi-LSTM layers. First, the VAE is trained to capture the latent representation of normal trajectories. Then the abnormality of a new trajectory is checked using the trained VAE. In this step, the anomaly score of the trajectory is determined using the trajectory reconstruction error through the VAE. If the anomaly score exceeds a threshold, the trajectory is detected as an anomaly. To select the anomaly threshold, a new metric called D-score is proposed, which measures the difference between recall and precision. The anomaly threshold is selected according to the minimum value of the D-score on the validation set. The MIT Badge dataset, which is a real trajectory dataset of workers in indoor space, is used to evaluate the proposed framework. The experiment results show that our framework effectively identifies abnormal trajectories with 81.22% in terms of the F1-score.

Self-Supervised Long-Short Term Memory Network for Solving Complex Job Shop Scheduling Problem

  • Shao, Xiaorui;Kim, Chang Soo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권8호
    • /
    • pp.2993-3010
    • /
    • 2021
  • The job shop scheduling problem (JSSP) plays a critical role in smart manufacturing, an effective JSSP scheduler could save time cost and increase productivity. Conventional methods are very time-consumption and cannot deal with complicated JSSP instances as it uses one optimal algorithm to solve JSSP. This paper proposes an effective scheduler based on deep learning technology named self-supervised long-short term memory (SS-LSTM) to handle complex JSSP accurately. First, using the optimal method to generate sufficient training samples in small-scale JSSP. SS-LSTM is then applied to extract rich feature representations from generated training samples and decide the next action. In the proposed SS-LSTM, two channels are employed to reflect the full production statues. Specifically, the detailed-level channel records 18 detailed product information while the system-level channel reflects the type of whole system states identified by the k-means algorithm. Moreover, adopting a self-supervised mechanism with LSTM autoencoder to keep high feature extraction capacity simultaneously ensuring the reliable feature representative ability. The authors implemented, trained, and compared the proposed method with the other leading learning-based methods on some complicated JSSP instances. The experimental results have confirmed the effectiveness and priority of the proposed method for solving complex JSSP instances in terms of make-span.

Blind Drift Calibration using Deep Learning Approach to Conventional Sensors on Structural Model

  • Kutchi, Jacob;Robbins, Kendall;De Leon, David;Seek, Michael;Jung, Younghan;Qian, Lei;Mu, Richard;Hong, Liang;Li, Yaohang
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.814-822
    • /
    • 2022
  • The deployment of sensors for Structural Health Monitoring requires a complicated network arrangement, ground truthing, and calibration for validating sensor performance periodically. Any conventional sensor on a structural element is also subjected to static and dynamic vertical loadings in conjunction with other environmental factors, such as brightness, noise, temperature, and humidity. A structural model with strain gauges was built and tested to get realistic sensory information. This paper investigates different deep learning architectures and algorithms, including unsupervised, autoencoder, and supervised methods, to benchmark blind drift calibration methods using deep learning. It involves a fully connected neural network (FCNN), a long short-term memory (LSTM), and a gated recurrent unit (GRU) to address the blind drift calibration problem (i.e., performing calibrations of installed sensors when ground truth is not available). The results show that the supervised methods perform much better than unsupervised methods, such as an autoencoder, when ground truths are available. Furthermore, taking advantage of time-series information, the GRU model generates the most precise predictions to remove the drift overall.

  • PDF

변이형 오토인코더와 어텐션 메커니즘을 결합한 차트기반 주가 예측 (Chart-based Stock Price Prediction by Combing Variation Autoencoder and Attention Mechanisms)

  • 배상현;최병구
    • 경영정보학연구
    • /
    • 제23권1호
    • /
    • pp.23-43
    • /
    • 2021
  • 최근 인공지능 기법을 활용하여 캔들스틱 차트를 분석함으로써 주식가격 예측의 정확성을 높이고자 하는 다양한 연구가 진행되어 왔다. 그러나 이러한 연구들은 주식가격 예측을 위한 학습에 있어 캔들스틱 차트의 시계열적 특성을 고려하지 못한다는 점과 시장 참여자들의 감정 상태를 고려하지 못한다는 점 등이 문제로 지적되고 있다. 본 연구에서는 시장 참여자들의 감정상태를 반영하기 위해 변동성지수(VIX: volatility index) 차트를 캔들스틱 차트와 함께 고려하여 학습시키고 이를 변이형 오토인코더(VAE: variational auto encoder)와 어텐션 메커니즘(attention mechanisms)을 결합한 새로운 방법으로 분석하여 캔들스틱 차트의 시계열적 특성을 고려함으로써 기존 연구의 한계를 극복하고자 한다. 본 연구에서 제안한 방법의 성능 비교를 위해 S&P 500 기업 가운데 50개를 임의로 추출하여 제안한 방법을 통해 이들의 주식가격을 예측하고 이를 합성곱 신경망(CNN: convolutional neural network) 또는 장단기메모리(LSTM: long-short term memory) 등과 같은 기존 방법들과 비교하였다. 비교 결과 기존 방법들에 비해 본 연구에서 제안한 방법이 더 우수한 성능을 보이는 것으로 나타났다. 본 연구는 시장 참여자들의 감정 상태와 캔들스틱 차트의 시계열적 특성을 고려함으로써 주식 가격 예측의 정확성을 높였다는 점에서 그 의의가 있다.

치매 환자를 위한 딥러닝 기반 이상 행동 탐지 시스템 (Deep Learning-based Abnormal Behavior Detection System for Dementia Patients)

  • 김국진;이승진;김성중;김재근;신동일;신동규
    • 인터넷정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.133-144
    • /
    • 2020
  • 고령화로 인해 증가하는 노인 비율만큼이나 치매를 앓는 노인 수 또한 빠르게 늘고 있는데 이는 사회적, 경제적 부담을 발생시킨다. 특히, 간병인의 근무 시간 손실 및 간호 부담으로 인한 의료 비용 증가와 같은 간접비용을 포함하는 치매 관리 비용은 수년에 걸쳐 기하급수적으로 증가하고 있다. 이러한 비용을 줄이기 위해 치매 환자를 돌보기 위한 관리 시스템 도입이 시급하다. 따라서 본 연구는 항상 치매 환자를 돌볼 수 없는 환경이나 독거노인을 관리하기 위한 센서 기반 이상 행동 탐지 시스템을 제안한다. 기존 연구들은 단지 행동을 인지하거나 정상 행동 여부를 평가하는 정도였고 센서로부터 받은 데이터가 아닌 이미지를 처리하여 행동을 인지한 연구도 있었다. 본 연구에서는 실데이터 수집에 한계가 있음을 인지하여 비지도 학습 모델인 오토인코더와 지도 학습 모델인 장·단기 기억 모형을 동시에 사용했다. 비지도 학습 모델인 오토인코더는 정상 행동 데이터를 학습하여 정상적인 행동에 대한 패턴을 학습시켰고 장·단기 기억 모형은 센서로 인지 가능한 행동을 학습시켜 분류를 좀 더 세분화했다. 테스트 결과 각각의 모델은 약 96%, 98% 이상의 정확도를 도출하였고 오토인코더의 이상치가 3% 이상을 갖는 경우 장·단기 기억 모형을 통과하도록 설계했다. 이 시스템을 통해 혼자 사는 노인이나 치매 환자를 효율적으로 관리할 수 있으며 돌보기 위한 비용 또한 절감할 수 있을 것으로 전망된다.

시간대를 고려한 SHAP 기반의 신용카드 이상 거래 탐지 (Credit Card Fraud Detection Based on SHAP Considering Time Sequences)

  • 양소연 ;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.370-372
    • /
    • 2023
  • 신용카드 부정 사용은 고객 및 기업의 신용과 재산에 막대한 손실을 미치고 있다. 이에 따라 금융사들은 이상금융거래탐지시스템을 도입하였으나 이상 거래 발생 여부를 지속적으로 모니터링하고 있기 때문에 시스템 유지에 많은 비용이 따른다. 따라서 본 논문에서는 컴퓨팅 리소스를 절약함과 동시에 성능 개선 효과를 보인 신용카드 이상 거래 탐지 알고리즘을 제안한다. CTGAN 을 활용하여 정상 거래와 이상 거래의 비율을 일부 완화하였고 XAI 기법인 SHAP 를 활용하여 유의미한 속성값을 선택하였다. 이것을 기반으로 LSTM Autoencoder를 사용하여 이상데이터를 탐지하였다. 그 결과 전통적인 비지도 학습 기법에 비해 제안 알고리즘이 우수한 성능을 보였음을 확인하였다.