• Title/Summary/Keyword: 심층망

Search Result 549, Processing Time 0.03 seconds

Performance comparison of various deep neural network architectures using Merlin toolkit for a Korean TTS system (Merlin 툴킷을 이용한 한국어 TTS 시스템의 심층 신경망 구조 성능 비교)

  • Hong, Junyoung;Kwon, Chulhong
    • Phonetics and Speech Sciences
    • /
    • v.11 no.2
    • /
    • pp.57-64
    • /
    • 2019
  • In this paper, we construct a Korean text-to-speech system using the Merlin toolkit which is an open source system for speech synthesis. In the text-to-speech system, the HMM-based statistical parametric speech synthesis method is widely used, but it is known that the quality of synthesized speech is degraded due to limitations of the acoustic modeling scheme that includes context factors. In this paper, we propose an acoustic modeling architecture that uses deep neural network technique, which shows excellent performance in various fields. Fully connected deep feedforward neural network (DNN), recurrent neural network (RNN), gated recurrent unit (GRU), long short-term memory (LSTM), bidirectional LSTM (BLSTM) are included in the architecture. Experimental results have shown that the performance is improved by including sequence modeling in the architecture, and the architecture with LSTM or BLSTM shows the best performance. It has been also found that inclusion of delta and delta-delta components in the acoustic feature parameters is advantageous for performance improvement.

Music Genre Classification based on Deep Neural Network using Spikegram (스파이크그램을 이용한 심층 신경망 기반의 음악 장르 분류)

  • Yun, Ho-Won;Jang, Woo-Jin;Shin, Seong-Hyeon;Jang, Won;Cho, Hyo-Jin;Park, Ho-Chong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2017.06a
    • /
    • pp.29-30
    • /
    • 2017
  • 본 논문에서는 인간의 청각 기관을 모델링 한 스파이크그램 (spikegram)을 이용한 심층 신경망 기반의 음악 장르 분류 기술을 제안한다. 분류 대상은 GTZAN 데이터 세트의 10개 장르로 정의한다. 본 논문에서는 청각 기관의 인식 방법을 모델링한 방법을 이용하여 스파이크그램을 구하고, 스파이크그램에서 새로운 특성 벡터를 추출하는 방법을 제안한다. 제안하는 방법을 통해 심층 신경망에 적합한 특성 벡터를 구하고 이렇게 구한 특성 벡터로 신경망을 학습시켜 기존에 사용하던 다양한 방법들보다 높은 성능을 얻을 수 있다.

  • PDF

Deep Neural Net Machine Learning and Manufacturing (제조업의 심층신경망 기계학습(딥러닝))

  • CHO, Mann;Lee, Mingook
    • Journal of Energy Engineering
    • /
    • v.26 no.3
    • /
    • pp.11-29
    • /
    • 2017
  • In recent years, the use of artificial intelligence technology such as deep neural net machine learning(deep learning) is becoming an effective and practical option in industrial manufacturing process. This study focuses on recent deep learning development environments and their applications in the manufacturing field.

Search of an Optimal Sound Augmentation Policy for Environmental Sound Classification with Deep Neural Networks (심층 신경망을 통한 자연 소리 분류를 위한 최적의 데이터 증대 방법 탐색)

  • Park, Jinbae;Kumar, Teerath;Bae, Sung-Ho
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.18-21
    • /
    • 2020
  • 심층 신경망은 영상 분류, 음성 인식, 그리고 문자 번역 등 다양한 분야에서 효과적인 성능을 보여주고 있다. 신경망의 구조 변화, 신경망 간의 정보 전달, 그리고 학습에 사용되는 데이터 증대 등의 확장된 연구를 통해 성능은 더욱 발전하고 있다. 그 중에서도 데이터 증대는 기존에 수집한 데이터의 변형을 통해 심층 신경망에 더 다양한 데이터를 제공함으로써 더욱 일반화된 신경망을 학습시기키는 것을 목표로 한다. 하지만 기존의 음향 관련 신경망 연구에서는 모델의 학습에 사용되는 데이터 증대 방법의 연구가 영상 처리 분야만큼 다양하게 이루어지지 않았다. 최근 영상 처리 분야의 데이터 증대 연구는 학습에 사용되는 데이터와 모델에 따라 최적의 데이터 증대 방법이 다르다는 것을 실험적으로 보여주었다. 이에 영감을 받아 본 논문은 자연에서 발생하는 음향을 분류하는데 있어서 최적의 데이터 증대 방법을 실험적으로 찾으며, 그 과정을 소개한다. 음향에 잡음 추가, 피치 변경 혹은 스펙트로그램의 일부 제한 등의 데이터 증대 방법을 다양하게 조합하는 실험을 통해 경험적으로 어떤 증대 방법이 효과적인지 탐색했다. 결과적으로 ESC-50 자연 음향 데이터 셋에 최적화된 데이터 증대 방법을 적용함으로써 분류 정확도를 89%로 향상시킬 수 있었다.

  • PDF

A Deep Neural Network Model Based on a Mutation Operator (돌연변이 연산 기반 효율적 심층 신경망 모델)

  • Jeon, Seung Ho;Moon, Jong Sub
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.6 no.12
    • /
    • pp.573-580
    • /
    • 2017
  • Deep Neural Network (DNN) is a large layered neural network which is consisted of a number of layers of non-linear units. Deep Learning which represented as DNN has been applied very successfully in various applications. However, many issues in DNN have been identified through past researches. Among these issues, generalization is the most well-known problem. A Recent study, Dropout, successfully addressed this problem. Also, Dropout plays a role as noise, and so it helps to learn robust feature during learning in DNN such as Denoising AutoEncoder. However, because of a large computations required in Dropout, training takes a lot of time. Since Dropout keeps changing an inter-layer representation during the training session, the learning rates should be small, which makes training time longer. In this paper, using mutation operation, we reduce computation and improve generalization performance compared with Dropout. Also, we experimented proposed method to compare with Dropout method and showed that our method is superior to the Dropout one.

Generating Test Data for Deep Neural Network Model using Synonym Replacement (동의어 치환을 이용한 심층 신경망 모델의 테스트 데이터 생성)

  • Lee, Min-soo;Lee, Chan-gun
    • Journal of Software Engineering Society
    • /
    • v.28 no.1
    • /
    • pp.23-28
    • /
    • 2019
  • Recently, in order to effectively test deep neural network model for image processing application, researches have actively conducted to automatically generate data in corner-case that is not correctly predicted by the model. This paper proposes test data generation method that selects arbitrary words from input of system and transforms them into synonyms in order to test the bug reporter automatic assignment system based on sentence classification deep neural network model. In addition, we compare and evaluate the case of using proposed test data generation and the case of using existing difference-inducing test data generations based on various neuron coverages.

A Sound Interpolation Method Using Deep Neural Network for Virtual Reality Sound (가상현실 음향을 위한 심층신경망 기반 사운드 보간 기법)

  • Choi, Jaegyu;Choi, Seung Ho
    • Journal of Broadcast Engineering
    • /
    • v.24 no.2
    • /
    • pp.227-233
    • /
    • 2019
  • In this paper, we propose a deep neural network-based sound interpolation method for realizing virtual reality sound. Through this method, sound between two points is generated by using acoustic signals obtained from two points. Sound interpolation can be performed by statistical methods such as arithmetic mean or geometric mean, but this is insufficient to reflect actual nonlinear acoustic characteristics. In order to solve this problem, in this study, the sound interpolation is performed by training the deep neural network based on the acoustic signals of the two points and the target point, and the experimental results show that the deep neural network-based sound interpolation method is superior to the statistical methods.

Optimization of Multi-time Scale Loss Function Suitable for DNN-based Audio Coder (심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 최적화)

  • Shin, Seung-Min;Byun, Joon;Park, Young-Cheol;Beack, Seung-kwon;Sung, Jong-mo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.1315-1317
    • /
    • 2022
  • 최근, 심층신경망 기반 오디오 부호화기가 활발히 연구되고 있다. 심층신경망 기반 오디오 부호화기는 기존의 전통적인 오디오 부호화기보다 구조적으로 간단하지만, 네트워크의 복잡도를 증가시키지 않고 인지적 성능향상을 기대하는 것은 어렵다. 이 문제를 해결하기 위하여 인간의 청각적 특성을 활용한 심리음향모델 기반 손실함수를 사용한 기법들이 소개되었다. 심리음향 모델 기반 손실함수를 사용한 오디오 부호화기는 양자화 잡음을 잘 제어하였지만, 여전히 지각적인 향상이 필요하다. 본 논문에서는 심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 지역 손실함수 윈도우 크기의 최적화 제안한다. Multi-time Scale 손실함수의 지역 손실함수 계산을 위한 윈도우 크기를 조절하며, 이를 통하여 오디오 부호화에 적합한 윈도우 사이즈를 결정한다. 실험을 통해 얻은 최적의 Multi-time Scale 손실함수를 사용하여 네트워크를 훈련하였고, 주관적 평가를 통해 기존의 심리음향모델 기반 손실함수보다 좋은 음성 품질을 보여주는 것을 확인하였다.

  • PDF

Learning and Transferring Deep Neural Network Models for Image Caption Generation (이미지 캡션 생성을 위한 심층 신경망 모델 학습과 전이)

  • Kim, Dong-Ha;Kim, Incheol
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.617-620
    • /
    • 2016
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하고, 컨볼루션 신경망 층의 출력을 임베딩 층뿐만 아니라 멀티 모달 층에도 연결함으로써, 캡션 문장 생성을 위한 매 단계마다 이미지의 시각 정보를 이용할 수 있는 연결 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 우수성을 입증하였다.

Restoration of damaged speech files using deep neural networks (심층 신경망을 활용한 손상된 음성파일 복원 자동화)

  • Heo, Hee-Soo;So, Byung-Min;Yang, IL-Ho;Yoon, Sung-Hyun;Yu, Ha-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.36 no.2
    • /
    • pp.136-143
    • /
    • 2017
  • In this paper, we propose a method for restoring damaged audio files using deep neural network. It is different from the conventional file carving based restoration. The purpose of our method is to infer lost information which can not be restored by existing techniques such as the file carving. We have devised methods that can automate the tasks which are essential for the restoring but are inappropriate for humans. As a result of this study it has been shown that it is possible to restore the damaged files, which the conventional file carving method could not, by using tasks such as speech or nonspeech decision and speech encoder recognizer using a deep neural network.