• Title/Summary/Keyword: 오디오음성

Search Result 211, Processing Time 0.024 seconds

아날로그 음성, 비디오 및 오디오 신호의 비화방식

  • 이일우;조동호
    • Review of KIISC
    • /
    • v.2 no.4
    • /
    • pp.75-90
    • /
    • 1992
  • 본고는 아날로그 음성, 비디오 및 오디오 신호의 비화방식에 대한 연구로써 정보의 대부분을 구성하고 있는 음성, 그리고 앞으로 요구가 증가될 것으로 예견되는 위성 TV 및 CATV의 비디오와 오디오의 아날로그 비화방식의 종류 및 각각의 알고리즘에 대해 고찰하였다.

  • PDF

The Design and Implementation of Personal Audio Recorder Service (개인 오디오 레코더 서비스 설계 및 구현)

  • Kim, Do-Hyung;Yun, Min-Hong;Kim, Sun-ja;Lee, Kyung-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.727-728
    • /
    • 2007
  • 본 논문에서는 음성통화를 위해 CDMA 네트워크와 데이터 통신을 위해 와이브로 네트워크를 동시에 사용하는 임베디드 리눅스 기반 듀얼모드 응용 서비스인 개인 오디오 레코더의 구현에 대해서 기술한다. 개인 오디오 레코더는 듀얼모드 지원 단말에 탑재된 클라이언트에서 음성 녹음을 시작하면, 송신자와 수신자의 CDMA 음성 데이터가 와이브로 네트워크를 통해 인터넷 상의 개인 오디오 레코더 서버로 전달된다. 개인 오디오 레코더 서버는 통화 번호 및 통화 시간에 따라 음성 데이터를 저장하게 된다. 구현된 개인 오디오 레코더는 단말의 저장공간이 부족한 환경에서도 음성통화 내용을 저장할 수 있도록 한다.

The Comparison of features for Speech/Music Discrimination (음성/음악 분류를 위한 특징 비교)

  • Lee Kyong Rok;Seo Bong Su;Kim Jin Young
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.157-160
    • /
    • 2000
  • 본 논문에서는 멀티미디어 정보에서 원하는 정보를 추출하는 멀티미디어 인덱싱 중 오디오 인덱싱의 전처리 부격인 음성/음악 분류실험을 하였다. 오디오 인덱싱에 있어서 음성/음악 분류기는 원 오디오 신호에서 정보를 가진 음성 부분을 분리하는 역할을 한다. 실험에서는 음성/음악 분류에서 널리 쓰이는 멜캡스트럼(Mel Cepstrum), 정규화 로그 에너지(normalized log energy), 영교차(Zero-Crossings)를 특징 파라미터로 사용하였다[l, 2, 3]. 특징공간은 GMM(Gaussian Mixture Model)에 의해 모델링 되었고, 오디오 신호의 분류는 각각 3가지 분류항목(음성, 음악, 음성+음악)과 2가지 분류항목(음성, 음악)을 적용하였다. 실험결과 3가지 분류항목 적용시와 2가지 분류항목 적용시 모두 멜캡스트럼을 사용하였을 때 가장 좋은 결과를 보였다.

  • PDF

The Implementation of Personal Audio Recorder Service based on Embedded Linux (임베디드 리눅스 기반의 개인 오디오 레코더 서비스 구현)

  • Kim, Do-Hyung;Lee, Kyung-Hee;Lee, Cheol-Hoon
    • The KIPS Transactions:PartD
    • /
    • v.15D no.2
    • /
    • pp.257-262
    • /
    • 2008
  • This paper describes the implementations of the application service based on embedded Linux; Personal Audio Recorder (PAR) which uses WiBro network for data communications and CDMA network for voice communications. At PAR, when PAR client starts voice recording on a dual-mode terminal, the CDMA voice data of caller and callee is transmitted to storage server located in the Internet through WiBro network. Then, PAR server stores voice data on storage server according to the call number and call time. In case of shortage of storage space on terminal, PAR makes user to store voice data. And, PAR can search a catalog of stored data on server and play the specific content.

Deep Learning-based Speech Voice Separation Training To Enhance STT Performance (STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습)

  • Kim, Bokyoung;Yang, Youngjun;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.851-853
    • /
    • 2022
  • 인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.

  • PDF

Diagnosis of Parkinson's disease based on audio voice using wav2vec (Wav2vec을 이용한 오디오 음성 기반의 파킨슨병 진단)

  • Yoon, Hee-Jin
    • Journal of Digital Convergence
    • /
    • v.19 no.12
    • /
    • pp.353-358
    • /
    • 2021
  • Parkinson's disease is the second most common degenerative brain disease after Alzheimer's in old age. Symptoms of Parkinson's disease are factors that reduce the quality of life in daily life, such as shaking hands, slowing behavior and cognitive function. Parkinson's disease that can slow the progression of the disease through early diagnosis. To diagnoze Parkinson's disease early, an algorithm was implemented to extract features using wav2vec and to diagnose the presence or absence of Parkinson's disease with deep learning(ANN). As a results of the experiment, the accuracy was 97.47%. It was better than the results of diagnosing Parkinson's disease using the existing neural network. The audio voice file could simply reduce the experiment process and obtain improved results.

Trends of Speech-Based Audio Convergence Codec Technology (음성기반 오디오 융합코덱 기술동향)

  • Kim, D.Y.;Sung, J.M.;Lee, M.S.;Bae, H.J.;Lee, B.S.
    • Electronics and Telecommunications Trends
    • /
    • v.24 no.5
    • /
    • pp.10-19
    • /
    • 2009
  • 본 논문에서는 통신과 방송서비스가 하나의 기기 또는 단말장치 안에서 결합되고 단말 내부에서는 디바이스의 통합에 따라 코덱의 개수를 최소화하기 위한 음성기반 오디오 융합코덱의 기술동향에 대해 기술한다. 하지만 기술적으로 완전히 태생이 다른 음성과 오디오 코덱을 진정한 의미에서 융합할 수 있는 기술적 모델과 기법은 아직 개발되지 않고 있다. 본 고에서는 이러한 시도의 일환으로 ITU-T SGl6을 중심으로 진행되고 있는 음성기반 코덱을 점진적 대역폭 확장 기술을 사용하여 광대역 음성, 슈퍼와이드 밴드 및 향후 오디오 대역까지 커버할 수 있는 임베디드 가변비트율 코덱기술을 중심으로 기술동향의 분석을 시도한다.

Audio Contents Classification based on Deep learning for Automatic Loudness Control (오디오 음량 자동 제어를 위한 콘텐츠 분류 기술 개발)

  • Lee, Young Han;Cho, Choongsang;Kim, Je Woo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.320-321
    • /
    • 2018
  • 오디오 음량을 자동으로 제어하는데 있어 음성이 있는 구간에 대해서 음량이 급격히 줄어드는 것을 막기 위해 콘텐츠에 대한 분석이 필요하다. 본 논문에서는 방송 음량을 조절을 위한 세부 기술로 딥러닝 기반의 콘텐츠 분류 기술을 제안한다. 이를 위해 오디오를 무음, 음성, 음성/오디오 혼합, 오디오의 4개로 정의하고 이를 처리하기 위한 mel-spectrogram을 이용하여 2D CNN 기반의 분류기를 정의하였다. 또한 학습을 위해 방송 오디오 데이터를 활용하여 학습/검증 데이터 셋을 구축하였다. 제안한 방식의 성능을 확인하기 위해 검증 데이터셋을 활용하여 정확도를 측정하였으며 약 81.1%의 정확도를 가지는 것을 확인하였다.

  • PDF

DNN based Speech Detection for the Media Audio (미디어 오디오에서의 DNN 기반 음성 검출)

  • Jang, Inseon;Ahn, ChungHyun;Seo, Jeongil;Jang, Younseon
    • Journal of Broadcast Engineering
    • /
    • v.22 no.5
    • /
    • pp.632-642
    • /
    • 2017
  • In this paper, we propose a DNN based speech detection system using acoustic characteristics and context information of media audio. The speech detection for discriminating between speech and non-speech included in the media audio is a necessary preprocessing technique for effective speech processing. However, since the media audio signal includes various types of sound sources, it has been difficult to achieve high performance with the conventional signal processing techniques. The proposed method improves the speech detection performance by separating the harmonic and percussive components of the media audio and constructing the DNN input vector reflecting the acoustic characteristics and context information of the media audio. In order to verify the performance of the proposed system, a data set for speech detection was made using more than 20 hours of drama, and an 8-hour Hollywood movie data set, which was publicly available, was further acquired and used for experiments. In the experiment, it is shown that the proposed system provides better performance than the conventional method through the cross validation for two data sets.

Voice Segment Reduction using Perceiver Model (Perceiver 모델을 이용한 사용자 음성 구간 축약)

  • Choi, Yeon-Ung;Lee, Jae-Jun;Han, Hyeon-Taek;Lee, Hae-Yeoun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.491-493
    • /
    • 2022
  • 최근 스마트 기기에서 오디오 데이터를 이용하는 응용 기술들이 증가하면서, 오디오 데이터에서 관심 있는 구간을 찾아내는 기술의 필요성이 증가하고 있다. 본 논문에서는 Perceiver 모델을 활용하여 오디오 데이터에서 사람의 음성 구간을 검출하고 축약하는 방법을 제안한다. Perceiver 모델은 복잡한 입력 데이터에 대하여 Self-attention을 기반으로 특징을 추출하면서 이전의 특징을 다음 입력으로 다시 학습하는 특징을 갖고 있어서 연속적인 데이터인 오디오에 효율적으로 적용할 수 있다. 외부 및 자체에서 수집한 음성과 비음성 데이터셋에 대하여 실험을 진행하였고, 10초 단위 세그먼트에서 대해서 92.4%의 검출 정확도를 달성하였다.