• 제목/요약/키워드: Speech Processing

검색결과 956건 처리시간 0.025초

천정형 배열 마이크를 이용한 강의용 광역 마이크 시스템 (Wide Coverage Microphone System for Lecture Using Ceiling-Mounted Array Structure)

  • 오우진
    • 한국정보통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.624-633
    • /
    • 2018
  • 멀티미디어 강의시스템은 첨단 기술로 스마트해지고 있지만 마이크는 손에 들거나 신체에 부착하는 고전 방식에 여전히 의존하고 있다. 본 논문에서는 천정 부착형 배열 마이크를 제안하여 넓은 범위를 지원하면서 화자가 아무 장비를 착용하지 않고 자유롭게 이동이 가능함을 보였다. 제안된 시스템은 복잡한 빔 포밍 방식 대신에 이동통신의 셀(Cell)과 핸드 오버(Handover)를 적용하여 셀 간에 연속되는 마이크를 저가로 구현하였다. 음성에서 무성음 구간이 의사잡음(Pseudo Noise)과 유사한 특징을 이용하여 3개의 마이크에 지연-합의 다중경로 수신기를 연결하여 소프트 핸드오버를 제공하였다. 제안된 마이크 시스템은 강단 범위인 $6.3{\times}1.5m$ 영역에서 동작을 검증하였다. 실시간 처리를 위하여 상관기(Correlator)의 연산 범위를 82% 이상 줄였으며 출력 지연은 지연 적응 필터로 개선하였다.

기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅 (Part-Of-Speech Tagging and the Recognition of the Korean Unknown-words Based on Machine Learning)

  • 최맹식;김학수
    • 정보처리학회논문지B
    • /
    • 제18B권1호
    • /
    • pp.45-50
    • /
    • 2011
  • 한국어 형태소 분석에서 미등록 형태소 오류들은 2가지 유형으로 나뉜다. 첫 번째 오류 유형은 형태소 분석기가 어떤 형태소열도 찾아내지 못하는 것이고, 두 번째 오류 유형은 등록 형태소들의 잘못된 조합을 찾아내는 것이다. 지금까지 대부분의 기존 미등록 형태소 추정 기술들은 단지 첫 번째 오류 유형에만 초점을 맞추어 왔다. 본 논문에서는 2가지 유형의 오류들의 모두 다룰 수 있는 미등록 형태소 추정 방법을 제안한다. 제안 방법은 SVM(Support Vector Machine)을 이용하여 미등록 형태소 오류들을 포함할 가능성이 있는 어절들을 검출한다. 그리고 CRFs(Conditional Random Fields)를 이용하여 검출된 어절들의 형태소 분리와 품사 태깅을 수행한다. 실험에서 제안 방법은 기능어 최장 일치 기반의 전형적인 방법보다 뛰어난 성능을 보였다. 실험 결과에 기초하여 미등록 형태소 오류의 두 번째 유형이 한국어 형태소 분석의 성능을 올리기 위해서 꼭 다루어져야 한다는 것을 알 수 있었다.

저작운동으로 인한 진동 잡음 신호의 경감을 위한 측두골 이식형 마이크로폰의 설계 (The Design of Temporal Bone Type Implantable Microphone for Reduction of the Vibrational Noise due to Masticatory Movement)

  • 우승탁;정의성;임형규;이윤정;성기웅;이정현;조진호
    • 센서학회지
    • /
    • 제21권2호
    • /
    • pp.144-150
    • /
    • 2012
  • A microphone for fully implantable hearing device was generally implanted under the skin of the temporal bone. So, the implanted microphone's characteristics can be affected by the accompanying noise due to masticatory movement. In this paper, the implantable microphone with 2-channels structure was designed for reduction of the generated noise signal by masticatory movement. And an experimental model for generation of the noise by masticatory movement was developed with considering the characteristics of human temporal bone and skin. Using the model, the speech signal by a speaker and the artificial noise by a vibrator were supplied simultaneously into the experimental model, the electrical signals were measured at the proposed microphone. The collected signals were processed using a general adaptive filter with least mean square(LMS) algorithm. To confirm performance of the proposed methods, the correlation coefficient and the signal to noise ratio(SNR) before and after the signal processing were calculated. Finally, the results were compared each other.

기계가독형사전에서 상위어 판별을 위한 규칙 학습 (Learning Rules for Identifying Hypernyms in Machine Readable Dictionaries)

  • 최선화;박혁로
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.171-178
    • /
    • 2006
  • 기계가독형사전(Machine Readable Dictionary)에서 단어의 정의문에 나타나는 항목 단어의 상위개념을 추출하는 대부분의 연구들은 전문가에 의해 작성된 어휘패턴을 사용하였다. 이 방법은 사람이 직접 패턴을 수집하므로 시간과 비용이 많이 소모될 뿐만 아니라, 자연언어에는 같은 의미를 가진 다앙한 표현들이 존재하므로 넓은 커버리지를 갖는 어휘패턴들을 수집하는 것이 매우 어렵다는 단점이 있다. 이런 문제점들을 해결하기 위하여, 본 논문에서는 구문적 특징만을 이용한 상위어 판별 규칙을 기계학습함으로써 기존에 사용되었던 어휘패턴의 지나친 어휘 의존성으로 인한 낮은 커버리지 및 패턴 수집의 문제를 해결하는 방법을 제안한다. 제안한 방법으로 기계학습된 규칙들을 상위어 자동추출과정에적용한 결과 정확도 92.37% 성능을 보였다. 이는 기존 연구들보다 향상된 성능으로 기계학습에 의해 수집된 판별규칙이 상위어 판별에 있어서 어휘패턴의 문제를 해결할 수 있다는 것을 입증하였다.

유비쿼터스 정보네트워크에서의 편리한 정보액세스를 위한 한글 자음모음 도메인명의 응용 (Application of Korean Alphabet Domain-Names for Convenient Information Access in a Ubiquitous Information Network)

  • 김영복
    • 정보처리학회논문지C
    • /
    • 제12C권7호
    • /
    • pp.1067-1074
    • /
    • 2005
  • 모바일 사용자 인터페이스가, 특히 유비쿼터스 컴퓨팅 환경에서, 정보를 빨리 그리고 편리하게 액세스하는데 중요해지고 있다. 모바일 컴퓨팅 환경에서의 많은 신규서비스들 중에서, 한글1자 도메인명을 포함하여, 한글알파벳(자음과 모음) 도메인명을 이용한 유비쿼터스 정보네트워킹서비스가 연구되었다. 긴 영어나 한글의 URL 스트링 대신에, 정보 액세스를 위한 편리한 사용자 인터페이스로서, 유선 인터넷에서 뿐만아니라 모바일 인터넷에서, 한글1자/자음/모음 도메인명이 정보를 액세스하고 정보를 알리는데 긴 URL스트링보다 더 편리하다. PC뿐만아니라 휴대폰에서 한글1자/자음/모음 도메인명의 편리함을 연구하였고, 음성변환(TTS) 기능을 가지고 있으며 한글1자/자음/모음 도메인명으로 액세스할 수 있는 유비쿼터스 정보포털의 구현과 응용을 소개한다

GAN으로 합성한 음성의 충실도 향상 (Improving Fidelity of Synthesized Voices Generated by Using GANs)

  • 백문기;윤승원;이상백;이규철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.9-18
    • /
    • 2021
  • 생성적 적대 신경망(Generative Adversarial Networks, GANs)은 컴퓨터 비전 분야와 관련 분야에서 큰 인기를 얻었으나, 아직까지는 오디오 신호를 직접적으로 생성하는 GAN이 제시되지 못했다. 오디오 신호는 이미지와 다르게 이산 값으로 구성된 생플링된 신호이므로, 이미지 생성에 널리 사용되는 CNN 구조로 학습하기 어렵다. 이러한 제약을 해결하고자, 최근 GAN 연구자들은 오디오 신호의 시간-주파수 표현을 기존 이미지 생성 GAN에 적용하는 전략을 제안했다. 본 논문은 이 전략을 따르면서 GAN을 사용해 생성된 오디오 신호의 충실도를 높이기 위한 개선된 방법을 제안한다. 본 방법은 공개된 스피치 데이터세트를 사용해 검증했으며, 프레쳇 인셉션 거리(Fréchet Inception Distance, FID)를 사용해 평가했다. 기존의 최신(state-of-the-art) 방법은 11.973의 FID를, 본 연구에서 제안하는 방법은 10.504의 FID를 보였다(FID가 낮을수록 충실도는 높다).

딥러닝 기반 음향 신호 대역 확장 시스템 (Deep Learning based Raw Audio Signal Bandwidth Extension System)

  • 김윤수;석종원
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1122-1128
    • /
    • 2020
  • 대역 확장(Bandwidth Extension)이란 채널 용량 부족 혹은 이동통신 기기에 탑재된 코덱의 특성으로 인해 부호화 및 복호화 과정에서 대역 제한(band limited)되거나 손상된 협대역 신호(NB, Narrow Band)를 복원, 확장하여 광대역 신호(WB, Wide Band)로 전환 시켜주는 것을 의미한다. 대역 확장 연구는 주로 음성 신호 위주로 대역 복제(SBR, Spectral Band Replication), IGF(Intelligent Gap Filling)과 같이 고대역을 주파수 영역으로 변환하여 복잡한 특징 추출 과정을 거쳐 이를 바탕으로 사라지거나 손상된 고대역을 복원한다. 본 논문에서는 딥러닝 모델 중 오토인코더(Autoencoder)를 바탕으로 1차원 합성곱 신경망(CNN, Convolutional Neural Network)들의 잔차 연결을 활용하여 복잡한 사전 전처리 과정 없이 일정한 길이의 시간 영역 신호를 입력시켜 대역 확장 시킨 음향 신호를 출력하는 모델을 제안한다. 또한 음성 영역에 제한되지 않는 음악을 포함한 여러 종류의 음원을 포함하는 데이터셋에 훈련시켜도 손상된 고대역을 복원할 수 있음을 확인하였다.

MAV 환경에서의 CNN 기반 듀얼 채널 음향 향상 기법 (CNN based dual-channel sound enhancement in the MAV environment)

  • 김영진;김은경
    • 한국정보통신학회논문지
    • /
    • 제23권12호
    • /
    • pp.1506-1513
    • /
    • 2019
  • 최근 드론과 같은 멀티로터 UAV(Unmanned Aerial Vehicle, 무인항공기)의 산업 범위가 크게 확대됨에 따라, UAV를 활용한 데이터의 수집 및 처리, 분석에 대한 요구도 함께 증가하고 있다. 그러나 UAV를 이용해서 수집된 음향 데이터는 UAV의 모터 소음과 바람 소리 등으로 크게 손상되어, 음향 데이터의 처리 및 분석이 어렵다는 단점이 있다. 따라서 본 논문에서는 UAV에 연결된 마이크를 통해 수신된 음향 신호로부터 목표 음향 신호의 품질을 향상시킬 수 있는 방법에 대해 연구하였다. 본 논문에서는 기존의 단일 채널 음향 향상 기술 중 하나인 densely connected dilated convolutional network를 음향 신호의 채널 간 특성을 반영할 수 있도록 확장하였으며, 그 결과 SDR, PESQ, STOI과 같은 평가 지표에서 기존 연구 대비 좋은 성능을 보였다.

우울 및 불안 장애에서의 인지적 처리와 정서조절 고찰: 신경인지 연결망을 중심으로 (A Study on the Relationship between Cognitive Processes and Emotion Regulations in Depression and Anxiety Disorder: Focused on the Neurocognitive Networks)

  • 김충명
    • 산업융합연구
    • /
    • 제19권6호
    • /
    • pp.177-186
    • /
    • 2021
  • 본고는 인지적 과제를 수행하는 동안 우울 및 불안 환자의 정신병리적 과정과 이의 치료접근 방식에 대한 통합적 이해를 위해 최근 제시된 신경인지 연결망을 토대로 인지과정 및 정서조절의 비정상적 기능 연결성을 재해석 할 수 있는 모델을 제안하고자 하였다. 재구성된 우울과 불안장애 신경인지 연결망 모델을 통해, 우울증은 불이행방식 연결망(default mode network; DMN)의 과다 활성화에 기인하는 '자기참조적 사고로의 과몰입'으로, 불안장애는 불이행방식 연결망의 과소 활성화에 기인하는 '자기참조적 사고와의 단절'로 규정해 볼 수 있음을 확인하였다. 신경인지 연결망 중 자기의식 및 투사와 관련되는 자기참조 처리가 주요 기능인 DMN의 비정상적 활성화와 병리적 기능의 체계적 연결시도는 우울와 불안에 대한 통합적 해석과 치료적 접근에 시사점을 줄 수 있는 또 다른 출발점이 될 수 있을 것이다.

Masking Level Difference: Performance of School Children Aged 7-12 Years

  • de Carvalho, Nadia Giulian;do Amaral, Maria Isabel Ramos;de Barros, Vinicius Zuffo;dos Santos, Maria Francisca Colella
    • Journal of Audiology & Otology
    • /
    • 제25권2호
    • /
    • pp.65-71
    • /
    • 2021
  • Background and Objectives: In masking level difference (MLD), the masked detection threshold for a signal is determined as a function of the relative interaural differences between the signal and the masker. Study 1 analyzed the results of school-aged children with good school performance in the MLD test, and study 2 compared their results with those of a group of children with poor academic performance. Subjects and Methods: Study 1 was conducted with 47 school-aged children with good academic performance (GI) and study 2 was carried out with 32 school-aged children with poor academic performance (GII). The inclusion criteria adopted for both studies were hearing thresholds within normal limits in basic audiological evaluation. Study 1 also considered normal performance in the central auditory processing test battery and absence of auditory complaints and/or of attention, language or speech issues. The MLD test was administered with a pure pulsatile tone of 500 Hz, in a binaural mode and intensity of 50 dBSL, using a CD player and audiometer. Results: In study 1, no significant correlation was observed, considering the influence of the variables age and sex in relation to the results obtained in homophase (SoNo), antiphase (SπNo) and MLD threshold conditions. The final mean MLD threshold was 13.66 dB. In study 2, the variables did not influence the test performance either. There was a significant difference between test results in SπNo conditions of the two groups, while no differences were found both in SoNo conditions and the final result of MLD. Conclusions: In study 1, the cut-off criterion of school-aged children in the MLD test was 9.3 dB. The variables (sex and age) did not interfere with the MLD results. In study 2, school performance did not differ in the MLD results. GII group showed inferior results than GI group, only in SπNo condition.