• 제목/요약/키워드: Speech Processing

검색결과 956건 처리시간 0.028초

수 연산과정에서 ERP로 확인된 숫자어휘와 부호변환 과정 (Words for Numbers and Transcoding Processes Reflected by ERPs during Mental Arithmetic)

  • 김충명;김동휘
    • 한국산학기술학회논문지
    • /
    • 제11권2호
    • /
    • pp.689-695
    • /
    • 2010
  • 한글 숫자어휘의 부호변환 과정을 알아 봄에 있어, 수연산이 시행되는 동안 주어진 목표자극들 간의 연산결과가 일치하는지에 대한 과제를 ERP 실험방법에 의거 시행하였다. 평균진폭에 대한 실험 결과는 과제-의존적인 처리가 아닌 자극유형-의존적인 처리과정을 보여주었는데, 덧셈 및 곱셈과제에서의 한글 숫자어휘의 시간적인 뇌파개형은 아라비아 숫자에 대한 그것과 유사하게 나타났다. 이 처리과정에서의 유의미한 차이점은 300ms 부근에서 나타난 지연된 양성파형의 성분으로서, 이는 한글 숫자어휘의 아라비아 숫자로의 부호변환 과정으로 해석가능하다. 이 과정에 수반된 뇌영상을 분석한 결과, 두 조건에서 서로 다른 파형을 야기한 영역은 한글문자 처리에 관여하는 좌측 측두-두정영역으로 확인되었다. 이와 같은 결과는 수연산 과정의 개개 자극인 한글 숫자어휘의 내재적 수표상 방식이, 수개념으로의 직접적 접근이 아니라 일정한 부호변환 과정을 통한 도식화된 통로를 거치고 있음을 시사한다 할 수 있다.

가변 CSD 계수를 이용한 저전력 디지털 필터의 설계 (Design of a Low Power Digital Filter Using Variable Canonic Signed Digit Coefficients)

  • 김영우;유재택;김수원
    • 대한전자공학회논문지SD
    • /
    • 제38권7호
    • /
    • pp.455-463
    • /
    • 2001
  • 본 논문에서는 많은 연산을 필요로 하는 디지털 필터의 저전력화를 위한 새로운 저전력 기법을 제안한다. 제안된 저전력 기법에서는 CSD (canonic signed digit)숫자의 유효 표현 범위를 결정하는 nonzero digit 와 ternary digit의 값에 따른 필터의 차단대역 특성 변화를 이용하여, 다단계의 필터 차단 대역 특성을 가지는 가변 CSD 계수를 얻고 이를 approximate processing 기법에 적용하였다. 제안된 저전력 필터 설계기법의 성능을 확인하기 위하여 4개의 필터 차단대역 특성을 사용하는 AC '97 과표본화 ADC용 decimation 필터의 설계에 적용하였다. Decimation필터 중 제안된 저전력 기법을 적용한 두 half-band 필터의 연산량은 제안된 기법을 적용하지 않은 경우에 비해 각각의 근사화 수준에서 단위 출력 샘플 당 63.5, 35.7, 13.9 %의 덧셈 연산만을 수행하여 필터의 출력을 얻을 수 있었다. Decimation 필터는 0.6㎛ CMOS SOG 라이브러리를 사용하여 제작·실험하였으며, 실험결과 입력 신호의 attenuation에 따라 전체 소모전력의 약 3.8 %에서 9 %의 소모전력이 감소되었음을 확인하였다. 제안된 가변 CSD 계수를 이용한 approximate processing 방식은 특히 음성 대역 및 오디오 대역의 신호처리와 과표본화 ADC/DAC의 decimation/interpolation과 같은 multirate 시스템에 적합하다.

  • PDF

IEEE 802.16e 시스템에서의 CNG 모드 AMR 음성 코덱을 위한 개선된 ErtPS 스케줄링 알고리즘 (Improved ErtPS Scheduling Algorithm for AMR Speech Codec with CNG Mode in IEEE 802.16e Systems)

  • 우현제;김주영;이미정
    • 정보처리학회논문지C
    • /
    • 제16C권5호
    • /
    • pp.661-668
    • /
    • 2009
  • IEEE 802.16e 시스템은 가변 비트율로 생성되는 묵음 삭제(Silence suppression) 지원 VoIP 트래픽 서비스의 QoS 제공을 위해, ErtPS(Extended real-time Polling Service) 상향링크 스케줄링 알고리즘을 제안하였다. VoIP 서비스는 묵음을 삭제할 경우에 사용자에게 연결상태라는 것을 알리기 위해, 수신자의 청각에 편안한 잡음을 재생시키는 CNG(Comfort Noise Generation) 모드를 지원해야 한다. CNG 모드의 비음성 구간에서는 음성 구간에 비해 긴 패킷 전송 간격에 따라 낮은 전송률로 데이터를 생성한다. 따라서, 주기적으로 데이터 패킷을 생성하는 서비스 플로우를 위해 설계된 ErtPS 알고리즘을 음성 구간과는 다른 주기로 데이터를 생성하는 비음성 구간에 적용할 경우, 상향 링크의 자원이 비효율적으로 사용된다. 이에 본 논문에서는 CNG 지원 VoIP 트래픽에 대한 비음성 구간에서의 효율적인 자원 활용을 위해,개선된 ErtPS 방안을 제안하였다. 제안 방안에서는 사용자가 기지국에게 자신의 음성 상태의 변화를 알리면, 기지국은 사용자의 각 음성 상태에 따라 해당 주기로 대역폭을 할당한다. 이를 위해, 제안 방안에서는 802.16e 시스템에서 주기적으로 채널의 품질정보를 기지국에 전달하기 위해 사용되는 상향 링크 부채널인 CQI(Cannel Quality Information) 채널을 활용하였다. OPNET 시뮬레이터를 사용하여 제안 방안의 성능을 평가해 보았으며, ErtPS와 비교하여 상향 링크의 대역폭 활용과 패킷 전송 지연 면에서 성능이 향상되었음을 확인하였다.

잡음에 강한 특징 벡터 및 스펙트럼 차감법을 이용한 음성 인식 (Speech Recognition Using Noise Robust Features and Spectral Subtraction)

  • 신원호;양태영;김원구;윤대희;서영주
    • 한국음향학회지
    • /
    • 제15권5호
    • /
    • pp.38-43
    • /
    • 1996
  • 본 논문에서는 잡음 및 주변 환경에 강인한 것으로 알려져 있는 특징 벡터들을 이용한 인식 성능을 비교하였다. 아울러 스펙트럼 차감법을 적용하여 높은 인식 성능을 얻도록 하였다. 본 논문에서는 환경 변화에 강인한 인식 성능을 얻기 위하여 SMC(Short time Modified Coherence) 분석, 루트(root) 켑스트럼 분석, LDA(Linear Discriminant Analysis), PLP(Perceptual Linear Prediction), RASTA(RelAtive SpecTrAl) 처리 등을 이용하여 인식 실험을 수행하였다. 실험을 위하여 반연속 HMM을 이용한 단독음 인식 시스템을 구현하였고 전시장 및 컴퓨터실의 잡음을 첨가하여 0, 10 및 20dB의 SNR에 대한 인식 실험을 수행하였다. 실험 결과, LPCC(Linear Prediction Cepstral Coefficient)를 이용한 경우에 비하여 SMC나 루트처리를 이용한 멜 켑스트럼(루트_멜 켑스트럼)을 이용한 경우 10dB의 SNR에서 각각 9.86%, 12.68% 향상된 가장 좋은 인식률을 얻었다. 또한 멜 켑스트럼과 루트_멜 켑스트럼을 스펙트럼 차감법과 결합하여 잡음을 제거한 경우 10dB에서 각각 16.7%, 8.4% 향상된 94.91%, 94.28%의 인식률을 얻을 수 있었다.

  • PDF

Modulated Lapped Transform 영역에서 적응 필터링을 이용한 음향 반향 제거기의 구현 (An Implementation of Acoustic Echo Canceller Using Adaptive Filtering in Modulated Lapped Transform Domain)

  • 백수진;박규식
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.425-433
    • /
    • 2003
  • 음향 반향 제거기 (Acoustic Echo Canceller: AEC)는 원거리 회의 시스템이나 차량 내 핸즈프리 통화 등에서 필연적으로 발생하는 반향을 제거하기 위해 이용된다. 이러한 반향을 제거하기 위해 다양한 적응 필터링 알고리즘이 제안되었으며 LMS(Least Mean Square) 알고리즘은 다른 알고리즘에 비해 매우 단순하고, 비교적 강인하여 많은 응용 분야에 사용되고 있다. 그러나 LMS 알고리즘은 음성과 같은 상관도가 높은 유색 신호에 대해 음향반향 제거기의 수렴 속도를 저하시켜 전체적인 음향 반향 제거 성능을 떨어뜨리게 한다. 이를 보완하기 위하여 DCT나 DFT 등의 직교 변환 행렬을 이용하여 입력신호의 상관성을 저하시킨 후 LMS 적응 필터링 알고리즘을 적용하는 변환 영역 음향 반향 제거 알고리즘 등이 제안되었다. 본 논문에서는 MLT (Modulated Lapped Transform) 직교 변환행렬을 이용한 MLT영역의 적응음향반향 제거 알고리즘을 제안한다. 제안된 알고리즘은 기존의 NXN DCT, DFT, Hadamad등의 정방 행렬 대신에 2NXN 크기의 MLT 변환 행렬을 사용함으로서 유색 입력 신호에 대해 효과적인 상관성 저하와 빠른 수렴 속도를 달성할 수 있었으며 실제 음향 반향 제거 시스템에 적용하여 그 성능을 비교 입증하도록 하였다. 합성 음성신호와 실제 음성 신호를 이용한 모의 실험 결과 제안된 MLT 영역 음향 반향 제거 시스템은 기존의 DCT 변환 영역 음향 반향 시스템에 비해 약 2배 이상의 빠른 수렴속도와 약 20∼30 ㏈ 정도의 ERLE (Echo Return Loss Enhacement) 향상을 얻을 수 있었다

혼합 가우시안 군집화를 이용한 상태공유 음향모델 최적화 (A Study on the Optimization of State Tying Acoustic Models using Mixture Gaussian Clustering)

  • 안태옥
    • 대한전자공학회논문지SP
    • /
    • 제42권6호
    • /
    • pp.167-176
    • /
    • 2005
  • 본 논문은 음성인식에 쓰이는 음향모델의 모델링 방법 중 결정트리 상태공유 모델링(DTST)을 기반으로 출력 확률 분포의 혼합 가우시안 수를 줄여 모델을 최적화하는 방법을 제안한다. DTST는 음성학적 지식을 포함할 수 있는 질의어 집합과 유사도를 기반으로 한 결정 방법을 이용하는 것이다. 이때 상태들의 출력 확률 분포의 혼합 가우시안 수를 늘려 인식률을 증가시킬 수 있게 된다. 본 논문에서는 인식률이 최대가 되는 지점에서 혼합 가우시안들을 군집화 하여 그 수를 줄이고자 한다. 군집화 시에 필요한 거리 측정 방법은 유클리드(Euclidean)와 바타챠랴(Bhattacharyya) 방법을 이용하였고, 새로운 가우시안은 거리가 최소가 되는 두 가우시안으로부터 평균과 분산을 다시 계산하여 생성하였다. 증권상장 회사명(STOCKNAME) 1,680개의 단어 데이터베이스를 구성하여 실험한 결과 바타챠랴 방법은 $97.2\%$의 인식률을 유지하면서 전체 혼합 가우시안 수의 비율을 $1.0\%$로 감소시켰고, 유클리드 방법은 $96.9\%$의 인식률을 유지하면서 혼합 가우시안 수의 비율을 $1.0\%$로 감소시켜 모델을 최적화할 수 있었다.

대화 말뭉치 구축을 위한 반자동 의미표지 태깅 시스템 (A Semi-Automatic Semantic Mark Tagging System for Building Dialogue Corpus)

  • 박준혁;이성욱;임윤섭;최종석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권5호
    • /
    • pp.213-222
    • /
    • 2019
  • 지능형 음성 대화 인터페이스 구현에 있어 핵심어의 의미표지는 사용자 의도 파악을 위한 중요한 요소이다. 대화시스템은 사용자 발화의 의도를 파악하기 위해 핵심어와 그 의미표지를 이용하여 발화의 의도를 결정한다. 하나의 핵심어는 여러 개의 의미표지를 가질 수 있는 중의성을 지닌다. 이러한 중의성을 지닌 핵심어를 사용자의 의도와 일치하는 의미표지로 결정하는 것은 단어 의미 분별 문제와 유사하다. 우리는 전사된 대화 말뭉치의 약 23%를 수동으로 의미를 부착하여 핵심어에 대한 의미표지 사전, 유의어 사전, 문맥벡터 사전을 먼저 구축한 후, 나머지 77% 대화 말뭉치에 존재하는 핵심어의 의미를 자동으로 부착한다. 중의성을 가진 핵심어는 문맥벡터 사전으로부터 문맥 벡터 유사도를 계산하여 의미를 결정한다. 핵심어가 미등록어인 경우에는 유의어 사전을 이용하여 가장 유사한 핵심어를 찾아 그 핵심어의 의미를 부착한다. 중의성을 가진 고빈도 핵심어 3개와 저빈도 핵심어 3개를 말뭉치에서 선정하여 제안 시스템의 성능을 평가하였다. 실험결과, 수동으로 구축한 말뭉치를 사용하였을 때 약 54.4%의 정확도를 얻었고, 반자동으로 확장한 말뭉치를 사용하였을 때 약 50.0%의 정확도를 얻었다.

중추 청각 처리 기능 평가에서 hearing in noise test의 임상적 유용성과 개선점 고찰 (A study on the clinical usefulness and improvement of hearing in noise test in evaluating central auditory processing)

  • 한수희
    • 한국음향학회지
    • /
    • 제41권1호
    • /
    • pp.108-113
    • /
    • 2022
  • 소음상황에서의 어음 이해 능력은 효과적인 의사소통을 위한 중요한 기술이다. 이러한 능력을 평가하는 방법으로 Hearing In Noise Test(HINT) 도구가 제안되어 사용되고 있다. 하지만 국내에서 이 유용한 도구가 초기의 기대와 달리 임상에서 적극적으로 활용되지 못하고 있다. 연령이 높아질수록 정상 청력을 가지고 있을지라도 양이에서 들어오는 신호들을 처리하는데 어려움을 겪게 되고, 특히 배경 소음이 있는 상황에서 듣기는 더욱 어려워진다. 하지만, 어음이해에 상당한 문제점을 갖고 있는 노인 인구들을 임상적으로 평가하는 도구들이 많지 않다. 본 연구에서는 이러한 검사법이 근거하고 있는 기전에 있는 인지적 특성과 임상에서의 문제점을 분 석하여 개선점을 제안하고자 한다. 기본 임상 사례로 정상 청력을 가진 20대와 70대의 대표적 HINT점수를 비교하고, 소음이 어떤 조건에서 제시되는가에 따른 문장 인지 특징을 조명하였다. 대상자의 HINT score는 Quiet(Q), Noise Front(NF), Noise Right(NR), Noise Left(NF)조건에서 분석되었다. 여러 임상적 관점에서 유용한 점은 배경 소음이 있을 때 노인의 경우 청년보다 더 많은 신호대잡음비를 필요함을 나타내는 정량적 변수를 보여주고, 양이차폐감소차이(Binaural Masking Level Difference, BMLD)효과도 보여주고 있다는 점이다. 효과적 임상적 적용에는 세부 연령대별 비교 가능한 표준 자료가 극히 부족한 실정이다. 이러한 유용성 확인과 함께 임상 관련 개선점을 제시하였다.

RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장 (Extending StarGAN-VC to Unseen Speakers Using RawNet3 Speaker Representation)

  • 박보경;박소민;홍현기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권7호
    • /
    • pp.303-314
    • /
    • 2023
  • 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다.

언어 모델 기반 음성 특징 추출을 활용한 생성 음성 탐지 (Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction)

  • 김승민;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.439-449
    • /
    • 2024
  • 최근 음성 생성 기술의 급격한 발전으로, 텍스트만으로도 자연스러운 음성 합성이 가능해졌다. 이러한 발전은 타인의 음성을 생성하여 범죄에 이용하는 보이스피싱과 같은 악용 사례를 증가시키는 결과를 낳고 있다. 음성 생성 여부를 탐지하는 모델은 많이 개발되고 있으며, 일반적으로 음성의 특징을 추출하고 이러한 특징을 기반으로 음성 생성 여부를 탐지한다. 본 논문은 생성 음성으로 인한 악용 사례에 대응하기 위해 새로운 음성 특징 추출 모델을 제안한다. 오디오를 입력으로 받는 딥러닝 기반 오디오 코덱 모델과 사전 학습된 자연어 처리 모델인 BERT를 사용하여 새로운 음성 특징 추출 모델을 제안하였다. 본 논문이 제안한 음성 특징 추출 모델이 음성 탐지에 적합한지 확인하기 위해 추출된 특징을 활용하여 4가지 생성 음성 탐지 모델을 만들어 성능평가를 진행하였다. 성능 비교를 위해 기존 논문에서 제안한 Deepfeature 기반의 음성 탐지 모델 3개와 그 외 모델과 정확도 및 EER을 비교하였다. 제안한 모델은 88.08%로 기존 모델보다 높은 정확도와 11.79%의 낮은 EER을 보였다. 이를 통해 본 논문에서 제안한 음성 특징 추출 방법이 생성 음성과 실제 음성을 판별하는 효과적인 도구로 사용될 수 있음을 확인하였다.