• 제목/요약/키워드: 음성 인식 후처리

검색결과 130건 처리시간 0.028초

청각보철을 위한 PLP방식의 음성신호처리에 관한 연구 (A Study on the Speech Signal Processing for Cochlear Implant using the PLP Analysis)

  • 김영선;최두일;박상희;백승화
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1992년도 춘계학술대회
    • /
    • pp.167-170
    • /
    • 1992
  • 본 논문에서는 감각성 난청자들이 정상인들과 유사한 음성 인식을 하도록 청각 보철 기기를 구성하였다. 음성의 포먼트를 추출하기 위해서는 PLP(Perceptual Linear Prediction) 방식을 이용하였으며, pitch 추출을 위해서는 3 단계 클리핑 함수를 이용한 자기 상관법을 이용하였다. 또한 다중 채널 - 다중 전극 방식을 이용하여 내이의 헤어셀에 17 개의 전극을 삽입하여 신호를 가하는 시뮬레이션을 하였다. 실험에 사용한 데이타는 모음 /a/, /e/, /i/, /o/, /u/로 전모음과 후모음의 차이를 구별하였으며 두번째 포먼트의 변화와 포먼트 통합 이론에 대한 검증을 하였다.

  • PDF

ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델 (ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models)

  • 박준영;여진영 ;이고은 ;최창환;최상일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.514-517
    • /
    • 2023
  • 본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

텔레매틱스 시스템을 위한 반향제거 및 Barge-In 기능을 갖는 음성인터페이스 (Speech Interface with Echo Canceller and Barge- In Functionality for Telematic System)

  • 김준;배건성
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.483-490
    • /
    • 2009
  • 본 논문에서는 배경잡음과 반향이 존재하는 차량환경에서 음성인식 성능을 향상시키기 위해 상관계수를 이용한 동시통화 검출 알고리즘을 적용한 음향 반향제거기와 barge-in 기능을 갖는 음성 인터페이스를 구현하였다. 상관계수를 이용한 동시통화 검출 알고리즘은 임계치 설정 및 배경잡음의 영향 등으로 인해 검출 오류가 발생한다. 이를 보완하기 위해 동시통화 검출 조건으로 매 샘플마다 입력신호에서 추정한 배경잡음 및 반향신호의 평균 전력을 이용하여 동시통화 검출 오류를 줄였으며, 시변의 임계치를 적용한 후처리 단을 통해 시변의 잔여 잡음 성분을 제거하였다. 또한 안내음성 중에 음성입력이 가능하도록 barge-in 기능을 적용한 음성 인터페이스 시스템을 구현하였다. 제안한 음성 인터페이스 시스템은 동시통화 검출 오류와 이로 인해 발생되는 문제점을 효율적으로 해결할 수 있음을 실험을 통하여 확인하였다.

차량용 음성인식을 위한 주변잡음에 강건한 브라인드 음원분리 (Robust Blind Source Separation to Noisy Environment For Speech Recognition in Car)

  • 김현태;박장식
    • 한국콘텐츠학회논문지
    • /
    • 제6권12호
    • /
    • pp.89-95
    • /
    • 2006
  • 독립성분분석을 사용한 암묵신호분리의 성능은 잔향이 존재하는 환경에서 잔류 누설 성분 (cross-talk) 때문에 현저히 저하된다. 본 논문에서는 잔류 누설 성분을 제거하기 위한 후처리 방법을 제안한다. 제안하는 방법은 주파수 영역에서의 변형된 NLMS(normalized least mean square) 필터를 사용하며 필터의 역할은 잔류 누설 성분을 유발하는 누설 경로를 추정하는 데 있다. 특정 채널에서 잔류하는 누설 성분은 상대 채널의 직접 성분에 해당되므로 관측되는 상대 채널의 입력신호를 이용하여 누설 경로를 추정할 수 있다. 변형된 NLMS 필터는 필터 입력 신호의 전력과 추정 오차 신호의 전력을 함께 고려하여 정규화한다. 특정 채널의 직접 신호 성분은 적응 필터에서 잡음처럼 동작하여 결국 적응필터가 오조정되기 때문에 제안하는 방법을 통해 적응필터의 오조정을 방지할 수 있다. 음성 신호를 사용한 컴퓨터 시뮬레이션 결과를 통해 제안하는 방법이 후처리를 사용하지 않은 경우에 비해 잡음 제거 성능(NRR)이 약 3dB 정도 개선되는 것을 확인 할 수 있다.

  • PDF

웨이블렛 필터뱅크에 기반을 둔 강인한 화자식별 기법 (A Robust Speaker Identification Method Based on the Wavelet Filter Banks)

  • 이대종;곽근창;유정웅;전명근
    • 정보처리학회논문지C
    • /
    • 제9C권4호
    • /
    • pp.459-466
    • /
    • 2002
  • 본 논문에서는 웨이블렛 서브밴드 필터링기법을 이용하여 다중의사 결정기법에 기반을 둔 잡음에 강인한 화자식별 알고리즘을 제안한다. 제안된 방법은 잡음이 첨가된 음성신호를 웨이블렛 서브밴드 필터뱅크를 이용하여 각 주파수 대역별로 신호를 분리한 후 개별적인 대역별로 인식 알고리즘을 수행하기 때문에 어떤 서브밴드에서의 노이즈 영향이 상대적으로 적으므로 대역제약된 형태로 주어지는 일반적인 주변잡음이 있는 환경하에서 우수한 성능을 보일 수 있도록 시스템을 구성하였다. 제안된 알고리즘은 화자인식 기법으로 널리 쓰이고 있는 벡터양자화 알고리즘만을 적용한 경우에 비해 15∼60%의 향상된 인식률을 보였다.

음성인식과 안면인식을 활용한 NUI LMS (NUI LMS using Webcam & Mic (Natural User Interface Learning Method System))

  • 구성모;안인균;이지훈;문호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.552-555
    • /
    • 2020
  • 최근 코로나 관련 온라인 강의가 늘어남에 따라 적은 도구를 이용한 온라인과 오프라인 강의의 장점은 부각, 단점은 보완한 새로운 LMS가 필요함. 웹캠과 마이크를 이용하여 수강자의 수강태도를 파악 후, 수강자의 수업태도를 향상시키는 시스템임.

객체 인식을 활용한 시각장애인용 지하철 길 안내 시스템 (Subway Guidance System for the Visually Impaired Using Object Recognition)

  • 윤성철;박종혁;주세환;한윤원;김성완;김종득
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.1278-1281
    • /
    • 2021
  • 본 논문에서는 시각장애인들의 지하철 이용의 불편함을 최소화할 수 있는 내비게이션 앱을 개발하였다. 스마트폰 카메라가 전방을 인식하여 사물을 판단 후 장애물 혹은 위험요소를 사용자에게 음성으로 전달한다. 또한, 사용자의 원활한 지하철 이용을 위해 공공데이터를 활용하여 지하철 환승 정보, 화장실, 출구 정보 등의 이동 편의를 위한 실질적인 정보를 제공한다. 시각장애인은 본 앱을 활용하여 지하철을 더욱 편하고 안전하게 이용할 수 있다.

시각장애인을 위한 물품인식 제어장치의 설계와 제어방법에 관한 연구 (Design of a control device for the blind to recognize household medicines)

  • 서경덕;안광진;안지윤;하경욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.972-973
    • /
    • 2023
  • 2022년 등록된 장애인은 265만 3,000명으로 전체 인구 대비 5.2%를 기록했으며, 그중 시각장애인은 9.5%에 해당한다. 그들은 여가문화 활동, 대중교통 이용, 무인기 이용에 어려운 점이 있듯이 일상생활에 많은 불편한 점이 있다. 특히 제품의 미비한 점자 시스템으로 인한 문제점을 해결하기 위해 '물품인식 제어장치'를 고안했으며, 제품의 바코드를 스캔한 후 제품에 대한 정보를 점자로 출력과 동시에 음성으로 출력하여 시각장애인에게 올바른 정보를 제공한다.

자동 음소 분할 성능 개선을 위한 음소 모델링에 관한 연구 (A Study of Phoneme Modeling for Improvement of Automatic Segmentation Performance)

  • 박혜영;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.175-178
    • /
    • 2002
  • 본 논문에서는 Hidden Markov Model(HMM)을 이용하여 corpus 기반 TTS에 사용할 DB를 자동 음소 분할 해주는 시스템을 구현하였다. HMM을 이용해서 음소 분할 할 경우 HMM을 모델링 하는 방법에 따라 많은 성능의 차이가 난다. 따라서 본 논문에서는 HMM 모델링 방법에 따른 몇 가지 실험 및 성능 평가를 하였다. 실험 결과 음성 인식과는 달리 HMM모델링 시 triphone 모델보다 monophone 모델의 성능이 더 우수하였으며, 에너지 기반의 후처리를 통해 성능 향상을 얻을 수 있었다.

  • PDF

군집을 이루는 자궁 경부암 세포 인식에 관한 연구 (A Study on Recognition of Clustered Cells in Uterine Cervical Pap-Smear Image)

  • 최예찬;김선아;김호영;김백섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.511-513
    • /
    • 2000
  • PaP Smear 테스트는 자궁 경부암 진단에 가장 효율적인 방법으로 알려져 있다. 그러나 이 방법은 높은 위 음성률(false negative error, 15~50%)을 나타내고 있다. 이런 큰 오류율은 주로 다량의 세포 검사에 기인하여, 자동화 시스템의 개발이 절실히 요구되고 있다. 본 논문은 자궁 경부암의 특징인 군집을 이루는 암세포를 인식할 수 있는 시스템을 제안한다. 시스템은 두 부분으로 나누어진다. 첫 단계에서는 저 배율(100배)에서 간단한 영상처리와 최소 근접 트리(Minimum Spanning Tree)를 통해 군집을 이루는 세포를 찾는다. 두 번째 단계서는 고 배율(400배)로 확대하여 군집 세포들로부터 여러 가지 특징을 추출한 후 KNN(k-Neighbor) 방법을 통해 인식하는 단계이다. 50개의 영상 (640X 480, RGB True Color 25 개의 100배 영상 , 25개의 400배 영상)이 실험에 사용되었다. 한 영상을 처리하는데 약 3초 (2.984초) 소요되었으며, 이는 region growing(20초)나 split and merge(58초) 방법 보다 덜 소요되었다. 100배 영상에서 정상과 비정상의 두 그룹으로 나누었을 경우에는 96%의 높은 인식율을 나타내었으나 비정상을 다시 5개의 그룹으로 나누었을 때는 45%로 나타내었다. 이는 영역 추출(segmentation) 단계에서 오류와 트레이닝 데이터의 비정확성에 기인한다. 400배 영상에서는 각각 92%와 30%로 나타내었다. 이는 영역추출 단계에서 사용한 Watershed 방법의 오류로 기인한 것으로 본다.

  • PDF