• 제목/요약/키워드: 음성 인식 후처리

검색결과 130건 처리시간 0.027초

조타명령의 음성인식을 위한 최적 특징파라미터 검출에 관한 연구 (Optimal Feature Parameters Extraction for Speech Recognition of Ship's Wheel Orders)

  • 문성배;채양범;전승환
    • 해양환경안전학회지
    • /
    • 제13권2호
    • /
    • pp.161-167
    • /
    • 2007
  • 이 논문은 선박의 자동조타장치를 음성인식으로 제어할 수 있는 시스템을 개발하기 위한 기초연구로 SMCP(IMO Standard Marine Communication Phrases)에 제시된 조타명령문의 구성 형태를 분석하여 화자의 의도를 예측할 수 있는 특정 파라미터를 추출하였다. 그리고 이 파라미터를 이용하여 1차 패턴인식 과정으로부터 도출된 후보단어 집합으로부터 최종 단어를 결정하는 후처리 인식 프로시저를 설계하였다. 이 프로시저의 유용성을 검증하기 위하여 음성인식용으로 총 525개의 조타명령문을 획득하였고, 표준패턴 기반의 인식과정 인식률과의 비교실험을 수행하였다. 실험결과 의도예측 특정 파라미터를 이용한 인식 프로시저의 인식률이 약 42.3% 향상되어 유효함을 알 수 있었다.

  • PDF

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘 (Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person)

  • 석수영;정현열
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.250-258
    • /
    • 2007
  • 현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

시각장애인의 안전한 이동을 도와주는 지능형 카트 (Intelligent Carts that Help the Visually Impaired Move Safely)

  • 서찬;윤인경;이세희;박지원;김인수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.976-977
    • /
    • 2023
  • 본 논문은 시각장애인 안내견이 부족한 상황 개선과 시각장애인에게 안전하고 자유로운 이동을 제공해주는 "시각장애인의 안전한 이동을 도와주는 지능형 카트"를 제안한다. 주요 특징은 다음과 같다. 첫째, 지문 인식 센서를 활용해 지문 등록 후 본인 인증을 하고 압력 센서를 활용해 카트 손잡이를 잡았을 경우에만 카트가 출발하도록 한다. 둘째, 라이다, 카메라를 이용하여 자율 주행 한다. 셋째, 음성인식 통해 목적지 설정, 속도 조절, 경고 알림 기능을 제공한다. 넷째, 짐칸을 설치하여 음성인식으로 여닫을 수 있도록 한다. 다섯째, 앱을 통해 카트 운전 모드를 변경할 수 있다.

스펙트럼 보상에 의한 피치 검출에 관한 연구 (On a pitch detection with spectrum compensation technique of speech signal)

  • 안중현;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.401-402
    • /
    • 2006
  • 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 기본주파수 즉, 피치를 정확히 검출하는 것은 중요하다. 그러나 포만트의 영향과 천이진폭의 영향 때문에 음성신호에서 피치를 정확히 구하는 것은 매우 어렵다. 더구나 노이즈가 포함된 신호에서는 더 더욱 어려워진다. 따라서 본 논문에서는 켑스트럼영역에서 포만트의 영향 을 제거하고 밴드 필터링 한 후 기본 피치 정보를 강조 보상하여 피치주기를 검출하는 방법을 새로이 제안한다.

  • PDF

HMM의 상태별 가중치를 이용한 핵심어 검출의 성능 향상 (Performance Improvement of Word Spotting Using State Weighting of HMM)

  • 최동진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.305-308
    • /
    • 1998
  • 본 논문에서는 핵심어 검출의 성능을 향상시키기 위한 새로운 후처리 방법을 제안한다. 일반적으로 핵심어 검출 시스템에 의해 검출된 상위 n개의 후보 단어들의 우도(likelihood)는 비슷한 경우가 많다. 따라서, 한 음성구간에 대해 음향학적으로 유사한 핵심어들간의 오인식 가능성이 높아진다. 그러나 기존의 핵심어 검출에 사용된 후처리 방법은 음성의 모든 구간에 같은 비중을 두고 우도를 평가하므로 비슷한 음향학적 특징을 가지는 유사한 핵심어들의 비교에 적합하지 못하다. 이를 해결하기 위하여, 본 논문에서는 후보단어들의 부분적인 음향학적 특징 차이에 기반한 가중치를 우도 계산 시에 반영함으로써 보다 변별력을 높이는 알고리즘을 제안한다. 실험 결과, 제안된 방법을 이용하여 유사한 후보단어들간의 변별력을 높일 수 있었고, 인식율이 93%일 때, 우도비검사 방법에 비해 19.6%의 false alarm rate을 감소시킬 수 있었다.

  • PDF

문자정보 기반 비디오 분할에서 성능 향상을 위한 음성신호처리 (Speech Signal Processing for Performance Improvement of Text-Based Video Segmentation)

  • 이용주;손종목;강경옥;배건성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 학술대회
    • /
    • pp.187-191
    • /
    • 1999
  • 비디오 프로그램에서 영상 내에 포함되어 있는 문자정보는 동영상의 내용 검색 및 색인을 위한 비디오 분할에 사용될 수 있다. 일반적으로 장면 내에 포함되어 있는 문자들은 해상도가 낮고 글자 크기와 형태가 다양하기 때문에 추출과 인식이 어려울 뿐만 아니라 의도하지 않은 배경화면의 문자인 경우도 많기 때문에 내용기반 검색에는 사용되기가 어렵다. 그러나 비디오 내에 포함된 문자정보가 나타나는 시작 프레임과 끝나는 프레임을 검출하여 비디오 프로그램을 분할함으로써 내용기반요약정보를 만들 수 있으며, 동영상의 내용 검색 및 색인에 사용할 수 있다. 일반적으로 문자정보의 추출에 의해서 비디오를 분할할 때 음성정보는 전혀 고려되지 않으므로 분할된 비디오 정보를 재생할 경우음성신호가 단어 또는 어절/음절의 임의의 점에서 시작되고 끝나게 되어 듣기에 부자연스럽게 된다 따라서 본 논문에서는 뉴스방송의 비디오 프로그램에서 문자정보가 포함되어 는 비디오의 시작 프레임과 끝 프레임을 중심으로 그에 대응되는 구간의 음성신호를 검출한 후 이를 적절히 처리하여 분할 된 비디오를 재생할 때 음성신호가 보다 자연스럽게 들릴 수 있도록 하는 방법에 대해 연구하였다.

  • PDF

CNN - LSTM 모델 기반 음성 감정인식 (Speech emotion recognition based on CNN - LSTM Model)

  • 윤상혁;전다윤;박능수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.939-941
    • /
    • 2021
  • 사람은 표정, 음성, 말 등을 통해 감정을 표출한다. 본 논문에서는 화자의 음성데이터만을 사용하여 감정을 분류하는 방법을 제안한다. 멜 스펙트로그램(Mel-Spectrogram)을 이용하여 음성데이터를 시간에 따른 주파수 영역으로 변화한다. 멜 스펙트로그램으로 변환된 데이터를 CNN을 이용하여 특징 벡터화한 후 Bi-Directional LSTM을 이용하여 화자의 발화 시간 동안 변화되는 감정을 분석한다. 마지막으로 완전 연결 네트워크를 통해 전체 감정을 분류한다. 감정은 Anger, Excitement, Fear, Happiness, Sadness, Neutral로, 총 6가지로 분류하였으며 데이터베이스로는 상명대 연구팀에서 구축한 한국어 음성 감정 데이터베이스를 사용하였다. 실험 결과 논문에서 제안한 CNN-LSTM 모델의 정확도는 88.89%로 측정되었다.

음절 복원 후보 집합의 생성과 후보 감소에 관한 연구 (A Study on a Generation of a Syllable Restoration Candidate Set and a Candidate Decrease)

  • 김규식;김경징;이상범
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권12호
    • /
    • pp.1679-1690
    • /
    • 2002
  • 본 논문에서는 음성 인식의 후처리를 위한 음절 복원 규칙의 생성과 복원 후보의 감소에 관한 연구를 수행하였다. 대화체 연속 음성 인식의 성능 향상을 위하여 음절 단위를 인식하는 음성인식 시스템의 후처리를 통하여 인식된 로 발음되는 복원 후보를 생성하는 음절 복원 규칙을 생성하였다. 또한 복원 집합의 후보수를 줄이기 위한 방안으로 복원 규칙에서 실생활에서 사용되지 않는 표기를 생성하는 규칙을 제거하는 방안을 제시하였다. 음절 복원 규칙이 올바른 복원 후보 집합을 생성함을 보이기 위하여 복원 후보 집합 생성기를 설계 구현하고, 표준 발음법 예제와 발음법 사전에서 무작위로 추출된 단어에 대하여 실험한 결과 발성 이전의 표기가 포함된 올바른 표기 집합이 생성됨을 입증하였다.

  • PDF

Back TranScription(BTS)기반 데이터 구축 검증 연구 (A Study on Verification of Back TranScription(BTS)-based Data Construction)

  • 박찬준;서재형;이설화;문현석;어수경;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.109-117
    • /
    • 2021
  • 최근 인간과 컴퓨터의 상호작용(HCI)을 위한 수단으로 음성기반 인터페이스의 사용률이 높아지고 있다. 이에 음성인식 결과에 오류를 교정하기 위한 후처리기에 대한 관심 또한 높아지고 있다. 그러나 sequence to sequence(S2S)기반의 음성인식 후처리기를 제작하기 위해서는 데이터 구축을 위해 human-labor가 많이 소요된다. 최근 기존의 구축 방법론의 한계를 완화하기 위하여 음성인식 후처리기를 위한 새로운 데이터 구축 방법론인 Back TranScription(BTS)이 제안되었다. BTS란 TTS와 STT 기술을 결합하여 pseudo parallel corpus를 생성하는 기술을 의미한다. 해당 방법론은 전사자(phonetic transcriptor)의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축할 수 있다. 본 논문은 기존의 BTS 연구를 확장하여 어떠한 기준 없이 데이터를 구축하는 것보다 어투와 도메인을 고려하여 데이터 구축을 해야함을 실험을 통해 검증을 진행하였다.