• 제목/요약/키워드: 음성 인식 후처리

검색결과 131건 처리시간 0.023초

Back TranScription(BTS)기반 데이터 구축 검증 연구 (A Study on Verification of Back TranScription(BTS)-based Data Construction)

  • 박찬준;서재형;이설화;문현석;어수경;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.109-117
    • /
    • 2021
  • 최근 인간과 컴퓨터의 상호작용(HCI)을 위한 수단으로 음성기반 인터페이스의 사용률이 높아지고 있다. 이에 음성인식 결과에 오류를 교정하기 위한 후처리기에 대한 관심 또한 높아지고 있다. 그러나 sequence to sequence(S2S)기반의 음성인식 후처리기를 제작하기 위해서는 데이터 구축을 위해 human-labor가 많이 소요된다. 최근 기존의 구축 방법론의 한계를 완화하기 위하여 음성인식 후처리기를 위한 새로운 데이터 구축 방법론인 Back TranScription(BTS)이 제안되었다. BTS란 TTS와 STT 기술을 결합하여 pseudo parallel corpus를 생성하는 기술을 의미한다. 해당 방법론은 전사자(phonetic transcriptor)의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축할 수 있다. 본 논문은 기존의 BTS 연구를 확장하여 어떠한 기준 없이 데이터를 구축하는 것보다 어투와 도메인을 고려하여 데이터 구축을 해야함을 실험을 통해 검증을 진행하였다.

긴급 신고 접수 지원을 위한 대화 상태 추적 및 요약 기반 실시간 텍스트 분석 (Real-time Text Analysis with Dialogue State Tracking and Summarizing to Assist Emergency Call Reporting)

  • 오교중;김진원;김일훈;임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-21
    • /
    • 2021
  • 소방 본부의 119 종합상황실에서는 24시간 국민의 안전을 위해 긴급 신고를 접수한다. 수보사 분들은 24시간 교대 근무를 하며 신고 전화에 접수 및 응대 뿐만 아니라 출동, 지휘, 관제 업무를 함께 수행한다. 이 논문에서는 이 같은 수보사의 업무 지원을 위해 우리가 구축한 음성 인식과 결합된 실시간 텍스트 분석 시스템에 대해서 소개하고, 출동 지령서 자동 작성을 위한 키워드 검출 및 대화 요약 및 개체명 인식에 기반한 대화 상태 추척 방법에 대해 설명하고자 한다. 대화 요약 기술은 음성 인식 결과를 실시간으로 분석하여 중요한 키워드의 검출 및 지령서 자동 작성을 위한 후처리를 수행하며, 문장 수준에서 개체명 인식 및 관계 분석을 통한 목적 대화의 대화 상태 추적을 수행한다. 이 같은 응용 시스템은 딥러닝 및 기계학습 기반의 자연어 처리 시스템이 실시간으로 텍스트 분석을 수행할 수 있는 기술 수준이 되었음을 보여주며, 긴급한 상황에서 많은 신고 전화를 접수하는 수보사의 업무 효율 증진 뿐만 아니라, 정확하고 신속한 위치 파악으로 신고자를 도와주어 국민안전 증진에 도움을 줄 수 있을 것으로 기대된다.

  • PDF

음의 유사도 비율 누적 방법을 이용한 발화검증 연구 (A Study on Utterance Verification Using Accumulation of Negative Log-likelihood Ratio)

  • 한명희;이호준;김순협
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.194-201
    • /
    • 2003
  • 음성인식에서 신뢰도 측정이란 인식된 결과에 대한 신뢰 여부를 결정하는 것이다. 신뢰도는 프레임을 음소 및 단어 수준으로 통합하여 측정된다. 단어 인식의 경우, 신뢰도를 이용하여 인식 결과와 미등록 어휘를 검증한다. 따라서 이러한 후처리를 통해 이를 인식 결과로 승인하지 않음으로써 성능을 높일 수 있다. 본 논문에서는 기존의 신뢰도 측정 방법인 로그 유사도 비를 수정하여 신뢰도를 측정하였다. 제안된 방법은 프레임 수준에서 음소 수준으로 신뢰도를 통합할 때 로그 유사도 비가 음수인 것만을 누적하는 것이다. 단어 인식기의 인식 결과에 대한 검증 성능을 기존의 방법과 비교한 결과, CAR (Correct Acceptance Ratio)이 90%인 지점에서 FAR (False Acceptance Ratio)을 미등록 어휘에 대해서는 약 3.49%, 오인식에 대해서는 15.25% 감소시킬 수 있었다

음성인식을 이용한 자막 자동생성 시스템 (Subtitle Automatic Generation System using Speech to Text)

  • 손원섭;김응곤
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.81-88
    • /
    • 2021
  • 최근 COVID-19로 인한 온라인 강의 영상과 같은 많은 영상이 생성되고 있는데 노동 시간의 한계와 비용의 부족 등으로 인해 자막을 보유한 영상이 일부분에 불과하여 청각장애인들의 정보 취득에 방해 요소로 대두되고 있다. 본 논문에서는 음성인식을 이용하여 자막을 자동으로 생성하고 종결 어미와 시간을 이용해 문장을 분리하여 자막을 생성함으로써 자막 생성에 드는 시간과 노동력을 줄일 수 있도록 하는 시스템을 개발하고자 한다.

HMM의 출력확률을 이용한 신경회로망의 성능향상에 관한 연구 (A study on performance improvement of neural network using output probability of HMM)

  • 표창수;김창근;허강인
    • 융합신호처리학회논문지
    • /
    • 제1권1호
    • /
    • pp.1-6
    • /
    • 2000
  • 본 논문은 HMM(Hidden Markov Model)을 이 용하여 인식을 수행할 경우의 오류를 최소화 할 수 있는 후처리 과정으로 신경망을 결합시켜 HMM 단독으로 사용하였을 때 보다 높은 인식률을 얻을 수 있는 HMM과 신경망의 하이브리드 시스템을 제안한다 HMM을 이용하여 학습한 후 학습에 참여하지 않은 데이터를 인식하였을 때 오인식 데이터를 정인식으로 인식하도록 HMM의 출력으로 얻은 각 출력확률을 후처리에 사용될 신경망의 학습용으로 사용하여 신경망을 학습하여 HMM과 신경망을 결합한 하이브리드 시스템을 만든다 이와 같은 HMM과 신경망을 결합한 하이브리드 모델을 사용하여 단독 숫자음에서 실험한 결과 HMM 단독으로 사용하였을 때 보다 MLP에서는 약 $4.5\%$ RBFN에서는 약 $2\%$의 인식률 향상이 있었다. 기존의 하이브리드 시스템이 갖는 많은 학습시간이 소요되는 문제점과 실시간 음성인식시스템을 구현할 패의 학습데이터의 부족으로 인한 인식률 저하를 해결할 수 있는 방법임을 확인할 수 있었다

  • PDF

홈 네트워크 환경에서 음성인식기반 사용자 인터페이스를 통한 가전기기 제어 시스템 구현 (Implementation of Home Appliance Control System with Speech Recognition based User Interfaces in Home Network Environments)

  • 김연우;장현수;김구수;엄영익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.735-738
    • /
    • 2007
  • 컴퓨팅 기술의 발전에 따라 유비쿼터스 시대로의 이행이 가속화되고 있다. 이에 따라 홈 네트워크 분야에 대한 연구와 상용화를 위한 노력이 활발해지고 있다. 이와 더불어 가전기기들의 종류는 다양해지고 복잡해지면서 사용자들의 가전기기 이용에 있어 사용법을 익혀야하는 어려움이 있다. 이러한 문제점을 해결하기 위한 일환으로 디지털 장치들을 편하게 사용하기 위한 멀티 모달 사용자 인터페이스가 요구되고 있다. 본 논문에서 네트워크 가전기기 제어가 가능한 홈 네트워크 미들웨어인 UPnP를 사용하여 VoiceXML을 통한 음성인식기반 사용자 인터페이스와 디지털 장치 제어 시스템을 제안하고 구현한 후 실험하였다.

  • PDF

연속음성인식의 음향모델 출력을 이용한 뉴스 데이터 분석 (News Data Analysis Using Acoustic Model Output of Continuous Speech Recognition)

  • 이경록
    • 한국콘텐츠학회논문지
    • /
    • 제6권10호
    • /
    • pp.9-16
    • /
    • 2006
  • 본 논문에서는 연속음성인식의 음향모델 출력을 이용하여 뉴스 데이터를 분석하였다. 실험에 사용된 뉴스 데이터베이스는 2,093개의 기사로 구성되어 있다. 기존의 한국어 연속음성인식은 열악한 언어모델 때문에 낮은 인식성능을 보여 뉴스 데이터 분석에 적합하지 않다. 본 논문에서는 이를 보완하기 위해서 상대적으로 견인한 음향모델의 인식결과를 후처리하여 핵심어 정보 파일을 만들었다. 음향모델의 출력레벨 문턱치가 100일 때 전체 인식대상 형태소의 86.9%가 인식되었다. 동일한 조건에 길이정보 기반 정규화를 적용하였더니 81.25%가 인식되었다. 정규화의 목적은 긴 길이의 형태소를 보상하는 것이다. 실험결과, 인식대상 형태소 인식률은 75.13%였다. 그리고 5,040MB의 뉴스 데이터에서 314MB의 핵심어 정보 파일이 만들어졌다. 이것은 절대적인 정보량이 93.8% 감소한 것이다.

  • PDF

소아의 음성장애 및 치료 : 사례연구

  • 정옥란
    • 대한후두음성언어의학회지
    • /
    • 제7권1호
    • /
    • pp.128-131
    • /
    • 1996
  • 소아들의 음성장애의 대부분은 음성과 기능에 의한 성대의 오용 및 남용으로부터 기인한다. 그러나 음성장애에 대한 인식의 부족으로 인하여 소아의 음성장애 발견율은 극히 낮은 수준에 머므르고 있다. 치료에 있어서도 행동의 통제가 그다지 쉽지 않기 때문에 많은 어려움이 따른다. 본 연구는 소아의 음성장애의 발생경위와 문제의 설명과 차팅에 의한 남용의 감소에 초점을 둔 치료사례이다. 5세 아동의 심한 음성장애로 의뢰되어졌다. 음성증후는 목쉰소리, 기식화된 소리, 일시적인 발성일탈(phonation break) 등이 두드러졌다. 이비인후과 전문의의 스트로보스코프(stroboscope) 검진결과 초기 양측성 성대결절이 성대 앞쪽으로부터 1/3 지점에서 발견되었으며 비지피치(Visi-Pitch)로 측정된 퍼터베이션(perturbation 수치가 16.8이었다. 사례사 조사 과정에서 아동이 활동적이며 자주 고함을 지르고 자동차놀이를 주로하며 많은 시간을 보낸다는 것이 밝혀졌다. 중재 프로그램은 우선 문제를 설명하고 인식시키는 것과 고함을 지르거나 자동차놀이를 하면서 자동차 소음을 흉내내는 등의 음성남용 회수를 감소시키는 것에 초점을 두었다 17회의 치료로 성대결절이 감소되었고 퍼터베이션은 3.8로 저하되었으며 아동 스스로 음성남용을 통제할 수 있다는 임상적 판단하에 치료를 종결하였다. 1개월 후 추후 검사에서 남용적인 습관이 여전히 나타나지 않았으며 음성상태도 양호하였다. 소아 음성장애의 치료는 소아가 이해할 수 있는 용어로 문제의 인식을 확실히 시키고 행동을 체계적으로 통제할 수 있는 치료프로그램을 실행시키는 임상가의 자질이 대단히 중요하다. 그러나 그에 못지 않게, 많은 시간을 아동과 함께 보내는 부모나 교사의 협력이 치료의 성패를 좌우할 수 있다.조구와 처리구간에 차이가 없었다. 그러나 유지방 함량의 경우 대조구가 3.22%, 처리구가 3.37%로 처리구가 0.15% point 증가했으나 유의차는 없었다. Fan + sprinkler가 설치된 시설에서 사육된 젖소에서 생산된 우유내 체세포수는 대조구에 비해 26.63%가 감소되었으나 유의차는 발견할 수 없었다. 이상의 시험 결과에서 볼 때 fan + sprinkler를 이용한 방서 방법은 고온 stress를 완화시켜 유생산성의 증가에 기여할 수 있는 하나의 방법이라고 본다.을 알 수가 있었다.없다. 본 논문의 대상은 바로 이러한 합성 동사성명사의 논항구조와 동사성명사에 의해 하위범주화된 논항들의 문법적 실현양상이다..그 결과 심리적 특성과 사용자 수용 특성은 아바타 수용도에 부분적으로 영향을 미친다는 것 결과가 나타났다.웨어 프로세스 평가와 개선 모델의 개발을 위한 기초적인 자료를 제공할 것으로 예상된다 또한, 본 연구 결과는, 우리나라 소프트웨어 조직들이 실제로 무엇을 필요로 하는지를 밝힘으로써, 우리나라의 소프트웨어 산업을 육성하기 위한 실효성 있는 정책 입안을 위한 기초 자료를 제공할 것으로 예상된다.다.를 검증하려고 한다. 협력체계 확립, ${\circled}3$ 전문인력 확보 및 인력구성 조정, 그리고 ${\circled}4$ 방문보건사업의 강화 등이다., 대사(代謝)와 관계(關係)있음을 시사(示唆)해 주고 있다.ble nutrient (TDN) was highest in booting stage (59.7%); however no significant difference was found among other stages. The concentrations of Ca and P were not

  • PDF

PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터 추출 및 한국어 4연숫자 전화음성에 대한 인식실험 (Extraction of MFCC feature parameters based on the PCA-optimized filter bank and Korean connected 4-digit telephone speech recognition)

  • 정성윤;김민성;손종목;배건성
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.279-283
    • /
    • 2004
  • 음성신호의 스펙트럼으로부터 MFCC를 추출할 때, 일반적으로 필터뱅크의 처리과정에서 삼각형 형태의 필터를 사용한다. 그러나 더 나은 인식성능을 위해, 훈련 음성데이터의 스펙트럼에 PCA를 적용하여 필터뱅크의 필터형태를 최적화하는 PCA-optimized 필터뱅크 방법이 Lee et al. 에 의해 제안되었다. 본 논문에서는 대용량의 4연숫자 전화음성 DB를 사용하여PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터를 추출하고 인식실험을 수행한 후, 기존의 삼각형 형태의 필터를 사용하는 MFCC와 각 대역별 로그에너지로 가중시켜서 얻어지는 MFCC와의 인식성능을 비교하였다. 실험결과, PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터가 기존의 삼각형 형태의 필터뱅크 기반 MFCC에 비해 조금 향상된 인식률을 나타내었지만, 각 대역별 로그에너지로 가중치를 주어 얻어지는 MFCC보다는 인식률이 떨어졌다.

의료분야를 위한 영어 발음열 생성 시스템 (A Generation System of English Pronunciation for the medical domain)

  • 김아름;정경석;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.793-796
    • /
    • 2004
  • 본 논문은 의료분야의 음성 인식 시스템의 발음모델의 성능 향상에 필요한 올바른 영어 단어 발음열을 얻고자 한다. 본 시스템의 텍스트는 의료 전문 용어인 영어와 한글의 조합으로 되어있어, 한국어 G2P 성능뿐만 아니라 영어 G2P의 성능도 중요한 문제가 되고 있다. 또한 본 시스템의 의료 음성 데이터가 한국 화자로써, 표기열이 영어식 발음 폰셋으로 변환되면 효율적이지 못하다. 이를 위해, 영어 G2P의 결과를 한국 화자에 적합하게 변환해주는 방법론이 필요하게 된다. 따라서 본 논문에서 제안하는 방법은 음성 텍스트에서 영어만 추출한 후, 영어 G2P 프로그램(addttp, NIST)을 이용해 발음열을 구한다. 그리고 한국 화자의 실제 음성을 통해 얻은 정답 발음열을 구하여 서로 비교한다. 비교를 위해 각 발음열의 한 폰씩 정렬을 수행한 후, 삽입, 삭제, 대치 에러가 이러나는 쌍과 좌우 바이그램 정보를 추출한다. 마지막으로, 좌우 바이그램 정보에서 best1의 에러 패턴을 통해 모든 단어에 적용한다. 이 때, 최종적으로 실보다 득이 되는 에러패턴만을 추출, 적용한다. 실험에서는 26여개의 에러 패턴을 찾을 수 있어, 8%의 올바른 발음열을 추가적으로 얻는데 성공하였다.

  • PDF