• Title/Summary/Keyword: 음성 인식 후처리

Search Result 130, Processing Time 0.037 seconds

Real-time Text Analysis with Dialogue State Tracking and Summarizing to Assist Emergency Call Reporting (긴급 신고 접수 지원을 위한 대화 상태 추적 및 요약 기반 실시간 텍스트 분석)

  • Oh, Kyo-Joong;Kim, Jinwon;Kim, Ilhoon;Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.16-21
    • /
    • 2021
  • 소방 본부의 119 종합상황실에서는 24시간 국민의 안전을 위해 긴급 신고를 접수한다. 수보사 분들은 24시간 교대 근무를 하며 신고 전화에 접수 및 응대 뿐만 아니라 출동, 지휘, 관제 업무를 함께 수행한다. 이 논문에서는 이 같은 수보사의 업무 지원을 위해 우리가 구축한 음성 인식과 결합된 실시간 텍스트 분석 시스템에 대해서 소개하고, 출동 지령서 자동 작성을 위한 키워드 검출 및 대화 요약 및 개체명 인식에 기반한 대화 상태 추척 방법에 대해 설명하고자 한다. 대화 요약 기술은 음성 인식 결과를 실시간으로 분석하여 중요한 키워드의 검출 및 지령서 자동 작성을 위한 후처리를 수행하며, 문장 수준에서 개체명 인식 및 관계 분석을 통한 목적 대화의 대화 상태 추적을 수행한다. 이 같은 응용 시스템은 딥러닝 및 기계학습 기반의 자연어 처리 시스템이 실시간으로 텍스트 분석을 수행할 수 있는 기술 수준이 되었음을 보여주며, 긴급한 상황에서 많은 신고 전화를 접수하는 수보사의 업무 효율 증진 뿐만 아니라, 정확하고 신속한 위치 파악으로 신고자를 도와주어 국민안전 증진에 도움을 줄 수 있을 것으로 기대된다.

  • PDF

A Study on Utterance Verification Using Accumulation of Negative Log-likelihood Ratio (음의 유사도 비율 누적 방법을 이용한 발화검증 연구)

  • 한명희;이호준;김순협
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.3
    • /
    • pp.194-201
    • /
    • 2003
  • In speech recognition, confidence measuring is to decide whether it can be accepted as the recognized results or not. The confidence is measured by integrating frames into phone and word level. In case of word recognition, the confidence measuring verifies the results of recognition and Out-Of-Vocabulary (OOV). Therefore, the post-processing could improve the performance of recognizer without accepting it as a recognition error. In this paper, we measure the confidence modifying log likelihood ratio (LLR) which was the previous confidence measuring. It accumulates only those which the log likelihood ratio is negative when integrating the confidence to phone level from frame level. When comparing the verification performance for the results of word recognizer with the previous method, the FAR (False Acceptance Ratio) is decreased about 3.49% for the OOV and 15.25% for the recognition error when CAR (Correct Acceptance Ratio) is about 90%.

Subtitle Automatic Generation System using Speech to Text (음성인식을 이용한 자막 자동생성 시스템)

  • Son, Won-Seob;Kim, Eung-Kon
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.1
    • /
    • pp.81-88
    • /
    • 2021
  • Recently, many videos such as online lecture videos caused by COVID-19 have been generated. However, due to the limitation of working hours and lack of cost, they are only a part of the videos with subtitles. It is emerging as an obstructive factor in the acquisition of information by deaf. In this paper, we try to develop a system that automatically generates subtitles using voice recognition and generates subtitles by separating sentences using the ending and time to reduce the time and labor required for subtitle generation.

A study on performance improvement of neural network using output probability of HMM (HMM의 출력확률을 이용한 신경회로망의 성능향상에 관한 연구)

  • Pyo Chang Soo;Kim Chang Keun;Hur Kang In
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.1 no.1
    • /
    • pp.1-6
    • /
    • 2000
  • In this paper, the hybrid system of HMM and neural network is proposed and show better recognition rate of the post-process procedure which minimizes the process error of recognition than that of HMM(Hidden Markov Model) only used. After the HMM training by training data, testing data that are not taken part in the training are sent to HMM. The output probability from HMM output by testing data is used for the training data of the neural network, post processor. After neural network training, the hybrid system is completed. This hybrid system makes the recognition rate improvement of about $4.5\%$ in MLP and about $2\%$ in RBFN and gives the solution to training time of conventional hybrid system and to decrease of the recognition rate due to the lack of training data in real-time speech recognition system.

  • PDF

Implementation of Home Appliance Control System with Speech Recognition based User Interfaces in Home Network Environments (홈 네트워크 환경에서 음성인식기반 사용자 인터페이스를 통한 가전기기 제어 시스템 구현)

  • Kim, Youn-Woo;Jang, Hyun-Su;Kim, Gu-Su;Eom, Young-Ik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.735-738
    • /
    • 2007
  • 컴퓨팅 기술의 발전에 따라 유비쿼터스 시대로의 이행이 가속화되고 있다. 이에 따라 홈 네트워크 분야에 대한 연구와 상용화를 위한 노력이 활발해지고 있다. 이와 더불어 가전기기들의 종류는 다양해지고 복잡해지면서 사용자들의 가전기기 이용에 있어 사용법을 익혀야하는 어려움이 있다. 이러한 문제점을 해결하기 위한 일환으로 디지털 장치들을 편하게 사용하기 위한 멀티 모달 사용자 인터페이스가 요구되고 있다. 본 논문에서 네트워크 가전기기 제어가 가능한 홈 네트워크 미들웨어인 UPnP를 사용하여 VoiceXML을 통한 음성인식기반 사용자 인터페이스와 디지털 장치 제어 시스템을 제안하고 구현한 후 실험하였다.

  • PDF

소아의 음성장애 및 치료 : 사례연구

  • 정옥란
    • Journal of the Korean Society of Laryngology, Phoniatrics and Logopedics
    • /
    • v.7 no.1
    • /
    • pp.128-131
    • /
    • 1996
  • 소아들의 음성장애의 대부분은 음성과 기능에 의한 성대의 오용 및 남용으로부터 기인한다. 그러나 음성장애에 대한 인식의 부족으로 인하여 소아의 음성장애 발견율은 극히 낮은 수준에 머므르고 있다. 치료에 있어서도 행동의 통제가 그다지 쉽지 않기 때문에 많은 어려움이 따른다. 본 연구는 소아의 음성장애의 발생경위와 문제의 설명과 차팅에 의한 남용의 감소에 초점을 둔 치료사례이다. 5세 아동의 심한 음성장애로 의뢰되어졌다. 음성증후는 목쉰소리, 기식화된 소리, 일시적인 발성일탈(phonation break) 등이 두드러졌다. 이비인후과 전문의의 스트로보스코프(stroboscope) 검진결과 초기 양측성 성대결절이 성대 앞쪽으로부터 1/3 지점에서 발견되었으며 비지피치(Visi-Pitch)로 측정된 퍼터베이션(perturbation 수치가 16.8이었다. 사례사 조사 과정에서 아동이 활동적이며 자주 고함을 지르고 자동차놀이를 주로하며 많은 시간을 보낸다는 것이 밝혀졌다. 중재 프로그램은 우선 문제를 설명하고 인식시키는 것과 고함을 지르거나 자동차놀이를 하면서 자동차 소음을 흉내내는 등의 음성남용 회수를 감소시키는 것에 초점을 두었다 17회의 치료로 성대결절이 감소되었고 퍼터베이션은 3.8로 저하되었으며 아동 스스로 음성남용을 통제할 수 있다는 임상적 판단하에 치료를 종결하였다. 1개월 후 추후 검사에서 남용적인 습관이 여전히 나타나지 않았으며 음성상태도 양호하였다. 소아 음성장애의 치료는 소아가 이해할 수 있는 용어로 문제의 인식을 확실히 시키고 행동을 체계적으로 통제할 수 있는 치료프로그램을 실행시키는 임상가의 자질이 대단히 중요하다. 그러나 그에 못지 않게, 많은 시간을 아동과 함께 보내는 부모나 교사의 협력이 치료의 성패를 좌우할 수 있다.조구와 처리구간에 차이가 없었다. 그러나 유지방 함량의 경우 대조구가 3.22%, 처리구가 3.37%로 처리구가 0.15% point 증가했으나 유의차는 없었다. Fan + sprinkler가 설치된 시설에서 사육된 젖소에서 생산된 우유내 체세포수는 대조구에 비해 26.63%가 감소되었으나 유의차는 발견할 수 없었다. 이상의 시험 결과에서 볼 때 fan + sprinkler를 이용한 방서 방법은 고온 stress를 완화시켜 유생산성의 증가에 기여할 수 있는 하나의 방법이라고 본다.을 알 수가 있었다.없다. 본 논문의 대상은 바로 이러한 합성 동사성명사의 논항구조와 동사성명사에 의해 하위범주화된 논항들의 문법적 실현양상이다..그 결과 심리적 특성과 사용자 수용 특성은 아바타 수용도에 부분적으로 영향을 미친다는 것 결과가 나타났다.웨어 프로세스 평가와 개선 모델의 개발을 위한 기초적인 자료를 제공할 것으로 예상된다 또한, 본 연구 결과는, 우리나라 소프트웨어 조직들이 실제로 무엇을 필요로 하는지를 밝힘으로써, 우리나라의 소프트웨어 산업을 육성하기 위한 실효성 있는 정책 입안을 위한 기초 자료를 제공할 것으로 예상된다.다.를 검증하려고 한다. 협력체계 확립, ${\circled}3$ 전문인력 확보 및 인력구성 조정, 그리고 ${\circled}4$ 방문보건사업의 강화 등이다., 대사(代謝)와 관계(關係)있음을 시사(示唆)해 주고 있다.ble nutrient (TDN) was highest in booting stage (59.7%); however no significant difference was found among other stages. The concentrations of Ca and P were not

  • PDF

News Data Analysis Using Acoustic Model Output of Continuous Speech Recognition (연속음성인식의 음향모델 출력을 이용한 뉴스 데이터 분석)

  • Lee, Kyong-Rok
    • The Journal of the Korea Contents Association
    • /
    • v.6 no.10
    • /
    • pp.9-16
    • /
    • 2006
  • In this paper, the acoustic model output of CSR(Continuous Speech Recognition) was used to analyze news data News database used in this experiment was consisted of 2,093 articles. Due to the low efficiency of language model, conventional Korean CSR is not appropriate to the analysis of news data. This problem could be handled successfully by introducing post-processing work of recognition result of acoustic model. The acoustic model more robust than language model in Korean environment. The result of post-processing work was made into KIF(Keyword information file). When threshold of acoustic model's output level was 100, 86.9% of whole target morpheme was included in post-processing result. At the same condition, applying length information based normalization, 81.25% of whole target morpheme was recognized. The purpose of normalization was to compensate long-length morpheme. According to experiment result, 75.13% of whole target morpheme was recognized KIF(314MB) had been produced from original news data(5,040MB). The decrease rate of absolute information met was approximately 93.8%.

  • PDF

Extraction of MFCC feature parameters based on the PCA-optimized filter bank and Korean connected 4-digit telephone speech recognition (PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터 추출 및 한국어 4연숫자 전화음성에 대한 인식실험)

  • 정성윤;김민성;손종목;배건성
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.41 no.6
    • /
    • pp.279-283
    • /
    • 2004
  • In general, triangular shape filters are used in the filter bank when we extract MFCC feature parameters from the spectrum of the speech signal. A different approach, which uses specific filter shapes in the filter bank that are optimized to the spectrum of training speech data, is proposed by Lee et al. to improve the recognition rate. A principal component analysis method is used to get the optimized filter coefficients. Using a large amount of 4-digit telephone speech database, in this paper, we get the MFCCs based on the PCA-optimized filter bank and compare the recognition performance with conventional MFCCs and direct weighted filter bank based MFCCs. Experimental results have shown that the MFCC based on the PCA-optimized filter bank give slight improvement in recognition rate compared to the conventional MFCCs but fail to achieve better performance than the MFCCs based on the direct weighted filter bank analysis. Experimental results are discussed with our findings.

A Generation System of English Pronunciation for the medical domain (의료분야를 위한 영어 발음열 생성 시스템)

  • Kim, A-Lum;Jeong, Kyung Seok;Park, Hyuk Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.793-796
    • /
    • 2004
  • 본 논문은 의료분야의 음성 인식 시스템의 발음모델의 성능 향상에 필요한 올바른 영어 단어 발음열을 얻고자 한다. 본 시스템의 텍스트는 의료 전문 용어인 영어와 한글의 조합으로 되어있어, 한국어 G2P 성능뿐만 아니라 영어 G2P의 성능도 중요한 문제가 되고 있다. 또한 본 시스템의 의료 음성 데이터가 한국 화자로써, 표기열이 영어식 발음 폰셋으로 변환되면 효율적이지 못하다. 이를 위해, 영어 G2P의 결과를 한국 화자에 적합하게 변환해주는 방법론이 필요하게 된다. 따라서 본 논문에서 제안하는 방법은 음성 텍스트에서 영어만 추출한 후, 영어 G2P 프로그램(addttp, NIST)을 이용해 발음열을 구한다. 그리고 한국 화자의 실제 음성을 통해 얻은 정답 발음열을 구하여 서로 비교한다. 비교를 위해 각 발음열의 한 폰씩 정렬을 수행한 후, 삽입, 삭제, 대치 에러가 이러나는 쌍과 좌우 바이그램 정보를 추출한다. 마지막으로, 좌우 바이그램 정보에서 best1의 에러 패턴을 통해 모든 단어에 적용한다. 이 때, 최종적으로 실보다 득이 되는 에러패턴만을 추출, 적용한다. 실험에서는 26여개의 에러 패턴을 찾을 수 있어, 8%의 올바른 발음열을 추가적으로 얻는데 성공하였다.

  • PDF

Service Robot for the Game of Paper, Stone and Scissors Based on Image Processing (영상 처리 기반의 가위 바위 보 게임 로봇)

  • Ahn, Ho-Seok;Sa, In-Kyu;Baek, Young-Min;Ahn, Youn-Seok;Choi, Jin-Young
    • Proceedings of the KIEE Conference
    • /
    • 2008.10b
    • /
    • pp.327-328
    • /
    • 2008
  • 로봇과 상호 작용하기 위한 수단으로 손동작 인식 시스템이 많이 사용되고 있으며, 본 논문에서는 손에 부가적인 장치를 장착하지 않은 상태에서 영상 처리를 이용하여 손동작을 인식하는 시스템을 구현하였다. 먼저 로봇은 영상 입력 장치로써 웹캠을 사용하고, 손 영상을 스킨 컬러를 바탕으로 영상 처리를 하여 추출해내고, 그 이미지를 분석하여 그 모양이 가위인지 바위인지 보인지 인식한다. 가위 바위 보 게임을 위하여 로봇이 손동작을 표현할 수 있도록 손가락이 네 개인 손을 설계 및 구현하였다. 이때, 기존의 와이어 방식이 아닌 제어를 이용한 손가락을 설계하였고, 각각의 손가락이 독립적으로 제어될 수 있기 때문에 가위 바위 보의 손동작을 표현할 수 있다. 그리고 음성 인식을 이용하여 사람과 동시에 가위 바위 보 중 하나를 결정한 후 표현하기 때문에 가위 바위 보 게임이 가능하다. 뿐만 아니라 로봇이 승패도 알 수 있다.

  • PDF