• 제목/요약/키워드: word spotting

검색결과 29건 처리시간 0.02초

핵심어 인식기에서 단어의 음소레벨 로그 우도 비율의 패턴을 이용한 발화검증 방법 (Utterance Verification using Phone-Level Log-Likelihood Ratio Patterns in Word Spotting Systems)

  • 김정현;권석봉;김회린
    • 말소리와 음성과학
    • /
    • 제1권1호
    • /
    • pp.55-62
    • /
    • 2009
  • This paper proposes an improved method to verify a keyword segment that results from a word spotting system. First a baseline word spotting system is implemented. In order to improve performance of the word spotting systems, we use a two-pass structure which consists of a word spotting system and an utterance verification system. Using the basic likelihood ratio test (LRT) based utterance verification system to verify the keywords, there have been certain problems which lead to performance degradation. So, we propose a method which uses phone-level log-likelihood ratios (PLLR) patterns in computing confidence measures for each keyword. The proposed method generates weights according to the PLLR patterns and assigns different weights to each phone in the process of generating confidence measures for the keywords. This proposed method has shown to be more appropriate to word spotting systems and we can achieve improvement in final word spotting accuracy.

  • PDF

CHMM Word Spotting 기법을 이용한 연속음성 인식에 관한 연구 (A study on the recognition of continuous speech using CHMM word spotting)

  • 김수훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.373-377
    • /
    • 1994
  • 연속음성 인식 시스템 구성을 위한 HMM WORD SPOTTING 기법을 검토하였다. 실험에 사용한 HMM WORD SPOTTING 기법은 O(n)DP 기법와 OPDP 법이다. 인식시스템은 파라메터로 멜켑스트럼 만을 사용한 경우와 동적 파라메터인 희귀계수를 결합한 경우의 2종류이며, 인식 알고리즘은 O(n)DP 법과 유한상태 오토마타에 의해 구문제어를 실?나 ONE PASS DP 법으로 나눌 수 있다. 또한 인식 단위는 음절과 단어가 혼합된 형태이고 학습은 모두 음절단위로 실시하였으며 연속음성 25문장에 대하여 O(n)DP법과 OPDP법의 인식결과를 비교하여 연속음성 인식에 구문제어 효과를 검증하였다. 실험 결과 평균 인식률이 O(n)DP 의 경우 각각 90.6%, 90.9%, OPDP 의 경우 각각 98.4%, 98.6%로 유한 상태 오토마타에 의한 구문제어를 이용한 평균 7.5%의 인식률이 향상되었다.

  • PDF

문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색 (Keyword Spotting on Hangul Document Images Using Character Feature Models)

  • 박상철;김수형;최덕재
    • 정보처리학회논문지B
    • /
    • 제12B권5호
    • /
    • pp.521-526
    • /
    • 2005
  • 본 논문에서는 저 품질의 한글 문서 영상에서 OCR 기반 검색 시스템의 대안으로 키워드 검출 시스템(Keyword Spotting)을 제안하고 OCR 기반 문서 검색 시스템과 비교한다. 제안 시스템은 문자 분할, 키워드 특징 추출 그리고 단어 매칭으로 구성된다. 문자 분할 단계에서는 인접한 두 문자간의 연결을 효과적으로 분리하면서 문자 넓이 값의 분산이 최소가 되도록 하는 문자 분할 방법을 제안한다. 키워드 특징은 서체별 문자 모델의 결합으로 구성한다. 단어 매칭 단계에서는 문자 매칭에 기반한 단어 대 단어 매칭 방법을 적용한다. 본 논문에서 제안한 키워드 검출 시스템의 성능을 평가하기 위해 한글 문서 영상을 대상으로 OCR 기반 문서 검색 시스템과 비교하였다. 그 결과 한글 글자 크기가 작고 문서의 상태가 좋지 않은 경우 제안한 키워드 검출 시스템에 의한 검색 성능이 OCR 기반 검색 시스템 보다 우수함을 입증하였다.

한국어 발화음성에서 중점단어 탐색을 위한 기본주파수에 대한 연구 (A Study of Fundamental Frequency for Focused Word Spotting in Spoken Korean)

  • 권순일;박지형;박능수
    • 정보처리학회논문지B
    • /
    • 제15B권6호
    • /
    • pp.595-602
    • /
    • 2008
  • 각 문장 별 중점단어는 발화음성을 인식하고 그 의미를 이해하는데 도움을 준다. 발화된 음성신호로부터 중점단어를 탐색할 수 있는 방법을 찾기 위한 노력의 일환으로 실험을 통하여 문장 내에서 중점단어와 그 외의 단어들의 기본주파수의 평균과 분산, 그리고 평균 에너지를 분석해 보았다. 한국어로 된 100개의 발화문장의 음성데이터를 가지고 실험을 한 결과 중점단어는 그 외의 단어들에 비해 대부분 상대적으로 높은 기본주파수의 평균값을 나타내거나 상대적으로 높은 기본주파수의 분산 값을 나타냈다. 이 연구 결과를 이용하면 한국어의 구어문장에서 운율적 특성을 알 수 있을 뿐만 아니라, 자연어 처리를 이용한 핵심어를 추출하는 데에도 도움이 될 것이다.

신경 회로망을 이용한 연속 음성에서의 keyword spotting 인식 방식에 관한 연구 (A study on the Method of the Keyword Spotting Recognition in the Continuous speech using Neural Network)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.43-49
    • /
    • 1996
  • 본 논문은 keyword spotting 기술을 이용한 247개의 DDD 지역명을 인식 대상으로 하여 화자 독립의 한국어 연속 음성인식을 위한 시스템을 제안하였다. 적용된 인식 알고리즘은 음성에서 시간축의 변화와 스펙트럼의 왜곡을 흡수할 수 있는 모델로 DP와 MLP로 구성된 동적 프로그래밍 신경회로망(DPNN)을 사용하였다. 이와 같은 실험을 위해 단어 모델을 만들고 이에 대한 단어 모델을 keyword 모델과 non-keyword 모델로 구분하여 성능을 향상시킬 수 있도록 하였다. 또한 잘못된 결과를 출력시키지 않기 위해서 후처리 과정을 두고 실험을 하였다. 실험결과, 단독어에 대한 화자 종속 실험은 93.45%의 결과를 보였고, 단독어에 대한 화자 독립 실험은 84.05%의 실험결과를 보였으며, 가장 중요한 간단한 대화체 문장의 keyword spotting 실험은 화자 종속으로 77.34%의 결과를 보였으며, 화자 독립 실험은 70.63%의 결과를 얻었다.

  • PDF

음소기반 인식 네트워크에서의 단어 검출률을 이용한 문장거부 (Sentence Rejection using Word Spotting Ratio in the Phoneme-based Recognition Network)

  • 김형태;하진영
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.99-102
    • /
    • 2005
  • Research efforts have been made for out-of-vocabulary word rejection to improve the confidence of speech recognition systems. However, little attention has been paid to non-recognition sentence rejection. According to the appearance of pronunciation correction systems using speech recognition technology, it is needed to reject non-recognition sentences to provide users with more accurate and robust results. In this paper, we introduce standard phoneme based sentence rejection system with no need of special filler models. Instead we used word spotting ratio to determine whether input sentences would be accepted or rejected. Experimental results show that we can achieve comparable performance using only standard phoneme based recognition network in terms of the average of FRR and FAR.

  • PDF

의사 N-gram 언어모델을 이용한 핵심어 검출 시스템에 관한 연구 (A Study on Keyword Spotting System Using Pseudo N-gram Language Model)

  • 이여송;김주곤;정현열
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.242-247
    • /
    • 2004
  • 일반적인 핵심어 검출 시스템에서는 필러모델과 핵심어모델을 연결단어 인식 네트워크로 구성하여 핵심어 검출에 사용한다. 이것은 대량의 텍스트 데이터를 이용한 대어휘 연속 음성인식에서 구해지는 단어의 출현빈도의 언어모델을 핵심어 검출 시스템에서 효과적으로 구성할 수가 없는 어려움이 있기 때문이다. 이를 해결하기 위하여 본 논문에서는 의사 N-gram 언어모델을 이용한 핵심어 검출 시스템을 제안하고 핵심어와 필러모델의 출현빈도의 변화에 따른 핵심어 검출 성능을 조사하였다. 그 결과, 핵심어와 필러모델의 출현확률을 0.2:0.8의 비율에서 CA (Correctly Accept for Keyword: 핵심어를 제대로 인정한 경우)가 91.1%, CR (Correctly Reject for OOV: 비핵심어에 대해 제대로 거절한 경우)는 91.7%로써, 일반적인 연결단어인식 네트워크를 이용한 방법보다 제안된 방법이 CA-CR 평균 인식률의 에러감소율 (Error Reduction Rate)에서 14%향상되어 핵심어 검출에서의 언어모델 도입의 효과를 확인할 수 있었다.

연속분포 HMM에 의한 실시간 Word Spotting 에 관한 연구 (A Study on the Real-time Word Spotting by Continuous density HMM)

  • 서상원
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.92-95
    • /
    • 1995
  • 연속분포 HMM을 사용한 실시간 로봇 암 제어 시스템에 대해 기술하고 있다. 본 시스템은 자연스러운 문장의 로봇 암 제어 명령 발성을 받아 핵심단어 인식의 framework을 통한 명령 인식 및 로봇 제어를 구현하고 있다. 로봇 몸체의 부분, 방향, 각도, 동작명령들에 대해 각기 우향 HMM, 이외의 비 핵심어들에 대해서는 이들을 한데 모아 ergodic형 상태천이를 모델링하는 garbage HMM을 형성했는데, 조사, 감탄사 등을 따로 모은 garbage 모델과, silence 및 배경 잡음에 대한 garbage 모델을 형성, 학습 및 인식에 포함시켜 연결단어 인식을 수행함으로써 핵심단어 인식의 효과를 얻었다. 이때 핵심단어들의 사용에 있어 간단한 문법적 제약을 가정하였다. 남성화자 35명을 대상으로 30개 문형에 대해 데이터 수집용 개념적 문장을 구성하여 음성 데이터를 수집하였다. 학습 화자에 대한 제어 명령 인식률은 95% 이상을 나타내고 있으며, 비 학습화자에 대한 인식율은 90% 이상이다. 또한 학습된 단어외의 비 핵심단어들의 사용에 대해서도 긍정적인 인식 성능을 보였다.

  • PDF

내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징 기반 단어 검색 (A Feature -Based Word Spotting for Content-Based Retrieval of Machine-Printed English Document Images)

  • 정규식;권희웅
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1204-1218
    • /
    • 1999
  • 문서영상 검색을 위한 디지털도서관의 대부분은 논문제목과/또는 논문요약으로부터 만들어진 색인에 근거한 제한적인 검색기능을 제공하고 있다. 본 논문에서는 영문 문서영상전체에 대한 검색을 위한 단어 영상 형태 특징기반의 단어검색시스템을 제안한다. 본 논문에서는 검색의 효율성과 정확도를 높이기 위해 1) 기존의 단어검색시스템에서 사용된 특징들을 조합하여 사용하며, 2) 특징의 개수 및 위치뿐만 아니라 특징들의 순서를 포함하여 매칭하는 방법을 사용하며, 3) 특징비교에 의해 검색결과를 얻은 후에 여과목적으로 문자인식을 부분적으로 적용하는 2단계의 검색방법을 사용한다. 제안된 시스템의 동작은 다음과 같다. 문서 영상이 주어지면, 문서 영상 구조가 분석되고 단어 영역들의 조합으로 분할된다. 단어 영상의 특징들이 추출되어 저장된다. 사용자의 텍스트 질의가 주어지면 이에 대응되는 단어 영상이 만들어지며 이로부터 영상특징이 추출된다. 이 참조 특징과 저장된 특징들과 비교하여 유사한 단어를 검색하게 된다. 제안된 시스템은 IBM-PC를 이용한 웹 환경에서 구축되었으며, 영문 문서영상을 이용하여 실험이 수행되었다. 실험결과는 본 논문에서 제안하는 방법들의 유효성을 보여주고 있다. Abstract Most existing digital libraries for document image retrieval provide a limited retrieval service due to their indexing from document titles and/or the content of document abstracts. This paper proposes a word spotting system for full English document image retrieval based on word image shape features. In order to improve not only the efficiency but also the precision of a retrieval system, we develop the system by 1) using a combination of the holistic features which have been used in the existing word spotting systems, 2) performing image matching by comparing the order of features in a word in addition to the number of features and their positions, and 3) adopting 2 stage retrieval strategies by obtaining retrieval results by image feature matching and applying OCR(Optical Charater Recognition) partly to the results for filtering purpose. The proposed system operates as follows: given a document image, its structure is analyzed and is segmented into a set of word regions. Then, word shape features are extracted and stored. Given a user's query with text, features are extracted after its corresponding word image is generated. This reference model is compared with the stored features to find out similar words. The proposed system is implemented with IBM-PC in a web environment and its experiments are performed with English document images. Experimental results show the effectiveness of the proposed methods.

음운 현상과 연속 발화에서의 단어 인지 - 종성중화 작용을 중심으로 (Phonological Process and Word Recognition in Continuous Speech: Evidence from Coda-neutralization)

  • 김선미;남기춘
    • 말소리와 음성과학
    • /
    • 제2권2호
    • /
    • pp.17-25
    • /
    • 2010
  • This study explores whether Koreans exploit their native coda-neutralization process when recognizing words in Korean continuous speech. According to the phonological rules in Korean, coda-neutralization process must come before the liaison process, as long as the latter(i.e. liaison process) occurs between 'words', which results in liaison-consonants being coda-neutralized ones such as /b/, /d/, or /g/, rather than non-neutralized ones like /p/, /t/, /k/, /ʧ/, /ʤ/, or /s/. Consequently, if Korean listeners use their native coda-neutralization rules when processing speech input, word recognition will be hampered when non-neutralized consonants precede vowel-initial targets. Word-spotting and word-monitoring tasks were conducted in Experiment 1 and 2, respectively. In both experiments, listeners recognized words faster and more accurately when vowel-initial target words were preceded by coda-neutralized consonants than when preceded by coda non-neutralized ones. The results show that Korean listeners exploit the coda-neutralization process when processing their native spoken language.

  • PDF