• 제목/요약/키워드: lexical search

검색결과 21건 처리시간 0.022초

음향학적 및 언어적 탐색을 이용한 어휘 인식 최적화 (The Vocabulary Recognition Optimize using Acoustic and Lexical Search)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권4호
    • /
    • pp.496-503
    • /
    • 2010
  • 어휘인식 시스템은 스탠드 얼론(Standalone)으로 개발되어 지고 있으며 휴대용 단말기에서 사용하였을 경우 메모리 공간의 제약과 오디오 압축으로 인해 인식률이 낮게 나타난다. 본 연구에서는 휴대용 단말기의 성능과 인식률 향상을 위하여 음향학적 탐색과 언어적 탐색을 분리하여 어휘 인식 속도를 개선한 시스템을 제안하였다. 음향학적 탐색은 휴대용 단말기에서 수행하고 보다 복잡한 언어적 탐색은 서버에서 처리하는 시스템으로 음성신호로부터 특징벡터를 추출하여 GMM을 이용한 음소인식을 수행하고, 인식된 음소 열을 서버로 전송하여 렉시컬 트리 탐색 알고리즘을 사용하여 언어적 탐색 단계에서 어휘 인식을 수행하였다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.01%, 어휘 독립 인식률은 97.71%의 인식률을 나타냈으며 인식속도는 1.58초로 나타내었다.

트리 구조 어휘 사전을 이용한 연결 숫자음 인식 시스템의 구현 (Implementation of Connected-Digit Recognition System Using Tree Structured Lexicon Model)

  • 윤영선;채의근
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.123-137
    • /
    • 2004
  • In this paper, we consider the implementation of connected digit recognition system using tree structured lexicon model. To implement efficiently the fixed or variable length digit recognition system, finite state network (FSN) is required. We merge the word network algorithm that implements the FSN with lexical tree search algorithm that is used for general speech recognition system for fast search and large vocabulary systems. To find the efficient modeling of digit recognition system, we investigate some performance changes when the lexical tree search is applied.

  • PDF

MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템 (Vocabulary Recognition Retrieval Optimized System using MLHF Model)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.217-223
    • /
    • 2009
  • 모바일 단말기의 어휘 인식 시스템에서는 통계적 방법에 의한 어휘인식을 수행하고 N-gram을 이용한 통계적 문법 인식 시스템을 사용한다. 인식 대상이 되는 어휘의 수가 증가하면 어휘 인식 알고리즘이 복잡해지고 대규모의 탐색공간을 필요로 하게 되며 처리시간이 길어지므로 제한된 연산처리 능력과 메모리로는 처리하기가 불가능하다. 따라서 본 논문에서는 이러한 단점을 개선하고 어휘 인식을 최적화하기 위하여 MLHF 시스템을 제안한다. MLHF는 FLaVoR의 구조를 이용하여 음향학적 탐색과 언어적 탐색을 분리하여 음향학적 탐색에서는 HMM을 사용하고 언어적 탐색 단계에서는 Levenshtein distance 알고리즘을 사용한다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.63%, 어휘 독립 인식률은 97.91%의 인식률을 나타냈으며 인식속도는 1.61초로 나타내었다.

한국어 음성인식 플랫폼(ECHOS)의 개선 및 평가 (Improvement and Evaluation of the Korean Large Vocabulary Continuous Speech Recognition Platform (ECHOS))

  • 권석봉;윤성락;장규철;김용래;김봉완;김회린;유창동;이용주;권오욱
    • 대한음성학회지:말소리
    • /
    • 제59호
    • /
    • pp.53-68
    • /
    • 2006
  • We report the evaluation results of the Korean speech recognition platform called ECHOS. The platform has an object-oriented and reusable architecture so that researchers can easily evaluate their own algorithms. The platform has all intrinsic modules to build a large vocabulary speech recognizer: Noise reduction, end-point detection, feature extraction, hidden Markov model (HMM)-based acoustic modeling, cross-word modeling, n-gram language modeling, n-best search, word graph generation, and Korean-specific language processing. The platform supports both lexical search trees and finite-state networks. It performs word-dependent n-best search with bigram in the forward search stage, and rescores the lattice with trigram in the backward stage. In an 8000-word continuous speech recognition task, the platform with a lexical tree increases 40% of word errors but decreases 50% of recognition time compared to the HTK platform with flat lexicon. ECHOS reduces 40% of recognition errors through incorporation of cross-word modeling. With the number of Gaussian mixtures increasing to 16, it yields word accuracy comparable to the previous lexical tree-based platform, Julius.

  • PDF

신뢰도 벡터 기반의 다단계 음성인식 (Multi-stage Speech Recognition Using Confidence Vector)

  • 전형배;황규웅;정훈;김승희;박준;이윤근
    • 대한음성학회지:말소리
    • /
    • 제63호
    • /
    • pp.113-124
    • /
    • 2007
  • In this paper, we propose a use of confidence vector as an intermediate input feature for multi-stage based speech recognition architecture to improve recognition accuracy. A multi-stage speech recognition structure is introduced as a method to reduce the computational complexity of the decoding procedure and then accomplish faster speech recognition. Conventional multi-stage speech recognition is usually composed of three stages, acoustic search, lexical search, and acoustic re-scoring. In this paper, we focus on improving the accuracy of the lexical decoding by introducing a confidence vector as an input feature instead of phoneme which was used typically. We take experimental results on 220K Korean Point-of-Interest (POI) domain and the experimental results show that the proposed method contributes on improving accuracy.

  • PDF

한국어 품사 기반 온톨로지 구축 방법 및 차량 서비스 적용 방안 (Constructing Ontology based on Korean Parts of Speech and Applying to Vehicle Services)

  • 차시호;류민우
    • 디지털산업정보학회논문지
    • /
    • 제17권4호
    • /
    • pp.103-108
    • /
    • 2021
  • Knowledge graph is a technology that improves search results by using semantic information based on various resources. Therefore, due to these advantages, the knowledge graph is being defined as one of the core research technologies to provide AI-based services recently. However, in the case of the knowledge graph, since the form of knowledge collected from various service domains is defined as plain text, it is very important to be able to analyze the text and understand its meaning. Recently, various lexical dictionaries have been proposed together with the knowledge graph, but since most lexical dictionaries are defined in a language other than Korean, there is a problem in that the corresponding language dictionary cannot be used when providing a Korean knowledge service. To solve this problem, this paper proposes an ontology based on the parts of speech of Korean. The proposed ontology uses 9 parts of speech in Korean to enable the interpretation of words and their semantic meaning through a semantic connection between word class and word class. We also studied various scenarios to apply the proposed ontology to vehicle services.

한국어 음성인식 플랫폼의 설계 (Design of a Korean Speech Recognition Platform)

  • 권오욱;김회린;유창동;김봉완;이용주
    • 대한음성학회지:말소리
    • /
    • 제51호
    • /
    • pp.151-165
    • /
    • 2004
  • For educational and research purposes, a Korean speech recognition platform is designed. It is based on an object-oriented architecture and can be easily modified so that researchers can readily evaluate the performance of a recognition algorithm of interest. This platform will save development time for many who are interested in speech recognition. The platform includes the following modules: Noise reduction, end-point detection, met-frequency cepstral coefficient (MFCC) and perceptually linear prediction (PLP)-based feature extraction, hidden Markov model (HMM)-based acoustic modeling, n-gram language modeling, n-best search, and Korean language processing. The decoder of the platform can handle both lexical search trees for large vocabulary speech recognition and finite-state networks for small-to-medium vocabulary speech recognition. It performs word-dependent n-best search algorithm with a bigram language model in the first forward search stage and then extracts a word lattice and restores each lattice path with a trigram language model in the second stage.

  • PDF

대화형 음성 지원을 통한 지능형 검색 시스템 (Intelligent Retrieval System with Interactive Voice Support)

  • 문규진;우요섭
    • 재활복지공학회논문지
    • /
    • 제9권1호
    • /
    • pp.29-35
    • /
    • 2015
  • 본 논문에서는 음성인식을 통해 상품검색을 도와주는 지능형 검색 시스템을 제안한다. 제안하는 시스템은 음성인식과정에서 잘못 인식된 어휘를 자동으로 수정하기 위해 어휘간의 관계를 이용한다. 본 연구에서는 제안하는 시스템의 유용성을 확인하기 위해 시스템을 시뮬레이션 할 수 있는 어플리케이션을 구현하였다. 실험 결과 간단한 유저 인터페이스를 통해 음성인식이 잘못된 어휘를 바로잡아 상품검색에 도움을 주는 것을 확인할 수 있었다.

  • PDF

의미기반 인덱스 추출과 퍼지검색 모델에 관한 연구 (A Study on Semantic Based Indexing and Fuzzy Relevance Model)

  • Kang, Bo-Yeong;Kim, Dae-Won;Gu, Sang-Ok;Lee, Sang-Jo
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.238-240
    • /
    • 2002
  • If there is an Information Retrieval system which comprehends the semantic content of documents and knows the preference of users. the system can search the information better on the Internet, or improve the IR performance. Therefore we propose the IR model which combines semantic based indexing and fuzzy relevance model. In addition to the statistical approach, we chose the semantic approach in indexing, lexical chains, because we assume it would improve the performance of the index term extraction. Furthermore, we combined the semantic based indexing with the fuzzy model, which finds out the exact relevance of the user preference and index terms. The proposed system works as follows: First, the presented system indexes documents by the efficient index term extraction method using lexical chains. And then, if a user tends to retrieve the information from the indexed document collection, the extended IR model calculates and ranks the relevance of user query. user preference and index terms by some metrics. When we experimented each module, semantic based indexing and extended fuzzy model. it gave noticeable results. The combination of these modules is expected to improve the information retrieval performance.

  • PDF

한국어 음성인식 플랫폼 (ECHOS) 개발 (Development of a Korean Speech Recognition Platform (ECHOS))

  • 권오욱;권석봉;장규철;윤성락;김용래;장광동;김회린;유창동;김봉완;이용주
    • 한국음향학회지
    • /
    • 제24권8호
    • /
    • pp.498-504
    • /
    • 2005
  • 교육 및 연구 목적을 위하여 개발된 한국어 음성인식 플랫폼인 ECHOS를 소개한다. 음성인식을 위한 기본 모듈을 제공하는 BCHOS는 이해하기 쉽고 간단한 객체지향 구조를 가지며, 표준 템플릿 라이브러리 (STL)를 이용한 C++ 언어로 구현되었다. 입력은 8또는 16 kHz로 샘플링된 디지털 음성 데이터이며. 출력은 1-beat 인식결과, N-best 인식결과 및 word graph이다. ECHOS는 MFCC와 PLP 특징추출, HMM에 기반한 음향모델, n-gram 언어모델, 유한상태망 (FSN)과 렉시컬트리를 지원하는 탐색알고리듬으로 구성되며, 고립단어인식으로부터 대어휘 연속음성인식에 이르는 다양한 태스크를 처리할 수 있다. 플랫폼의 동작을 검증하기 위하여 ECHOS와 hidden Markov model toolkit (HTK)의 성능을 비교한다. ECHOS는 FSN 명령어 인식 태스크에서 HTK와 거의 비슷한 인식률을 나타내고 인식시간은 객체지향 구현 때문에 약 2배 정도 증가한다. 8000단어 연속음성인식에서는 HTK와 달리 렉시컬트리 탐색 알고리듬을 사용함으로써 단어오류율은 $40\%$ 증가하나 인식시간은 0.5배로 감소한다.