• 제목/요약/키워드: recognition task

검색결과 613건 처리시간 0.022초

한국어 음성인식 플랫폼 (ECHOS) 개발 (Development of a Korean Speech Recognition Platform (ECHOS))

  • 권오욱;권석봉;장규철;윤성락;김용래;장광동;김회린;유창동;김봉완;이용주
    • 한국음향학회지
    • /
    • 제24권8호
    • /
    • pp.498-504
    • /
    • 2005
  • 교육 및 연구 목적을 위하여 개발된 한국어 음성인식 플랫폼인 ECHOS를 소개한다. 음성인식을 위한 기본 모듈을 제공하는 BCHOS는 이해하기 쉽고 간단한 객체지향 구조를 가지며, 표준 템플릿 라이브러리 (STL)를 이용한 C++ 언어로 구현되었다. 입력은 8또는 16 kHz로 샘플링된 디지털 음성 데이터이며. 출력은 1-beat 인식결과, N-best 인식결과 및 word graph이다. ECHOS는 MFCC와 PLP 특징추출, HMM에 기반한 음향모델, n-gram 언어모델, 유한상태망 (FSN)과 렉시컬트리를 지원하는 탐색알고리듬으로 구성되며, 고립단어인식으로부터 대어휘 연속음성인식에 이르는 다양한 태스크를 처리할 수 있다. 플랫폼의 동작을 검증하기 위하여 ECHOS와 hidden Markov model toolkit (HTK)의 성능을 비교한다. ECHOS는 FSN 명령어 인식 태스크에서 HTK와 거의 비슷한 인식률을 나타내고 인식시간은 객체지향 구현 때문에 약 2배 정도 증가한다. 8000단어 연속음성인식에서는 HTK와 달리 렉시컬트리 탐색 알고리듬을 사용함으로써 단어오류율은 $40\%$ 증가하나 인식시간은 0.5배로 감소한다.

다운증후군 학생의 음운인식 능력 (Phonological Awareness Ability of Students with Down Syndrome)

  • 황보명
    • 음성과학
    • /
    • 제15권3호
    • /
    • pp.79-94
    • /
    • 2008
  • The purpose of this study was to compare phonological awareness ability of students with Down Syndrome(DS) and typically developing children(TD). TD and DS were equal the reading abilities(reading recognition). The subject were 10 DS and 10 TD, and were examined by test of phonological awareness. The test of phonological awareness was composed according to phonological units(word, syllable, phoneme) and task types(deletion, discrimination, blending). The results obtained in this study were as follows: The total score of phonological awareness ability of DS were significantly lower than TD. And the score of phonological awareness ability according to phonological units and task types were significantly lower than TD. But both DS and TD performed better on phonological deletion and blending task than discrimination. TD and DS represented different correlation between task types and phonological units. This means that TD performed better on all types of tasks and phonological units than DS.

  • PDF

Telephone Speech Recognition with Data-Driven Selective Temporal Filtering based on Principal Component Analysis

  • Jung Sun Gyun;Son Jong Mok;Bae Keun Sung
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 학술대회지
    • /
    • pp.764-767
    • /
    • 2004
  • The performance of a speech recognition system is generally degraded in telephone environment because of distortions caused by background noise and various channel characteristics. In this paper, data-driven temporal filters are investigated to improve the performance of a specific recognition task such as telephone speech. Three different temporal filtering methods are presented with recognition results for Korean connected-digit telephone speech. Filter coefficients are derived from the cepstral domain feature vectors using the principal component analysis.

  • PDF

청각단어 재인에서 나타난 한국어 단어 길이 효과 (The Korean Word Length Effect on AudWord Recognition)

  • 최원일;남기춘
    • 대한음성학회지:말소리
    • /
    • 제44호
    • /
    • pp.33-46
    • /
    • 2002
  • This study was conducted to examine the effect of word length on auditory word recognition. Word length can be defined by several sublexical units, such as letters, phonemes, syllables, etc. To find out which sublexical units are influential in auditory word recognition, the auditory lexical decision task was used. In Experiment 1, we examined the partial correlation between the speed of reaction time and the number of sublexical units, and in Experiment 2, we executed ANOVA to find out which sublexical length variable was an influential unit. Through these two experiment, we concluded syllable length was the most important variable on auditory word recognition.

  • PDF

훈련데이터 기반의 temporal filter를 적용한 4연숫자 전화음성 인식 (Recognition of Korean Connected Digit Telephone Speech Using the Training Data Based Temporal Filter)

  • 정성윤;배건성
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.93-102
    • /
    • 2005
  • The performance of a speech recognition system is generally degraded in telephone environment because of distortions caused by background noise and various channel characteristics. In this paper, data-driven temporal filters are investigated to improve the performance of a specific recognition task such as telephone speech. Three different temporal filtering methods are presented with recognition results for Korean connected-digit telephone speech. Filter coefficients are derived from the cepstral domain feature vectors using the principal component analysis. According to experimental results, the proposed temporal filtering method has shown slightly better performance than the previous ones.

  • PDF

원어민 및 외국인 화자의 음성인식을 위한 심층 신경망 기반 음향모델링 (DNN-based acoustic modeling for speech recognition of native and foreign speakers)

  • 강병옥;권오욱
    • 말소리와 음성과학
    • /
    • 제9권2호
    • /
    • pp.95-101
    • /
    • 2017
  • This paper proposes a new method to train Deep Neural Network (DNN)-based acoustic models for speech recognition of native and foreign speakers. The proposed method consists of determining multi-set state clusters with various acoustic properties, training a DNN-based acoustic model, and recognizing speech based on the model. In the proposed method, hidden nodes of DNN are shared, but output nodes are separated to accommodate different acoustic properties for native and foreign speech. In an English speech recognition task for speakers of Korean and English respectively, the proposed method is shown to slightly improve recognition accuracy compared to the conventional multi-condition training method.

저가 카메라를 이용한 스마트 장난감 게임을 위한 모형 자동차 인식 (Recognition of Model Cars Using Low-Cost Camera in Smart Toy Games)

  • 강민혜;홍원기;고재필
    • 대한임베디드공학회논문지
    • /
    • 제19권1호
    • /
    • pp.27-32
    • /
    • 2024
  • Recently, there has been a growing interest in integrating physical toys into video gaming within the game content business. This paper introduces a novel method that leverages low-cost camera as an alternative to using sensor attachments to meet this rising demand. We address the limitations associated with low-cost cameras and propose an optical design tailored to the specific environment of model car recognition. We overcome the inherent limitations of low-cost cameras by proposing an optical design specifically tailored for model car recognition. This approach primarily focuses on recognizing the underside of the car and addresses the challenges associated with this particular perspective. Our method employs a transfer learning model that is specifically trained for this task. We have achieved a 100% recognition rate, highlighting the importance of collecting data under various camera exposures. This paper serves as a valuable case study for incorporating low-cost cameras into vision systems.

한글 일음절 단어처리에서의 음운정보의 역할 (The Role of Phonological Information in Korean Monosyllabic Word Processing)

  • 김연희;이창환
    • 인지과학
    • /
    • 제15권1호
    • /
    • pp.35-41
    • /
    • 2004
  • 한글단어가 음운경로를 통해 처리되는지 아닌지를 알아보고 단어재인의 어느 단계에서 음운 정보의 영향을 주로 받는지 알아보기 위하여, 1음절 단어를 사용하고 철자를 지연시키는 실험올 하였다. 두 개의 초점조건은 옴가가 있는 철자를 지연시키거나 묵음을 지연시키는 조건이었다. 실험 1에서는 음운정보가 단어재인 초기에 영향을 미치는지 또는 후기 과정에서 영향을 미치는지 알아 보기 위하여, 점화자극을 l50ms와 250ms로 제시한 명명과제를 실시하였다, 그 결과 150ms로 점화자극 을 제시하였을 때에는 음가조건파 정화자극제시여부간의 유의한 상호작용이 나타나 묵음조건에서는 점화자극 제시에 따라 목표자극이 촉진된 반면 유음조건에서는 점화자극 제시에 따른 효과가 없었다. '반면, 250ms로 정화자극이 제시되었을 때에는 유의한 상호작용효파가 나타나지 않았다. 실험 2에서는 어휘 판단과제를 통해 실험 1의 결과가 일반화되는지를 살펴보았다 그 결과, 실험l과 마찬가지로 150ms로 정화자극을 제시하였을 때에는 음가조건과 점화자극제시여부 간의 유의한 상호작용이 나타났으나, 점화자극을 250ms로 제시한 경우에는 유의한 상호작용이 나타나지 않았다. 이상의 결과는 한글단어가 음운경로를 통해 처리되고, 주로 단어재인과정의 초기 단계에서 음운정보가 개입함을 시사한다.

  • PDF

심층 학습 기반의 수기 일회성 암호 인증 시스템 (Handwritten One-time Password Authentication System Based On Deep Learning)

  • 리준;이혜영;이영준;윤수지;배병일;최호진
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.25-37
    • /
    • 2019
  • 심층 학습 및 온라인 생체 인식 기반 인증의 급속한 개발에 영감을 받아, 본 논문에서는 심층 학습을 기반으로 필체 인식 및 작성자 검증을 수행하는 수기 일회성 암호 인증 시스템을 제안한다. 본 논문에서는 수기로 작성된 숫자를 인식할 수 있는 합성곱 신경망과, 입력된 필체와 실제 사용자의 필체 사이 유사성을 계산할 수 있는 Siamese 신경망을 설계한다. 본 논문에서는 작성자 검증을 위한 NIST Speical Database 19 제 2판의 첫 번째 응용 사례를 제시한다. 본 논문이 제안하는 시스템은 네 장의 입력 이미지를 기반으로 한 숫자 인식 작업에서 98.58%, 작성자 검증 작업에서 93%의 정확도를 달성했다. 본 논문의 저자들은 제안한 필체 기반 생체 인식기술이 FIDO 프레임워크 기반의 다양한 온라인 인증 서비스에 활용될 수 있을 것이라 예상한다.