• 제목/요약/키워드: Continuous Speech Recognition

검색결과 223건 처리시간 0.025초

음성 인식 테크놀로지 기반의 외국어 말하기 훈련 시스템 개발 (Development of a Foreign Language Speaking Training System Based on Speech Recognition Technology)

  • 구덕회
    • 정보교육학회논문지
    • /
    • 제23권5호
    • /
    • pp.491-497
    • /
    • 2019
  • 글로벌 사회로 발전함에 따라 외국어를 능숙하게 말하고 싶어하는 사람들이 많아지고 있다. 능숙하게 말하기 위해서는 말하는 훈련을 충분히 가져야 하는데 이때 대화 상대방을 필요로 한다. 최근에는 음성 인식 정보 기술의 발달로 인하여 대화 상대방의 인간이 없어도 외국어 말하기 훈련을 수행하는 시스템 개발이 가능할 것으로 기대되고 있다. 이에 본 연구에서는 외국어 말하기 훈련 교육을 위한 테스트베드 시스템을 개발하고 초등학교 수업에 적용하였다. 초등학생에게 영어 대화 상황을 제시하고 말하기 훈련을 실시하도록 하였다. 그 후, 시스템에 대한 만족도와 지속적인 활용 가능성을 조사하였다. 본 연구에서 개발한 시스템을 이용하면 외국어 말하기 학습 훈련에 도움이 된다는 점을 확인하였다.

반음절쌍과 변형된 연쇄 상태 분할을 이용한 연속 숫자 음 인식의 성능 향상 (Performance Improvement of Continuous Digits Speech Recognition Using the Transformed Successive State Splitting and Demi-syllable Pair)

  • 서은경;최갑근;김순협;이수정
    • 한국멀티미디어학회논문지
    • /
    • 제9권1호
    • /
    • pp.23-32
    • /
    • 2006
  • 본 논문에서는 언어모델과 음향모델을 개선함으로써 단위 숫자음의 인식성능 최적화에 대해 설명한다. 언어모델은 한국어 단위 숫자음 문장의 문법적 특징을 분석하고, Finile State Network(FSN) 노드를 두 음절로 구성하여 오 인식률을 감소시켰다. 음향모델은 단 음절로 구성되어 발성기간이 짧고 조음이 많이 생기는 불명확한 음소, 음절의 분할로 인한 오 인식을 줄이기 위해 인식단위를 반음절 쌍으로 하였다. 인식단위의 특징을 효과적으로 모델링하기 위해 특징부분에서 K-means 알고리즘으로 군집화 하여, 상태를 분할하는 변형된 연쇄 상태 분할방법을 이용하였다. 실험 결과 제안된 언어모델의 적용 후 동일 문맥종속 음소모델에서 10.5%, 음향모델에서 인식단위를 반음절 쌍으로 하였을 경우 문맥종속 음소모델에 비해 12.5%, 변형된 연쇄 상태분할을 하였을 경우 1.5%의 인식률을 향상시킬 수 있었다.

  • PDF

반음절쌍과 변형된 연쇄 상태 분할을 이용한 연속 숫자음 인식의 성능 향상 (Performance Improvement of Continuous Digits Speech Recognition using the Transformed Successive State Splitting and Demi-syllable pair)

  • 김동옥;박노진
    • 한국정보통신학회논문지
    • /
    • 제9권8호
    • /
    • pp.1625-1631
    • /
    • 2005
  • 본 논문에서는 언어모델과 음향모델을 개선함으로써 단위 숫자음의 인식성능 최적화에 대해 설명한다. 언어모델은 한국어 단위 숫자음 문장의 문법적 특징을 분석하고, FSN 노드를 두음절로 구성하여 오 인식률을 감소시켰다. 음향모델은 단음절로 구성되어 발성기간이 짧고 조음이 많이 생기는 불명확한 음소, 음절의 분할로 연한 오 인식을 줄이기 위해 인식단위를 반음절쌍으로 하였다. 인식단위의 특징을 효과적으로 모델링하기 위해 특징레벨에서 K-means 알고리즘(4)으로 클러스터링 하여 상태를 분할하는 변형된 연쇄 상태 분할방법을 이용하였다. 실험 결과 제안된 언어모델의 적용 후 동일 문백종속 음소모델에서 $10.5\%$, 음향모델에서 인식단위를 반음절쌍으로 하였을 경우 문백종속 음소모델에 비해 $12.5\%$, 변형된 연쇄 상태분할을 하였을 경우 $1.5\%$의 인식률을 향상시킬 수 있었다.

연속음성인식의 음향모델 출력을 이용한 뉴스 데이터 분석 (News Data Analysis Using Acoustic Model Output of Continuous Speech Recognition)

  • 이경록
    • 한국콘텐츠학회논문지
    • /
    • 제6권10호
    • /
    • pp.9-16
    • /
    • 2006
  • 본 논문에서는 연속음성인식의 음향모델 출력을 이용하여 뉴스 데이터를 분석하였다. 실험에 사용된 뉴스 데이터베이스는 2,093개의 기사로 구성되어 있다. 기존의 한국어 연속음성인식은 열악한 언어모델 때문에 낮은 인식성능을 보여 뉴스 데이터 분석에 적합하지 않다. 본 논문에서는 이를 보완하기 위해서 상대적으로 견인한 음향모델의 인식결과를 후처리하여 핵심어 정보 파일을 만들었다. 음향모델의 출력레벨 문턱치가 100일 때 전체 인식대상 형태소의 86.9%가 인식되었다. 동일한 조건에 길이정보 기반 정규화를 적용하였더니 81.25%가 인식되었다. 정규화의 목적은 긴 길이의 형태소를 보상하는 것이다. 실험결과, 인식대상 형태소 인식률은 75.13%였다. 그리고 5,040MB의 뉴스 데이터에서 314MB의 핵심어 정보 파일이 만들어졌다. 이것은 절대적인 정보량이 93.8% 감소한 것이다.

  • PDF

대어휘 연속음성 인식을 위한 결합형태소 자동생성 (Automatic Generation of Concatenate Morphemes for Korean LVCSR)

  • 박영희;정민화
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.407-414
    • /
    • 2002
  • 본 논문에서는 형태소를 인식 단위로 하는 한국어 연속음성 인식의 성능 개선을 위해 결합형태소를 자동으로 생성하는 방법을 제시한다. 학습코퍼스의 54%를 차지하고 오인식의 주요인이 되는 단음절 형태소를 감소시켜서 인식 성능을 높이는 것을 목적으로 한다. 품사의 접속 규칙을 이용한 기존의 지식기반의 형태소 결합방법은 접속 규칙의 생성이 어렵고, 학습 코퍼스에 나타난 출현 빈도를 반영하지 못하여 저빈도 결합형태소를 다수 생성하는 경향을 보였다. 본 논문에서 제시하는 방법은 학습데이터의 통계정보를 이용하여 결합형태소를 자동 생성한다. 결합할 형태소 쌍 선정을 위한 평가척도로는 형태소 쌍의 빈도, 상호정보, 유니그램 로그 유도값(unigram log likelihood)을 이용하였고 여기에 한국어의 특성 반영을 위해 단음절 형태소 제약과 형태소 결합길이를 제한하는 두개의 제약사항을 추가하였다. 학습에 사용된 텍스트 코퍼스는 방송뉴스와 신문으로 구성된 7백만 형태소이고, 최빈도 2만 형태소 다중 발음사전을 사용하였다. 세가지 평가척도 중 빈도를 이용한 것의 성능이 가장 좋았고 여기에 제약조건을 반영하여 성능을 더 개선할 수 있었다. 특히 최대 결합 길이를 3으로 할 때의 성능이 가장 우수하여 언어모델 혼잡도는 117.9에서 97.3으로 18%감소했으며, 형태소 에러율 (MER: Morpheme error rate)은 21.3%에서 17.6%로 감소하였다. 이때 단음절 형태소는 54%에서 30%로 24%가 감소하였다.

주요고유성분분석을 이용한 연속음성의 세그멘테이션 (Segmentation of Continuous Speech based on PCA of Feature Vectors)

  • 신옥근
    • 한국음향학회지
    • /
    • 제19권2호
    • /
    • pp.40-45
    • /
    • 2000
  • 음소에 대한 사전지식 없이 음성의 신호나 특징벡터 만으로부터 음소별 경계를 추출하는 맹목 세그멘테이션의 한가지 방법은 음소별 특징벡터들 사이의 거리를 최소화하는 경계를 찾는 것이다. 이런 방법에서 특징벡터들 사이의 거리척도로 유클리드 거리가 자주 사용되고 있지만 한 음소의 특징벡터들 사이에도 많은 변화가 있어 단순한 유클리드 거리척도만으로는 음소별 경계를 추출하기에 효율적이지 못하다. 본고에서는 한 음소에 속하는 특징벡터들의 전체적인 추이를 반영한 특징벡터들 사이의 거리를 구하기 위해 주요고유성분분석법(principal component analysis)을 이용하는 방법을 제안한다. 이 방법에서는 각 특징벡터들과 이들을 주요고유성분에 투영한 점 사이의 거리를 척도로 이용한다. 제안하는 거리척도를 LBDP 알고리즘에 적용하여 연속음성의 음소간 경계를 추출하는 실험을 수행하였다. 실험 결과, 단순한 유클리드 거리를 척도로 할 때 보다 약 3-6% 정도의 누락오류를 줄일 수 있어 유용하게 이용될 수 있음을 보였다.

  • PDF

연속 음성 인식 시스템을 위한 향상된 결정 트리 기반 상태 공유 (Improved Decision Tree-Based State Tying In Continuous Speech Recognition System)

  • 김동화;;;김형순;김영호
    • 한국음향학회지
    • /
    • 제18권6호
    • /
    • pp.49-56
    • /
    • 1999
  • 결정 트리 기반 상태 공유 방법은 HMM을 사용하는 많은 연속 음성 인식 시스템에서 강인하고 정확한 문맥 종속 음향 모델링 뿐만 아니라 훈련 중에는 나타나지 않은 모델들의 합성을 위하여 널리 사용되고 있다. 음성 결정 트리를 구성하기 위한 표준적인 방법은 단일 가우시안 트라이폰 모델을 이용한 1계층 프루닝 만을 사용하고 있다. 본 논문에서는 더욱 정교한 음향 모델링을 통하여 인식 성능 향상을 도모하기 위하여 새로운 2가지 접근 방법 즉, 2계층 결정 트리와 복수 혼합 결정 트리를 제안한다. 2계층 결정 트리는 상태 공유와 혼합 가중치 공유를 위하여 2계층 프루닝을 수행하며, 두 번째 계층을 사용하여 공유 상태들도 음성 문맥의 유사도에 따라서 서로 다른 가중치들을 사용할 수 있다. 두 번째 제안된 방법 에서는 훈련 과정 즉, 혼합 분할 및 재추정 과정과 함께 음성 결정 트리가 계속 갱신되어 진다. 복수 혼합 결정 트리를 구성하기 위하여 단일 가우시안 뿐만 아니라 복수 혼합 가우시안 모델이 함께 사용된다. 제안된 방법들을 이용하여 BN-96과 WSJ5k 데이터를 사용한 연속 음성 인식 실험을 수행한 결과, 표준 결정 트리를 사용한 시스템과 비교하여 공유 상태의 개수를 비슷하게 유지하면서 단어 오인식률을 줄일 수 있었다.

  • PDF

A Low-Power LSI Design of Japanese Word Recognition System

  • Yoshizawa, Shingo;Miyanaga, Yoshikazu;Wada, Naoya;Yoshida, Norinobu
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.98-101
    • /
    • 2002
  • This paper reports a parallel architecture in a HMM based speech recognition system for a low-power LSI design. The proposed architecture calculates output probability of continuous HMM (CHMM) by using concurrent and pipeline processing. They enable to reduce memory access and have high computing efficiency. The novel point is the efficient use of register arrays that reduce memory access considerably compared with any conventional method. The implemented system can achieve a real time response with lower clock in a middle size vocabulary recognition task (100-1000 words) by using this technique.

  • PDF

연속음성인식 후처리를 위한 음절 복원 rule-based 시스템과 형태소분석기법의 적용 (The syllable recovrey rule-based system and the application of a morphological analysis method for the post-processing of a continuous speech recognition)

  • 박미성;김미진;김계성;최재혁;이상조
    • 전자공학회논문지C
    • /
    • 제36C권3호
    • /
    • pp.47-56
    • /
    • 1999
  • 한국어를 연속적으로 발음할 때 여러 가지 음은변동이 일어난다. 이러한 음운변동은 한국어 연속 음성 인식을 어렵게 하는 주요 요인 중의 한가지이다. 본 논문에서는 음운변동이 반영된 음성 인식 문자열을 규칙에 의하여 text 기반 문자열로 다시 복원시키는 rule-based 시스템을 제안한다. 그리고 복원 결과들은 형태소 분석되어 올바른 문자열만 생성된다. 복원은 4가지 rule 즉, 음절 경계 종성 초성 복원 rule, 모음처리 복원 rule,끝음절 종성 복원 rule, 한 음절 처리 rule에 의거하여 이루어진다. 규칙 적용 과정 중에 효과적인 복원을 위해 x-clustering정보를 정의하여 사용하고, 형태소 분석기에 입력될 복원 후보수를 제안하기 위해 postfix음절 빈도정보를 구하여 사용한다. 본 시스템은 규칙기반 시스템이므로 대용량의 발음열 사전이나 음소열 사전을 필요로 하지 않고 문서 기반 형태소 분석기를 그대로 이용할 수 있다는 이점이 있다.

  • PDF

한국어 연속음성 인식을 위한 발음열 자동 생성 (Automatic Generation of Pronunciation Variants for Korean Continuous Speech Recognition)

  • 이경님;전재훈;정민화
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.35-43
    • /
    • 2001
  • 음성 인식이나 음성 합성시 필요한 발음열을 수작업으로 작성할 경우 작성자의 음운변화 현상에 대한 전문적 언어지식을 비롯하여 많은 시간과 노력이 요구되며 일관성을 유지하기도 쉽지 않다. 또한 한국어의 음운 변화 현상은 단일 형태소의 내부와 복합어에서 결합된 형태소의 경계점, 여러 형태소가 결합해서 한 어절을 이룰 경우 그 어절 내부의 형태소의 경계점, 여러 어절이 한 어절을 이룰 때 구성 어절의 경계점에서 서로 다른 적용 양상을 보인다. 본 논문에서는 이러한 문제를 해결하기 위해서 형태음운론적 분석에 기반하여 문자열을 자동으로 발음열로 변환하는 발음 생성 시스템을 제안하였다. 이 시스템은 한국어에서 빈번하게 발생하는 음운변화 현상의 분석을 통해 정의된 음소 변동 규칙과 변이음 규칙을 다단계로 적용하여 가능한 모든 발음열을 생성한다. 각 음운변화 규칙을 포함하는 대표적인 언절 리스트를 이용하여 구성된 시스템의 안정성을 검증하였고, 발음사전 구성과 학습용 발음열의 유용성을 인식 실험을 통해 평가하였다. 그 결과 표제어 사이의 음운변화 현상을 반영한 발음사전의 경우 5-6% 정도 나은 단어 인식률을 얻었으며, 생성된 발음열을 학습에 사용한 경우에서도 향상된 결과를 얻을 수 있었다.

  • PDF