• Title/Summary/Keyword: 단어 인식

검색결과 925건 처리시간 0.039초

출입자 판별을 위한 문맥 제시형 화자인식 (The Text-Prompt Speaker Recognition for Customer Discrimination)

  • 서광석
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.127-130
    • /
    • 1998
  • 본 연구에서는 문맥 종속 또는 문맥 독립형 화자 인식에서의 단점을 개선하는 방법으로 문맥 제시형 화자 인식을 수행하였다. 문맥 종속형 화자 인식은 제한된 문장이나 단어를 발성하여 출입 판별을 하는 방식으로 구현하기는 쉬우나 사칭자가 사용자의 목소리를 흉내낼 수 있으며[1], 문맥 독립형 화자 인식은 임의의 대화 문장이나 대화를 사용에게 유도하여 일정 시간 동안 녹음한 후에 이를 이용하여 사칭자가 접근을 허가 받을 수 있다는 단번이 있다. 또한 문맥 독립형 화자 인식에서는 접근 허가를 받기까지 많은 학습 시간이 필요하며 학습 시간이 적을 경우에 상당한 인식률의 저하가 발생된다. 문맥 제시형 화자 인식은 랜덤하게 제시된 단어만을 화자가 발성함으로써 특정한 문장이나 단어의 배열을 미리 녹음했다가 재생하는 방법을 배제할 수 있을 뿐만 아니라 동시에 학습을 위한 많은 시간을 소모하지 않는다는 장점이 있다. 본 논문에서는 화자로 하여금 랜덤하게 제시된 여러 개의 단어들을 순서적으로 발성하도록 하여, 발성 단어를 인식한 후에 인식된 단어를 통하여 화자를 판별하는 방법을 사용하였다.

  • PDF

잡음 환경에서의 복수 화자 음성인식 (Multi-Speaker Speech Recognition in Noisy Environments)

  • 오윤학;허호영;송명규;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.41-44
    • /
    • 2000
  • 본 논문에서는 잡음 환경에서 복수 화자 음성인식 시스템의 인식 성능 향상에 관한 실험을 하였다. 복수화자 음성인식 방식은 훈련에 참여한 복수의 사용자에 대한 등록 단어 모델을 가지므로, 인식 단계에서 등록화자의 모든 단어 모델들을 테스트 음성과 비교하여 인식 단어를 결정한다 그러나, 이 경우 훈련 환경과 테스트 환경의 불일치에 기인한 인식 성능 저하가 등록 화자수가 많아짐에 따라 더욱 심해지는 문제가 발생한다. 본 논문에서는 이 문제의 해결을 위해 등록 화자들의 모든 단어 모델들을 테스트 음성과 비교하는 대신 화자인식 시스템을 사용해서 발성 화자와 유사한 후보 화자들의 단어 모델들에 대해서만 테스트 음성과 비교하는 방식을 적용함으로써 기존의 방법보다 높은 단어 인식 율을 얻을 수 있었다

  • PDF

음성에 의한 Man-Machine Communication 기술의 현황

  • 은종관
    • 전자공학회지
    • /
    • 제15권2호
    • /
    • pp.75-87
    • /
    • 1988
  • 본 논문에서는 음성에 의한 man-machine communication의 핵심기술인 음성인식 및 합성의 전반적인 기술에 관하여 그 현황을 알아본다. 먼저 음성인식에서 해결되어야 할 문제점들을 고찰하고 격리단어 인식, 연결단어 인식, 그리고 연속언어 인식의 기술현황을 기술한다. 격리단어 인식에서는 pattern matching 방법에서 사용되는 입력어휘의 특징 추출, reference와의 유사도 측정, 유사도 측정 결과에 의한 인식결정에 관해서 논한다. 연결단어 및 연속언어 인식에서는 현재 연구가 되고 있는 "bottom-up approach"와 "top-down approach"에 관해서 설명하고 이들 방법의 어려운 점들을 고찰한다. 다음 음성 합성에서는 기존의 여러 가지 합성 방식을 검토하고 이들의 장단점을 기술한다. 마지막으로 한 예로서 한국어 text-to-speech 변환 시스템에 관하여 기술한다.

  • PDF

HMM과 GA를 이용한 한국어 음성의 음소단위 인식 (Phoneme-based Recognition of Korean Speech Using HMM(Hidden Markov Model) and Genetic Algorithm)

  • 박준하;조성원
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1997년도 추계학술대회 학술발표 논문집
    • /
    • pp.291-295
    • /
    • 1997
  • 현재에 주로 개발되어 상용화가 시작되고 있는 음성인식 시스템의 대부분은 단어인식을 기분으로 하는 시스템으로 적용 단어수를 늘려줌으로서 인식범위를 늘일 수 있으나, 그에 따라 검색해야하는 단어수가 늘어남으로서 전체적인 시스템의 속도 및 성능이 저하되는 경향이 있다. 이러한 단점의 극복을 위하여 본 논문에서는 HMM(Hidden Markov Model)과 GA(Genetic Algorithm)를 이용한 한국어 음성의 음소단위 인식 시스템을 구현하였다. 음성 특징으로는 LPC Cepstrum 계수를 사용하였으며, 인식시는 인식대상이 되는 단어에 대하여 GA(Genetic Algorithm)을 통하여 각 음소를 분리하고, 음소단위로 학습된 HMM 파라미터를 적용하여 인식함으로써 각각의 음소별 가능하도록 하는 방법을 제안하였다.

  • PDF

연속분포 HMM에 의한 실시간 Word Spotting 에 관한 연구 (A Study on the Real-time Word Spotting by Continuous density HMM)

  • 서상원
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.92-95
    • /
    • 1995
  • 연속분포 HMM을 사용한 실시간 로봇 암 제어 시스템에 대해 기술하고 있다. 본 시스템은 자연스러운 문장의 로봇 암 제어 명령 발성을 받아 핵심단어 인식의 framework을 통한 명령 인식 및 로봇 제어를 구현하고 있다. 로봇 몸체의 부분, 방향, 각도, 동작명령들에 대해 각기 우향 HMM, 이외의 비 핵심어들에 대해서는 이들을 한데 모아 ergodic형 상태천이를 모델링하는 garbage HMM을 형성했는데, 조사, 감탄사 등을 따로 모은 garbage 모델과, silence 및 배경 잡음에 대한 garbage 모델을 형성, 학습 및 인식에 포함시켜 연결단어 인식을 수행함으로써 핵심단어 인식의 효과를 얻었다. 이때 핵심단어들의 사용에 있어 간단한 문법적 제약을 가정하였다. 남성화자 35명을 대상으로 30개 문형에 대해 데이터 수집용 개념적 문장을 구성하여 음성 데이터를 수집하였다. 학습 화자에 대한 제어 명령 인식률은 95% 이상을 나타내고 있으며, 비 학습화자에 대한 인식율은 90% 이상이다. 또한 학습된 단어외의 비 핵심단어들의 사용에 대해서도 긍정적인 인식 성능을 보였다.

  • PDF

중규모급 단어 인식기의 실시간 구현을 위한 무감독 단어집단화 알고리듬 (Unsupervised Word Grouping Algorithm for real-time implementation of Medium vocabulary recognition)

  • 임동식;김진영;백성준
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.81-84
    • /
    • 1999
  • 본 논문에서는 중규모급 단어인식기의 실시간 구현을 위한 무감독 단어집단화 알고리듬을 제안한다. 무감독 단어집단화는 인식대상 어휘 수가 많은 대용량 음성인식 시스템에서 대상 어휘 수를 줄여주는 역할을 하는 전처리기의 성격을 갖는다. 무감독 집단화를 위해 각 단어의 유$\cdot$무성음 고유의 특성을 잘 반영할 수 있는 특징 파라미터 5개를 사용하여 패턴 인식과 회귀분석에서 널리 사용되고 있는 분류$\cdot$회귀트리(Classification And Regression Tree)에 적용시키는 방법으로 접근하였고, 각 단어의 frame 수를 일정하게 n개로 분할(segment)하여 1개의 tree를 생성시키는 방법과 각 segment에 해당하는 tree를 생성시켜 segment들 사이의 교집합 성분으로 단어들을 집단화 하였다 실험결과 탐색 대상단어 22개에서 평균2.21개로 줄어 전체 대상 단어의 $10\%$만을 탐색하여 인식할 수 있는 방법을 제시할 수 있었다.

  • PDF

유성/무성/묵음 정보론 이용한 동적 시간 정합 알고리즘 개선 (Improvement of Dynamic Time Warping Algorithm by Using Voice/Unvoiced/Silence Information)

  • 최민석;한현배;한민수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.40-43
    • /
    • 1999
  • 본 연구에서는 고립단어 인식시스템에 사용되고 있는 DTW(DynamicTimeWarping) 알고리즘의 계산량을 줄일 수 있는 방법을 제안한다. 일반적으로 고립단어 인식시 가장 인식률이 좋은 알고리즘은 DW라고 알려져 있으나, 인식대상어휘가 늘어나면 계산량이 비례해서 늘어나고 인식률이 저하되는 단점이 있으므로 일반적으로 200단어 이하의 어휘에만 사용되고 있다. 따라서 대상어휘를 감소시켜 계산량을 줄이기 위해 본 논문에서는 유성/무성/묵음 (V/U/S) 정보를 이용하여 코드워드를 구성하고 같은 코드워드에 해당되는 단어들을 추출해이들 만을 비교대상 어휘로 제한하므로서 DW 알고리즘을 적용할 대상 어휘수를 줄이는 방법을 사용하여 계산 속도를 향상시켰다 또한 입력 단어와 대상 단어와의 누적거리 계산 시 끝점 정보 뿐 만 아니라 유성/무성/묵음 경계 정보를 이용하여 piecewise DTW를 구현함으로서 탐색 영역을 축소함으로써 추가적인 계산량 감소가 가능하다. 따라서 상기 기법들을 이용하면 PC상에서도 DTW를 이용한 대어휘 고립단어 음성 인식기의 구현이 가능할 것이다.

  • PDF

품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식 (Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables)

  • 유홍연;고영중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.105-110
    • /
    • 2016
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서는 bidirectional LSTM CRFs가 가장 우수한 성능을 보여주고 있다. 하지만 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이기 때문에 입력이 되는 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 그리고 음절 기반에서 확장된 단어 임베딩 벡터를 사용한다. 음절 기반에서 단어 기반 임베딩 벡터로 확장하기 위하여 bidirectional LSTM을 이용하고, 그 입력으로 학습 데이터에서 추출한 개체명 분포를 이용하였다. 그 결과 사전 학습된 단어 임베딩 벡터만 사용한 것보다 4.93%의 성능 향상을 보였다.

  • PDF

품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식 (Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables)

  • 유홍연;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-110
    • /
    • 2016
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서는 bidirectional LSTM CRFs가 가장 우수한 성능을 보여주고 있다. 하지만 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이기 때문에 입력이 되는 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 그리고 음절 기반에서 확장된 단어 임베딩 벡터를 사용한다. 음절 기반에서 단어 기반 임베딩 벡터로 확장하기 위하여 bidirectional LSTM을 이용하고, 그 입력으로 학습 데이터에서 추출한 개체명 분포를 이용하였다. 그 결과 사전 학습된 단어 임베딩 벡터만 사용한 것보다 4.93%의 성능 향상을 보였다.

  • PDF

사용자 발화 순차패턴을 이용한 음성인식 후처리 (Post-Processing of Speech Recognition Using User Utterance Sequential Pattern)

  • 송원문;김은주;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.709-711
    • /
    • 2005
  • 최근 음성인식 분야에서는 발화된 음성의 단순한 신호 처리위주의 인식 결과로부터 좀 더 신뢰할 수 있는 결과를 얻기 위하여 여러 가지 후처리 기법들이 연구되고 있다. 본 논문에서는 개인 사용자를 위한 음성 명령어 인식 환경에서 사용자의 발화 정보를 후처리에 적용함으로써 사용자 정보를 고려한 음성인식 후처리 기법을 제안한다. 먼저 이전에 사용했던 음성 명령어들로부터 명령어 발화 순차 패턴 규칙을 추출 한 후 사용자가 사전에 발화한 명령어를 바탕으로 구성된 순차 패턴을 비교하여 순차 규칙상 얻어 질 수 있는 단어를 결정한다. 이렇게 얻어진 단어를 고려하여 음성인식기 인식단어 후보들의 확률값을 적절히 보정한 후 최종 인식 단어를 재결정한다. 이러한 과정에서 적절한 보정을 위하여 발화 순차 패턴의 신뢰도와 인식기의 결과단어를 고려한 보정 방법을 제안한다. 실험을 통하여 제안한 후처리를 이용한 음성인식이 HMM을 이용한 기본 음성인식에 비해 오류율을 $15\%$이상 낮추어 인식률에 상당한 기여를 하였음을 확인할 수 있다.

  • PDF