• 제목/요약/키워드: Speech feature

검색결과 711건 처리시간 0.031초

Bidirectional LSTM CRF 기반의 개체명 인식을 위한 단어 표상의 확장 (Expansion of Word Representation for Named Entity Recognition Based on Bidirectional LSTM CRFs)

  • 유홍연;고영중
    • 정보과학회 논문지
    • /
    • 제44권3호
    • /
    • pp.306-313
    • /
    • 2017
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서 가장 우수한 성능을 보여주고 있는 모델은 Bidirectional LSTM CRFs 모델이다. 이러한 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이다. 따라서 입력이 되는 단어를 잘 표현하기 위하여 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 Bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 음절 기반에서 확장된 단어 임베딩 벡터, 그리고 개체명 사전 자질 벡터를 사용한다. 최종 단어 표상 확장 결과 사전 학습된 단어 임베딩 벡터만 사용한 것 보다 8.05%p의 성능 향상을 보였다.

구문 관계와 운율 특성을 이용한 한국어 운율구 경계 예측 (Prediction of Prosodic Break Using Syntactic Relations and Prosodic Features)

  • 정영임;조선호;윤애선;권혁철
    • 인지과학
    • /
    • 제19권1호
    • /
    • pp.89-105
    • /
    • 2008
  • 본 논문에서는 자연스러운 한국어 운율구 경계를 예측하기 위해 (1) 문장 성분을 하위범주화하고, (2) 세분화된 문장 성분 간 의존관계를 이용하여 통사구를 추출하며 (3) 추출한 통사구의 유형에 따른 운율구 경계 예측 규칙을 설정하였다. 또한, (4) 통사적 정보 외에도 통사구와 문장의 길이, 통사구의 문장 내 위치, 문맥의 의미 정보 등에 따라 가변적인 운율구 경계를 판단하여 보다 자연스러운 한국어 운율구 경계 예측 시스템을 개발하였다. 그 결과 통사구 경계와 상관관계가 높은 강한 운율구 경계 예측과 운율구 내부 비경계 예측에 있어 90% 이상의 높은 재현율과 정확도를 보였으며, 전체 운율구 경계 예측에 있어서도 87% 이상의 성능을 보였다.

  • PDF

독어음의 음성학적 고찰(2) - 현대독어의 복모음에 관하여 - (A Phonetic Study og German (2))

  • 윤종선
    • 대한음성학회지:말소리
    • /
    • 제19_20호
    • /
    • pp.33-42
    • /
    • 1990
  • Those who are interested in the German diphthongs wil1 find that they are classified into three kinds of forms in accordance with their gliding directions: closing, centring and rising. The German [aI], for example, which derives its origin from [i:] of the riddle high German. Is regarded as a distinctive feature that distinguishes the new high German from the middle high German. The diphthong [aI] is cal led fall ing one, because the sonority of the sound undergoes a diminution as the articulation proceeds. The end part of the diphthong [aI] is less sonorous than the beginning part. In most of the German diphthongs the diminution of prominence is caused by the fact that the end part is inherently less sonorous than the beginning. This applies to the other c los Ing and centring diphthongs. This way of diminution of sonority exerts influence on methods of constructing systems of phonetic notation. The above mentioned less sonorous end part of diphthong [I] shows that it differs from some analogous sound in another context. It is useful to demonstrate the occurrence of particular allophones by introducing special symbols to denote them (here: at→ae). Forms of transcription embodying extra symbol s are cal led narrow. But since strict adherence to the principle 'one sound one symbol' would involve the introduction of a large number of symbols, this would render phonetic transcriptions cumbrous and difficult to read. A broad style of transcription provides 'one symbol for each phoneme' of the language that is transcribed. Phonemic transcriptions are simple and unambiguous to everyone who knows the principles governing the use of allophones in the language transcribed. Among those German ways of transcriptions of diphthongs ( a?, a?, ??: ae, ao, ?ø; ae, ao, ?ø) the phonemic (broad) transcription is general Iy to be recommended, for Instance, in teaching the pronunciation of a foreign language, since it combines accuracy with the greatest measure of simplicity (Some passages and terms from Daniel Jones) .

  • PDF

최적 분류 변환을 이용한 음성 개성 변환 (Voice Personality Transformation Using an Optimum Classification and Transformation)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권5호
    • /
    • pp.400-409
    • /
    • 2004
  • 본 논문에서는 임의의 화자가 발성한 음성을 다른 화자가 발성한 음성처럼 들리도록 변환하는 음성 변환 알고리즘을 제안하였다. 개인이 지니고 있는 음성의 특성을 변환하기 위해 성도 전달 함수의 특성을 변환 변수로 사용하였으며, 기존의 기법과 비교하여 목표 화자의 음성과 주관적, 객관적으로 더욱 유사한 변환음을 얻기 위한 새로운 방법을 제안하였다. 성도 전달 함수의 변환은 전체 특징 벡터 공간을 분류 한 뒤, 각 구획에 대한 선형 변환식을 통해 구현된다. 특징 변수로서 LPC 켑스트럼을 사용하였으며, 벡터 공간의 분류와 선형 변환식의 추정을 동시에 최적화시키는 분류-변환 알고리즘이 새로이 제안되었다. 제안된 음성 변환 기법의 성능을 평가하기 위해 3명의 남성 화자와 1명의 여성 화자로부터 수집된 약 150개의 문장을 사용하여 변환 규칙을 생성하였으며, 이를 동일한 화자가 발성한 다른 150개의 문장에 대해 적용하여 객관적인 성능 평가와 주관적 청취 테스트를 수행하였다.

차원별 Eigenvoice와 화자적응 모드 선택에 기반한 고속화자적응 성능 향상 (Performance Improvement of Fast Speaker Adaptation Based on Dimensional Eigenvoice and Adaptation Mode Selection)

  • 송화전;이윤근;김형순
    • 한국음향학회지
    • /
    • 제22권1호
    • /
    • pp.48-53
    • /
    • 2003
  • Eigenvoice 방법은 고속화자적응에 적합하다고 알려져 있지만, 이 방법은 발화수가 증가하더라도 추가적인 인식성능향상이 이루어지지 않는 단점이 있다. 본 논문에서는 이 문제를 해결하기 위해 음성 특징벡터의 차원별로 eigenvoice의 가중치를 구하여 적응시키는 방법과 또한 적응 데이터 수에 따라 높은 인식률을 얻는 적응 방식을 선택하는 방식을 제안한다. 화자독립모델 및 eigenvoice들을 구성하기 위해 POW (Phonetically Optimized Words)데이터베이스를 사용하였으며, PBW(Phonetically Balanced Words) 452단어 중50개까지 발화 수를 변화시키면서 교사방식 (Supervised mode)로 적응에 사용하고 나머지 중 400개를 인식실험에 사용하였다. 차원별 eigenvoice 방법이 발화수가 증가함에 따라 기존의 eigenvoice 나 MLLR 방법보다 높은 성능을 보였으며, eigenvoice와 차원별 eigenvoice방법 사이의 적응 모드 선택을 통해 기존의 eigenvoice 방식에 비해 최고 26%의 단어 오인식률 감소를 얻었다.

神經網을 利用한 韓國語 數字音 認識에 관한 硏究 (A Study on the Spoken KOrean-Digit Recognition Using the Neural Netwok)

  • 박현화;강해동;배건ㅅ성
    • 한국음향학회지
    • /
    • 제11권3호
    • /
    • pp.5-13
    • /
    • 1992
  • 한국어 숫자음이 단음절인 특성을 이용하여 각 숫자음에 대해 시간정합을 필요로 하지 않으면서 일정한 수를 갖는 특징벡터를 추출하여 다층구조 신경망으로 인식실험을 하였다. 음성신호의 시작점/끝점과 더불어 모음의 최대 피크점을 기준으로 해석구간을 초성, 중성, 종성의 세 부분으로 나누었으며, 음성신호의 특징벡터로는 반사계수, 켑스트럼, ${\Delta}$켑스트럼, ${\Delta}$에너지 등을 이용하여, 각 특징벡터 및 입력층과 은닉층의 노드 수에 따른 인식율 및 학습속도 등을 비교하였다. 신경망의 입력층의 특징벡터로서 반사계수를 사용한 경우보다 켑스트럼을 사용했을 때가 더 좋은 인식율을 보였다. ${\Delta}$켑스트럼의 특성이 전체 인식율에 미치는 영향이 그다지 크지 않았는데, 이는 한국어 숫자음이 단음절로 구성되어 있는 특징을 이용해 분석 구간을 stationary한 특성을 갖는 세 부분으로 구분하였기 때문이라 생각된다. 각 숫자음에 대해 150개의 켑스트럼을 사용한 경우에 97.8%의 인식율을 얻었다.

  • PDF

편도외 농양 환자의 발화시 조음 및 음성의 변화 (The Acoustic Characteristics of Articulation and Phonation in Peritonsillar Abscess)

  • 최현진;송윤경;여장옥;허세형;진성민
    • 대한후두음성언어의학회지
    • /
    • 제19권2호
    • /
    • pp.133-135
    • /
    • 2008
  • Background and Objectives: The voice changes can occur in peritonsillar abscess and the labeling of this changes as a "muffled voice". The aim of this study was to investigate the changes in acoustic feature of voice before and after treatment in patients with peritonsillar abscess. Materials and Method: 12 patients with peritonsillar abscess were enrolled in the study. Acoustic analysis on sustained Korean vowels /a/, /i/ and /u/ were performed before and after treatment. Results: In patients with peritonsillar abscess, the first formant frequency (F1) and second formant frequency (F2) of /a/ were decreased. There was tendency of articulation of back-low vowel /a/ as back-high vowel /u/. F1 of /i/ and /u/ were increased, while F2 were decreased. There was tendency of articulation of front-high vowel /i/ as back-low vowel /a/. The third, forth, fifth formant frequency (F3, F4, F5) of /a/, /i/ and /u/ were decreased although statistically not significant. Conclusion: The anatomical and functional changes of oropharynx by peritonsillar abscess can cause changes in resonance and speech quality. We suggest that these changes could be the cause of 'muffled voice' in patients of peritonsillar abscess.

  • PDF

어휘 인식 시스템에서 학습 모델 분류를 위한 결정 트리 학습 알고리즘 (Decision Tree Learning Algorithms for Learning Model Classification in the Vocabulary Recognition System)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제11권9호
    • /
    • pp.153-158
    • /
    • 2013
  • 인식 대상 학습 모델이 분류되어 있지 않거나 명확하게 분류되지 않은 경우 어휘 인식을 결정하지 못하여 인식률이 저하되며 학습 모델 분류 형태가 변경되거나 새로운 학습 모델이 추가되면 인식 모델의 결정 트리 구조가 변경되어야 하는 구조적 문제가 발생한다. 이러한 문제점을 해결하기 위하여 학습 모델 분류를 위한 결정 트리 학습 알고리즘을 제안한다. 음운 현상이 충분히 반영된 음성 데이터베이스를 구성하고 학습 효과를 확보하기 위하여 학습 모델 분류를 위한 결정 트리 방법을 사용하였다. 본 연구에서는 실내 환경에 대하여 어휘 종속 인식과 어휘 독립 인식 실험을 수행한 결과 실내 환경의 어휘 종속 실험에서는 98.3%의 인식 성능을 보였고, 어휘 독립 실험에서 98.4%의 인식 성능을 보였다.

웨이브렛의 주파수-시간 평면 해석에 관한 연구 (A Study on Frequency-Time Plane Analysis of Wavelet)

  • 배상범;류지구;김남호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.451-454
    • /
    • 2005
  • 현재, 신호를 해석하기 위한 많은 방법들이 제시되고 있으며, 대표적인 방법으로는 퓨리에 변환과 웨이브렛 변환이 있다. 이러한 방법들에서, 퓨리에 변환은 모든 주파수 범위에 대해 cosine과 sine 파형의 조합으로써 신호를 표현하지만, 신호 내에서 특정 주파수 성분이 발생한 시간정보를 제공하지 않으며, 분석 신호의 전체적인 특징만을 나타낸다. 따라서 이러한 한계를 극복하기 위해, 다중해상도 해석이 가능한 웨이브렛 변환이 음성과 영상처리, 컴퓨터 비전 등의 광범위한 분야에서 응용되고 있다. 그리고 웨이브렛 변환은 스케일 변수에 따라 변화하는 윈도우를 사용하여 시간-주파수 국부성을 나타낸다. 본 논문에서는 cosine과 sine 형태의 웨이브렛을 사용하여, 퓨리에 변환의 새로운 접근법을 제시하였으며, 주파수-시간 평면의 유한한 지점에서 신호의 특징을 분석하였다.

  • PDF

피보호자 모니터링 시스템을 위한 환경음 기반 상황 인식 (Context Recognition Using Environmental Sound for Client Monitoring System)

  • 지승은;조준영;이충근;오시원;김우일
    • 한국정보통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.343-350
    • /
    • 2015
  • 본 논문에서는 모바일 기반의 피보호자 모니터링 시스템 적용을 위한 환경음 기반의 상황 인식 기술을 소개한다. 상황 인식 실험을 위해 총 7가지의 음향 환경으로 나누어 환경음을 취득한다. 환경음 인식 성능 비교를 위해 MFCC와 LPCC 특징 추출 기법을 이용한다. 통계적 기반의 패턴인식 기법을 적용하기 위해 GMM 및 HMM 음향 모델을 기반으로 인식기를 설계한다. 인식 실험 결과에서는 LPCC 특징 추출 기법이 MFCC 기법 보다 우수하고, 음향 모델은 HMM이 GMM에 비해 높은 인식 성능을 나타낸다. LPCC 특징을 사용하고 HMM 모델을 채용함으로써 최고 96.03%의 인식률을 나타낸다. 이와 같은 결과는 음성에 비하여 다양한 주파수 성분이 존재하는 환경음을 표현하는데 MFCC 보다는 LPCC가 효과적임을 나타내며, 시간에 따라 변하는 특성을 갖는 환경음은 GMM 보다 HMM이 효과적임을 입증한다.