• 제목/요약/키워드: 화자확인

검색결과 246건 처리시간 0.025초

Neural-HMM을 이용한 고립단어 인식 (Isolated-Word Recognition Using Neural Network and Hidden Markov Model)

  • 김연수;김창석
    • 한국통신학회논문지
    • /
    • 제17권11호
    • /
    • pp.1199-1205
    • /
    • 1992
  • 본 논문에서는 HMM(Hidden Markov Models)에서 문제점이 되는 개인차에의한 변동을 흡수하고, 적은 학습 데이타로서 인식률을 향상시키기 위하여 신경회로망을 이용한 NN-HMM(Neural Network Hidden Makov Models)에 의해 한국어 인식에 관하여 연구하였다. 이 방법은 HMM과 신경회로망의 출력을 각각 독립적인 인식값으로 가정하여 두 시스템의 확률곱으로 서로 보정되어 최대 인식확률의 음성모델을 인식하는 음성인식 시스템이다. 본 방법의 타당성을 평가하기 위하여 남, 여화자가 28개의 DDD 지역명을 발성한 음성데이타로 실험한 결과, 이산분포 HMM에 의한 방법에서는 91[%], 신경회로망에 의한 방법에서는 89[%], 제안된 방법에서는 95[%]의 향상된 인식률을 얻으므로써 인식성능의 우수함을 확인하였다.

  • PDF

비교사 토론 인덱싱을 위한 시청각 콘텐츠 분석 기반 클러스터링 (Audio-Visual Content Analysis Based Clustering for Unsupervised Debate Indexing)

  • 금지수;이현수
    • 한국음향학회지
    • /
    • 제27권5호
    • /
    • pp.244-251
    • /
    • 2008
  • 본 연구에서는 시청각 정보를 이용한 비교사 토론 인덱싱 방법을 제안한다. 제안하는 방법은 BIC (Bayesian Information Criterion)에 의한 음성 클러스터링 결과와 거리기반 함수에 의한 영상 클러스터링 결과를 결합한다. 시청각 정보의 결합은 음성 또는 영상 정보를 개별적으로 사용하여 클러스터링할 때 나타나는 문제점을 줄일 수 있고, 토론 데이터의 효과적인 내용 기반의 분석이 가능하다. 제안하는 방법의 성능 평가를 위해 서로 다른 5종류의 토론 데이터에 대해 음성, 영상 정보를 개별적으로 사용할 때와 두 가지 정보를 동시에 사용할 때의 성능 평가를 수행하였다. 실험 결과 음성과 영상 정보를 결합한 방법이 음성, 영상 정보를 개별적으로 사용할 때 보다 토론 인덱싱에 효과적임을 확인하였다.

입술움직임 영상신호를 고려한 음성존재 검출 (Speech Activity Decision with Lip Movement Image Signals)

  • 박준;이영직;김응규;이수종
    • 한국음향학회지
    • /
    • 제26권1호
    • /
    • pp.25-31
    • /
    • 2007
  • 본 논문은 음성인식을 위한 음성구간 검출과정에서, 음향에너지 이외에도 화자의 입술움직임 영상신호까지 확인하도록 함으로써, 외부의 음향잡음이 음성인식 대상으로 오인식되는 것을 방지하기 위하여 시도한 것이다. 먼저, PC용 화상카메라를 통하여 영상을 획득하고, 입술움직임 여부가 식별된다. 그리고 입술움직임 영상신호 데이터는 공유메모리에 저장되어 음성인식 프로세스와 공유한다. 한편, 음성인식의 전처리 단계인 음성구간 검출과정에서는 공유메모리에 저장되어 있는 데이터를 확인함으로써 사람의 발성에 의한 음향에너지인지의 여부를 확인하게 된다. 음성인식기와 영상처리기를 연동시켜 실험한 결과, 화상카메라에 대면해서 발성하면 음성인식 결과의 출력까지 정상적으로 진행됨을 확인하였고, 화상카메라에 대면하지 않고 발성하면 음성인식 결과를 출력하지 않는 것을 확인하였다. 이는 음향에너지가 입력되더라도 입술움직임 영상이 확인되지 않으면 음향잡음으로 간주하도록 한 것에 따른 것이다.

한국어 모국어 화자의 영어유음 발성과 인지 연구 (A Study on production and perception of English liquids by Korean native speakers)

  • 최재호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.313-316
    • /
    • 2000
  • 원어민이 발성한 영어유음 시료를 사용하여 한국인 영문과와 타학과(비 영문과) 학생들을 대상으로 인지실험을 하였고, 시료의 정확성을 확인하기 위하여 원어민을 또 하나의 피험자 그룹으로 선택하였다. 영문과 피험자의 영어유음 인지결과를 살펴보면 어두$(70\%)$ < 어말$(75\%)$ < 어중$(80\%)$ glt; 연속음$(86\%)$의 순서로 인지율이 높아졌다. 타학과 피험자의 영어유음 인지에서는 어두$(59\%)$< 어말$(66\%)$ glt; 어중$(70\%)$ < 연속음$(72\%)$의 순서로 인지율의 증가를 보였다. 원어민의 영어유음 인지에서는 녹음에 참가하지 않은 다른 원어민을 대상으로 해서 총 평균 $99.6\%$로 거의 완벽한 인지율을 보였다. 그 만금 녹음된 시료가 정확하다는 것을 확인시켜 주었다. 피험자별 그룹에 대한 결과 비교에서는 원어민이 녹음한 발음으로 인지실험을 할 때 타학과$(66.8\%)$ < 영문과$(77.4\%)$< 원어민$(99.6\%)$의 순서로 점차 좋은 인지율을 보였다. 한국인이 발성한 영어유음에 대한 원어민의 인지실험에서는 한국인 영어유음 발음의 정확성을 알아보고자 하는 것이 목적이다. 한국인 발성시료에 대한 원어민의 총인지율은 $68\%$로 원어민의 발성시료에 대한 인지율 $99.6\%$와 비교해볼 때 영문과 녹음자들의 발음 정확도가 높지 못하다는 것을 보여 주었다. 평균/1/ $(79\%)$과 평균/r/$(58\%)$의 인지율을 보게 되면 한국인의 영어유음 발성에 있어서 /r/의 발성이 /1/의 경우보다 문제가 더 심각하다는 것을 알 수 있다. 특히 실험결과는 어두/1/$(87\%)$과 어두/r/$(43\%)$에서 뚜렷한 인지율의 차이를 보여주고 있다.

  • PDF

양서류 울음 소리 식별을 위한 특징 벡터 및 인식 알고리즘 성능 분석 (Performance assessments of feature vectors and classification algorithms for amphibian sound classification)

  • 박상욱;고경득;고한석
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.401-406
    • /
    • 2017
  • 본 논문에서는 양서류 울음소리를 통한 종 인식 시스템 개발을 위해, 음향 신호 분석에서 활용되는 주요 알고리즘의 인식 성능을 평가했다. 먼저, 멸종위기 종을 포함하여 총 9 종의 양서류를 선정하여, 각 종별 울음소리를 야생에서 녹음하여 실험 데이터를 구축했다. 성능평가를 위해, MFCC(Mel Frequency Cepstral Coefficient), RCGCC(Robust Compressive Gammachirp filterbank Cepstral Coefficient), SPCC(Subspace Projection Cepstral Coefficient)의 세 특징벡터와 GMM(Gaussian Mixture Model), SVM(Support Vector Machine), DBN-DNN(Deep Belief Network - Deep Neural Network)의 세 인식기가 고려됐다. 추가적으로, 화자 인식에 널리 사용되는 i-vector를 이용한 인식 실험도 수행했다. 인식 실험 결과, SPCC-SVM의 경우 98.81 %로 가장 높은 인식률을 확인 할 수 있었으며, 다른 알고리즘에서도 90 %에 가까운 인식률을 확인했다.

자음지각검사 (KCPT)의 개발 (Development of Korean Consonant Perception Test)

  • 김진숙;신은영;신현욱;이기도
    • 한국음향학회지
    • /
    • 제30권5호
    • /
    • pp.295-302
    • /
    • 2011
  • 본 연구의 목적은 말지각평가의 기초 자료가 되고 청각장애 자음지각능력의 정량적 정성적 평가가 가능한 음소단위의 한국어자음지각검사 (Korean Consonant Perception Test, 이하 KCPT)도구를 개발하는 것이다. KCPT는 조합 가능한 모든 한국어 단음절어 중 유의미 단음절어만 분류하여, 7종성발음규칙을 적용하고 목표단어의 친숙도를 조절한 사지선다형 초 종성검사문항 시안을 작성한 후, 각 단어들의 조음 특성, 난이도, 음소 출현빈도수를 고려하여 완성되었다. 이를 정상인 20명을 대상으로 평가하여 난이도가 높은 문항을 제거하고 화자 간 변수가 없는 것을 통계적으로 확인한 후 회화체 빈도수에 맞도록 최종문항을 작성하였다. 세부적 수정을 거쳐 초 종성검사문항 각 200개와 100개로 구성된 총 300개 문항을 개발하였다. 30명의 청각장애인을 대상으로 검증하여 A와 B로 구분한 절반목록간 차이도 없음을 확인하고 초성검사문항은 초성자음지각평가에 종성 검사문항은 종성자음 지각평가에 적절한 도구임을 검증하였다.

통사문법적 지식이 '독서기계'의 음성출력에 미치는 영향과 중요성 (The Influence and Impact of syntactic-grammatical knowledge on the Phonetic Outputs of a 'Reading Machine')

  • 홍성심
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.225-230
    • /
    • 2020
  • 인공지능, 딥러닝, 머신러닝 등이 괄목할만한 발전을 이루면서 2016년경부터 100여개의 언어를 비롯하여 가장 보편적으로 사용되어 온 Google Translate (구글기계번역기)는 자연언어처리(NLP) 분야와 외국어 학습 등 언어활용 분야에 독보적인 역할을 하고 있다. 본 논문은 구글기계번역기, Google Translate에 있어서, 영어모국어화자가 가진 통사문법적-범주적 지식의 중요성과 그 영향력에 대해 살펴보고자 한다. Jackendoff (1999)는 맹인을 위한 독서기계(Reading Machine)등을 구축하려면 통사구조적 지식과 문법적 분해력(parsing)이 매우 중요하고, 적어도 현재의 컴퓨터는 엄청난 발전을 이루기는 하였으나, 인간의 두뇌를 따라갈 수 없다는 결론을 내렸다. Jackendoff가 논의했던 몇 가지 어휘항목과 통사구조적 중의성을 활용하여, Google Translate 기계발음번역기를 통해 그의 주장을 확인하는 실험을 실시하고, 그 결과를 분석하는 것이 이 논문의 목표이다. 이 연구는 Jackendoff의 주장처럼 L1 화자가 내재화한 통사문법적, 범주-구조적 지식은 NLP, 혹은 "독서기계"등의 구축에서 중요하며, 이는 Chomsky (1986, 2005)등에서 논의된 내재적언어 (I-language)의 핵심이라는 점을 시사한다.

M-러닝을 활용한 공손 영어 표현 학습에 대한 연구 (A Study on the Learning of Polite Expressions Using M-learning)

  • 김혜정
    • 비교문화연구
    • /
    • 제42권
    • /
    • pp.261-283
    • /
    • 2016
  • 본 연구의 목적은 모바일 애플리케이션을 활용하여 공손 영어 표현 학습의 가능성을 고찰하고자 하는 것이다. 의사소통 능력의 향상을 도모하기 위해서는 문법적, 담화 능력 외에도 사회 언어적 능력이 필요하다. 상대방이 누구인지, 어떠한 대화 상황에 직면했는지, 대화의 주제나 목적 등에 따라 사회적 가치에 맞는 적합한 표현을 구사할 줄 알아야 한다. 상대방의 지위나 나이가 화자보다 높거나 상대방과의 친밀도가 낮을 경우 한국인 화자는 공손한 표현을 구사하게 된다. 한국어는 언어 자체적으로 경어 체계를 지니고 있지만 영어는 이와 다르기 때문에 학습자들은 영어의 공손 표현을 학습할 필요가 있다. 이를 위해 공손 언어 학습에 학습자들이 교실에서 누구나 쉽게 사용할 수 있는 모바일을 접목시키고자 한다. 학습 교재로는 영국의 시대극 "다운튼 애비"(Downton Abbey)를 이용하였는데 이 드라마는 귀족들의 삶을 중심으로 다루었기 때문에 공손 표현을 학습하기에는 매우 적합하다. 모바일 활용을 통한 공손 영어 학습의 효율성과 모바일 애플리케이션의 활용 가능성을 고찰하기 위해 네이버 밴드를 활용한 실험반과 일반적인 팀별 활동을 중심으로 한 통제반을 설정하였다. 두 반의 공손 언어 학습 효과를 확인하기 위해 두 번의 평가가 시행되었고 개방형 설문조사가 실시되었다. 평가 결과 모바일 애플리케이션의 사용은 공손 영어 표현 학습에 긍정적인 효과가 있었으며 모바일이 수업 후 활동으로 사용하기에 효율적인 학습 도구인 것으로 나타났다. 개방형 설문 조사에서 학습자들은 공손 표현을 우아하거나 고급스러운 언어 형식으로 인지하거나 실용적 표현과 구분하는 경향이 있었다. 시대극을 이용하여 공손 언어를 교수할 경우 교수자들은 현대 영어와의 접목을 고려할 필요가 있겠다.

중국인 학습자의 한국어 발음 오류에 대한 음성 신호 파라미터들의 비교 연구 - 한국어의 /ㄹ/ 발음을 중심으로 (A Comparison Study on the Speech Signal Parameters for Chinese Leaners' Korean Pronunciation Errors - Focused on Korean /ㄹ/ Sound)

  • 이강희;유광복;임하영
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권6호
    • /
    • pp.239-246
    • /
    • 2017
  • 본 논문은 중국인 학습자들이 많은 오류를 나타내는 한국어 /ㄹ/발음을 중심으로 중국인 학습자들의 음성 신호 파라미터들을 한국인의 것과 비교하였다. 설측음 혹은 탄설음의 변이음으로 나타나는 한국어의 /ㄹ/ 발음에 대한 중국어의 유사 발음과의 관계를 언어학적 관점에서 알아봄으로 많은 오류를 보이는 이유를 확인해 보았다. 본 논문에서는 신호의 에너지, 시간 영역에서의 파형, 주파수 성분 분석이 가능한 스펙트로그램, 자기 상관 함수를 이용해 구한 피치 (F0), 포먼트 주파수 (f1, f2, f3, 그리고 f4) 등을 사용하여서 음성학적 측면에서 비교 분석 하였다. 본 논문에서 사용한 데이터는 국어학적 분석을 통한 제시어로 구성한 것을 사용하였고 이를 시뮬레이션 하였다. 에너지와 spectrogram 분석의 결과를 보면, 중국인 학습자는 한국어 /ㄹ/ 발음에서 한국인 화자들과 많은 차이를 보인다. 이외의 다른 음성 신호 파라미터들에서도 차이가 나는 것을 알 수 있다. 본 논문이 비교한 파라미터들을 이용하여서 중국인 화자가 한국어 학습시 나타나는 오류들을 상당히 줄일 수 있을 것으로 기대할 수 있다.

인공심장판막 치환환자의 치료범위를 벗어난 INR 원인분석 (Analysis of Factors Affecting Nontherapeutic INRs in Korean Outpatients with Mechanical Heart Valves)

  • 이주연;정영미;이명구;김기봉;안혁;이병구
    • Journal of Chest Surgery
    • /
    • 제38권11호
    • /
    • pp.746-760
    • /
    • 2005
  • 배경: 인공심장판막 시술 후에 환자들은 혈전색전증의 위험성을 감소시키기 위해서 평생 warfarin투여를 받게 된다 한국인 환자에서 목표 INR 2.0-3.0을 유지하는 것은 여러 가지 이유로 어려움이 따른다. 이 연구의 목적은 약사에 의해서 운영되는 anticoagulation service (ACS)을 받는 한국 인공심장판막 외래환자에서 치료 범위를 벗어난 INR의 원인을 분석하고 warfarin치료에의 복약불이행과 관련된 요인들을 확인하고자 하였다. 대상 및 방법: 1997년 3월에서 2000년 9월까지 서울대학교병원에서 ACS를 방문한 모든 환자의 의무기록을 후향적으로 검토하였다. 수술 후 6개월이 경과된 화자로 INR 2.0 미만과 INR 3.0초과가 한 번 이상 있는 환자 866명(5,304회 방문)을 대상으로 치료 범위를 벗어난 INR의 가능한 모든 원인들을 환자 방문 때마다 분석하였다 성별, 연령, ACS 상담을 받은 기간 및 warfarin 치료 기간과 복약불이행과의 상관성은 단변수 분석으로 확인하였다. 걸과· 비치료범위의 INR의 원인은 다음과 같았다: 부적절한 용량 조절$(21\%)$, 복약불이행$(13\%)$, 약물-약물/한약 상호작용$(12\%)$, 식이의 변화$(7\%)$, 확인불가$(42\%)$. 낮은 연령, 짧은 ACS 상담 기간, 장기간의 warfarin 치료가 복약불이행과 관련이 있었다 결론: 이 연구에서 복약불이행, 약물과 식이의 상호작용이 비치료범위의 INR의 중요한 요인임이 확인되었다. 낮은 연령과 장기간의 warfarin치료 기간이 복약불이행과 상관이 있었던 반면 ACS 등록된 기간이 길수록 warf arin에 대한 치료 순응도가 높아졌다.