• 제목/요약/키워드: 인식 성능

검색결과 4,633건 처리시간 0.032초

상태레벨 공유를 이용한 HM-Net 적응화 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of HM-Net Adaptation System Using the State Level Sharing)

  • 오세진;김광동;노덕규;황철준;김범국;김광수;성우창;정현열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.397-400
    • /
    • 2003
  • 본 연구에서는 KM-Net(Hidden Markov Network)을 다양한 태스크에의 적용과 화자의 특성을 효과적으로 나타내기 위해 HM-Net 음성인식 시스템에 MLLR(Maximum Likelihood Linear Regression) 적응방법을 도입하였으며, HM-Net 학습 알고리즘을 개량하여 회귀클래스 생성방법을 제안한다. 제안방법은 PDT-SSS(Phonetic Decision Tree-based Successive State Splitting) 알고리즘의 문맥방향 상태분할에 의한 상태레벨 공유를 이용한 방법으로 새로운 화자로부터 문맥정보와 적응화 데이터의 발성 양에 의존하여 결정된 많은 적응 파라미터들을(평균, 분산) 자유롭게 제어할 수 있게 된다. 제안방법의 유효성을 확인하기 위해 국어공학센터(KLE) 452 음성 데이터와 항공편 예약관련 연속음성을 대상으로 인식실험을 수행한 결과, 전체적으로 음소인식의 경우 평균 34-37%, 단어인식의 경우 평균 9%, 연속음성인식의 경우 평균 7-8%의 인식성능 향상을 각각 보였다. 또한 적응화 데이터의 양에 따른 인식성능 비교에서, 제안방법을 적용한 인식 시스템이 적응 데이터의 양이 적은 경우에도 향상된 인식률을 보였으며. 잡음을 부가한 음성에 대한 적응화 실험에서도 향상된 인식성능을 보여 MLLR 적응방법의 특성을 만족하였다. 따라서 MLLR 적응방법을 도입한 HM-Net 음성인식 시스템에 제안한 회귀클래스 생성방법이 유효함을 확인한 수 있었다.

  • PDF

특이점 가중치 기반 PLSA를 이용한 객체 범주화 (Object Categorization Using PLSA Based on Weighting Distinctions)

  • 송현철;최광남
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.460-465
    • /
    • 2007
  • 영상 내 사물들의 카테고리를 인식하는 연구는 시각적 영상처리와 연관된 다양한 분야에서 활발히 진행되고 있다. 객체 범주화(Object Categorization)는 가정과 같은 실내에서 책상, 의자, 컵, 주전자 등의 다양한 사물들을 구분하여 인식하는데 중요한 역할을 할 수 있다. 본 논문에서는 최근 영상 내 객체들의 카테고리 분석을 위해 연구된 PLSA를 기반으로 특이점에 가중치를 부여하여, 보다 유사한 카테고리 간에 인식 성능을 향상시키는 접근법에 대하여 연구하였다. PLSA는 문서기반의 정보검색 분야로부터 소개된 기법으로, 약한 수준의 비감독 방법임에도 불구하고 인상적인 인식성능을 보여준다. 그러나 비슷한 특징점 분포를 보이는 유사한 카테고리 간의 객체 카테고리 인식에 대해서는 비교적 낮은 성능을 보인다. 본 연구에서는 카테고리간의 비교실험을 통해 각 특징점에 대하여 가중치를 부여한 PLSA를 적용하여 유사한 객체 간의 카테고리 인식 가능성을 살펴보았다. 실험에서는 기존의 PLSA 기법과 제안한 가중치를 부여 PLSA 기법을 각각 적용하여 그 성능을 비교하였다. 본 연구에서는 기존 PLSA 기법에서는 비교적 낮은 인식률을 보인 유사한 카테고리 인식에 대하여 실험 결과를 통해 가중치를 부여한 PLSA 기법이 보다 향상된 성능을 보임을 확인하였다.

  • PDF

인식기 간의 상호정보를 이용한 인식기 선택 (Selecting Classifiers using Mutual Information between Classifiers)

  • 강희중
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권3호
    • /
    • pp.326-330
    • /
    • 2008
  • 패턴인식 문제에 있어서 다수의 인식기를 사용하는 연구는 주로, 선택된 다수 인식기를 어떻게 결합할 것인가에 중점을 두어 왔으나, 최근에는 인식기 풀로부터 다수 인식기를 선택하려는 연구로 점차 진행되고 있다. 실제로 다수 인식기 시스템의 성능은 인식기들의 결합 방법은 물론, 선택되는 인식기에 의존한다. 따라서, 우수한 성능을 보이는 인식기 집합을 선택하는 것이 필요하며, 다수의 인식기를 선택하는데 있어서 정보이론에 기초한 접근 방법이 시도되었다. 본 논문에서는 인식기 간의 상호정보를 기반으로 인식기를 선택하여 인식기 집합을 구성하고, 다른 인식기 선택 방법들에 의해 구성된 인식기 집합과 그 성능을 비교해 보고자 한다.

가림이 있는 얼굴 영상의 나이 인식 연구 (A study of age estimation from occluded images)

  • 최성은
    • Journal of Platform Technology
    • /
    • 제10권3호
    • /
    • pp.44-50
    • /
    • 2022
  • 얼굴 영상에서 나이를 인식하는 기술은 여러 응용분야에서 활용되면서 그에 대한 연구가 활발히 진행되고 있다. 다양한 환경에서 촬영된 얼굴 영상은 얼굴의 일부가 가려지는 경우가 많으며 이는 나이 인식 성능에 영향을 미치게 된다. 따라서 본 논문에서는 가림이 있는 얼굴 영상의 나이 인식 성능을 개선하기 위해, Image Extrapolation 기술을 이용하여 가려진 부분을 생성하여 나이를 인식하는 방법을 제안한다. 영상에서의 가림이 나이 인식 성능에 미치는 영향을 확인하기 위해서 마스크 이미지를 적용하여 가림이 있는 얼굴 영상을 생성하였다. 가림에 의해 나이 인식 성능이 저하되는 문제를 해결하기 위해, Image Extrapolation 기술 중 영상의 가장자리를 순회하면서 가려진 부분을 생성하는 SpiralNet 을 사용하여 가려진 부분을 예측하여 생성하고 얼굴 나이 인식에 사용하였다. 실험을 통해 가림이 있는 영상에서 나이 인식 성능이 저하되는 문제가 있고, SpiralNet으로 가림 부분을 생성한 영상으로 나이를 인식하면 나이 인식 성능이 개선되는 것을 확인하였다.

무선 통신망에서 음성인식률 개선을 위한 보상기법 연구 (Compensation Method for Improvement of Speech Recognition in Wireless Communication Network)

  • 서진호;박호종
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.65-68
    • /
    • 2004
  • 이동통신 기술의 발전으로 이동통신 사용이 폭발적으로 증가하였고 그에 따라 이동통신망을 이용한 많은 서비스가 제공되고 있다. 이동통신망에서의 음성 인식 서비스에서 음성 인식기에 입력되는 음성신호는 통신망을 통해 음성 압축기를 거치게 되고 이에 음성신호가 왜곡되어 인식기의 인식성능이 저하된다. 본 논문에서는 무선통신 환경에서 음성인식기의 성능을 개선하기 위한 보상 방법을 제안한다. 기존의 제안된 방법은 음성 데이터에 의존하는 방법을 사용하나 본 논문에서는 음성 데이터와는 독립적 방법인 음성 압축기에 의해 손상된 입력 신호의 스펙트럼 보상방법과 Cepstrum 보정방법을 통해 인식률을 향상시키는 방법을 제안한다. 즉, 음성 압축기에 의하여 왜곡된 스펙트럼을 단계적 방법으로 보상하고 그를 토대로 왜곡된 신호에서 만들어진 Cepstrum을 보정하여 음성 인식기의 성능을 향상시키는 방법을 연구하였으며, 그 견과 손상된 음성신호의 인식률 $64.88\%$에 대하여, 본 논문에서 제안하는 보상 방법을 적용한 음성신호의 인식률은 $79.73\%$로서 $14.85\%$가 향상된 결과를 얻을 수 있었다.

  • PDF

피춰 추출 관점에서 기준 화자 수 증가에 따른 음성 인식 성능 분석 (Performance Analysis of Speech Recognition by Increasing the Number of Reference Speaker)

  • 이철희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.111-114
    • /
    • 1998
  • 음성을 인식하기 위해서는 주어진 음성을 미리 정한 기준 음성과 비교하여 가장 유사한 것을 갖는 과정을 거치게 된다. 같은 단어라도 화자에 따라서 발음 속도, 음의 강약이 틀리므로 화자 독립 음성 인식을 위해서는 여러 화자가 발음한 음성을 기준 음성으로 사용하여 인식 성능을 향상시킬 수 있다. 그러나 화자 수를 증가시켜도 인식 성능의 향상에는 한계를 보이고 있다. 이러한 문제점은 현재 음성에서 추출되는 피춰가 인식에 필요한 정보를 충분히 포함하지 않는 것과 인식 알고리즘의 효율성 등에서 원인을 찾을 수 있다. 본 논문에서는 남자 10명과 여자 10명이 발음한 한국어 숫자음을 인식 대상으로 하여 멜켑스트럼을 추출하고 DTW에 의해 인식을 수행하여 피춰 추출의 관점에서 화자 수 증가에 따른 인식률의 변화와 그 한계에 대해서 분석한다.

  • PDF

N-Best Re-ranking에 기반한 한국어 음성 인식 성능 개선 (N-Best Reranking for Improving Automatic Speech Recognition of Korean)

  • 이정;서민택;나승훈;나민수;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.442-446
    • /
    • 2022
  • 자동 음성 인식(Automatic Speech Recognition) 혹은 Speech-to-Text(STT)는 컴퓨터가 사람이 말하는 음성 언어를 텍스트 데이터로 전환하는 일련의 처리나 기술 등을 일컫는다. 음성 인식 기술이 다양한 산업 전반에 걸쳐 적용됨에 따라 높은 수준의 정확도와 더불어 다양한 분야에 적용할 수 있는 음성 인식 기술에 대한 필요성이 점차 증대되고 있다. 다만 한국어 음성 인식의 경우 기존 선행 연구에 비해 예사말/높임말의 구분이나 어미, 조사 등의 인식에 어려움이 있어 음성 인식 결과 후처리를 통한 성능 개선이 중요하다. 따라서 본 논문에서는 N-Best 음성 인식 결과가 구성되었을 때 Re-ranking을 통해 한국어 음성 인식의 성능을 개선하는 모델을 제안한다.

  • PDF

하이브리드 방법을 이용한 개선된 문장경계인식 (Advanced detection of sentence boundaries based on hybrid method)

  • 이충희;장명길;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.61-66
    • /
    • 2009
  • 본 논문은 다양한 형태의 웹 문서에 적용하기 위해서, 언어의 통계정보 및 후처리 규칙에 기반 하여 개선된 문장경계 인식 기술을 제안한다. 제안한 방법은 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 문서에 적용하기 위해서 문장경계로 사용될 수 있는 모든 음절을 대상으로 학습하여 문장경계 인식을 수행하였고, 문장경계인식 성능을 최대화 하기 위해서 다양한 실험을 통해 최적의 자질 및 학습데이터를 선정하였고, 다양한 기계학습 기반 분류 모델을 비교하여 최적의 분류모델을 선택하였으며, 학습데이터에 의존적인 통계모델의 오류를 규칙에 기반 해서 보정하였다. 성능 실험은 다양한 형태의 문서별 성능 측정을 위해서 문어체와 구어체가 복합적으로 사용된 신문기사와 블로그 문서(평가셋1), 문어체 위주로 구성된 세종말뭉치와 백과사전 본문(평가셋2), 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 사이트의 게시판 글(평가셋3)을 대상으로 성능 측정을 하였다. 성능척도로는 F-measure를 사용하였으며, 구두점만을 대상으로 문장경계 인식 성능을 평가한 결과, 평가셋1에서는 96.5%, 평가셋2에서는 99.4%를 보였는데, 구어체의 문장경계인식이 더 어려움을 알 수 있었다. 평가셋1의 경우에도 규칙으로 후처리한 경우 정확률이 92.1%에서 99.4%로 올라갔으며, 이를 통해 후처리 규칙의 필요성을 알 수 있었다. 최종 성능평가로는 구두점만을 대상으로 학습된 기본 엔진과 모든 문장경계후보를 인식하도록 개선된 엔진을 평가셋3을 사용하여 비교 평가하였고, 기본 엔진(61.1%)에 비해서 개선된 엔진이 32.0% 성능 향상이 있음을 확인함으로써 제안한 방법이 웹 문서에 효과적임을 입증하였다.

  • PDF

G.723기반의 음성인식을 위한 변별적인 음성 특징 벡터 선정 (Discriminative Feature Selection for G.723-based Speech Recognition)

  • 이규환;정민화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.387-389
    • /
    • 2000
  • 정보 통신 분야의 발달로 사람들의 전화 사용이 늘어나고 또한 전화기에 여러 가지 멀티미디어 기능들이 추가되면서 음성 인식의 필요성이 점차 증가하고 있다. 그러나 현재의 기술로는 음성 인식의 성능이 사람들의 기대치를 만족시키지 못하고 있다. 본 연구에서는 G.723을 이용한 네트워크 상에서 음성 인식 시간을 줄이고 같은 차수에서 더 좋은 음성 인식 성능을 얻을 수 있는 방법에 대해 연구하였다. 일반적인 보코더는 채널을 통과시킬 때 왜곡을 최소화 하기 위해 양지화할 때 안정적이라고 알려져 있는 LSP 파라메터를 양자화하여 전송한다. 전송된 양자화된 LSP 파라메터는 복호화기를 통과하게 되는데 본 연구에서는 양자화된 LSP 파라메터를 음성인식에 직접 이용하여 음성 합성한 후 음성 특징 파라메터를 추출하는 시간을 줄일 수 있고 음성 합성시 왜곡을 미연에 방지할 수 있다. 본 연구에서는 변별적인 기준에 의해 특징 벡터 요소들을 순서화를 이용하여 음성 특징 벡터의 차수를 동적으로 조절할 수 있는 방법을 G.723에 적용시켜 보았다. 순서화 된 음성 특징 요소들 중에서 인식 목적에 적절한 차수를 선정하며 차수를 줄이면서도 음성인식 성능은 유지 또는 향상시킬 수 있음을 확인하였다. 특히 네트워크 통신망에서도 음성인식 성능을 향상시킬 수 있음을 확인하였고, 기존의 합성음에서 음성인식을 하는 방법보다 시간도 크게 단축할 수 있었다.

  • PDF

고유얼굴을 이용한 얼굴 인식 시스템: 성능분석 (A Face Recognition System using Eigenfaces: Performance Analysis)

  • 김영래;왕보현
    • 한국지능시스템학회논문지
    • /
    • 제15권4호
    • /
    • pp.400-405
    • /
    • 2005
  • 본 논문에서는 고유얼굴을 이용한 얼굴인식 시스템의 성능을 분석한다. 개인의 신분을 확인하는 시스템의 단점을 보완하기 위하여 최근 생체인식 기술이 활발하게 연구되어오고 있으며, 그 중에서도 얼굴인식은 직관적인 이해가 가능하기 때문에 컴퓨터 비전과 패턴인식 분야에서 폭 넓게 연구되고 있다. 고유얼굴을 이용한 얼굴인식 방법은 훈련집합의 얼굴 이미지의 중요한 변화를 효율적으로 표현하는 특징 공간으로 투영시키면서 이루어진다. 여기서 특징 공간에 투영된 얼굴 이미지의 특징을 고유얼굴이라 한다. 개개의 얼굴 이미지는 고유얼굴의 가중함으로 근사화 되므로, 입력 얼굴의 인식은 훈련집합의 가중치와 입력 영상의 가중치를 비교하면서 이루어진다. 본 논문에서는 고유얼굴을 이용한 얼굴인식 방법의 성능을 검증하기 위해서 Harvard 데이터베이스를 이용하였으며, 시스템의 성능 분석을 위하여 조명에 대한 인식성능의 변화, 사용한 고유얼굴의 수에 대한 인식률의 변화, 전처리를 통하여 얻을 수 있는 인식률의 변화, 인식 거부 곡선을 통하여 시스템의 실제 적용 가능성에 대한 실험을 수행하고 결과를 분석한다.