• 제목/요약/키워드: Recognition Improvement

검색결과 1,496건 처리시간 0.026초

전화음성의 격리단어인식 개선에 관한 연구 (A Study on the Improvement of Isolated Word Recognition for Telephone Speech)

  • 도삼주;은종관
    • 한국음향학회지
    • /
    • 제9권4호
    • /
    • pp.66-76
    • /
    • 1990
  • 본 논문에서는 잡음과 전화선로의 왜곡이 음성인식에 미치는 영향을 알아보고, 전처리 과정을 추가하여 이를 개선하는 방법을 제안하였다. 컴퓨터 모의실험은 음소적으로 고르게 분포되어있는 한국어 격리단어 100단어를 각각 10회 발음한 1000개 데이타를 대상으로하고, 화자종속으로 수행하였다. 먼저 잡음에 대한 개선방법으로 spectral subtraction을 제안하였는데, 이것은 매우 간단하면서도 좋은 성능을 보였다. 다음으로 대역폭제한과 전송로왜곡의 영향을 실험하였는데, 대역폭의 제한과 진폭왜곡은 인식율을 크게 떨어뜨렸으나 위상왜곡은 별로 영향이 없었다. 또, 전송로의 영향을 개선하기 위하여 training data를 사용하여 기준패턴을 변화시키는 방법을 제안하였다. 잡음과 전송로의 왜곡이 동시에 있는 경우에 인식율이 7.7~26.4% 밖에 되지 않았는데, 위에서 제안한 방법을 이용하여 76.2~92.3%로 개선되었다.

  • PDF

한국어 주소 음성인식의 고속화를 위한 적응 프루닝 문턱치 알고리즘 (An Adaptive Pruning Threshold Algorithm for the Korean Address Speech Recognition)

  • 황철준;오세진;김범국;정호열;정현열
    • 한국음향학회지
    • /
    • 제20권7호
    • /
    • pp.55-62
    • /
    • 2001
  • 음성인식의 고속화를 위한 저자들에 의한 기존의 연구에서는 탐색이 진행함에 따라 시간방향의 탐색공간 문턱치를 가변적으로 적용하여 인식률의 저하없이 인식속도를 개선시켰다. 이 방법은 탐색 공간을 효과적으로 줄일 수는 있었으나 문턱치를 결정하기 위해서 여러 번의 사전 실험을 수행하여야 하는 번거러움이 있었다. 이러한 문제점을 해결하기 위하여 본 논문에서는 이전 탐색구간에 대한 최대우도와 후보들의 우도를 이용하여 현재 탐색구간의 문턱치를 탐색이 진행하는 과정에서 자동적으로 구하는 적응 프루닝 문턱치 알고리즘을 제안하였다. 제안한 알고리즘의 유효성을 확인하기 위해 국내 행정단위 시 (도), 구 (군), 동 (읍, 면), 번지를 구성하는 단어로 구성된 주소 인식 시스템에 적용하여 기존의 방법과 제안한 방법을 비교 검토하였다. 인식실험 결과, 연결단어 인식률 96.0%, 단어 인식률이 98.7%인 경우를 기준으로 하였을 때 제안된 방법이 기존의 고정 프루닝과 가변 프루닝 문턱치에 비하여 인식률 저하없이 각각 14.4%와 9.14%의 탐색 공간을 상대적으로 줄일 수 있어 제안된 방법의 유효성을 확인할 수 있었다.

  • PDF

서포트벡터머신과 정칙화판별함수를 이용한 비디오 문자인식의 분류 성능 개선 (Video character recognition improvement by support vector machines and regularized discriminant analysis)

  • 임수열;백장선;김민수
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권4호
    • /
    • pp.689-697
    • /
    • 2010
  • 본 연구에서는 비디오이미지로부터 추출된 텍스트영역으로부터 문자인식을 수행하였다. 비디오영상으로부터 추출된 문자열은 한글, 영어, 숫자, 특수문자 등으로 혼합되어 있거나, 또는 다양한 폰트와 크기, 그래픽 형태의 글자 존재, 영상의 기울어짐, 끊김, 잡영, 접촉, 저해상도의 글자 등으로 인하여 일반적인 문자인식에 비해 많은 어려움이 존재한다. 이와 같은 어려움을 극복하기위해 본 연구에서는 모든 글자에 대해서 인식하지 않고 가장 빈번하게 등장하는 글자만을 인식하고 나머지는 버리는 방법을 사용하였으며 지지도벡터기계와 정칙화판별분석의 2단계 문자인식 방법을 이용하여 인식률을 개선하였다. 또한 인식률이 좋지 못한 4형식과 5형식 글자에 대해 모음별로 중분류를 실시하였다. 실험결과 지지도벡터기계와 정칙화판별분석을 동시에 사용하는 방법이 다른 문자인식의 방법들보다 인식률이 우수하였으며, 부분적인 중분류의 방법을 이용한 경우 향상된 인식 성능을 나타냈다.

SOM 알고리즘을 이용한 차량 번호판 인식과 주차 관리 시스템 개발 (Recognition of Car Plate using SOM Algorithm and Development of Parking Control System)

  • 김광백
    • 한국정보통신학회논문지
    • /
    • 제7권5호
    • /
    • pp.1052-1061
    • /
    • 2003
  • 본 논문은 SOM 알고리즘을 이용한 차량 번호판 인식 방법을 제안하고 차량 번호판 인식을 이용한 주차관리 시스템 개발에 대해서 기술한다. 차량 영상에서 번호판 영역을 추출하기 위해 수평$.$수직 에지의 형태학적 정보를 이용하고, 추출된 번호판에서 문자를 포함하는 특징 영역을 추출하기 위해 4 방향 윤곽선 추적 알고리즘을 이용한다. 추출된 특징 영역의 인식은 SOM 알고리즘을 적용한다. 50개의 실제 차량 영상을 실험한 결과, 제안된 번호판 영역 추출 방법이 기존의 RGB 정보를 이용한 방법과 HSI를 이용한 방법보다 추출율이 개선되었다. 그리고 SOM 알고리즘을 이용한 차량 번호판 인식이 효율적인 것을 확인하였다. 실험을 통하여 성능 향상을 보인 제안된 차량 번호판 인식 방법을 이용하여 주차 관리 시스템을 개발하였다.

Pose and Expression Invariant Alignment based Multi-View 3D Face Recognition

  • Ratyal, Naeem;Taj, Imtiaz;Bajwa, Usama;Sajid, Muhammad
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권10호
    • /
    • pp.4903-4929
    • /
    • 2018
  • In this study, a fully automatic pose and expression invariant 3D face alignment algorithm is proposed to handle frontal and profile face images which is based on a two pass course to fine alignment strategy. The first pass of the algorithm coarsely aligns the face images to an intrinsic coordinate system (ICS) through a single 3D rotation and the second pass aligns them at fine level using a minimum nose tip-scanner distance (MNSD) approach. For facial recognition, multi-view faces are synthesized to exploit real 3D information and test the efficacy of the proposed system. Due to optimal separating hyper plane (OSH), Support Vector Machine (SVM) is employed in multi-view face verification (FV) task. In addition, a multi stage unified classifier based face identification (FI) algorithm is employed which combines results from seven base classifiers, two parallel face recognition algorithms and an exponential rank combiner, all in a hierarchical manner. The performance figures of the proposed methodology are corroborated by extensive experiments performed on four benchmark datasets: GavabDB, Bosphorus, UMB-DB and FRGC v2.0. Results show mark improvement in alignment accuracy and recognition rates. Moreover, a computational complexity analysis has been carried out for the proposed algorithm which reveals its superiority in terms of computational efficiency as well.

효과적인 도서목록 검색을 위한 개선된 OCR알고리즘에 관한 연구 (Improvement OCR Algorithm for Efficient Book Catalog RetrievalTechnology)

  • 하문;백영현;문성룡
    • 전자공학회논문지CI
    • /
    • 제47권1호
    • /
    • pp.152-159
    • /
    • 2010
  • 본 논문에서는 기울어진 문자, 다양한 크기, 글씨체, 흐린 문자를 포함한 입력영상의 문자 복원과 인식, 효율적인 도서 검색을 위한 광학문자인식 알고리즘을 제안한다. 본 논문에서 제안한 광학문자 인식알고리즘은 검출부와 인식부로 구성되며, 검출부에서는 복잡한 배경에서 정확한 도서 영역 검출을 위하여 로버츠 에지 연산자와 허도로프 거리 알고리즘을 적용하여 필요한 영역을 검출하였다. 또한 인식부에서는 문자의 크기와 경사도, 부분 손실 등의 영상에 강인성을 갖는 바이큐빅 보간법을 적용하여 데이터 손실 복원과, 반자동 기울기를 갖는 입력 영상의 보정을 하였다. 모의실험 결과 기존 알고리즘 보다 인식률에서는 6%, 검색시간에서는 1.077초 더 우수함을 확인하였다.

선박 환경에서 Gabor 여파기를 적용한 입술 읽기 성능향상 (Improvement of Lipreading Performance Using Gabor Filter for Ship Environment)

  • 신도성;이성로;권장우
    • 한국통신학회논문지
    • /
    • 제35권7C호
    • /
    • pp.598-603
    • /
    • 2010
  • 이 논문에서는 해양 선박 안의 잡음 환경에서 현저하게 떨어지는 음성 인식률을 높이기 위해 기존 음성인식 시스템에 화자의 입술의 움직임 변화를 입력정보로 이용하려는 입술 읽기에 대해서 연구하였다. 제안한 방법은 획득한 입력 영상에 Gabor 여파기를 이용하여 전처리과정의 성능을 향상 시켜 인식률을 높였다. 실험은 기본 시스템의 조명의 변화가 발생하는 선박 안의 환경에서 시간에 따라 입술 영상을 획득하여 수행하였으며, 인식 성능비교를 위해서 획득한 입력 영상을 이산여현파변환을 수행한 뒤 얻은 입술 관심영역에 대해 Gabor 여파기를 이용하여 얻어진 영상에 입술 접기를 수행하여 인식하는 방법과 입술 접기를 수행한 영상에 대해 인식을 수행하는 방법으로 실험하였다. 제안한 방법을 적용한 선박환경에서 실험 결과는 관심영역 영상에 Gabor 필터링을 이용하였을 때 기본 시스템에 견주어 매개변수가 거의 줄어들지 않았으며 그 인식률은 44%이었다. 한편, 입술 접기를 수행한 영상을 Gabor 여파하여 조명의 영향에 의한 성분을 제거한 바, 인식률이 11%쯤 높아진 55.8%를 나타내었다.

신경망 기반 음성, 영상 및 문맥 통합 음성인식 (Speech Recognition by Integrating Audio, Visual and Contextual Features Based on Neural Networks)

  • 김명원;한문성;이순신;류정우
    • 전자공학회논문지CI
    • /
    • 제41권3호
    • /
    • pp.67-77
    • /
    • 2004
  • 최근 잡음환경에서 신뢰도 높은 음성인식을 위해 음성정보와 영상정보를 융합하는 방법이 활발히 연구되고 있다. 본 논문에서는 이절적인 정보의 융합에 적합한 신경망 모델을 기반으로 음성, 영상 및 문맥 정보 등 다양한 정보를 융합하여 잡음 환경에서 고려단어를 인식하는 음성인식 기법에 대하여 기술한다. 음성과 영상 특징을 이용한 이중 모드 신경망 BMNN(BiModal Neural Network)을 제안한다. BMM은 4개 층으로 이루어진 다층퍼셉트론의 구조를 가지며 각 층은 입력 특징의 추상화 기능을 수행한다. BMNN에서는 제 3층이 잡음에 의한 음성 정보의 손실을 보상하기 위하여 음성과 영상 특징을 통합하는 기능을 수행한다. 또한, 잡음환경에서 음성 인식률을 향상시키기 위해 사용자가 말한 단어들의 순차 패턴을 나타내는 문맥정보를 이용한 후처리 방법을 제안한다. 잡음환경에서 BMNN은 단순히 음성만을 사용한 것 보다 높은 성능을 보임으로써 그 타당성을 확인할 수 있을 뿐 아니라, 특히 문맥을 이용한 후처리를 하였을 경우 잡음 환경에서 90%이상의 인식률을 달성하였다 본 연구는 잡음환경에서 강인한 음성인식을 위해 다양한 추가 정보를 사용함으로써 성능을 향상시킬 수 있음을 제시한다.

Discriminative Effects of Social Skills Training on Facial Emotion Recognition among Children with Attention-Deficit/Hyperactivity Disorder and Autism Spectrum Disorder

  • Lee, Ji-Seon;Kang, Na-Ri;Kim, Hui-Jeong;Kwak, Young-Sook
    • Journal of the Korean Academy of Child and Adolescent Psychiatry
    • /
    • 제29권4호
    • /
    • pp.150-160
    • /
    • 2018
  • Objectives: This study investigated the effect of social skills training (SST) on facial emotion recognition and discrimination in children with attention-deficit/hyperactivity disorder (ADHD) and autism spectrum disorder (ASD). Methods: Twenty-three children aged 7 to 10 years participated in our SST. They included 15 children diagnosed with ADHD and 8 with ASD. The participants' parents completed the Korean version of the Child Behavior Checklist (K-CBCL), the ADHD Rating Scale, and Conner's Scale at baseline and post-treatment. The participants completed the Korean Wechsler Intelligence Scale for Children-IV (K-WISC-IV) and the Advanced Test of Attention at baseline and the Penn Emotion Recognition and Discrimination Task at baseline and post-treatment. Results: No significant changes in facial emotion recognition and discrimination occurred in either group before and after SST. However, when controlling for the processing speed of K-WISC and the social subscale of K-CBCL, the ADHD group showed more improvement in total (p=0.049), female (p=0.039), sad (p=0.002), mild (p=0.015), female extreme (p=0.005), male mild (p=0.038), and Caucasian (p=0.004) facial expressions than did the ASD group. Conclusion: SST improved facial expression recognition for children with ADHD more effectively than it did for children with ASD, in whom additional training to help emotion recognition and discrimination is needed.

최대사후확률 추정법을 이용한 단어인식기의 잡음환경적응화 (Noisy Environmental Adaptation for Word Recognition System Using Maximum a Posteriori Estimation)

  • 이정훈;이시욱;정현열
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.107-113
    • /
    • 1997
  • 본 논문에서는 채널왜곡과 부가잡음에 강한 한국어 단어 인식기 구현을 위해 사후확률추정법에 의한 환경적응화법을 제안하고 이 방법의 인식성능 향상에 대한 유효성을 확인하였다. 이를 위해 1)채널왜곡이 발생한 경우, 2)부가잡음이 첨가된 경우, 3)채널왜곡과 부가잡음이 동시에 존재하는 각각의 경우에 대해서 제안한 환경적응화법을 이용하여 인식실험을 수행하였다. 이때 회귀계수, 지속시간 정보와 같은 부가정보의 환경적응화에 대한 유효성도 검토하였다. 100단어에 대한 환경독립, 화자독립 인식실험을 수행한 결과, 1)의 경우에 대해서는 9.0%, 2)의 경우에 대해서는 75%이상, 3)의 경우에 대해서는 11%~61.4%의 인식률 향상을 보여 사후확률추정법에 의한 환경적응화 방법이 채널왜곡 및 부가잡음이 동시에 존재하는 음성에 대하여서도 유효함을 알수 있었다. 그러나 지속시간 정보의 인식에 대한 기여는 찾아볼 수 없었다.

  • PDF