• 제목/요약/키워드: Recognition Rate

검색결과 2,781건 처리시간 0.027초

객체 감지 데이터 셋 기반 인체 자세 인식시스템 연구 (Research on Human Posture Recognition System Based on The Object Detection Dataset)

  • 유암;리라이춘;루징쉬엔;쉬멍;정양권
    • 한국전자통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.111-118
    • /
    • 2022
  • 컴퓨터 비전 연구에서 2차원 인체 자세는 매우 광범위한 연구 방향으로 특히 자세 추적과 행동 인식에서 유의미한 분야다. 인체 자세 표적 획득은 이미지에서 인체 목표를 정확히 찾는 방법을 연구하는 것이 핵심이며 인체 자세 인식은 인공지능(AI)에 적용하는 한편 일상생활에 활용되고 있어서 매우 중요한 연구의의가 있다. 인체 자세 인식 효과의 우수성의 기준은 인식 과정의 성공률과 정확도에 의해 결정된다. 본 연구의 인체 자세 인식에서는 딥러닝 전용 데이터셋인 MS COCO를 기반하여 인체를 17개의 키 포인트로 구분하였다. 다음으로 주요 특징에 대한 세분화 마스크(segmentation mask) 방법을 사용하여 인식률을 개선하였다. 최종적으로 신경망 모델을 설계하고 간단한 단계별 학습부터 효율적인 학습에 이르기까지 많은 수의 표본을 학습시키는 알고리즘을 제안하여 정확도를 향상할 수 있었다.

주파수 변이를 이용한 Parallel Model Combination 모델 적응에 기반한 잡음에 강한 음성인식 (Noise Robust Speech Recognition Based on Parallel Model Combination Adaptation Using Frequency-Variant)

  • 최숙남;정현열
    • 한국음향학회지
    • /
    • 제32권3호
    • /
    • pp.252-261
    • /
    • 2013
  • 일반적인 음성인식 시스템은 조용한 인식 환경에서는 높은 인식성능을 나타내지만 잡음이 존재하는 실제 환경에서는 그 성능이 급격히 저하한다. 본 논문에서는 다양한 잡음환경에서도 강인한 음성인식기를 구현하기 위하여, 주파수의 변이도를 이용하여 음성인식을 위한 환경 정보를 얻고 이를 음성 인식을 위한 모델 개선에 적용하여 성능향상을 도모하는 환경정보 지식에 기반한 주파수 변이 적응 PMC (Parallel Model Combination adaptation using frequency-variant based on environment - awareness : FV-PMC) 방법을 제안한다. 이 방법은 미리 분류된 각 잡음 군간의 평균 주파수 변이도를 미리 계산하여 임계치로 설정하고 미지의 잡음이 포함된 음성이 입력되면 각 잡음 군과의 주파수 변이도를 다시 계산하여 해당 잡음군의 임계치 보다 높을 경우 그 잡음 군의 잡음이 포함된 음성으로 간주하여 이 잡음 군이 포함된 음성을 이용하여 생성된 인식모델을 이용하여 음성인식을 수행한다. 제안한 FV-PMC 방법을 이용하여 잡음을 분류 하였을 경우 평균 분류 정확도는 56%를 보였고 이를 이용해 음성인식 실험을 실시한 결과 Set A의 평균인식률은 79.05%, Set B의 평균인식률은 79.43%, Set C의 평균인식률은 83.37%로 나타났다. 전체 평균인식률 80.62%로 기존의 깨끗한 모델을 이용한 PMC 인식률 74.93% 보다 5.69% 향상된 결과를 보여 제안한 방법의 유효성을 확인할 수 있었다.

Adaptive Cross-Device Gait Recognition Using a Mobile Accelerometer

  • Hoang, Thang;Nguyen, Thuc;Luong, Chuyen;Do, Son;Choi, Deokjai
    • Journal of Information Processing Systems
    • /
    • 제9권2호
    • /
    • pp.333-348
    • /
    • 2013
  • Mobile authentication/identification has grown into a priority issue nowadays because of its existing outdated mechanisms, such as PINs or passwords. In this paper, we introduce gait recognition by using a mobile accelerometer as not only effective but also as an implicit identification model. Unlike previous works, the gait recognition only performs well with a particular mobile specification (e.g., a fixed sampling rate). Our work focuses on constructing a unique adaptive mechanism that could be independently deployed with the specification of mobile devices. To do this, the impact of the sampling rate on the preprocessing steps, such as noise elimination, data segmentation, and feature extraction, is examined in depth. Moreover, the degrees of agreement between the gait features that were extracted from two different mobiles, including both the Average Error Rate (AER) and Intra-class Correlation Coefficients (ICC), are assessed to evaluate the possibility of constructing a device-independent mechanism. We achieved the classification accuracy approximately $91.33{\pm}0.67%$ for both devices, which showed that it is feasible and reliable to construct adaptive cross-device gait recognition on a mobile phone.

바타챠랴 거리 측정 기법을 사용한 가우시안 모델 기반 음소 인식 향상 (Improving Phoneme Recognition based on Gaussian Model using Bhattacharyya Distance Measurement Method)

  • 오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제14권1호
    • /
    • pp.85-93
    • /
    • 2011
  • 기존의 어휘 인식에서는 일반적인 벡터 값을 데이터베이스를 이용하여 구하므로 탐색 중에 형성되는 음소를 처리하지 못하는 문제점을 제공하며, 음소 데이터에 대한 모델을 구성할 수 없는 단점으로 인하여 가우시안 모텔의 정확성을 확보하지 못하게 된다. 따라서 본 논문에서는 음소가 갖는 특징을 기반으로 바타챠랴 거리 측정법을 이용하여 정확한 음소로 인식할 수 있도록 유도하였으며 유사 음소 인식과 오인식 오류를 최소화하여 인식률을 향상시켰다. 연속 확률 분포의 공유로부터 가우시안 모델 최적화를 실험한 결과 향상된 신뢰도로 인해 높은 인식 성능을 확인하였으며, 본 논문에서 제안한 바타챠랴 거리 측정법을 이용하여 실험한 결과 기존의 방법들에 비하여 평균 1.9%의 성능 향상을 나타내었으며 신뢰성을 바탕으로 인식율에서 평균 2.9%의 성능 향상을 나타내었다.

최적경로와 가중직교인자를 이용한 화자인식 (Speaker Recognition Using Optimal Path and Weighted Orthogonal Parameters)

  • 박승규;배철수
    • 한국음향학회지
    • /
    • 제11권2호
    • /
    • pp.68-72
    • /
    • 1992
  • 최근, 많은 연구자들이 KLT를 이용한 통계적 처리방법으로 화자인식을 수행하고 있으나, 통계적 처리방법의 개인성 포함정도와 음성의 동적인 발성속도는 화자인식율의 저하요인이 되고 있다. 본연구에서는 각 화자의 직교인자에 개인성을 강조하기 위하여 화자의 고유치를 가중치로 한 가중직교인자와 음성의 동적인 시간특성을 정규화하는 DTW의 최적경로를 이용한 화자인식방법을 연구하였다. 이방법을 확인하기 위하여 종래의 통계적 처리에 의한 화자인식, 최적경로와 최적경로와 가중직교인자를 이용한 화자인식의 결과를 비교한 결과, 종래의 방법보다 우수한 화자인식율을 얻어 그 유효성을 확인하였다.

  • PDF

최적경로와 가중직교인자를 이용한 화자인식 (Speaker Recognition Using Optimal Path and Weighted Orthogonal Parameters)

  • 남기환;배철수
    • 한국정보통신학회논문지
    • /
    • 제7권7호
    • /
    • pp.1539-1544
    • /
    • 2003
  • 최근 많은 연구자들이 KLT를 이용한 통계적 처리방법으로 화자인식을 수행하고 있으나, 통계적 처리방법의 개인성 포함정도와 음성의 동적인 발성속도는 화자인식률의 저하요인이 되고 있다. 본 연구에서는 각 화자의 직교인자에 개인성을 강조하기 위하여 화자의 고유치를 가중치로 한 가중직교 인자와 음성의 동적인 시간 특성을 정규화 하는 DTW의 최적경로를 이용한 화자인식방법을 연구하였다. 이 방법을 확인하기 위하여 종래의 통계적 처리에 의한 화자인식, 최적경로와 가중직교인자를 이용한 화자인식의 결과를 비교한 결과, 종래의 방법보다 우수한 화자인식률을 얻어 그 유효성을 확인하였다.

FFT와 MFB Spectral Entropy를 이용한 GMM 기반의 감정인식 (Speech Emotion Recognition Based on GMM Using FFT and MFB Spectral Entropy)

  • 이우석;노용완;홍광석
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.99-100
    • /
    • 2008
  • This paper proposes a Gaussian Mixture Model (GMM) - based speech emotion recognition methods using four feature parameters; 1) Fast Fourier Transform(FFT) spectral entropy, 2) delta FFT spectral entropy, 3) Mel-frequency Filter Bank (MFB) spectral entropy, and 4) delta MFB spectral entropy. In addition, we use four emotions in a speech database including anger, sadness, happiness, and neutrality. We perform speech emotion recognition experiments using each pre-defined emotion and gender. The experimental results show that the proposed emotion recognition using FFT spectral-based entropy and MFB spectral-based entropy performs better than existing emotion recognition based on GMM using energy, Zero Crossing Rate (ZCR), Linear Prediction Coefficient (LPC), and pitch parameters. In experimental Results, we attained a maximum recognition rate of 75.1% when we used MFB spectral entropy and delta MFB spectral entropy.

  • PDF

Hybrid Neural Networks for Pattern Recognition

  • Kim, Kwang-Baek
    • Journal of information and communication convergence engineering
    • /
    • 제9권6호
    • /
    • pp.637-640
    • /
    • 2011
  • The hybrid neural networks have characteristics such as fast learning times, generality, and simplicity, and are mainly used to classify learning data and to model non-linear systems. The middle layer of a hybrid neural network clusters the learning vectors by grouping homogenous vectors in the same cluster. In the clustering procedure, the homogeneity between learning vectors is represented as the distance between the vectors. Therefore, if the distances between a learning vector and all vectors in a cluster are smaller than a given constant radius, the learning vector is added to the cluster. However, the usage of a constant radius in clustering is the primary source of errors and therefore decreases the recognition success rate. To improve the recognition success rate, we proposed the enhanced hybrid network that organizes the middle layer effectively by using the enhanced ART1 network adjusting the vigilance parameter dynamically according to the similarity between patterns. The results of experiments on a large number of calling card images showed that the proposed algorithm greatly improves the character extraction and recognition compared with conventional recognition algorithms.

신경망과 구문분석을 이용한 한국어 연결 숫자음 인식 (Connected Korean Digit Recognition Using Neural Networks and Lexical Analysis)

  • 이종석;이상욱
    • 전자공학회논문지B
    • /
    • 제30B권12호
    • /
    • pp.21-30
    • /
    • 1993
  • In this paper, we propose a connected Korean digit recohnition system employing neural networks and lexical constraints of the Korean digits. In the proposed recognition system, firstly, each frame of digit string is labelled by phoneme classification neural networks.which are trained with the reference phoneme segments extracted form an isolated digit based on the position information. And, the frame labels are combined with each other for constructing the phoneme segments. Then, these segments are combined to form a digit candidate using the digit combination rules. The digit candidate is decided based on the condition for digit decision. If the condition is not satisfied, the digit candidate is further recognized using the digit decision neural network in the next step. In our approach, the neural networks are trained with 10 isolated digits uttered by 5 male speakers. To investigate the performance of the proposed recognition system, an intensive computer simulation on the 30 connected digit strings uttered by 5 male speakers is performed. The simulation result indicates that 95.6% digit recognition rate and 82% digit string recognition rate are provided by the proposed Korean digit recognition system.

  • PDF

초고해상도 기반 비대면 저해상도 영상의 얼굴 인식 시스템 (Untact Face Recognition System Based on Super-resolution in Low-Resolution Images)

  • 배현빈;권오설
    • 한국멀티미디어학회논문지
    • /
    • 제23권3호
    • /
    • pp.412-420
    • /
    • 2020
  • This paper proposes a performance-improving face recognition system based on a super resolution method for low-resolution images. The conventional face recognition algorithm has a rapidly decreased accuracy rate due to small image resolution by a distance. To solve the previously mentioned problem, this paper generates a super resolution images based o deep learning method. The proposed method improved feature information from low-resolution images using a super resolution method and also applied face recognition using a feature extraction and an classifier. In experiments, the proposed method improves the face recognition rate when compared to conventional methods.