• 제목/요약/키워드: Video recognition

검색결과 679건 처리시간 0.026초

비디오 행동 인식을 위하여 다중 판별 결과 융합을 통한 성능 개선에 관한 연구 (A Study for Improved Human Action Recognition using Multi-classifiers)

  • 김세민;노용만
    • 방송공학회논문지
    • /
    • 제19권2호
    • /
    • pp.166-173
    • /
    • 2014
  • 최근 다양한 방송 및 영상 분야에서 사람의 행동을 인식하여는 연구들이 많이 이루어지고 있다. 영상은 다양한 형태를 가질 수 있기 때문에 제약된 환경에서 유용한 템플릿 방법들보다 특징점에 기반한 연구들이 실제 사용자 환경에서 더욱 관심을 받고 있다. 특징점 기반의 연구들은 영상에서 움직임이 발생하는 지점들을 찾아내어 이를 3차원 패치들로 생성한다. 이를 이용하여 영상의 움직임을 히스토그램에 기반한 descriptor(서술자)로 표현하고 학습기반의 판별기로 최종적으로 영상내에 존재하는 행동들을 인식하였다. 그러나 단일 판별기로는 다양한 행동을 인식하기에 어려움이 있다. 따라서 이러한 문제를 개선하기 위하여 최근에 다중 판별기를 활용한 연구들이 영상 판별 및 물체 검출 영역에서 사용되고 있다. 따라서 본 논문에서는 행동 인식을 위하여 support vector machine과 sparse representation을 이용한 decision-level fusion 방법을 제안하고자 한다. 제안된 논문의 방법은 영상에서 특징점 기반의 descriptor를 추출하고 이를 각각의 판별기를 통하여 판별 결과들을 획득한다. 이 후 학습단계에서 획득된 가중치를 활용하여 각 결과들을 융합하여 최종 결과를 도출하였다. 본 논문에 실험에서 제안된 방법은 기존의 융합 방법보다 높은 행동 인식 성능을 보여 주었다.

MPEG 압축 비디오 상에서의 얼굴 영역 추출 및 인식 (Face Detection and Recognition in MPEG Compressed Video)

  • 여창욱;유명현
    • 인지과학
    • /
    • 제11권2호
    • /
    • pp.79-87
    • /
    • 2000
  • 본 논문에서는 MPEG 압축 비디오 상에서 얼굴 영역을 추출하고 이를 인식하는 방법에 대하여 제안한다. 제안된 방법은 크게 MPEG 압축 비디오의 처리를 위한 축소된 DC 영상의 구성단계, 축소된 DC 영상에서의 얼굴 영역 추출 단계, 그리고 얼굴 영역이 추출된 프레임에 대한 압축 복원 및 얼굴 인식의 3단계로 구성되어 있다. DC 영상의 구성 단계에서는 압축 복원 없이 DCT 계수의 DC 값과 2개의 AC 값만을 사용하여 부분적인 2차원 역 DCT 변환을 이용한 방법을 사용하였으며, 얼굴 영역 추출 단계에서는 DC 영상에 대해 얼굴의 색상 및 형태 정보를 이용한 얼굴 후보 영역 추출 방법과 K-L 변환 및 역 변환의 오차에 의한 얼굴 영역 추출 방법을 사용하였다. 얼굴 인식 단계에서는 얼굴 영역이 추출된 프레임에 대하여 GOP 단위의 압축 복원을 수행한 후 고유 얼굴 영상을 이용한 방법으로 얼굴 인식을 수행하였다. 제안된 방법의 성능을 검증하기 위하여 뉴스와 드라마 MPEG 비디오를 대상으로 실험을 수행하였으며, 실험 결과 제안된 방법이 효율적임을 알 수 있었다.

  • PDF

뉴스 비디오 자막 추출 및 인식 기법에 관한 연구 (Study on News Video Character Extraction and Recognition)

  • 김종열;김성섭;문영식
    • 대한전자공학회논문지SP
    • /
    • 제40권1호
    • /
    • pp.10-19
    • /
    • 2003
  • 비디오 영상에 포함되어 있는 자막은 비디오의 내용을 함축적으로 표현하고 있기 때문에 비디오 색인 및 검색에 중요하게 사용될 수 시다. 본 논문에서는 뉴스 비디오로부터 폰트, 색상, 자막의 크기 등과 같은 사전 지식 없이도 자막을 효율적으로 추출하여 인식하는 방법을 제안한다. 문자 영역의 추출과정에서 문자영역은 뉴스 비디오의 여러 프레임에 걸쳐나 나오기 때문에 인길 프레임의 차영상을 통해서 동일한 자막 영역이 존재하는 프레임을 자동적으로 추출한 후, 이들의 시간적 평균영상을 만들어 인식에 사용함으로써 인식률을 향상한다. 또한, 평균 영상의 외각선 영상을 수평, 수직방향으로 투영한 값을 통해 문자 영역을 찾아 Region filling, K-means clustering을 적용하여 배경들을 완벽하게 제거함으로써 최종적인 자막 영상을 추출한다. 자막 인식과정에서는 문사 영역 추출과정에서 추출된 글자영상을 사용하여 white run, zero-one transition과 같은 비교적 간단한 특징 값을 추출하여 이를 비교함으로써 인식과정을 수행한다. 제한된 방법을 다양한 뉴스 비디오에 적용하여 문자영역 추출 능력과 인식률을 측정한 결과 우수함을 확인하였다.

비디오 검색을 위한 얼굴 검출 및 인식 (Face Detection and Recognition for Video Retrieval)

  • 이슬람 모하마드 카이룰;이형진;폴 안잔 쿠마;백중환
    • 한국항행학회논문지
    • /
    • 제12권6호
    • /
    • pp.691-698
    • /
    • 2008
  • 본 논문에서는 비디오 검색을 위한 새로운 얼굴 검출 및 인식 방법을 제안한다. 인물 정함은 비디오 프레임에서 어떻게 얼굴을 정확하게 찾아내는가에 달려 있다. 얼굴 영역은 Adaboost 알고리즘으로 부스트된 viola-jones의 특징을 이용하여 비디오 프레임에서 검출한다. 얼굴 검출 후 조명 보정을 하고 PCA(Principal Component Analysis)로 특징점을 추출하고 SVM(Support Vector Machine)으로 사람의 신원을 분류한다. 실험 결과 제안한 방법이 정합율면에서 우수한 성능을 보였다.

  • PDF

Automatic Poster Generation System Using Protagonist Face Analysis

  • Yeonhwi You;Sungjung Yong;Hyogyeong Park;Seoyoung Lee;Il-Young Moon
    • Journal of information and communication convergence engineering
    • /
    • 제21권4호
    • /
    • pp.287-293
    • /
    • 2023
  • With the rapid development of domestic and international over-the-top markets, a large amount of video content is being created. As the volume of video content increases, consumers tend to increasingly check data concerning the videos before watching them. To address this demand, video summaries in the form of plot descriptions, thumbnails, posters, and other formats are provided to consumers. This study proposes an approach that automatically generates posters to effectively convey video content while reducing the cost of video summarization. In the automatic generation of posters, face recognition and clustering are used to gather and classify character data, and keyframes from the video are extracted to learn the overall atmosphere of the video. This study used the facial data of the characters and keyframes as training data and employed technologies such as DreamBooth, a text-to-image generation model, to automatically generate video posters. This process significantly reduces the time and cost of video-poster production.

Human Posture Recognition: Methodology and Implementation

  • Htike, Kyaw Kyaw;Khalifa, Othman O.
    • Journal of Electrical Engineering and Technology
    • /
    • 제10권4호
    • /
    • pp.1910-1914
    • /
    • 2015
  • Human posture recognition is an attractive and challenging topic in computer vision due to its promising applications in the areas of personal health care, environmental awareness, human-computer-interaction and surveillance systems. Human posture recognition in video sequences consists of two stages: the first stage is training and evaluation and the second is deployment. In the first stage, the system is trained and evaluated using datasets of human postures to ‘teach’ the system to classify human postures for any future inputs. When the training and evaluation process is deemed satisfactory as measured by recognition rates, the trained system is then deployed to recognize human postures in any input video sequence. Different classifiers were used in the training such as Multilayer Perceptron Feedforward Neural networks, Self-Organizing Maps, Fuzzy C Means and K Means. Results show that supervised learning classifiers tend to perform better than unsupervised classifiers for the case of human posture recognition.

Improved Bimodal Speech Recognition Study Based on Product Hidden Markov Model

  • Xi, Su Mei;Cho, Young Im
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제13권3호
    • /
    • pp.164-170
    • /
    • 2013
  • Recent years have been higher demands for automatic speech recognition (ASR) systems that are able to operate robustly in an acoustically noisy environment. This paper proposes an improved product hidden markov model (HMM) used for bimodal speech recognition. A two-dimensional training model is built based on dependently trained audio-HMM and visual-HMM, reflecting the asynchronous characteristics of the audio and video streams. A weight coefficient is introduced to adjust the weight of the video and audio streams automatically according to differences in the noise environment. Experimental results show that compared with other bimodal speech recognition approaches, this approach obtains better speech recognition performance.

Object Recognition Algorithm with Partial Information

  • Yoo, Suk Won
    • International Journal of Advanced Culture Technology
    • /
    • 제7권4호
    • /
    • pp.229-235
    • /
    • 2019
  • Due to the development of video and optical technology today, video equipments are being used in a variety of fields such as identification, security maintenance, and factory automation systems that generate products. In this paper, we investigate an algorithm that effectively recognizes an experimental object in an input image with a partial problem due to the mechanical problem of the input imaging device. The object recognition algorithm proposed in this paper moves and rotates the vertices constituting the outline of the experimental object to the positions of the respective vertices constituting the outline of the DB model. Then, the discordance values between the moved and rotated experimental object and the corresponding DB model are calculated, and the minimum discordance value is selected. This minimum value is the final discordance value between the experimental object and the corresponding DB model, and the DB model with the minimum discordance value is selected as the recognition result for the experimental object. The proposed object recognition method obtains satisfactory recognition results using only partial information of the experimental object.

Real-Time Cattle Action Recognition for Estrus Detection

  • Heo, Eui-Ju;Ahn, Sung-Jin;Choi, Kang-Sun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권4호
    • /
    • pp.2148-2161
    • /
    • 2019
  • In this paper, we present a real-time cattle action recognition algorithm to detect the estrus phase of cattle from a live video stream. In order to classify cattle movement, specifically, to detect the mounting action, the most observable sign of the estrus phase, a simple yet effective feature description exploiting motion history images (MHI) is designed. By learning the proposed features using the support vector machine framework, various representative cattle actions, such as mounting, walking, tail wagging, and foot stamping, can be recognized robustly in complex scenes. Thanks to low complexity of the proposed action recognition algorithm, multiple cattle in three enclosures can be monitored simultaneously using a single fisheye camera. Through extensive experiments with real video streams, we confirmed that the proposed algorithm outperforms a conventional human action recognition algorithm by 18% in terms of recognition accuracy even with much smaller dimensional feature description.

Online Video Synopsis via Multiple Object Detection

  • Lee, JaeWon;Kim, DoHyeon;Kim, Yoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권8호
    • /
    • pp.19-28
    • /
    • 2019
  • In this paper, an online video summarization algorithm based on multiple object detection is proposed. As crime has been on the rise due to the recent rapid urbanization, the people's appetite for safety has been growing and the installation of surveillance cameras such as a closed-circuit television(CCTV) has been increasing in many cities. However, it takes a lot of time and labor to retrieve and analyze a huge amount of video data from numerous CCTVs. As a result, there is an increasing demand for intelligent video recognition systems that can automatically detect and summarize various events occurring on CCTVs. Video summarization is a method of generating synopsis video of a long time original video so that users can watch it in a short time. The proposed video summarization method can be divided into two stages. The object extraction step detects a specific object in the video and extracts a specific object desired by the user. The video summary step creates a final synopsis video based on the objects extracted in the previous object extraction step. While the existed methods do not consider the interaction between objects from the original video when generating the synopsis video, in the proposed method, new object clustering algorithm can effectively maintain interaction between objects in original video in synopsis video. This paper also proposed an online optimization method that can efficiently summarize the large number of objects appearing in long-time videos. Finally, Experimental results show that the performance of the proposed method is superior to that of the existing video synopsis algorithm.