• 제목/요약/키워드: video character recognition

검색결과 42건 처리시간 0.03초

뉴스 비디오 자막 추출 및 인식 기법에 관한 연구 (Study on News Video Character Extraction and Recognition)

  • 김종열;김성섭;문영식
    • 대한전자공학회논문지SP
    • /
    • 제40권1호
    • /
    • pp.10-19
    • /
    • 2003
  • 비디오 영상에 포함되어 있는 자막은 비디오의 내용을 함축적으로 표현하고 있기 때문에 비디오 색인 및 검색에 중요하게 사용될 수 시다. 본 논문에서는 뉴스 비디오로부터 폰트, 색상, 자막의 크기 등과 같은 사전 지식 없이도 자막을 효율적으로 추출하여 인식하는 방법을 제안한다. 문자 영역의 추출과정에서 문자영역은 뉴스 비디오의 여러 프레임에 걸쳐나 나오기 때문에 인길 프레임의 차영상을 통해서 동일한 자막 영역이 존재하는 프레임을 자동적으로 추출한 후, 이들의 시간적 평균영상을 만들어 인식에 사용함으로써 인식률을 향상한다. 또한, 평균 영상의 외각선 영상을 수평, 수직방향으로 투영한 값을 통해 문자 영역을 찾아 Region filling, K-means clustering을 적용하여 배경들을 완벽하게 제거함으로써 최종적인 자막 영상을 추출한다. 자막 인식과정에서는 문사 영역 추출과정에서 추출된 글자영상을 사용하여 white run, zero-one transition과 같은 비교적 간단한 특징 값을 추출하여 이를 비교함으로써 인식과정을 수행한다. 제한된 방법을 다양한 뉴스 비디오에 적용하여 문자영역 추출 능력과 인식률을 측정한 결과 우수함을 확인하였다.

미디어 편집을 위한 인물 식별 및 검색 기법 (Character Recognition and Search for Media Editing)

  • 박용석;김현식
    • 방송공학회논문지
    • /
    • 제27권4호
    • /
    • pp.519-526
    • /
    • 2022
  • 동영상 콘텐츠 편집 시 등장인물을 구분하고 식별하는 작업은 많은 시간과 노력이 요구되는 작업이다. 노동 집약적 특성이 있는 미디어 편집 작업 시 인공지능 기술을 활용하면 미디어 제작 시간을 획기적으로 줄일 수 있어 창작과정의 효율성 향상에 도움을 줄 수 있다. 본 논문에서는 동영상 편집을 위한 인물 식별 및 검색 작업을 자동화하기 위해 다수의 인공지능 기술을 혼합하여 활용하는 기법을 제안한다. 객체 검출, 얼굴 검출, 자세 예측 기법을 사용하여 인물 객체에 대한 특징 정보를 수집하고, 수집된 정보를 바탕으로 얼굴 인식, 색 공간 분석 기법 등을 활용하여 인물 객체 식별 정보를 생성한다. 인물 특징 및 식별 정보는 편집 대상 영상의 각 프레임에 대해서 수집되며 영상 편집을 위한 프레임 단위 검색을 위한 메타데이터로 사용된다.

스포츠 중계를 위한 자막 인식 시스템 개발 (Development of a Video Caption Recognition System for Sport Event Broadcasting)

  • 오주현
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.94-98
    • /
    • 2009
  • 메이저리그 야구 중계 등 해외 스포츠 중계제작에서 해결해야 할 문제 중 하나는 MPH(miles per hour)와 같이 영미식 단위로 표시된 자막을 국내 실정에 맞게 km/h 등으로 변환하는 것이다. 이를 위해 중계화면에 표시된 자막영역의 변화로부터 해당 자막이 표시되었음을 감지하고 숫자 정보를 인식하여 이를 국내실정에 맞는 SI 단위로 변환하는 스포츠 자막 인식 시스템을 개발하였다. 변환된 자막은 후단의 문자발생기 (CG) 시스템으로 전달되어 최종적으로 TV 화면에 표시된다. 일반적으로 문자 인식에 주로 사용되는 신경망(neural networks) 기반 방식은 사전에 유사 데이터를 이용한 신경망의 학습(training) 과정이 필수적으로 요구되며, 또한 학습에 사용된 데이터와 다른 모양의 자막이 예고 없이 사용되었을 경우 대처할 수 없다는 단점이 있다. 생방송이라는 사용 환경을 고려하여 새로운 폰트로 제작된 자막에도 신속하게 대처할 수 있는 템플릿 매칭(template matching) 방식을 사용하였다. 여러 가지 실험 영상으로 테스트한 결과 97% 이상의 정확한 인식 결과를 얻었으며, 정확성을 요하는 생방송의 특성상 매칭의 확신도(confidence)가 높지 않은 경우에는 작업자가 판단한 후 핫키를 이용하여 정확한 자막을 출력할 수 있게 하였다.

  • PDF

Multi-Style License Plate Recognition System using K-Nearest Neighbors

  • Park, Soungsill;Yoon, Hyoseok;Park, Seho
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권5호
    • /
    • pp.2509-2528
    • /
    • 2019
  • There are various styles of license plates for different countries and use cases that require style-specific methods. In this paper, we propose and illustrate a multi-style license plate recognition system. The proposed system performs a series of processes for license plate candidates detection, structure classification, character segmentation and character recognition, respectively. Specifically, we introduce a license plate structure classification process to identify its style that precedes character segmentation and recognition processes. We use a K-Nearest Neighbors algorithm with pre-training steps to recognize numbers and characters on multi-style license plates. To show feasibility of our multi-style license plate recognition system, we evaluate our system for multi-style license plates covering single line, double line, different backgrounds and character colors on Korean and the U.S. license plates. For the evaluation of Korean license plate recognition, we used a 50 minutes long input video that contains 138 vehicles of 6 different license plate styles, where each frame of the video is processed through a series of license plate recognition processes. From two experiments results, we show that various LP styles can be recognized under 50 ms processing time and with over 99% accuracy, and can be extended through additional learning and training steps.

서포트벡터머신과 정칙화판별함수를 이용한 비디오 문자인식의 분류 성능 개선 (Video character recognition improvement by support vector machines and regularized discriminant analysis)

  • 임수열;백장선;김민수
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권4호
    • /
    • pp.689-697
    • /
    • 2010
  • 본 연구에서는 비디오이미지로부터 추출된 텍스트영역으로부터 문자인식을 수행하였다. 비디오영상으로부터 추출된 문자열은 한글, 영어, 숫자, 특수문자 등으로 혼합되어 있거나, 또는 다양한 폰트와 크기, 그래픽 형태의 글자 존재, 영상의 기울어짐, 끊김, 잡영, 접촉, 저해상도의 글자 등으로 인하여 일반적인 문자인식에 비해 많은 어려움이 존재한다. 이와 같은 어려움을 극복하기위해 본 연구에서는 모든 글자에 대해서 인식하지 않고 가장 빈번하게 등장하는 글자만을 인식하고 나머지는 버리는 방법을 사용하였으며 지지도벡터기계와 정칙화판별분석의 2단계 문자인식 방법을 이용하여 인식률을 개선하였다. 또한 인식률이 좋지 못한 4형식과 5형식 글자에 대해 모음별로 중분류를 실시하였다. 실험결과 지지도벡터기계와 정칙화판별분석을 동시에 사용하는 방법이 다른 문자인식의 방법들보다 인식률이 우수하였으며, 부분적인 중분류의 방법을 이용한 경우 향상된 인식 성능을 나타냈다.

A Hangeul Recognition Method Using Directional Edges in Open Captions

  • Jun, Seung-Chul;Kang, Myeong-Gyu;Park, Sung-Han
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -2
    • /
    • pp.1157-1160
    • /
    • 2002
  • This paper proposes an efficient method to recognize Hangeul in video open captions. The open captions in news video can play an important role in the video indexing. The strokes of Korean character have a very strong horizontal and vertical directionality and some strokes appear repeatedly in each character. Based on this characteristics, in this paper, we propose an efficient algorithm to extract the character regions in open caption and recognize the characters based on these characteristics of Korean character. The simulation results demonstrate the efficiency of our algorithm in terms of computation time and recognition accuracy.

  • PDF

CARA: Character Appearance Retrieval and Analysis for TV Programs

  • Jung Byunghee;Park Sungchoon;Kim Kyeongsoo
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2004년도 정기총회 및 학술대회
    • /
    • pp.237-240
    • /
    • 2004
  • This paper describes a character retrieval system for TV programs and a set of novel algorithms for detecting and recognizing faces for the system. Our character retrieval system consists of two main components: Face Register and Face Recognizer. The Face Register detects faces in video frames and then guides users to register the detected faces of interest into the database. The Face Recognizer displays the appearance interval of each character on the timeline interface and the list of scenes with the names of characters that appear on each scene. These two components also provide a function to modify incorrect results. which is helpful to provide accurate character retrieval services. In the proposed face detection and recognition algorithms. we reduce the computation time without sacrificing the recognition accuracy by using the DCT/LDA method for face feature extraction. We also develop the character retrieval system in the form of plug-in. By plugging in our system to a cataloguing system. the metadata about the characters in a video can be automatically generated. Through this system, we can easily realize sophisticated on-demand video services which provide the search of scenes of a specific TV star.

  • PDF

Emgu CV를 이용한 자동차 번호판 자동 인식 프로그램의 성능 평가에 관한 연구 (Study on Performance Evaluation of Automatic license plate recognition program using Emgu CV)

  • 김남우;허창우
    • 한국정보통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.1209-1214
    • /
    • 2016
  • 자동차 번호판 인식은 대중적인 감시 기술 중의 한 종류로서, 주어진 비디오나 영상 내 광학문자 인식을 수반한다. 번호판 인식은 자동차 번호판 국부화, 번호판의 크기, 차원, 명암대비, 밝기를 조정하는 정규화, 개별문자를 얻어내는 문자 분할, 문자를 인식하는 광학 문자 인식, 번호판의 형태, 크기, 위치 들이 연도별, 지역별로 차이가 있는 번호판들의 데이터베이스를 비교하여 구문 분석을 하는 절차를 거친다. 본 논문에서는 EmguCV를 이용하여 구현한 번호판 감지를 수행하여 위치를 찾아내고, 오픈 소스 광학 문자 인식 엔진으로 잘 알려져 있는 테서렉트 OCR을 이용하여 번호판의 문자를 인식하는 자동 인식 프로그램을 구현하고 번호판의 촬영 각도, 크기, 밝기에 대한 성능평가 결과에 관해 기술하였다.

Character-Net을 이용한 주요배역 추출 (Major Character Extraction using Character-Net)

  • 박승보;김유원;조근식
    • 인터넷정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.85-102
    • /
    • 2010
  • 본 논문에서는 동영상의 등장인물 간의 상황을 기초로 배역간의 관계를 정의한 Character-Net을 구축하는 방법과 이를 이용하여 동영상으로부터 주요배역을 추출하는 방법을 제안한다. 인터넷의 발전과 함께 디지털화된 동영상의 수가 기하급수적으로 증가하여 왔고 원하는 동영상을 검색하거나 축약하기 위해 동영상으로부터 의미정보를 추출하려는 다양한 시도가 있어왔다. 상업용 영화나 TV 드라마와 같이 이야기 구조를 가진 대부분의 동영상은 그 속에 존재하는 등장인물들에 의해 이야기 전개가 이루어지게 되므로, 동영상 분석을 위해 인물 간의 관계와 상황을 체계적으로 정리하고 주요배역을 추출하여 동영상 검색이나 축약을 위한 정보로 활용할 필요가 있다. Character-Net은 영상의 그룹 단위에 등장하는 인물들을 찾아 화자와 청자를 분류하여 등장인물 기반의 그래프로 표현하고 이 그래프를 누적하여 전체 동영상의 등장인물들 간의 관계를 묘사한 네트워크다. 그리고 이 네트워크에서 연결정도 중심성 분석을 통해 주요배역을 추출할 수 있다. 이를 위해 본 논문에서는 Character-Net을 구축하고 주요배역을 추출하는 실험을 진행 하였다.

자막을 활용한 영어수업이 초등학생의 문자인지 능력과 어휘력에 미치는 효과 (Effects of Caption-Utilized English Classes on Primary School Students' Character Recognition and Vocabulary Ability)

  • 소숙;이제영;황치복
    • 한국콘텐츠학회논문지
    • /
    • 제18권7호
    • /
    • pp.423-431
    • /
    • 2018
  • 본 연구의 목적은 자막을 활용한 영어수업이 초등학생의 문자인지 능력과 어휘력에 미치는 효과를 실험연구를 통해 살펴보는 것이다. 연구 대상은 전북 지역, G 도시에 위치한 2개의 초등학교 학생으로, 자막이 포함된 동영상을 활용한 영어 수업을 받은 실험반과 자막 없이 동영상을 접한 비교반으로 구분하였다. 각 집단은 2달간 10차시의 수업을 받았으며, 이들을 대상으로 문자인지 능력과 어휘력 검사지를 통해 사전/사후 검사를 실시하고, 자막 활용이 효과를 독립표본 t-검정과 대응표본 t-검정을 통해 살펴보았다. 그 결과 문자인지 능력과 어휘력에 있어 두 집단 사이에 통계적으로 유의한 차이는 발견되지 않았으나, 실험집단의 사전, 사후 검사 결과 사이에는 통계적으로 유의한 차이가 발견되었다. 마지막으로, 연구 결과를 근거로 영어교육의 교육적 함의와 후속 연구를 위한 제언을 논의하였다.