• 제목/요약/키워드: scene detection

검색결과 519건 처리시간 0.022초

Arabic Words Extraction and Character Recognition from Picturesque Image Macros with Enhanced VGG-16 based Model Functionality Using Neural Networks

  • Ayed Ahmad Hamdan Al-Radaideh;Mohd Shafry bin Mohd Rahim;Wad Ghaban;Majdi Bsoul;Shahid Kamal;Naveed Abbas
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권7호
    • /
    • pp.1807-1822
    • /
    • 2023
  • Innovation and rapid increased functionality in user friendly smartphones has encouraged shutterbugs to have picturesque image macros while in work environment or during travel. Formal signboards are placed with marketing objectives and are enriched with text for attracting people. Extracting and recognition of the text from natural images is an emerging research issue and needs consideration. When compared to conventional optical character recognition (OCR), the complex background, implicit noise, lighting, and orientation of these scenic text photos make this problem more difficult. Arabic language text scene extraction and recognition adds a number of complications and difficulties. The method described in this paper uses a two-phase methodology to extract Arabic text and word boundaries awareness from scenic images with varying text orientations. The first stage uses a convolution autoencoder, and the second uses Arabic Character Segmentation (ACS), which is followed by traditional two-layer neural networks for recognition. This study presents the way that how can an Arabic training and synthetic dataset be created for exemplify the superimposed text in different scene images. For this purpose a dataset of size 10K of cropped images has been created in the detection phase wherein Arabic text was found and 127k Arabic character dataset for the recognition phase. The phase-1 labels were generated from an Arabic corpus of quotes and sentences, which consists of 15kquotes and sentences. This study ensures that Arabic Word Awareness Region Detection (AWARD) approach with high flexibility in identifying complex Arabic text scene images, such as texts that are arbitrarily oriented, curved, or deformed, is used to detect these texts. Our research after experimentations shows that the system has a 91.8% word segmentation accuracy and a 94.2% character recognition accuracy. We believe in the future that the researchers will excel in the field of image processing while treating text images to improve or reduce noise by processing scene images in any language by enhancing the functionality of VGG-16 based model using Neural Networks.

지역적 $X^2$를 이용한 장면전환검출 기법 (Scene Change Detection Using Local $X^2$)

  • 신성윤;백성은;표성배;이양원
    • 한국컴퓨터정보학회지
    • /
    • 제15권1호
    • /
    • pp.203-207
    • /
    • 2007
  • 본 논문에서는 비디오의 분할을 위하여 먼저 기존에 제안되었던 차이 값 추출방법들의 단점들을 극복하고 장점을 최대한 활용할 수 있으며 급진적 장면전환부터 점진적 장면전환까지 모두 예측할 수 있는 강건하고 복합적인 차이 값 추출방법에 대해서 제안한다. 이 방법은 지역적 $X^2$-테스트로서 기존의 컬러 히스토그램과 $X^2$-테스트를 결합한 방법이다. 본 논문을 위하여 기존의 히스토그램 기반 알고리즘과 비교하여 좋은 성능을 보여주는 $X^2$-테스트를 변형하였고, 컬러 값의 세분화 작업에 따른 검출효과를 높이기 위하여 명암도 등급에 따른 가중치를 적용한 지역적 $X^2$-테스트를 이용하였다. 이 방법은 복잡하고 다양한 시세계의 영상 변화를 가장 일반적이고 표준화된 방법으로 분석하고 분할하며 표현할 수 있는 방법이다. 기존의 $X^2$-테스트와 제안된 지역적 $X^2$-테스트 방법의 비교는 실험을 통해 입증되었다.

  • PDF

플래시라이트에 강건한 장면전환 검출 알고리즘 (Robust Scene Change Detection Algorithm for Flashlight)

  • 고경철;최형일;이양원
    • 전자공학회논문지CI
    • /
    • 제43권6호
    • /
    • pp.83-91
    • /
    • 2006
  • 비디오에 삽입된 플래시라이트는 연속된 프레임사이의 차이 값을 높게 형성하여 장면전환 검출을 위한 임계값 결정에 많은 어려움을 주며, 특히 장면전환 지점으로 잘못 검출되는 문제점을 가지고 있다. 따라서 본 논문에서는 이러한 플래시라이트를 연속된 프레임으로부터 효율적으로 제거하여 신뢰할 수 있는 장면전환 지점을 검출하는 강건한 장면전환 검출 알고리즘을 제안한다. 제안된 방법은 먼저, 연속된 프레임사이의 차이 값 추출을 위하여 객체나 카메라의 움직임에 덜 민감하고 프레임의 공간정보를 이용하는 지역 히스토그램 비교에 의한 추출 식을 사용하며, 추출된 차이 값들의 큰 변이 폭에 의한 임계 값 결정의 문제점을 해결하기 위하여 차이 값들의 동적 압축에 의한 정규화 작업을 수행한다. 또한 추출된 차이 값들의 시간적 연속성의 변이에 따라 플래시라이트가 가지는 특징을 이용하여 플래시라이트와 장면전환 검출을 따로 구분하여 추출할 수 있는 새로운 장면전환 검출 알고리즘을 제안한다. 제안된 방법은 플래시라이트가 들어있는 다양한 비디오 타입으로부터 실험되어졌으며, 실험결과 플래시라이트 검출에 높은 신뢰성과 효율성을 보여주었다.

MPEG의 다차원 분석을 통한 디졸브 구간 검출 : I, P프레임의 DCT-R값을 이용 (Detecting Dissolve Cut for Multidimensional Analysis in an MPEG compressed domain : Using DCT-R of I, P Frames)

  • 허정;박상성;장동식
    • 융합신호처리학회논문지
    • /
    • 제4권3호
    • /
    • pp.34-40
    • /
    • 2003
  • 본 논문에서는 비디오 장면전환 효과 중 디졸브(dissolve)에 의한 점진적인 장면전환 구간을 검출하는 알고리즘을 제안한다. 제안한 알고리즘은 처리의 효율성과 MPEG Sequence의 최소한의 복원과정을 위해 Ⅰ, P 프레임의 Color-R값에 대한 DCT계수를 사용하였다. 인간의 시각으로는 비디오의 장면전환점을 쉽게 구분해 낼수 있듯이 컴퓨터가 인식하기 쉽도록 영상을 3차원으로 시각화하고 분석하여 장면전환 구간을 검출하였다. 우선 각각의 영상에서 Color-R에 대한 DCT계수를 추출하고 블록단위인 8*8단위 열의 합을 구해 다시 프레임에 대한 행을 4단계로 분할하여 특징치를 분석하고 4단계의 샷 특징치를 통합하여 샷을 검출한다. 실험결과 제안한 방법이 영상의 단일 특징치를 사용한 방법보다 4단계의 특징치 분석을 사용함으로서 더 좋은 성능을 나타내었다 또한 Ⅰ, P 프레임의 Color-R값의 부분적 복원과정으로 계산시간을 절약할 수 있었다.

  • PDF

트리 기반 정적/동적 영상 모자이크 (Tree-Based Static/Dynamic Image Mosaicing)

  • Kang, Oh-hyung;Rhee, Yang-won
    • 한국정보통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.758-766
    • /
    • 2003
  • 본 논문에서는 효율적인 비디오 데이터베이스를 구축하기 위하여 카메라와 객체 파라미터를 이용한 트리-기반 계층형 영상 모자이크 시스템을 제시한다. 장면 전환 검출을 위하여 그레이-레벨 히스토그램 차이와 평균 명암도 차이를 이용한 방법을 제시하였다. 카메라 파라미터는 최소 사각형 오류 기법과 어파인 모델을 이용하여 측정하고, 두 입력 영상의 유사성을 측정하기 위하여 차영상을 이용한다. 또한 동적 객체는 매크로 블록 설정에 의하여 검색되고 영역 분할과 4-분할 탐색에 의하여 추출한다. 동적 객체의 표현은 동적 궤도 평가 함수에 의하여 수행되고 블러링을 통하여 부드럽고 완만한 모자이크 영상을 구축한다.

움직임 추정을 이용한 애니메이션 영상의 장면전환 검출 (A Scene Change Detection using Motion Estimation in Animation Sequence)

  • 곽성근
    • 한국컴퓨터산업학회논문지
    • /
    • 제9권4호
    • /
    • pp.149-156
    • /
    • 2008
  • 애니메이션 영상에서 현재 블록의 움직임 벡터와 이전 블록의 움직임 벡터는 시간적 상관성을 갖고 있다. 본 논문에서는 영상의 시간적인 특성과 움직임 벡터의 중심 분포 특성을 이용하는 장면전환 검출 알고리즘을 제안한다. 제안된 알고리즘은 이전 프레임 블록으로부터 예측된 움직임 벡터와 분할된 탐색 구간에 속하는 후보 벡터 중에서 가장 작은 SAD 값을 갖는 점을 정확한 움직임 벡터를 찾기 위해서 초기 탐색점 위치로 결정한다. 실험 결과 제안된 방식은 기존의 대표적인 장면전환 검출 방식들 보다 재요청 측면에서 더 좋은 성능을 나타내었으며, 제안된 방법은 빠르고 정확하며 저장 공간을 적게 사용하는 장점을 가진다.

  • PDF

전역적 결정트리를 이용한 샷 경계 검출 (Shot Boundary Detection Using Global Decision Tree)

  • 신성윤;문형윤;이양원
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.75-80
    • /
    • 2008
  • 본 논문에서는 프레임들의 차이값으로부터 카메라 브레이크에 의해 발생하는 큰 변화의 폭을 갖는 경계지점을 추출하는 전역적 결정트리를 이용하여 샷 경계를 검출하는 방법을 제시한다. 먼저 지적 $X^2$ 히스토그램과 정규화를 통하여 프레임 간 차이값을 계산하고, 다음으로 차이값간의 거리를 정규화를 통하여 계산한다. 계산된 차이값간의 거리를 바탕으로 전역적 임계치 거리를 계산하여 인접한 두 프레임들에 대한 거리값과 전역적 임계치 거리를 비교하여 샷 경계를 검출한다. 본 논문에서 제시한 전역적 결정트리를 이용하여 객체나 카메라의 움직임과 플래시 라이트와 같은 갑작스런 장면 변화를 쉽게 검출할 수 있다.

  • PDF

Accurate Human Localization for Automatic Labelling of Human from Fisheye Images

  • Than, Van Pha;Nguyen, Thanh Binh;Chung, Sun-Tae
    • 한국멀티미디어학회논문지
    • /
    • 제20권5호
    • /
    • pp.769-781
    • /
    • 2017
  • Deep learning networks like Convolutional Neural Networks (CNNs) show successful performances in many computer vision applications such as image classification, object detection, and so on. For implementation of deep learning networks in embedded system with limited processing power and memory, deep learning network may need to be simplified. However, simplified deep learning network cannot learn every possible scene. One realistic strategy for embedded deep learning network is to construct a simplified deep learning network model optimized for the scene images of the installation place. Then, automatic training will be necessitated for commercialization. In this paper, as an intermediate step toward automatic training under fisheye camera environments, we study more precise human localization in fisheye images, and propose an accurate human localization method, Automatic Ground-Truth Labelling Method (AGTLM). AGTLM first localizes candidate human object bounding boxes by utilizing GoogLeNet-LSTM approach, and after reassurance process by GoogLeNet-based CNN network, finally refines them more correctly and precisely(tightly) by applying saliency object detection technique. The performance improvement of the proposed human localization method, AGTLM with respect to accuracy and tightness is shown through several experiments.

CASA 시스템의 청각장면과 PAR를 이용한 음성 영역 검출에 관한 연구 (A Study on Voice Activity Detection Using Auditory Scene and Periodic to Aperiodic Component Ratio in CASA System)

  • 김정호;고형화;강철호
    • 전자공학회논문지
    • /
    • 제50권10호
    • /
    • pp.181-187
    • /
    • 2013
  • 인간의 청각은 청각 장면 분석을 통해 배경 잡음이나 여러 사람들이 동시에 말하는 상황에서도 특정 목적을 가지는 음성 신호를 청취할 수 있는 능력을 가지고 있다. 인간의 청각 능력 시스템을 잘 반영한 CASA 시스템을 이용해 음성을 분리를 할 수 있다. 그러나 CASA 세그먼트에서 음성의 위치를 잘못 결정 했을 때 CASA 시스템의 성능은 감소된다. 본 논문에서는 CASA 시스템에서 잘못된 음성 영역 위치로 인해 발생되는 성능 감소를 개선하기 위하여 청각 장면, 그리고 주기 성분과 비주기 성분의 비율(PAR)을 결합한 음성 영역 검출 알고리즘을 제안한다. 음성 영역 검출의 성능을 평가하기 위하여 백색 잡음과 자동차 잡음 환경에서 신호 대 잡음비의 변화에 따라 실험을 수행하였다. 본 논문에서는 신호 대 잡음비 15~0dB에서 기존의 알고리즘(Pitch 와 Guoning Hu)과 제안한 알고리즘을 비교한 결과, 음성 영역 검출의 정확도가 백색잡음과 자동차 잡음에서 신호 대 잡음비 15dB 에서 최대 4%, 0dB에서 최대 34% 씩 각각 향상되었다.

SIFT를 이용한 장면전환 검출 및 필터링 기술 (Scene Change Detection and Filtering Technology Using SIFT)

  • 문원준;유인재;이재청;서영호;김동욱
    • 방송공학회논문지
    • /
    • 제24권6호
    • /
    • pp.939-947
    • /
    • 2019
  • 미디어 시장의 활성화로 영상의 압축, 검색, 편집, 저작권 보호등의 필요성이 높아지고 있다. 본 논문에서는 이 모든 분야에 사용되는 영상의 장면 전환을 검출하는 방법을 제안한다. 유통 과정에서 발생 가능한 해상도 변환, 자막 삽입, 압축, 영상 반전등의 변형이 추가되더라도 동일하게 장면 전환을 검출하기 위해 전처리 과정과 SIFT를 이용한 특징점 추출, 변형을 고려한 매칭 알고리즘을 제시한다. 또한 이를 필터링 기술에 적용하여 알고리즘에서 고려한 변형 이외의 변형에도 유효함을 확인한다.