• Title/Summary/Keyword: 바운딩 박스

Search Result 41, Processing Time 0.03 seconds

Lip and Voice Synchronization Using Visual Attention (시각적 어텐션을 활용한 입술과 목소리의 동기화 연구)

  • Dongryun Yoon;Hyeonjoong Cho
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.4
    • /
    • pp.166-173
    • /
    • 2024
  • This study explores lip-sync detection, focusing on the synchronization between lip movements and voices in videos. Typically, lip-sync detection techniques involve cropping the facial area of a given video, utilizing the lower half of the cropped box as input for the visual encoder to extract visual features. To enhance the emphasis on the articulatory region of lips for more accurate lip-sync detection, we propose utilizing a pre-trained visual attention-based encoder. The Visual Transformer Pooling (VTP) module is employed as the visual encoder, originally designed for the lip-reading task, predicting the script based solely on visual information without audio. Our experimental results demonstrate that, despite having fewer learning parameters, our proposed method outperforms the latest model, VocaList, on the LRS2 dataset, achieving a lip-sync detection accuracy of 94.5% based on five context frames. Moreover, our approach exhibits an approximately 8% superiority over VocaList in lip-sync detection accuracy, even on an untrained dataset, Acappella.

Gesture Environment for Pen-based PDA System (펜 기반 PDA 시스템을 위한 제스쳐(gesture)환경)

  • 박재필;조환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.451-453
    • /
    • 2001
  • 제스쳐(gesture)는 마우스 또는 스타일러스의 난일 표시(single mark)를 이용하여 객체들과 기능들을 식별하는 문서 편집 도구의 강력한 방법들 주 하나이다. 마우스를 위한 제스쳐는 주로 데스크 팁 기반의 환경을 위해 개발되어지고 스타일러스를 위한 제스쳐는 보통 휴대용 컴퓨터를 위해 개발되어진다[2]. 현대는 PDA(Personal Digital Assistant)시스템의 스타일러스를 위한 제스쳐 개발이 활발하게 이루어지고 있다.[3]. 하지만 PDA 시스템에서는 인식에 의한 문자 입력의 보조 도구 정도의 수준에서 제스쳐가 사용되어진다. 본 논문에서는 PDA 시스템에서 사용되는 키보드의 키 역할을 하는 기존의 제스쳐와는 달리 사용자 입력과 제스쳐에 차별을 두지 않고 한 화면에서 직접적이 제스쳐가 가능한 환경을 개발하고 다양한 제스쳐 인식 방법을 제안한다. PDA 시스템에서의 제약을 최소화하기 위해 펜 기반의 입력에서 각 스트록을 간략화시켜 정보를 최소호 한 뒤 각 스트록을 양방향 연결 리스트를 이용해 연결하였다. 제스쳐(gesture)는 삽입, 삭제의 기본적인 것들을 비롯하여 이동, 복사, 붙임과 같은 제스쳐도 포함되어 있다. 제스쳐(gesture)의 인식은 각 스트록의 바운딩 박스와 점들의 위치 정보, 스트록 생성 순서에 기반하여 이루어지기 때문에, 이로 인해 펜 기반의문서 에디터 사용에서 요구되는 다른 제약 없이 오로지 펜만으로 모두 편집 환경을 구현할 수 있다.

  • PDF

A Study on Image inpainting using Mean-Shift Algorithm (Mean-Shift Algorithm을 이용한 Image inpainting에 관한 연구)

  • Gong, Jae-Woong;Jung, Jae-Jin;Hwang, Eui-Sung;Kim, Tae-Hyoung;Kim, Doo-Yung
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2006.06a
    • /
    • pp.49-52
    • /
    • 2006
  • 오늘날 컴퓨터의 발달과 인터넷의 확산으로 멀티미디어 컨텐츠의 보급이 급격히 확대되고 있으며, 이들 컨텐츠에는 원거리 화상회의, 감시시스템, 주문형 비디오(VOD), 주문형 뉴스(NOD), 디지털 편집 시스템 등 동영상이 포함되어 있다. 이처럼 동영상은 정보교환과 정보표현의 매개물로서 중요한 역할을 한다. 그러나 이와 같은 동영상은 노이즈나 전송과정 중 발생하는 문제 등으로 인해 항상 좋은 품질을 보장되지 않는다. 이런 훼손된 영상을 원영상으로 복원하거나 사용자가 제거 혹은 복원하고자 하는 영역을 지정 처리함으로서 다양한 정보를 획득할 수 있다. 일반적으로 pc에서 사용되어지는 대부분의 동영상은 $15fps{\sim}30fps$이다. 대부분의 동영상 편집 기술은 각각의 frame을 추출하여 수동적으로 처리하므로 비용과 시간이 많이 든다. 이런 단점을 해결하기 위해 여러 방법이 기존에 시도되고 있다. 제거 혹은 복원하고자 하는 영역을 전 frame에서 처리하기 위해 움직임 검출 및 추적기법이 사용되며, 제거 혹은 복원하기 위해 median filtering, image inpainting 처리 방법들이 있다. 본 연구에서는 사용자에 의해 미리 정의된 바운딩 박스내의 객체를 추적하여 객체의 중심값을 찾는 mean-shift algorithm을 이용하여 움직이는 객체를 추적하였고 image Inpainting algorithm을 이용하여 훼손된 영역을 복원하거나 제거하고자 하는 객체를 제거하였다.

  • PDF

Object Segmentation Using Depth Map (깊이 맵을 이용한 객체 분리 방법)

  • Yu, Kyung-Min;Cho, Yongjoo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2013.10a
    • /
    • pp.639-640
    • /
    • 2013
  • In this study, a new method that finds an area where interesting objects are placed to generate DIBR-based intermediate images with higher quality. This method complements the existing object segmentation algorithm called Grabcut by finding the bounding box automatically, whereas the existing algorithm requires a user to select the region specifically. Then, the histogram of the depth map information is then used to separate the background and the frontal objects after applying the GrabCut algorithm. By using the new method, it is found that it produces better result than the existing algorithm. This paper describes the new method and future research.

  • PDF

Improving the Vehicle Damage Detection Model using YOLOv4 (YOLOv4를 이용한 차량파손 검출 모델 개선)

  • Jeon, Jong Won;Lee, Hyo Seop;Hahn, Hee Il
    • Journal of IKEEE
    • /
    • v.25 no.4
    • /
    • pp.750-755
    • /
    • 2021
  • This paper proposes techniques for detecting the damage status of each part of a vehicle using YOLOv4. The proposed algorithm learns the parts and their damages of the vehicle through YOLOv4, extracts the coordinate information of the detected bounding boxes, and applies the algorithm to determine the relationship between the damage and the vehicle part to derive the damage status for each part. In addition, the technique using VGGNet, the technique using image segmentation and U-Net model, and Weproove.AI deep learning model, etc. are included for objectivity of performance comparison. Through this, the performance of the proposed algorithm is compared and evaluated, and a method to improve the detection model is proposed.

A Case Study of Object detection via Generated image Using deep learning model based on image generation (딥 러닝 기반 이미지 생성 모델을 활용한 객체 인식 사례 연구)

  • Dabin Kang;Jisoo Hong;Jaehong Kim;Minji Song;Dong-hwi Kim;Sang-hyo Park
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.11a
    • /
    • pp.203-206
    • /
    • 2022
  • 본 논문에서는 생성된 이미지에 대한 YOLO 모델의 객체 인식의 성능을 확인하고 사례를 연구하는 것을 목적으로 한다. 최근 영상 처리 기술이 발전함에 따라 적대적 공격의 위험성이 증가하고, 이로 인해 객체 인식의 성능이 현저히 떨어질 수 있는 문제가 발생하고 있다. 본 연구에서는 앞서 언급한 문제를 해결하기 위해 text-to-image 모델을 활용하여 기존에 존재하지 않는 새로운 이미지를 생성하고, 생성된 이미지에 대한 객체 인식을 사례 별로 연구한다. 총 8가지의 동물 카테고리로 분류한 후 객체 인식 성능을 확인한 결과 86.46%의 정확도로 바운딩 박스를 생성하였고, 동물에 대한 116개의 60.41%의 정확도를 보여주었다.

  • PDF

Development of PCB board vision inspection system using image recognition based on deep learning (딥러닝 영상인식을 이용한 PCB 기판 비전 검사 시스템 개발)

  • Chang-hoon Lee;Min-sung Lee;Jeong-min Sim;Dong-won Kang;Tae-jin Yun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.289-290
    • /
    • 2024
  • PCB(Printed circuit board)생산시에 중요한 역할을 담당하는 비전검사 시스템의 성능은 지속적으로 발전해왔다. 기존 머신 비전 검사 시스템은 이미지가 불규칙하고 비정형일 경우 해석이 어렵고 전문가의 경험에 의존한다. 그리고 비전검사 시스템 개발 당시의 기준과 다른 불량이 발생한다면 검출이 불가능 하거나 정확도가 낮게 나온다. 본 논문에서는 이를 개선하고자 딥러닝 영상인식을 이용한 PCB 기판 비전 검사 시스템을 구현하였다. 딥러닝 영상인식 알고리즘은 YOLOv4를 이용하고, 워핑(warping)과 시킨 PCB 이미지를 학습하여 비전검사 시스템을 구성하였다. 딥러닝 영상인식 기술의 처리 속도를 보완하고자 QR코드로 PCB 기판 종류를 인식하고, 해당 PCB 부품의 미삽은 정답 이미지 바운딩 박스 좌표와 비교하여 불량품을 발견하면 표시해준다. 기판의 부품 인식을 위해 기판 데이터는 직접 촬영하여 수집하였다. 이를 활용하여 PCB 생산 공정에서 비전검사 시스템의 성능이 향상되었고,, 다양한 PCB를 생산에 신속하게 대응할 수 있다.

  • PDF

Tracking of Moving Object in MPEG Compressed Domain Using Mean-Shift Algorithm (Mean-Shift 알고리즘을 이용한 MPEG2 압축 영역에서의 움직이는 객체 추적)

  • 박성모;이준환
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.29 no.8C
    • /
    • pp.1175-1183
    • /
    • 2004
  • This paper propose a method to trace a moving object based on the information directly obtained from MPEG-2 compressed video stream without decoding process. In the proposed method, the motion flow is constructed from the motion vectors involved in compressed video and then we calculate the amount of pan, tilt, zoom associated with camera operations using generalized Hough transform. The local object motion can be extracted from the motion flow after the compensation with the parameters related to the global camera motion. The moving object is designated initially by a user via bounding box. After then automatic tracking is performed based on the mean-shift algorithm of the motion flows of the object. The proposed method can improve the computation speed because the information is directly obtained from the MPEG-2 compressed video, but the object boundary is limited by blocks rather than pixels.

Object Detection based on Mask R-CNN from Infrared Camera (적외선 카메라 영상에서의 마스크 R-CNN기반 발열객체검출)

  • Song, Hyun Chul;Knag, Min-Sik;Kimg, Tae-Eun
    • Journal of Digital Contents Society
    • /
    • v.19 no.6
    • /
    • pp.1213-1218
    • /
    • 2018
  • Recently introduced Mask R - CNN presents a conceptually simple, flexible, general framework for instance segmentation of objects. In this paper, we propose an algorithm for efficiently searching objects of images, while creating a segmentation mask of heat generation part for an instance which is a heating element in a heat sensed image acquired from a thermal infrared camera. This method called a mask R - CNN is an algorithm that extends Faster R - CNN by adding a branch for predicting an object mask in parallel with an existing branch for recognition of a bounding box. The mask R - CNN is added to the high - speed R - CNN which training is easy and fast to execute. Also, it is easy to generalize the mask R - CNN to other tasks. In this research, we propose an infrared image detection algorithm based on R - CNN and detect heating elements which can not be distinguished by RGB images. As a result of the experiment, a heat-generating object which can not be discriminated from Mask R-CNN was detected normally.

A Study on The Tracking and Analysis of Moving Object in MPEG Compressed domain (MPEG 압축 영역에서의 움직이는 객체 추적 및 해석)

  • 문수정;이준환;박동선
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2001.11b
    • /
    • pp.103-106
    • /
    • 2001
  • 본 논문에서는 MPEG2비디오 스트림에서 직접 얻을 수 있는 정보들을 활용하여 카메라의 움직임을 추정하여 이를 기반으로 하여 움직이는 객체를 추정하고자 한다. 이를 위해, 먼저 MPEG2의 움직임 벡터는 압축의 효율성 때문에 움직임의 예측이 순서적이지 못한데, 예측 프레임들의 속성을 이용하여 이를 광 플로우(Optical Flow)를 갖는 움직임 벡터(Motion Vector)로 변환하였다. 그리고 이러한 벡터들을 이용하여 카메라의 기본적인 움직임인 팬(Fan), 틸트(Tilt). 줌(Zoom) 등을 정의하였다. 이를 위하여 팬, 틸트-줌 카메라 모델의 매개변수와 같은 의미의 $\Delta$x, $\Delta$y, $\alpha$값을 정의하고자 움직임 벡터 성분의 Hough변환을 이용하여 $\Delta$x, $\Delta$y, $\alpha$값들을 구하였다. 또한 이러한 카메라 움직임(Camera Operation)은 시간적으로 연속적으로 발생하는 특징을 이용하여 각 프레임마다 구한 카메라의 움직임을 보정하였다. 마지막으로 움직이는 객체의 추정은 우선 사용자가 원하는 객체를 바운딩박스 형태로 정의한 후 카메라 움직임이 보정된 객체의 움직임 벡터를 한 GOF(Group of Pictures) 단위로 면적 기여도에 따라 누적하여 객체를 추적하고 해석하였으며 DCT 질감 정보를 이용하여 객체의 영역을 재설정 하였다. 물론 압축된 MFEG2비디오에서 얻을 수 있는 정보들은 최대 블록 단위이므로 객체의 정의도 블록단위 이상의 객체로 제한하였다. 제안된 방법은 비디오 스트림에서 직접 정보를 얻음으로써 계산속도의 향상은 물론 카메라의 움직임특성과 움직이는 객체의 추적들을 활용하여 기존의 내용기반의 검색 및 분석에도 많이 응용될 수 있다. 이러한 개발 기술들은 압축된 데이터의 검색 및 분석에 유용하게 사용되리라고 기대되며 , 특히 검색 툴이나 비디오 편집 툴 또는 교통량 감시 시스템, 혹은 무인 감시시스템 등에서 압축된 영상의 저장과 빠른 분석을 요구시 필요하리라고 기대된다.

  • PDF