• Title/Summary/Keyword: 자막 추출

Search Result 82, Processing Time 0.028 seconds

Automatic sentence segmentation of subtitles generated by STT (STT로 생성된 자막의 자동 문장 분할)

  • Kim, Ki-Hyun;Kim, Hong-Ki;Oh, Byoung-Doo;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.559-560
    • /
    • 2018
  • 순환 신경망(RNN) 기반의 Long Short-Term Memory(LSTM)는 자연어처리 분야에서 우수한 성능을 보이는 모델이다. 음성을 문자로 변환해주는 Speech to Text (STT)를 이용해 자막을 생성하고, 생성된 자막을 다른 언어로 동시에 번역을 해주는 서비스가 활발히 진행되고 있다. STT를 사용하여 자막을 추출하는 경우에는 마침표가 없이 전부 연결된 문장이 생성되기 때문에 정확한 번역이 불가능하다. 본 논문에서는 영어자막의 자동 번역 시, 정확도를 높이기 위해 텍스트를 문장으로 분할하여 마침표를 생성해주는 방법을 제안한다. 이 때, LSTM을 이용하여 데이터를 학습시킨 후 테스트한 결과 62.3%의 정확도로 마침표의 위치를 예측했다.

  • PDF

A Method for Reconstructing Original Images for Captions Areas in Videos Using Block Matching Algorithm (블록 정합을 이용한 비디오 자막 영역의 원 영상 복원 방법)

  • 전병태;이재연;배영래
    • Journal of Broadcast Engineering
    • /
    • v.5 no.1
    • /
    • pp.113-122
    • /
    • 2000
  • It is sometimes necessary to remove the captions and recover original images from video images already broadcast, When the number of images requiring such recovery is small, manual processing is possible, but as the number grows it would be very difficult to do it manually. Therefore, a method for recovering original image for the caption areas in needed. Traditional research on image restoration has focused on restoring blurred images to sharp images using frequency filtering or video coding for transferring video images. This paper proposes a method for automatically recovering original image using BMA(Block Matching Algorithm). We extract information on caption regions and scene change that is used as a prior-knowledge for recovering original image. From the result of caption information detection, we know the start and end frames of captions in video and the character areas in the caption regions. The direction for the recovery is decided using information on the scene change and caption region(the start and end frame for captions). According to the direction, we recover the original image by performing block matching for character components in extracted caption region. Experimental results show that the case of stationary images with little camera or object motion is well recovered. We see that the case of images with motion in complex background is also recovered.

  • PDF

Creation of Soccer Video Highlight Using The Structural Features of Caption (자막의 구조적 특징을 이용한 축구 비디오 하이라이트 생성)

  • Huh, Moon-Haeng;Shin, Seong-Yoon;Lee, Yang-Weon;Ryu, Keun-Ho
    • The KIPS Transactions:PartD
    • /
    • v.10D no.4
    • /
    • pp.671-678
    • /
    • 2003
  • A digital video is usually very long temporally. requiring large storage capacity. Therefore, users want to watch pre-summarized video before they watch a large long video. Especially in the field of sports video, they want to watch a highlight video. Consequently, highlight video is used that the viewers decide whether it is valuable for them to watch the video or not. This paper proposes how to create soccer video highlight using the structural features of the caption such as temporal and spatial features. Caption frame intervals and caption key frames are extracted by using those structural features. And then, highlight video is created by using scene relocation, logical indexing and highlight creation rule. Finally. retrieval and browsing of highlight and video segment is performed by selection of item on browser.

A Case Study on Closed Captions: Focusing on on Netflix (넷플릭스 <오징어 게임> 폐쇄자막 연구)

  • Jeong, Sua;Lee, Jimin
    • The Journal of the Convergence on Culture Technology
    • /
    • v.10 no.2
    • /
    • pp.279-285
    • /
    • 2024
  • This study aims to evaluate the accuracy and completeness of Korean and English closed captions for Netflix's "Squid Game" and to present implications based on the findings. To achieve this, the closed captioning guidelines of the U.S. Federal Communications Commission, DCMP, and the Korea Communications Commission were identified and analyzed. The analysis of the subtitle of the entire "Squid Game" series reveals that, while Korean closed captions accurately present slangs and titles, they present non-existent information in speaker identification. In English closed captions, speaker identification guidelines are well followed, but omissions of slangs and title mistranslations are observed. In terms of completeness, both Korean and English closed captions are found to omit certain audio parts. To address these issues, the study suggests strengthening the QA process, establishing a system to communicate original text problems during translation, and utilizing general English subtitles.

Unknown Word Extractor Development, for ETRI Broadcast News Caption System (ETRI 방송 뉴스 자막 처리 시스템을 위한 미등록어 검출기의 개발)

  • Yun Seung;Jung Eui-Jung;Park Jun;Lee Youngjik
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.163-166
    • /
    • 2002
  • 본 논문에서는 ETRI 방송 뉴스 자막 처리 시스템의 성능 향상을 도모하기 위해 개발된 미등록어 검출기에 대해 기술한다. 음성 인식 성능 하락에 큰 영향을 미치는 요인들 중 하나로 꼽히는 미등록어 문제를 해결하기 위해 ETRI 방송 뉴스 자막 처리 시스템에서는 오프라인으로 동작하는 미등록어 검출기를 채택하였다. 이 미등록어 검출기는 방송 뉴스 자막 처리 시스템 가동 전에 미리 인터넷을 통해 최신 신문 기사와 방송 뉴스를 수집해와 이를 토대로 두 단계에 걸쳐 미등록어를 사전에 추출하여 인식 어휘 사전에 포함시킴으로써 미등록어로 인한 방송 뉴스의 인식 성능 저하 문제를 해결하도록 하였다.

  • PDF

Automatic Text Extraction in Video Images using Morphology (모폴로지을 이용한 비디오 영상에서의 자동 문자 추출)

  • 장인영;고병철;김길천;변혜란
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.418-420
    • /
    • 2001
  • 본 논문에서는 뉴스 비디오의 정지 영상에서 뉴스 자막과 배경 문자를 추출하기 위한 새로운 방법을 제안한다. 본 논문에서는 일차적으로 입력 컬러 영상을 그레이 영상으로 변환한 후 입력 영상의 명암 대비를 강화시키기 위해 명암 대비 스트레칭을 적용한다. 이후 명암 대비 스트레칭된 영상의 분할을 위해 적응적 임계값을 적용하고 다음 단계에서 문자와 유사한 영역들을 적당한 크기 의 structuring element를 이용하여 제거하는 1차 하부 단계와 모폴로지 녹임(erosion)을 적용한 영상과 모폴로지(열림닫힘[OpenClose]+닫힘열림[CloseOpen])/2가 적용된 영상 사이의 차이 영상을 구하는 2차 하부 단계를 적용시킨다. 마지막 단계에서 각 후보 영역들 중 실제 자막 영역을 추출해내기 위해, 후보 문자 영역의 화소수 비율과 외곽선의 화소수의 비율, 그리고 장축과 단축간의 비율 등에 대해 필터링을 적용한다. 본 논문에서는 임의의 300개의 뉴스영상을 입력 값으로 실험한 결과 93.6%의 우수한 인식률을 얻을 수 있었다. 또한 본 논문에서 제안한 방법은 structuring element의 크기 조절을 통해 크기가 다른 다양한 이미지에서도 좋은 성능을 거둘 수 있다.

  • PDF

Creation of Soccer Video Highlights Using Caption Information (자막 정보를 이용한 축구 비디오 하이라이트 생성)

  • Shin Seong-Yoon;Kang Il-Ko;Rhee Yang-Won
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.5 s.37
    • /
    • pp.65-76
    • /
    • 2005
  • A digital video is a very long data that requires large-capacity storage space. As such, prior to watching a long original video, video watchers want to watch a summarized version of the video. In the field of sports, in particular, highlights videos are frequently watched. In short, a highlights video allows a video watcher to determine whether the highlights video is well worth watching. This paper proposes a scheme for creating soccer video highlights using the structural features of captions in terms of time and space. Such structural features are used to extract caption frame intervals and caption keyframes. A highlights video is created through resetting shots for caption keyframes, by means of logical indexing, and through the use of the rule for creating highlights. Finally, highlights videos and video segments can be searched and browsed in a way that allows the video watcher to select his/her desired items from the browser.

  • PDF

A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect (효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류)

  • Jung, Hyeonyoung;Kim, Gyumi;Kim, Hyon Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.397-400
    • /
    • 2020
  • 본 논문은 영화에 나오는 효과음을 자막으로 생성해주는 자동자막생성을 제안하며, 그의 첫 단계로써 다중 사운드 분류 모델을 제안하였다. 고양이, 강아지, 사람의 음성을 분류하기 위해 사운드 데이터의 특정벡터를 추출한 뒤, 4가지의 기계학습에 적용한 결과 최적모델로 딥러닝이 선정되었다. 전처리 과정 중 주성분 분석의 유무에 따라 정확도는 81.3%와 33.3%로 확연한 차이가 있었으며, 이는 복잡한 특징을 가지는 사운드를 분류하는데 있어 주성분 분석과 넓고 깊은 형태의 신경망이 보다 개선된 분류성과를 가져온 것으로 생각된다.

A Study On YouTube Fake News Detection System Using Sentence-BERT (Sentence-BERT를 활용한 YouTube 가짜뉴스 탐지 시스템 연구)

  • Beom Jung Kim;Ji Hye Huh;Hyeopgeon Lee;Young Woon Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.667-668
    • /
    • 2023
  • IT 기술의 발달로 인해 뉴스를 제공하는 플랫폼들이 다양해 졌고 최근 해외 인터뷰 영상, 해외 뉴스를 Youtube Shorts형태로 제작하여 화자의 의도와는 다른 자막을 달며 가짜 뉴스가 생성되는 문제가 대두되고 있다. 이에 본 논문에서는 Sentence-BERT를 활용한 YouTube 가짜 뉴스 탐지 시스템을 제안한다. 제안하는 시스템은 Python 라이브러리를 사용해 유튜브 영상에서 음성과 영상 데이터를 분류하고 분류된 영상 데이터는 EasyOCR을 사용해 자막 데이터를 텍스트로 추출 후 Sentence-BERT를 활용해 문자 유사도를 분석한다. 분석결과 음성 데이터와 영상 자막 데이터가 일치한 경우 일치하지 않은 경우보다 약 62% 더 높은 문장 유사도를 보였다.

Video retrieval system based on closed caption (폐쇄자막을 기반한 자막기반 동영상 검색 시스템)

  • 김효진;황인정;이은주;이응혁;민홍기
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.12a
    • /
    • pp.57-60
    • /
    • 2000
  • Even if the video data is utilized for a lot of field, its very difficult to reuse and search easily because of its atypical(unfixed form) and complicated structure. In this study, we presented the video retrieval system which is based on the synchronized closed caption and video, SMIL and SAMI languages which are described to structured and systematic form like multimedia data These have next structure; At first, a key word is inputted by user, then time stamp would be sampling from the string which has a key word in the caption file. To the result, the screen shows an appropriate video frame.

  • PDF