• 제목/요약/키워드: 캡션

검색결과 57건 처리시간 0.029초

확장적 블록 정합 방법과 영역 보상법을 이용한 비디오 문자 영역 복원 방법 (A Method for Recovering Text Regions in Video using Extended Block Matching and Region Compensation)

  • 전병태;배영래
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권11호
    • /
    • pp.767-774
    • /
    • 2002
  • 기존의 원영상 복원 기술은 주로 신호 처리 분야에서 영상의 형성(formation), 저장 및 통신상에서 발생되는 왜곡 현상을 복원하는 연구가 많이 이루어 졌다. 원 영상 복원과 관련된 기존의 연구는 블록 정합(block matching algorithm)을 이용한 원영상 복원 방법이 있다. 이 방법은 오 정합(incorrect matching)이 발생하기 쉽고, 오 정합 시 에러가 전파되는 문제점이 있다. 그리고 장면 전환이 2회 이상 발생될 경우 장면 전환 지점과 지점 사이의 복원이 불가능하다는 문제점이 있다. 본 논문에서는 기존의 문제점들을 해결하기 위하여 확장적 블록 정합 방법(EBMA: Extended Block Matching Algorithm)과 영역 보상법(Region compensation method)을 이용한 원영상 복원 방법을 제안하고자 한다. 원영상 복원에 사용하기 위하여 비디오 사전 정보(장면 전환 정보, 카메라 모션 정보, 캡션 영역 정보)를 추출한다. 추출된 캡션 영역 정보를 이용하여 캡션 문자의 구성 요소 정보를 추출한다. 추출된 비디오 사전 정보를 이용하여 복원의 방향성을 결정하고, 복원의 방향성에 따라 문자의 구성 요소 단위로 확장적 블록 정합 방법과 영역 보상법을 이용하여 원영상 복원을 수행한다. 실험결과 확장적 블록 정합 방법은 빠른 물체의 움직임이나 복잡한 배경에 영향을 받지 않고 복원이 잘 되는 것을 알 수 있었다. 참조할 원영상이 없이 원영상 복원을 수행하는 영역 보상법의 복원 결과 또한 좋음을 볼 수 있었다.

2015 개정 교육과정에 따른 7학년 과학교과서 물질 영역에 제시된 외적 표상의 분석 (Analysis of External Representations in Matter Units of 7th Grade Science Textbooks Developed Under the 2015 Revised National Curriculum)

  • 윤회정
    • 한국과학교육학회지
    • /
    • 제40권1호
    • /
    • pp.61-75
    • /
    • 2020
  • 이 연구에서는 2015 개정 교육과정 7학년 과학의 물질 영역인 '기체의 성질'과 '물질의 상태 변화' 단원에 제시된 외적 표상을 분석하여 표상을 활용한 과학교육을 위한 시사점을 도출하고자 하였다. 표상의 유형, 표면적 특성의 해석, 본문과의 관련성, 캡션의 존재와 특성, 복합적 표상에서 표상 간 관련성, 표상의 기능의 여섯 가지 범주로 구성된 분석틀을 이용하여 다섯 종의 교과서에 나타난 표상의 특성을 분석하였다. 또한, '기체의 성질'과 '물질의 상태 변화' 단원의 성취기준을 설명하는 각 교과서에 제시된 대표적인 표상의 특징을 분석하였다. 연구의 결과는 다음과 같다. 먼저 표상의 유형에서는 거시적 표상이 가장 높은 빈도로 나타났으며, 표면적 특성의 해석 범주에서는 명시적 특성을 가진 표상의 빈도가 가장 높았다. 본문과의 관련성 범주의 분석 결과, 대부분의 표상이 완전한 연관성과 연결 또는 완전한 연관성과 비연결에 해당하여 표상과 본문 내용은 일관성 있게 연관되어 있는 것으로 나타났다. 캡션의 존재와 특성 범주에서는 적절한 캡션이 존재하는 표상의 빈도가 가장 높았고, 복합적 표상에서 표상 간의 관련성은 충분히 연결된 표상이 대부분이었다. 표상의 기능 범주에서는 완성형이 가장 높은 빈도를 보였으나 탐구 활동에 제시된 표상에서는 미완성형이 높은 빈도를 나타냈다. 성취기준과 관련된 대표적인 표상을 분석한 결과, 표상의 유형, 표상에 제시된 정보및 기호의 사용 등에서 교과서별로 차이를 나타냈다. 연구의 결과로부터 7학년 물질 영역의 표상 활용과 관련된 교육적 시사점을 논의하였다.

한국어 오디오 캡션 시스템 개발 (Development of Korean Audio Caption System)

  • 강태호;김주희;이준하
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.364-367
    • /
    • 2020
  • 오디오 캡셔닝(Audio Captioning)은 시스템이 입력으로 오디오 신호를 받아들이고 해당 신호의 텍스트 설명을 출력하는 중간 번역 작업이다. 이 논문에서는 컨볼루셔널 뉴럴 네트워크(CNN), 트랜스포머의 딥러닝 알고리즘을 사용하여 주변 환경 소리에 대한 오디오 캡셔닝을 자동으로 수행하고 한글화된 출력 결과를 제공하는 모델을 제시한다. 본 연구 결과, 모델의 성능 평가 척도인 SPIDEr 점수는 0.1977이 나왔다.

  • PDF

청각장애인을 위한 감성자막에 관한 연구 (A Study on the Emotional Caption System for Auditory Disabled Person)

  • 장성모;배영임;안영기;이상문
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.195-198
    • /
    • 2011
  • 현재 출시되어 있는 대부분의 콘텐츠들은 일반인들의 감각, 감성 욕구를 채워주고 있다. 하지만 사회의 소외계층인 장애인들을 위한 콘텐츠는 그리 많지 않으며 배제되어 왔다. 이 논문에서는 시각 장애인들을 위한 감성 전달 서비스 기법을 제시하였다. 기존의 콘텐츠는 자막 단순화로 인해 소리를 들을 수 없는 청각장애인들에게 매우 불편함을 주고 있다. 따라서 이 논문에서는 청각 장애인은 물론 일반인들에게도 소리를 들을 수 없는 환경에서 최적의 감성 전달 서비스를 제공할 수 있는 감성 지원 캡션시스템을 구현하여 제시한다.

  • PDF

스포츠 하이라이트 생성 (Sports Highlight Abstraction)

  • 김미호;신성윤;전근환;이양원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.1233-1236
    • /
    • 2001
  • 다양한 장르의 비디오 데이터에서 하이라이트를 생성하는 것은 짧게 요약된 하이라이트 비디오 신을 생성하고자 하는 멀티미디어 컨텐츠의 제작자나 사용자에게 중요한 역할을 제공한다. 본 논문에서는 새로운 비디오 하이라이트의 생성 방법과 내용 기반, 즉 이벤트 기반의 비디오 인덱싱 방법을 제시한다. 경기 종목으로는 골을 넣어 득점하는 축구, 농구 그리고 핸드볼을 대상으로 하였으며 골을 넣어 득점하는 하이라이트 샷을 추출하기 위해 이벤트 규칙을 사용하였다. 비디오 인덱싱에서는 비디오 데이터 자체의 시각적 정보와 캡션 정보를 모두 이용하였다.

  • PDF

옴니버스 형태의 동영상에서 태깅아이콘을 이용한 에피소스 분할 방법 (The Method of Episode Segmentation using Tagging-Icon on Video of Omnibus Type)

  • 주성일;최형일
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.117-119
    • /
    • 2010
  • 본 논문에서는 옴니버스 형태의 동영상을 각 프로그램 별로 자동 분할하는 방법에 대해 제안하고자 한다. 국내 TV 프로그램의 경우 대부분의 개그 프로그램에서는 코너 별로 상단 또는 하단의 일정 위치에 코너명을 캡션으로 삽입하여 옴니버스 형태의 영상을 서비스한다. 이러한 코너명을 태깅아이콘으로 하여 지속되는 구간을 검출하여 시작시점과 종료시점을 검출함으로써 동영상을 의미적으로 분할 할 수 있다. 하지만 태깅아이콘의 경우 매우 높은 투명도를 갖는 경우가 많으므로 본 연구에서는 에지와 시간적인 지속성을 이용하여 에피소드를 분할하는 방법을 제안하고, 옴니버스 형태의 다양한 개그 프로그램에 대해 실험하여 제안한 방법의 우수성을 보인다.

  • PDF

내용기반 비디오 색인 및 검색을 위한 음성인식기술 이용에 관한 연구 (A Study on the Use of Speech Recognition Technology for Content-based Video Indexing and Retrieval)

  • 손종목;배건성;강경옥;김재곤
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.16-20
    • /
    • 2001
  • 비디오 프로그램 색인 및 검색에 있어서 비디오 프로그램을 의미 있는 부분으로 분할하는 것, 즉 내용기반 비디오 프로그램 분할은 중요하다. 본 논문에서는 내용기반 비디오 프로그램 분할을 위해 음성인식기술을 이용하는 새로운 방법을 제안한다. 제안한 방법은 음성신호와 캡션 (Closed Caption)의 정확한 동기를 위해 음성인식 기법을 사용한다. 실험을 통하여 내용기반 비디오 프로그램 분할을 위해 제안한 방법의 가능성을 확인하였다.

  • PDF

텍스트-비디오 검색 모델에서의 캡션을 활용한 비디오 특성 대체 방안 연구 (A Study on the Alternative Method of Video Characteristics Using Captioning in Text-Video Retrieval Model)

  • 이동훈;허찬;박혜영;박상효
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.347-353
    • /
    • 2022
  • In this paper, we propose a method that performs a text-video retrieval model by replacing video properties using captions. In general, the exisiting embedding-based models consist of both joint embedding space construction and the CNN-based video encoding process, which requires a lot of computation in the training as well as the inference process. To overcome this problem, we introduce a video-captioning module to replace the visual property of video with captions generated by the video-captioning module. To be specific, we adopt the caption generator that converts candidate videos into captions in the inference process, thereby enabling direct comparison between the text given as a query and candidate videos without joint embedding space. Through the experiment, the proposed model successfully reduces the amount of computation and inference time by skipping the visual processing process and joint embedding space construction on two benchmark dataset, MSR-VTT and VATEX.

심층 네트워크의 과계산 문제에 대한 고찰 (A study on the Problems of Overcomputation in Deep Networks)

  • 박다솔;손정우;김선중;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.120-124
    • /
    • 2019
  • 딥러닝은 자연어처리, 이미지 처리, 음성인식 등에서 우수한 성능을 보이고 있다. 그렇지만 복잡한 인공신경망 내부에서 어떠한 동작이 일어나는지 검증하지 못하고 있다. 본 논문에서는 비디오 캡셔닝 분야에서 인공신경망 내부에서 어떠한 동작이 이루어지는지 검사한다. 이를 위해서 우리는 각 단계에서 출력층을 추가하였다. 출력된 결과를 검토하여 인공 신경망의 정상동작 여부를 검증한다. 우리는 한국어 MSR-VTT에 적용하여 우리의 방법을 평가하였다. 이러한 방법을 통해 인공 신경망의 동작을 이해하는데 도움을 줄 수 있을 것으로 기대된다.

  • PDF