• 제목/요약/키워드: Captions

검색결과 64건 처리시간 0.029초

유사도 기반 이미지 캡션을 이용한 시각질의응답 연구 (Using similarity based image caption to aid visual question answering)

  • 강준서;임창원
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.191-204
    • /
    • 2021
  • 시각질의응답과 이미지 캡셔닝은 이미지의 특징과 문장의 언어적인 특징을 이해하는 것을 요구하는 작업이다. 따라서 두 가지 작업 모두 이미지와 텍스트를 연결해 줄 수 있는 공동 어텐션이 핵심이라고 할 수 있다. 본 논문에서는 MSCOCO 데이터 셋에 대하여 사전 훈련된 transformer 모델을 이용 하여 캡션을 생성한 후 이를 활용해 시각질의응답의 성능을 높이는 모델을 제안하고자 한다. 이때 질 문과 관계없는 캡션은 오히려 시각질의응답에서 답을 맞히는데 방해가 될 수 있기 때문에 질문과의 유사도를 기반으로 질문과 유사한 일부의 캡션을 활용하도록 하였다. 또한 캡션에서 불용어는 답을 맞히는데 영향을 주지 못하거나 방해가 될 수 있기 때문에 제거한 후에 실험을 진행하였다. 기존 시 각질의응답에서 이미지와 텍스트간의 공동 어텐션을 활용하여 좋은 성능을 보였던 deep modular co-attention network (MCAN)과 유사도 기반의 선별된 캡션을 사용하여 VQA-v2 데이터에 대하여 실험을 진행하였다. 그 결과 기존의 MCAN모델과 비교하여 유사도 기반으로 선별된 캡션을 활용했을 때 성능 향상을 확인하였다.

LSTM을 이용한 한국어 이미지 캡션 생성 (Generate Korean image captions using LSTM)

  • 박성재;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

글자가 움직이는 동영상 자막 편집 어플리케이션 개발 (Development of Video Caption Editor with Kinetic Typography)

  • 하예영;김소연;박인선;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제17권3호
    • /
    • pp.385-392
    • /
    • 2014
  • 본 논문에서는 사용자가 스마트폰을 이용하여 직접 찍은 동영상에 움직이는 자막을 즉석에서 간편하게 편집할 수 있는 안드로이드 어플리케이션인 VIVID를 개발하였다. VIVID를 통해 휴대폰에 저장된 동영상에 원하는 자막의 시간, 텍스트, 위치, 모션(자막의 움직임)을 간편하게 설정할 수 있으며, 결과물을 html 형식으로 웹 서버에 업로드하여 다른 사람들과 함께 공유할 수 있게 하였다.

Knowledge-Based Numeric Open Caption Recognition for Live Sportscast

  • Sung, Si-Hun
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.1871-1874
    • /
    • 2003
  • Knowledge-based numeric open caption recognition is proposed that can recognize numeric captions generated by character generator (CG) and automatically superimpose a modified caption using the recognized text only when a valid numeric caption appears in the aimed specific region of a live sportscast scene produced by other broadcasting stations. in the proposed method, mesh features are extracted from an enhanced binary image as feature vectors, then a valuable information is recovered from a numeric image by perceiving the character using a multiplayer perceptron (MLP) network. The result is verified using knowledge-based hie set designed for a more stable and reliable output and then the modified information is displayed on a screen by CG. MLB Eye Caption based on the proposed algorithm has already been used for regular Major League Base-ball (MLB) programs broadcast five over a Korean nationwide TV network and has produced a favorable response from Korean viewer.

  • PDF

고속 음성 문서 검색을 위한 Expected Matching Score 기반의 문서 확장 기법 (Expected Matching Score Based Document Expansion for Fast Spoken Document Retrieval)

  • 서민구;정규준;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 추계학술대회 발표논문집
    • /
    • pp.71-74
    • /
    • 2006
  • Many works have been done in the field of retrieving audio segments that contain human speeches without captions. To retrieve newly coined words and proper nouns, subwords were commonly used as indexing units in conjunction with query or document expansion. Among them, document expansion with subwords has serious drawback of large computation overhead. Therefore, in this paper, we propose Expected Matching Score based document expansion that effectively reduces computational overhead without much loss in retrieval precisions. Experiments have shown 13.9 times of speed up at the loss of 0.2% in the retrieval precision.

  • PDF

청각 장애인을 위한 자막방송 시스템 구현 (Implement closed captioning systems for the deaf)

  • 김민호;강효순
    • 한국게임학회 논문지
    • /
    • 제16권1호
    • /
    • pp.103-110
    • /
    • 2016
  • 청각장애인의 시청각 매체인 TV이용에 있어서 문제가 되는 것은 소리를 들을 수 없기 때문에 프로그램 내용의 이해도가 현저히 떨어진다는 것이다. 그 이해도를 증대시켜 접근의 편의성을 높일 수 있는 연구의 필요성을 가지게 된다. 본 논문에서는 자막방송에 대해 자막을 자동으로 생성하는 방법을 제안하였다.

음성인식과 변경된 동적계획법을 이용한 VOD 콘텐트와 자막의 동기화 (Synchronization of VOD Content and Captions Using Speech Recognition and Modified Dynamic Programming)

  • 오주현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.131-134
    • /
    • 2021
  • 지상파 방송에서는 청각장애인을 위해 폐쇄자막(closed caption) 서비스가 제공되고 있지만, 이를 저장하여 VOD 서비스 등에 제공하고자 할 때는 영상과의 비동기화(desynchronization) 문제로 인해 활용할 수 없는 문제가 있다. 본 논문에서는 이를 해결하기 위해 자동 음성인식(automatic speech recognition)과, 자막 동기화 문제에 맞게 변경된 동적계획법(modified dynamic programming)을 이용하는 방법을 제안한다. 문자열 정렬에서 삽입과 삭제 등 간격(gap)의 발생을 제어하는 제약조건과 그에 따른 점수 구조를 적용함으로써 문자열 정렬 성능을 개선한다. 또한 정렬된 폐쇄자막과 음성인식 문자열로부터 시간 동기정보를 복원하고 동기화된 자막을 생성하는 방법을 제안한다. 실제 TV 프로그램과 자막에 적용하여 기존 방법에 비해 성능의 향상이 있음을 확인하였다.

  • PDF

Villard de Honnecourt: 스케치북의 저자와 특성 (Villard de Honnecourt: the Characteristics and Authors of the Sketchbook)

  • 홍성우
    • 건축역사연구
    • /
    • 제7권3호
    • /
    • pp.107-120
    • /
    • 1998
  • Even though Gothic architecture, one of the most technologically complex sophisticated structural systems, has been interpreted by art and architectural historians since the nineteenth century, we still cannot entirely comprehend either the medieval builder's constructional technique and structural knowledge or the meaning of Gothic architectural elements. The major reason is that contemporaneous written documentation concerning design methods and constructional techniques of medieval architecture is lacking. In 1955, the Bibliotheque Nationale in Paris exhibited the sketchbook of the thirteenth century architect Villard do Honnecourt. After the exhibition, analysis on the architectural drawings of Villard's sketchbook had reported widely. Most of analysis on Villard, however, has been on his drawing and artistic style, and there has been very little published analysis of his profession and question on the author of the sketchbook. Thus, the purpose of this study is to investigate the characteristics of the sketchbook and identify the artist who drew it. The sketchbook poses a number of unsolved questions. There is no doubt that several hands have contributed some drawing with appropriate captions, particularly in the section devoted to the application of practical geometry to problems of masonry and carpentry. Scholars have assumed and revealed that it was not made by only one person, and it dealt too many different fields and styles. Through this study, the sketchbook drawings consist of five different styles and person (original painter, master1, master2, master3, and the last owner), and they, not Villard, just redrew the original drawings and bound the sketchbook. Therefore, Villard de Honnecourt was just a mentor of the sketchbook and he did not participate any writing and drawing in the sketchbook.

  • PDF

하이퍼네트워크 모델을 이용한 비전-언어 크로스모달 연관정보 추출 (Extraction Analysis for Crossmodal Association Information using Hypernetwork Models)

  • 허민오;하정우;장병탁
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.278-284
    • /
    • 2009
  • 하나의 컨텐츠를 위해 동영상, 이미지, 소리, 문장과 같은 하나 이상의 모달리티로 전달하는 멀티모달 데이터가 증가하고 있다. 이러한 형태의 자료들은 잘 정의되지 않은 형태를 주로 가지기 때문에, 모달리티 간의 정보가 명백히 표현되지 못하는 경우가 많았다. 그래서, 본 연구에서 저자들은 자연계를 다루는 다큐멘터리 동영상 데이터를 이용하여 비전-언어 간의 상호 연관정보인 크로스모달 연관정보를 추출하고 분석하는 방법을 제시하였다. 이를 위해 정글, 바다, 우주의 세 가지 주제로 구성된 다큐멘터리로부터 이미지와 자막의 조합으로 이루어진 데이터를 모은 후, 그로부터 시각언어집합과 문장언어집합을 추출하였다. 분석을 통하여, 이 언어집합들간의 상호 크로스 모달 연관정보를 통해 생성된 다른 모달리티 데이터가 의미적으로 서로 관련이 있음을 확인할 수 있었다.

  • PDF

작은 생물을 연구하는 과학자에 대한 초등학생들의 인식 및 이미지 분석 (Perceptions and Image Analysis of Elementary Students on Scientists studying Small Organisms)

  • 최영미;홍승호
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제33권4호
    • /
    • pp.655-673
    • /
    • 2014
  • We investigated perceptions and image analysis on scientists studying small organisms reflected in elementary student's drawing using a modified version of the Drawing-A-Scientist-Test. The participants were 530 of fifth and sixth graders consisted of 449 ordinary students and 81 science gifted students. The data were collected from associated words, images and explanatory notes depicted by students engaged in questionnaires. The results indicated that a larger number of students reminded small sized animals and/or plants as words associated with small organisms. In addition, some students depicted anthropomorphic or abstract microorganisms. In this study, more stereotypes of scientists' appearance were exhibited at sixth graders and city region group. Most of the students depicted indicators such as lab coat, glasses, scientific instruments for observing, indoor, male and young, whereas only a few students depicted collaborative work. There was statistically significant difference between girls and boys, because boys perceived male scientists only, while half of girls depicted female. More frequent research instruments and scientific captions were used when science gifted students depicted scientists studying small organisms. These results could be contributed to education on microorganisms in elementary science.