• 제목/요약/키워드: Captions

검색결과 64건 처리시간 0.022초

영화 비디오 자막 추출 및 추출된 자막 이미지 향상 방법 (Methods for Video Caption Extraction and Extracted Caption Image Enhancement)

  • 김소명;곽상신;최영우;정규식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.235-247
    • /
    • 2002
  • 디지털 비디오 영상을 효과적으로 색인하고 검색하기 위해서 비디오의 내용을 함축적으로 표현하고 있는 비디오 자막을 추출하여 인식하는 연구가 필요하다. 본 논문에서는 압축되지 않은 비디오 영화 영상에 인위적으로 삽입한 한글 및 영어 자막을 대상으로 자막 영역을 추출하고, 추출된 자막 이미지를 향상시키는 방법을 제안한다. 제안한 방법의 특징은 동일한 내용의 자막을 갖는 프레임들의 위치를 자동으로 찾아서 동일 자막 프레임들을 다중 결합하여 배경에 포함되어 있는 잡영의 일부 또는 전부를 우선 제거한다. 또한, 이 결과 이미지에 해상도 중대, 히스토그램 평활화, 획 기반 이진화, 스무딩의 이미지 향상 방법을 단계적으로 적용하여 인식 가능한 수준의 이미지로 향상시킨다. 제안한 방법을 비디오 영상에 적용하여 동일한 내용의 자막 그룹 단위로 자막 이미지를 추출하는 것이 가능해졌으며, 잡영이 제거되고 복잡한 자소의 획이 보존된 자막 이미지를 추출할 수 있었다. 동일한 내용의 자막 프레임의 시작 및 글위치를 파악하는 것은 비디오 영상의 색인과 검색에 유용하게 활용될 수 있다. 한글 및 영어 비디오 영화 자막에 제안한 방법을 적용하여 향상된 문자 인식 결과를 얻었다.

멀티모달 딥 러닝 기반 이상 상황 탐지 방법론 (Anomaly Detection Methodology Based on Multimodal Deep Learning)

  • 이동훈;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.101-125
    • /
    • 2022
  • 최근 컴퓨팅 기술의 발전과 클라우드 환경의 개선에 따라 딥 러닝 기술이 발전하게 되었으며, 다양한 분야에 딥 러닝을 적용하려는 시도가 많아지고 있다. 대표적인 예로 정상적인 데이터에서 벗어나는 값이나 패턴을 식별하는 기법인 이상 탐지가 있으며, 이상 탐지의 대표적 유형인 점 이상, 집단적 이상, 맥락적 이중 특히 전반적인 상황을 파악해야 하는 맥락적 이상을 탐지하는 것은 매우 어려운 것으로 알려져 있다. 일반적으로 이미지 데이터의 이상 상황 탐지는 대용량 데이터로 학습된 사전학습 모델을 사용하여 이루어진다. 하지만 이러한 사전학습 모델은 이미지의 객체 클래스 분류에 초점을 두어 생성되었기 때문에, 다양한 객체들이 만들어내는 복잡한 상황을 탐지해야 하는 이상 상황 탐지에 그대로 적용되기에는 한계가 있다. 이에 본 연구에서는 객체 클래스 분류를 학습한 사전학습 모델을 기반으로 이미지 캡셔닝 학습을 추가적으로 수행하여, 객체 파악뿐만 아니라 객체들이 만들어내는 상황까지 이해해야 하는 이상 상황 탐지에 적절한 2 단계 사전학습 모델 구축 방법론을 제안한다. 구체적으로 제안 방법론은 ImageNet 데이터로 클래스 분류를 학습한 사전학습 모델을 이미지 캡셔닝 모델에 전이하고, 이미지가 나타내는 상황을 설명한 캡션을 입력 데이터로 사용하여 학습을 진행한다. 이후 이미지와 캡션을 통해 상황 특질을 학습한 가중치를 추출하고 이에 대한 미세 조정을 수행하여 이상 상황 탐지 모델을 생성한다. 제안 방법론의 성능을 평가하기 위해 직접 구축한 데이터 셋인 상황 이미지 400장에 대해 이상 탐지 실험을 수행하였으며, 실험 결과 제안 방법론이 기존의 단순 사전학습 모델에 비해 이상 상황 탐지 정확도와 F1-score 측면에서 우수한 성능을 나타냄을 확인하였다.

이미지 검색: 정보과다 환경에서의 접근과 이용 (Image Retrieval: Access and Use in Information Overload)

  • 박민수
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.703-708
    • /
    • 2022
  • 학술문헌의 표와 그림에는 중요하고 가치 있는 정보가 포함되어 있다. 표와 그림은 정제된 연구의 본질을 나타내며 이는 원시 데이터세트에 가장 가까운 것이라 할 수 있다. 그렇다면, 연구자들은 검색시스템을 통하여 이러한 이미지 데이터에 쉽게 접근하여 활용할 수 있는가? 본 연구에서는 이용자연구 문헌조사와 국내외 사례조사 분석을 통하여, 이미지 데이터에 대한 이용자 인식 및 니즈를 파악하고 이미지 검색시스템에 대한 잠재적인 기대효과 및 활용방안을 모색해보고자 한다. 대다수의 연구자들은 표 및 그림 색인 기능과 기존 검색 기능을 결합한 시스템을 선호하는 것으로 나타났다. 특정 개체 유형(그림 및 표)으로 검색을 제한할 수 있는 고급 검색 기능의 제공을 매우 중요하게 평가했다. 이와 관련하여, 그림과 표에 대한 검색 제한의 구현에 가장 높은 만족도를 주었다. 전반적으로, 연구자들은 표와 그림을 색인화하는 시스템의 많은 잠재적 용도를 발견할 수 있었다. 교육, 발표, 연구 및 학습을 위한 정보와 특수한 유형의 정보를 찾는 데 도움이 될 수 있는 것으로 나타났다. 이러한 시스템의 유용성은 기능이 기존 시스템에 통합되고 풀텍스트에 원활하게 연결되며 완전한 캡션이 있는 고품질 이미지를 포함하는 경우 가장 높게 나타났다. 이용자 중심 이미지 검색시스템에 대한 기대효과와 활용방안 또한 논의되었다.

이미지 캡션 및 재귀호출을 통한 스토리 생성 방법 (Automated Story Generation with Image Captions and Recursiva Calls)

  • 전이슬;조동하;문미경
    • 융합신호처리학회논문지
    • /
    • 제24권1호
    • /
    • pp.42-50
    • /
    • 2023
  • 기술의 발전은 제작 기법, 편집 기술 등 미디어 산업 전반에 걸쳐 디지털 혁신을 이루어 왔고, OTT 서비스와 스트리밍 시대를 관통하며 소비자 관람 형태의 다양성을 가져왔다. 빅데이터와 딥러닝 네트워크의 융합으로 뉴스 기사, 소설, 대본 등 형식을 갖춘 글을 자동으로 생성하였으나 작가의 의도를 반영하고 문맥적으로 매끄러운 스토리를 생성한 연구는 부족하였다. 본 논문에서는 이미지 캡션 생성 기술로 스토리보드 속 사진의 흐름을 파악하고, 언어모델을 통해 이야기 흐름이 자연스러운 스토리를 자동 생성하는 것을 기술한다. 합성곱 신경망(CNN)과 주의 집중기법(Attention)을 활용한 이미지 캡션 생성 기술을 통해 스토리보드의 사진을 묘사하는 문장을 생성하고, 첫 번째 이미지 캡션을 KoGPT-2에 입력하여 생성된 새로운 글과 두 번째 이미지의 캡션을 다음 입력값으로 활용한 재귀적 접근 방안을 제안하여 전후 문맥이 자연스럽고 기획 의도에 맞는 스토리를 생성하는 연구를 진행한다. 본 논문으로 인공지능을 통해 작가의 의도를 반영한 스토리를 자동으로 대량 생성하여 콘텐츠 창작의 고통을 경감시키고, 인공지능이 디지털 콘텐츠 제작의 전반적인 과정에 참여하여 미디어 지능화를 활성화한다.