• 제목/요약/키워드: 이미지 캡션

검색결과 24건 처리시간 0.022초

심층 네트워크의 과계산 문제에 대한 고찰 (A study on the Problems of Overcomputation in Deep Networks)

  • 박다솔;손정우;김선중;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.120-124
    • /
    • 2019
  • 딥러닝은 자연어처리, 이미지 처리, 음성인식 등에서 우수한 성능을 보이고 있다. 그렇지만 복잡한 인공신경망 내부에서 어떠한 동작이 일어나는지 검증하지 못하고 있다. 본 논문에서는 비디오 캡셔닝 분야에서 인공신경망 내부에서 어떠한 동작이 이루어지는지 검사한다. 이를 위해서 우리는 각 단계에서 출력층을 추가하였다. 출력된 결과를 검토하여 인공 신경망의 정상동작 여부를 검증한다. 우리는 한국어 MSR-VTT에 적용하여 우리의 방법을 평가하였다. 이러한 방법을 통해 인공 신경망의 동작을 이해하는데 도움을 줄 수 있을 것으로 기대된다.

  • PDF

이미지 검색: 정보과다 환경에서의 접근과 이용 (Image Retrieval: Access and Use in Information Overload)

  • 박민수
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.703-708
    • /
    • 2022
  • 학술문헌의 표와 그림에는 중요하고 가치 있는 정보가 포함되어 있다. 표와 그림은 정제된 연구의 본질을 나타내며 이는 원시 데이터세트에 가장 가까운 것이라 할 수 있다. 그렇다면, 연구자들은 검색시스템을 통하여 이러한 이미지 데이터에 쉽게 접근하여 활용할 수 있는가? 본 연구에서는 이용자연구 문헌조사와 국내외 사례조사 분석을 통하여, 이미지 데이터에 대한 이용자 인식 및 니즈를 파악하고 이미지 검색시스템에 대한 잠재적인 기대효과 및 활용방안을 모색해보고자 한다. 대다수의 연구자들은 표 및 그림 색인 기능과 기존 검색 기능을 결합한 시스템을 선호하는 것으로 나타났다. 특정 개체 유형(그림 및 표)으로 검색을 제한할 수 있는 고급 검색 기능의 제공을 매우 중요하게 평가했다. 이와 관련하여, 그림과 표에 대한 검색 제한의 구현에 가장 높은 만족도를 주었다. 전반적으로, 연구자들은 표와 그림을 색인화하는 시스템의 많은 잠재적 용도를 발견할 수 있었다. 교육, 발표, 연구 및 학습을 위한 정보와 특수한 유형의 정보를 찾는 데 도움이 될 수 있는 것으로 나타났다. 이러한 시스템의 유용성은 기능이 기존 시스템에 통합되고 풀텍스트에 원활하게 연결되며 완전한 캡션이 있는 고품질 이미지를 포함하는 경우 가장 높게 나타났다. 이용자 중심 이미지 검색시스템에 대한 기대효과와 활용방안 또한 논의되었다.

MPEG-2 압축 동영상 정보 관리 시스템의 설계 및 구현 (Design and Implementation of MPEG-2 Compressed Video Information Management System)

  • 허진용;김인홍;배종민;강현석
    • 한국정보처리학회논문지
    • /
    • 제5권6호
    • /
    • pp.1431-1440
    • /
    • 1998
  • 동영상 정보는 자료의 양이 방대하고 다양하여 압축된 형태로 저장하고 검색하는 것이 매우 중요하다. 본 논문에서는 동영상 문서의 구조를 추출하고 동영상 스트림의 인데싱에 대한 의미를 부여할 수 있는 일반적인 데이터 모델을 제시하고, 이 모델을 이용하여 MPEG-2로 압축된 동영상 자료를 데이터베이스에 저장하고 검색하는 MPEG-2 압축 동영상 정보 관리 시스템(CVIMS, Compressed Video Information Management System)을 제안한다. CVIMS는 MPEG-2 파일에서 I-프레임들을 추출하고, 그 중에서 키 프레임(대표 이미지)을 선택한 후, 선택된 키 프레임에 대한 축소그림(thumbnail)과 캡션 및 그림 설명 정보를 데이터베이스에 저장한다. 그리고 데이터베이스에 저장된 MPEG-2 동영상을 질의어나 키 프레임을 통해 검색한다.

  • PDF

Bi-GRU 이미지 캡션의 서술 성능 향상을 위한 Parallel Injection 기법 연구 (Parallel Injection Method for Improving Descriptive Performance of Bi-GRU Image Captions)

  • 이준희;이수환;태수호;서동환
    • 한국멀티미디어학회논문지
    • /
    • 제22권11호
    • /
    • pp.1223-1232
    • /
    • 2019
  • The injection is the input method of the image feature vector from the encoder to the decoder. Since the image feature vector contains object details such as color and texture, it is essential to generate image captions. However, the bidirectional decoder model using the existing injection method only inputs the image feature vector in the first step, so image feature vectors of the backward sequence are vanishing. This problem makes it difficult to describe the context in detail. Therefore, in this paper, we propose the parallel injection method to improve the description performance of image captions. The proposed Injection method fuses all embeddings and image vectors to preserve the context. Also, We optimize our image caption model with Bidirectional Gated Recurrent Unit (Bi-GRU) to reduce the amount of computation of the decoder. To validate the proposed model, experiments were conducted with a certified image caption dataset, demonstrating excellence in comparison with the latest models using BLEU and METEOR scores. The proposed model improved the BLEU score up to 20.2 points and the METEOR score up to 3.65 points compared to the existing caption model.