• 제목/요약/키워드: 내용기반이미지검색

검색결과 244건 처리시간 0.039초

주요 색상의 분포 블록기호를 이용한 영상검색과 유사도 피드백을 통한 이미지 검색 (Image Retrieval using Distribution Block Signature of Main Colors' Set and Performance Boosting via Relevance feedback)

  • 박한수;유헌우;장동식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권2호
    • /
    • pp.126-136
    • /
    • 2004
  • 이 논문은 색상과 위치정보를 이용한 새로운 내용기반 영상검색 알고리즘을 제안한다. 이를 위해서. 질의가 주어졌을 경우, 데이타베이스의 검색공간을 줄일 목적으로 두 가지 종류의 색인 키(Key)를 제시하는데 하나는 영상의 고유한 색상 구성적 특성을 나타내는 주요 색상세트(MCS, Main Colors' Set)이고 다른 하나는 주요 색상마다의 분포 및 위치적 특성을 나타내는 분포 블록기호(DBS, Distribution Block Signature)이다. 이 두 가지 필터(Filter)를 연속적으로 적용하면 영상 데이터베이스로부터 잠재성이 높은 유사 후보 영상만을 걸러내게 된다. 이어서 보다 높은 검색성능을 얻기 위해 새롭게 제안한 쿼드모델 (Quad Modeling)과 유사도 피드백 메커니즘을 이용한다. 이 방법은 색상과 위치정보에 대한 가중치를 역동적으로 조절함으로써 검색성능을 향상시킨다. 실험을 통해서 제안된 알고리즘이 성공적으로 영상검색에 사용될 수 있음을 보인다.

사용자 편의성과 효율성을 증진하기 위한 신뢰도 높은 이미지-텍스트 융합 CAPTCHA (Reliable Image-Text Fusion CAPTCHA to Improve User-Friendliness and Efficiency)

  • 문광호;김유성
    • 정보처리학회논문지C
    • /
    • 제17C권1호
    • /
    • pp.27-36
    • /
    • 2010
  • 웹 서비스 신청 단계에서 신청자가 실제 인간 사용자임을 확인하기 위해 사용되는 텍스트 기반 캡차(text-based CAPTCHA)의 변형된 문자를 광학문자인식 기술로 파악하는 것이 가능하기에 캡차의 신뢰성이 떨어지는 문제가 발생하고 있다. 이 문제를 해결하기 위해 제안되었던 기존의 이미지 기반 캡차(image-based CAPTCHA)에서도 여러 문제점이 존재한다. 인공지능 프로그램을 사용하여 시스템이 보유하고 있는 제한된 수의 이미지 내용을 파악함으로써 신뢰도가 떨어지는 문제가 발생할 수 있으며, 제공된 이미지에 대해 사용자가 다른 유사한 단어를 입력하는 경우에는 오답으로 판정되어 반복적으로 캡차를 시도해야 하는 불편함이 발생 할 수 있으며 또한, 사용자에게 캡차 문제를 제공하기 위해 여러 이미지 파일을 전송해야 하기에 전송 비용의 비효율성 문제가 존재한다. 이러한 기존 이미지 기반 캡차의 문제점들을 해결하기 위해 본 논문에서는 이미지와 관련 키워드 일부를 융합하여 제공하는 이미지-텍스트 융합 캡차를 제안하였다. 본 논문에서 제안한 이미지-텍스트 융합 캡차에서는 이미지와 관련된 단어의 일부분을 힌트로 활용하여 쉽게 정답을 입력할 수 있도록 사용자 편리성을 제공하며 이미지와 텍스트를 한 이미지 파일 내에 융합시켰기 때문에 전송 비용을 절약하여 효율성을 증진할 수 있다. 또한, 캡차 시스템의 신뢰성 증진을 위해 인터넷 검색으로 캡차용 이미지를 대량으로 수집하도록 하였으며 수집되는 캡차 이미지의 정확성을 유지하기 위해 필터링 과정을 거치도록 하였다. 또한, 본 논문에서는 실제 실험을 통해 제안된 이미지-텍스트 융합 캡차가 기존 이미지 기반 캡차보다 사용자에게 편리하고 신뢰성이 증진될 수 있음을 입증하였다.

미디엄 숏 검출에 관한 연구 (A Study of Medium Shot Detection)

  • 이형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.93-95
    • /
    • 2023
  • 본 논문에서는 장편의 드라마나 영화에서 스토리 기반의 축약된 요약본을 자동으로 제작하기 위해 미디엄 숏(medium shot) 크기의 숏(shot)들을 추출하기 위한 방법을 고려한다. 미디엄 숏 정도의 크기는 보통 인물에 중심을 둔 숏들로 인물들 간의 관계에서 특히 대사나 표정으로 내용을 전달하기 위한 목적으로 적극 권장된다. 비디오 검색을 위한 인덱싱에서 신(scene) 전환 검출 및 숏 경계 검출, 그리고 이미지에서 심도와 초점기반의 화질 및 피사체 추출 등을 위해 전통적인 신호/영상처리 기법의 활용에서부터 최근의 기계학습 접목 등 다양한 연구들이 진행되고 있다. 영상문법에 근거하여 편집된 영상물에서 미디엄 숏 정도 크기의 숏들을 추출하여 배열한다면 어느 정도 원본 내용을 충실히 전달할 수 있는 축약된 요약본을 제작할 수 있다는 가정하에 해당 샷들을 블러(blur) 기반으로 검출하기 위해 이와 관련된 키워드들을 기반으로 기존 연구들을 살펴보고 적용 방법을 모색한다.

  • PDF

모바일 랜드마크 가이드 : LOD와 문맥적 장치 기반의 실외 증강현실 (A Mobile Landmarks Guide : Outdoor Augmented Reality based on LOD and Contextual Device)

  • 조비성;누르지드;장철희;이기성;조근식
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.1-21
    • /
    • 2012
  • 최근 스마트폰의 등장으로 인해 사용자들은 시간과 공간의 제약 없이 스마트폰을 이용한 새로운 의사소통의 방법을 경험하고 있다. 이러한 스마트폰은 고화질의 컬러화면, 고해상도 카메라, 실시간 3D 가속그래픽과 다양한 센서(GPS와 Digital Compass) 등을 제공하고 있으며, 다양한 센서들은 사용자들(개발자, 일반 사용자)로 하여금 이전에 경험하지 못했던 서비스를 경험할 수 있도록 지원하고 있다. 그 중에서 모바일 증강현실은 스마트폰의 다양한 센서들을 이용하여 개발할 수 있는 대표적인 서비스 중 하나이며, 이러한 센서들을 이용한 다양한 방법의 모바일 증강현실 연구들이 활발하게 진행되고 있다. 모바일 증강현실은 크게 위치 정보 기반의 서비스와 내용 기반 서비스로 구분할 수 있다. 위치 정보 기반의 서비스는 구현이 쉬운 장점이 있으나, 증강되는 정보의 위치가 실제의 객체의 정확한 위치에 증강되는 정보가 제공되지 않는 경우가 발생하는 단점이 존재한다. 이와 반대로, 내용 기반 서비스는 정확한 위치에 증강되는 정보를 제공할 수 있으나, 구현 및 데이터베이스에 존재하는 이미지의 양에 따른 검색 속도가 증가하는 단점이 존재한다. 본 논문에서는 위치 정보 기반의 서비스와 내용기반의 서비스의 장점들을 이용한 방법으로, 스마트폰의 다양한 센서(GPS, Digital Compass)로 부터 수집된 정보를 이용하여 데이터베이스의 탐색 범위를 줄이고, 탐색 범위에 존재하는 이미지들의 특징 정보를 기반으로 실제의 랜드마크를 인식하고, 인식한 랜드마크의 정보를 링크드 오픈 데이터(LOD)에서 검색하여 해당 정보를 제공하는 랜드마크 가이드 시스템을 제안한다. 제안하는 시스템은 크게 2개의 모듈(랜드마크 탐색 모듈과 어노테이션 모듈)로 구성되어있다. 첫 번째로, 랜드마크 탐색 모듈은 스마트폰으로 인식한 랜드마크(건물, 조형물 등)에 해당하는 정보들을 (텍스트, 사진, 비디오 등) 링크드 오픈 데이터에서 검색하여 검색된 결과를 인식한 랜드마크의 정확한 위치에 정보를 제공하는 역할을 한다. 스마트폰으로부터 입력 받은 이미지에서 특징점 추출을 위한 방법으로는 SURF 알고리즘을 사용했다. 또한 실시간성을 보장하고 처리 속도를 향상 시키기 위한 방법으로는 입력 받은 이미지와 데이터베이스에 있는 이미지의 비교 연산을 수행할 때 GPS와 Digital Compass의 정보를 사용하여 그리드 기반의 클러스터링을 생성하여 탐색 범위를 줄임으로써, 이미지 검색 속도를 향상 시킬 수 있는 방법을 제시하였다. 두 번째로 어노테이션 모듈은 사용자들의 참여에 의해서 새로운 랜드마크의 정보를 링크드 오픈 데이터에 추가할 수 있는 기능을 제공한다. 사용자들은 키워드를 이용해서 링크드 오픈 데이터로에서 관련된 주제를 검색할 수 있으며, 검색된 정보를 수정하거나, 사용자가 지정한 랜드마크에 해당 정보를 표시할 수 있도록 지정할 수 있다. 또한, 사용자가 지정하려고 하는 랜드마크에 대한 정보가 존재하지 않는다면, 사용자는 랜드마크의 사진을 업로드하고, 새로운 랜드마크에 대한 정보를 생성하는 기능을 제공한다. 이러한 과정은 시스템이 카메라로부터 입력 받은 대상(랜드마크)에 대한 정확한 증강현실 컨텐츠를 제공하기 위해 필요한 URI를 찾는데 사용되며, 다양한 각도의 랜드마크 사진들을 사용자들에 의해 협업적으로 생성할 수 있는 환경을 제공한다. 본 연구에서 데이터베이스의 탐색 범위를 줄이기 위해서 랜드마크의 GPS 좌표와 Digital Compass의 정보를 이용하여 그리드 기반의 클러스터링 방법을 제안하여, 그 결과 탐색시간이 기존에는 70~80ms 걸리는 반면 제안하는 방법을 통해서는 18~20ms로 약 75% 정도 향상된 것을 확인할 수 있었다. 이러한 탐색시간의 감소는 전체적인 검색시간을 기존의 490~540ms에서 438~480ms로 약 10% 정도 향상된 것을 확인하였다.

SIFT와 트리구조를 이용한 내용기반 물체인식 (Object Recognition using SIFT and Tree Structure)

  • 주정경;이현창
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제38차 하계학술발표논문집 16권1호
    • /
    • pp.33-38
    • /
    • 2008
  • 최근 컴퓨터비전이나 로봇 공학 분야에서 가격이 저렴한 웹캠을 이용한 영상, 즉 2차원 영상으로부터 물체를 인식하는 연구가 활발히 이루어지고 있다. 이러한 로봇이나 비전에서 물체를 찾아내는 여러 가지 방향들이 제시되고 있으며, 지속적으로 로봇은 사람과 유사해져가고 있다. 이를 실현하기 위해서는 사람이 사과를 보고 사과라고 알기 때문에 사과라고 인식하듯이 로봇 또한 미리 알고 있어야 한다는 가정 하에 내용기반의 물체인식이 필요하다. 그러나 엄청난 양의 내용의 데이터베이스가 필요하다. 그래서 용량은 하드웨어기술로 커버가 가능하지만 화면상에 있는 물체들을 빠르게 데이터베이스상의 자료와 매칭이 되어야한다. 본 논문에서는 이미지를 SIFT(Scale Invariant Feature Transform)알고리즘으로 BTS(Binary Search Tree)로 트리구조의 데이터베이스를 구축하여 많은 양의 데이터베이스 중 빠르게 검색하여 화면에 있는 물체를 인식하는 방법을 제안하였다.

  • PDF

이미지 및 비디오 메타데이터에 관한 연구 (A Study on Metadata for Images and Videos)

  • 임은주;김성희
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2005년도 제12회 학술대회 논문집
    • /
    • pp.117-124
    • /
    • 2005
  • 이미지와 비디오가 효율적으로 검색되고 이용되기 위해서는 메타데이터가 구조적으로 기술될 필요가 있다. 본 논문에서는 메타데이터 구축 체계의 기반으로 MPEG-7과 Plateau, ViMod에 대해 분석하였다. MPEG-7에서는 저작 및 생산, 이용, 컨텐츠의 구조적, 개념적 측면 등과 같은 다양한 관점에서 시청각 정보가 기술된다. Plateau는 다양한 응용 분야에 적합하도록 모델링 하였기 때문에 모델이 간단명료하고 응용분야에서는 전문성을 띠고 있으나 범용성이 부족하다는 단점이 있다. ViMod는 질의의 특성을 질의의 확실성, 질의의 차원성, 데이터 의존성 관점에서 정지영상과 비디오 영상으로 분류하고 그 하위 레벨을 내용 의존적인 영상과 내용 독립적인 영상으로 분류하였다.

  • PDF

영화 비디오 자막 추출 및 추출된 자막 이미지 향상 방법 (Methods for Video Caption Extraction and Extracted Caption Image Enhancement)

  • 김소명;곽상신;최영우;정규식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.235-247
    • /
    • 2002
  • 디지털 비디오 영상을 효과적으로 색인하고 검색하기 위해서 비디오의 내용을 함축적으로 표현하고 있는 비디오 자막을 추출하여 인식하는 연구가 필요하다. 본 논문에서는 압축되지 않은 비디오 영화 영상에 인위적으로 삽입한 한글 및 영어 자막을 대상으로 자막 영역을 추출하고, 추출된 자막 이미지를 향상시키는 방법을 제안한다. 제안한 방법의 특징은 동일한 내용의 자막을 갖는 프레임들의 위치를 자동으로 찾아서 동일 자막 프레임들을 다중 결합하여 배경에 포함되어 있는 잡영의 일부 또는 전부를 우선 제거한다. 또한, 이 결과 이미지에 해상도 중대, 히스토그램 평활화, 획 기반 이진화, 스무딩의 이미지 향상 방법을 단계적으로 적용하여 인식 가능한 수준의 이미지로 향상시킨다. 제안한 방법을 비디오 영상에 적용하여 동일한 내용의 자막 그룹 단위로 자막 이미지를 추출하는 것이 가능해졌으며, 잡영이 제거되고 복잡한 자소의 획이 보존된 자막 이미지를 추출할 수 있었다. 동일한 내용의 자막 프레임의 시작 및 글위치를 파악하는 것은 비디오 영상의 색인과 검색에 유용하게 활용될 수 있다. 한글 및 영어 비디오 영화 자막에 제안한 방법을 적용하여 향상된 문자 인식 결과를 얻었다.

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF

다해상도 이미지 분할을 이용한 영상 검색 (Image retrieval using multiresolution image partition)

  • 안일환;김우성;이인수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.874-878
    • /
    • 2000
  • 본 논문에서는 내용 기반 영상 검색 방법 중 "외각선 영역의 색상 분포에 의한 영상 검색"을 제안한다. 영상의 변화가 큰 곳은 해상도를 높게, 낮은 곳은 해상도를 낮게 데이터를 샘플링하여 비교할 데이터의 양을 줄이고, 외각선 영역의 색상을 검출하는데 사용한다. 이때 에지 트리(Edge Tree)를 이용하여 에지(Edge)의 위치 정보와 색상 정보를 유지하며, 검색을 가능하게 하였다. 이와 같은 방법을 사용해서 원하는 영상을 찾을 수 있음을 확인하였다.

  • PDF

키 프레임의 주석과 비교 영역 학습을 이용한 비디오 검색 시스템의 구현 (Implementation of a Video Retrieval System Using Annotation and Comparison Area Learning of Key-Frames)

  • 이근왕;김희숙;이종희
    • 한국멀티미디어학회논문지
    • /
    • 제8권2호
    • /
    • pp.269-278
    • /
    • 2005
  • 비디오 데이터를 효율적으로 처리하기 위해서는 비디오 데이터가 가지고 있는 내용에 대한 정보를 데이터베이스에 저장하고 사용자들의 다양한 질의를 처리할 수 있는 의미기반 검색 기법이 요구된다. 본 논문에서는 사용자의 키워드 학습과 비교 영역 학습을 이용하여 대용량의 비디오 데이터에 대한 사용자의 다양한 의미검색을 지원하는 에이전트 기반에서의 자동화된 비디오 검색 시스템을 제안한다. 사용자의 기본적인 질의와 질의에 의해 추출된 키 프레임의 이미지를 선택함으로써 에이전트는 추출된 키 프레임의 주석에 대한 의미를 더욱 구체화시킨다. 또한, 사용자에 의해 선택된 키 프레임은 질의 이미지가 되어 색상 히스토그램 비교기법과 제안하는 비교 영역 학습 기법을 통해 가장 유사한 키 프레임을 검색한다. 설계하고 구현한 시스템은 실험을 통한 성능평가에서 $93\%$ 이상의 높은 정확도를 보였다.

  • PDF