DOI QR코드

DOI QR Code

Semantic Image Annotation and Retrieval in Mobile Environments

모바일 환경에서 의미 기반 이미지 어노테이션 및 검색

  • No, Hyun-Deok (Division of Computer and Information Engineering., Hoseo University) ;
  • Seo, Kwang-won (Division of Computer and Information Engineering., Hoseo University) ;
  • Im, Dong-Hyuk (Division of Computer and Information Engineering., Hoseo University)
  • Received : 2016.07.21
  • Accepted : 2016.07.29
  • Published : 2016.08.30

Abstract

The progress of mobile computing technology is bringing a large amount of multimedia contents such as image. Thus, we need an image retrieval system which searches semantically relevant image. In this paper, we propose a semantic image annotation and retrieval in mobile environments. Previous mobile-based annotation approaches cannot fully express the semantics of image due to the limitation of current form (i.e., keyword tagging). Our approach allows mobile devices to annotate the image automatically using the context-aware information such as temporal and spatial data. In addition, since we annotate the image using RDF(Resource Description Framework) model, we are able to query SPARQL for semantic image retrieval. Our system implemented in android environment shows that it can more fully represent the semantics of image and retrieve the images semantically comparing with other image annotation systems.

Keywords

1. 서 론

최근 멀티미디어 데이터를 처리할 수 있는 하드웨어(스마트폰, 테블릿 PC 등)의 발달과 소셜 미디어 공유 사이트(페이스북, 인스타그램, 트위터 등)의 증가로 인하여 수많은 이미지들이 생성되고 있다. 이에 따라 생성된 대량의 이미지 콘텐츠를 관리하고 이미지를 효율적으로 검색할 수 있는 기술의 필요성이 증가하고 있다. 이미지에 대한 의미 정보를 자동으로 추가하여 이미지 내용을 표현하는 어노테이션 기법은 방대한 양의 이미지 데이터를 효과적으로 처리할 수 있는 방법이다[1-3]. 내용 기반 이미지 검색이 이미지가 가지는 색상 등의 시각적인 정보만을 다루는데 비해 이미지 어노테이션 기법은 이미지가 가지고 있는 의미 정보를 표현할 수 있는 장점을 가진다. 하지만 기존의 어노테이션 기법들은 이미지를 디지털 카메라 또는 모바일 기기에서 처리하는 것이 아니라 웹이나 이미지 처리 어플리케이션 환경에서 처리가 이루어지고 있다. 우리는 [4]에서 모바일 환경에서 의미 기반 이미지 어노테이션 및 검색 시스템에 대한 시스템 및 데이터베이스 설계를 제안하였다. 본 논문에서는 [4]의 설계를 바탕으로 모바일 기기에서 이미지를 의미적으로 어노테이션하고 검색할 수 있는 시스템 Moment(Mobile Semantic Image Annotation and Retrieval System)를 구현한다.

기존의 모바일 기기에서의 어노테이션은 단순히 모바일 기기의 시간 정보 등의 주변 상황 정보를 정형화된 표현으로 어노테이션하여 이를 활용하였다[5,6]. 이에 반해 본 연구에서는 모바일 기기의 상황정보와 사용자 입력 태그 정보를 추가하여 온톨로지 기반 어노테이션을 사용한다. 모바일 기기에서 자동으로 획득하는 시간 정보와 위치 정보를 온톨로지 언어인 RDF[7] 트리플의 그래프 데이터로 변환하여 어노테이션 한다. 추가적으로 사용자가 입력한 태그 정보를 DBPedia를 이용하여 RDF 트리플로 모델링하여 어노테이션 한다. Fig. 1은 제안한 시스템에서의 어노테이션 과정을 보여준다.

Fig. 1.Overview of image annotation in MOMENT.

RDF 모델링된 어노테이션 정보는 RDF 질의 처리 언어인 SPARQL[8]을 이용하여 검색 할 수 있다. 내용 기반 이미지 검색이 이미지가 가지는 색상, 명도 등에 기반을 두어 검색하는 반면에 본 연구에서는 이미지가 가지는 RDF 어노테이션 정보를 기반으로 검색이 가능하기 때문에 의미적으로 이미지를 검색할 수 있다. [5]가 정해진 상황 정보에 대한 패턴으로만 이미지를 검색할 수 있는 단점을 본 시스템에서는 사용자가 어노테이션된 모든 의미적 형태로 SPARQL 질의를 구성할 수 있기 때문에 원하는 이미지를 검색할 수 있게 한다. [9]에서도 SPARQL을 이용한 이미지 검색을 설명하였지만 [9]에서는 사용자가 모든 어노테이션을 입력하고 검색하는 반면에 본 연구에서는 모바일 환경에 초점을 두며 모바일 기기에서 자동으로 얻어지는 상황 정보와 DBPedia와 같은 어노테이션 정보를 추가적으로 어노테이션에 활용하는 차이점을 가지게 된다.

본 논문의 구성은 다음과 같다. 2장에서는 관련 연구로서 다양한 이미지 어노테이션 및 이미지 검색 시스템을 알아보고 3장에서는 제안한 시스템의 기본 모델과 방법을 설명하고 4장에서는 시스템의 구현과 대표적 사용 예를 보여준다. 5장에서는 타 이미지 어노테이션 및 검색 시스템과의 비교를 보여주며 마지막으로 결론으로 구성되어 있다.

 

2. 관련 연구

이미지 어노테이션에 대한 연구는 이미지 태그를 이용하는 방법과 온톨로지를 이용하는 방법으로 크게 분류된다[1,2,3]. 태그를 이용하는 이미지 어노테이션은 주로 태그의 랭킹 및 태그의 의미를 식별하여 이미지 검색에 사용한다. i-TagRanker[3]는 주어진 이미지에 부착된 여러 개의 태그들 중에서 이미지의 내용을 가장 잘 표현하는 태그를 선별하는 시스템이다. 우선 주어진 이미지와 유사한 이미지들을 찾아서 그것에 부착된 태그들을 추가하는 태그 확장 단계를 수행한다. 그 다음 단계는 워드넷을 이용해 구체적인 내용을 표현하면서 이미지와 관련된 순서로 태그 랭킹을 한다. 가장 높은 순위의 태그가 이미지를 가장 잘 표현하는 태그이다. [10]에서는 Delicious 등의 협력 태깅 서비스의 데이터로부터 특정 태그의 의미를 식별하는 방법을 제시하였다. 태그의 의미는 워드넷 등의 어휘사전 등에서 해당 단어(태그)의 상위어를 탐색함으로서 알아 낼 수 있는데, [10]에서는 웹 상에서 사용자가 자유롭게 올린 태그로부터 자동으로 단어(태그)의 의미를 식별했다는 점에서 기존 연구와 차이점이 있다. 사용자, 태그, 대상 리소스등의 관계로 태그 네트워크를 모델링하고 그래프 클러스터링 알고리즘을 적용하여 태그의 의미에 해당하는 또 다른 태그를 찾는 방법을 제안하였다. [11]에서는 이미지에 부착된 여러 개의 이미지 태그 각각을 어휘 온톨로지에 대응시킴으로서 중의적 의미를 가지각 태그의 의미를 하나로 특정 짓는 방법을 제안하였다. 먼저 각 태그들을 문자열 매칭 기준으로 어휘 온톨로지에 대응시킨다. 하나의 태그는 어휘 온톨로지 상에 여러 개의 개념에 대응된다. 하나의 이미지에 부착된 여러 갱의 태그는 의미를 공유한다는 가정 하에 대응된 각 태그가 가질 수 있는 개념을 좁히는 방법을 이용한다.

이미지 태그가 지닌 명사 표현의 한계를 해결하기 위해 온톨로지를 이용한 어노테이션 연구도 활발히 이루어지고 있다[1,12,13,14]. [12]에서는 사용자가 온톨로지를 이용하여 수동으로 어노테이션 하는 방법을 제안하였다. 온톨로지로 구축된 제한된 어휘들을 이미지 어노테이션에 사용하게끔 하여 사용자가 이미지의 내용을 판단하고 직접 입력할 수 있게 하고 검색 시에도 사용하도록 하였다. [13]에서는 이미지의 색상, 모양 등의 비주얼 정보 각각을 특정 개념에 대응시키고 미리 정의된 온톨로지 기반 규칙을 적용하여 해당 이미지의 대표 개념을 식별하는 방법을 제안하였다. 규칙은 비주얼 정보 온톨로지와 도메인 온톨로지에 표현되어 있다. 도메인 온톨로지는 동물 분야만 기술하였으며 동물의 계층 구조를 표현하였다. [14]에서는 ORN(Object Relation Network) 기반의 이미지 검색을 제안하였다. 이미지에서 세그먼트라는 부분 이미지들을 찾아서 이를 확률 모델에 기반을 두어 이미지 객체를 선별하고 온톨로지를 이용하여 객체들 간의 관계를 네트워크로 표현하여 이미지를 검색 할 수 있는 방법이다. 기존 이미지 검색보다 훨씬 의미적으로 유사한 이미지를 찾아낼 수 있다. 온톨로지 기반의 어노테이션 방법들은 이미지가 가지는 의미를 표현하는데 있어 장점을 가지나 미리 온톨로지를 구축해야 하는 단점을 가지고 있다. 이러한 단점을 극복하기 위해 이미지 태그를 온톨로지의 일종인 RDF로 확장하는 연구가 제안되었다[1]. Linked Tag에서는 이미지가 가지는 태그를 온톨로지를 활용하여 RDF 트리플로 확장하여 어노테이션하고 사용자가 SPARQL 질의어로 의미 기반 이미지 검색을 할 수 있도록 한다. 또한 RDF 트리플을 이용하여 이미지 태그 랭킹 알고리즘을 제안하였다.

모바일 기기에서의 이미지 처리 및 태깅에 대한 연구도 활발히 진행되고 있다. [5]에서는 모바일 기기가 가지고 있는 상황 정보를 이용하여 이미지 검색을 가능하게 한다. 상황 정보는 크게 시간 정보(이미지 생성 시간), 위치 정보(촬영 장소), 소셜 정보(SNS 관계), 개인 정보를 포함한다. 이미지를 촬영할 때 상황 정보를 어노테이션을 하고 이미지 검색시 어노테이션 된 정보를 이용하여 원하는 이미지를 얻을 수 있다. 하지만 이미지 어노테이션이 정형화 된 형태이기 때문에 시스템에서 제공해주는 질의만 사용할 수 있다. [6]에서는 모바일 기기가 가지는 위치 정보를 활용하여 사용자가 지도위에서 이미지를 브라우징할 수 있도록 하며 [15]에서는 모바일 기기의 위치 정보를 이용하여 주변 정류장 및 버스 정보를 제공하고 태그 정보를 등록할 수 있게 하였다.

 

3. Moment 시스템

3.1 의미 기반 어노테이션을 위한 RDF 모델

본 절에서는 Moment의 의미 기반 이미지 어노테이션을 위한 RDF 모델을 설명한다. RDF는 메타 데이터를 구성하여 웹 응용들간 정의에 대한 의미를 상호 이해할 수 있도록 하기 위하여 W3C에 의해 개발되었다[6]. RDF는 트리플(주어, 술어, 목적어)로 표현된다. 다음 정의들은 이미지가 가지는 태그 정보를 RDF 어노테이션 그래프로의 모델링을 설명한다.

정의 1. 이미지 i가 주어졌을 때, 이미지 태그 집합 Tag(i)는 다음과 같이 정의된다.

이미지가 가지는 태그는 크게 2가지로 구분된다. 사용자가 직접 입력하는 태그와 시스템에서 자동으로 생성하는 태그이다. 사진을 생성할 때 사용자는 사진을 설명할 수 있는 태그를 입력할 수 있다. Fig. 1에서 사용자가 에펠탑의 사진을 찍고 입력한 태그는 “Effel”, “Effel Tower”와 “France”이다. 모방일 기기에서 얻을 수 있는 태그는 사진을 찍은 시간과 사진을 찍을 때의 위치 정보(위도 및 경도)가 된다. Moment에서는 모바일 기기로부터 얻은 위도 및 경도 정보를 통해 해당 위치 “Paris”를 자동으로 태그시킨다. Fig. 1의 Tag(image) = { “Effel”, “Effel Tower”, “France”, “Paris”, “2016.1.18.”} 가 된다.

정의 2. 이미지 i가 주어졌을 때, 이미지 트리플 집합 iTriple은 다음과 같이 정의된다.

이미지 태그들 간의 의미 관계를 나타내는 Property는 Linked Tag[1]의 방법을 이용한다. 사용자가 직접 입력을 하거나 외부 데이터의 정보를 참고해서 자동으로 Property의 값을 연결해주거나 사용자에게 후보 값을 추천해준다. 본 논문에서는 추가적으로 시간정보에 대해서는 “http://dbpedia.org/property/date”, 공간정보에 대해서는 “http://dbpedia.org/property/locati on” 술어 값을 자동으로 입력해 준다. 예를 들면, Fig. 1에서 에펠탑은 파리에 위치하므로 “Effel Tower http://dbpedia.org/property/locationParis” 라는 트리플을 어노테이션으로 만들 수 있다.

정의 3. 이미지 i가 주어졌을 때, 이미지는 이미지 태그를 노드로 이미지 태그들 간의 술어를 간선으로 가지는 RDF 그래프(RDF 어노테이션 그래프)로 정의된다.

이미지는 RDF 트리플의 집합으로 표현되기 때문에 RDF 그래프로 표현가능하다. 이미지가 가지는 내용의 의미 정보와 상황 정보를 RDF 그래프로 표현하는 것은 3.2절에서 설명할 이미지 검색에서 큰 장점을 가질 수 있다.

3.2 SPARQL 질의를 통한 의미 기반 이미지 검색

본 논문에서는 이미지를 키워드나 태그가 아닌 RDF 모델을 기반으로 어노테이션하였다. 따라서 이미지 검색을 RDF 질의 언어인 SPARQL을 사용할 수 있다. 2000년대 이전에 이미지를 관계형 데이터베이스에 저장하고 이미지의 메타 정보(파일 이름, 색상, 크기)와 색상, 형태가 비슷한 유사 이미지 검색 등을 SQL을 이용한 연구들이 많이 진행되어 왔다. 하지만, 본 논문에서는 그림처럼 이미지가 가지는 의미 정보에 기반한 SPARQL 질의어 처리를 개발하였다. SPARQL은 현재 시맨틱 웹 데이터(RDF, OWL)을 효과적으로 접근하고 탐색하기 위한 질의 언어이다. SPARQL은 크게 PREFIX, SELECT, WHERE 로 구성이 된다. PREFIX는 일반 데이터베이스에서 데이터베이스 선택과 비슷한 의미로서 일반적으로 사용할 데이터 셋(네임스페이스 등)을 지정할 때 사용되며 SELECT는 SQL과 마찬가지로 탐색할 대상을 지정할 때 사용하며 변수를 사용할 수 있다. 변수는 ‘?변수명’의 형식으로 사용하며 전체를 탐색할 때는 ‘*’를 사용한다. WHERE는 SQL의 조건절과 비슷하며 사용자가 원하는 조건을 지정할 때 사용된다. Fig. 2는 RDF 그래프와 이에 해당하는 질의어를 보여준다. 본 예제에서는 시간 속성을 포함하는 SPARQL 질의를 사용하고 있다. Fig. 2의 왼쪽은 질의를 대상으로 하는 RDF 그래프를 보여주며 오른쪽은 SPARQL 질의어를 보여준다. “2016-01-01” 기간부터 “University”에서 근무하며 “Data Structure” 과목을 가르치는 교수의 이름을 찾는 질의이다. RDF 모델에서 시간 값에 대해서는 시간을 표현하는 xsd:date를 붙여 표기한다. FILTER는 시간 값에 대해 조건에 맞는 필터링을 수행하는 구문을 표시한다. 본 논문에서는 모든 이미지가 RDF 그래프로 어노테이션을 가지고 있기 때문에 SPARQL 질의로 이미지를 검색할 수 있다.

Fig. 2Example of SPARQL Query.

 

4. 시스템 구현

Moment는 JAVA로 구현되었으며 모바일 환경은 안드로이드 환경을 사용하였다. 이미지 태그에 대한 자동 트리플 어노테이션을 위한 데이터로는 DBPedia1)를 이용하였으며 이미지를 저장하기 위한 저장소로는 MySQL, 어노테이션 RDF 트리플 데이터를 저장하기 위한 저장소로는 Jena TDB2)를 이용하였다. 이미지 검색을 위한 SPARQL 질의 처리 역시 Jena API를 이용하여 구현하였다.

Moment 시스템 구조는 Fig. 3과 같다. Fig. 3에서 Moment는 크게 2가지 기능을 수행한다. 첫 번째로 이미지가 가지는 의미 정보를 어노테이션 해야 한다. 사용자가 입력하는 태그와 자동으로 생성되는 태그 정보를 확인하고 두 태그들간의 의미 관계를 표현할 수 있는 술어를 연결하거나 사용자에게 선택 가능한 후보 술어들을 추천해준다. 어노테이션 된 정보는 Fig. 4와 같은 데이터베이스에 저장이 된다. Fig. 4에서 Image 테이블의 킷값은 Image_id이며 하나의 이미지는 하나의 ID값을 가진다. Tag 테이블은 이미지가 가지는 태그 정보를 가지며 하나의 이미지에는 여러 개의 이미지 태그가 가능하다. Annotation 테이블은 이미지가 가지는 어노테이션 정보를 포함하며 RDF 모델을 이용하기 때문에 주어, 술어, 목적어 3개의 칼럼으로 구성된다. 마찬가지로 하나의 이미지는 여러 개의 RDF 트리플을 가질 수 있다.

Fig. 3.System Architecture.

Fig. 4.Class Diagram for annotation database.

두 번째로 어노테이션 된 이미지 정보를 바탕으로 원하는 이미지를 검색할 수 있게 해준다. Moment에서는 이미지 검색을 SPARQL을 이용하여 검색한다. 사용자가 SPARQL을 입력하면 어노테이션 데이터베이스에 접근하여 해당 이미지 ID를 결과로 받아서 Image 데이터베이스에서 해당 이미지결과 리스트를 모바일 기기 화면에 보여준다.

Fig. 5는 안드로이드 기반의 Moment 시스템의 어노테이션 입력 화면을 보여준다. (a)는 실제 촬영한 이미지를 보여준다. 이미지를 촬영하게 되면 (b)와 같이 이미지와 관련된 태그 리스트를 보여준다. 이때 사용자가 사진과 관련된 이미지 태그를 직접 입력할 수 있게 한다. 시공간에 관련된 자동 태그(“2016-06-04”, “Yongin”) 역시 화면에 보여 지는 것을 확인할 수 있다. (c)는 이미지 태그들간의 의미관계를 어노테이션 입력해주는 화면이다.

Fig. 5.Screen Shot of Annotation in Moment.

Moment 시스템의 이미지 검색 화면은 Fig. 6과 같다. 이미지 검색 질의와 검색 결과를 확인하면 사용자가 원하는 의미적인 내용으로 검색이 가능함을 알 수 있다.

Fig. 6.Screen Shot of Image Retrieval in Moment.

 

5. 시스템 비교

이미지 어노테이션에 대한 대표적인 시스템과 moment를 비교하였다. 비교 대상으로는 Linked Tag[1], Kaleido Photo[5], Photo Map[6]로 의미 기반 이미지 어노테이션과 모바일 기반 이미지 어노테이션을 대표하는 시스템들이 포함되었다. Table 1은 moment와 타 시스템들과의 비교를 보여주고 있다.

Table 1.The comparison of Image Annotation Systems

Table. 1에서 알 수 있듯이 moment의 장점은 의미 기반 어노테이션으로 사용자 입력 태그가 가능하고 시간 정보 및 공간 정보 등을 자동으로 어노테이션해주는 것이다. 뿐만 아니라 이미지 검색에 있어서 SPARQL 질의를 이용하기 때문에 사용자가 원하는 이미지를 정확하게 찾아 줄 수 있다.

 

6. 결 론

모바일 환경의 발전에 따라 생성되는 이미지는 점점 증가하며 사용자가 원하는 의미에 초점을 두는 의미적인 이미지 검색도 더욱 중요해진다. 본 논문에서는 모바일 기기의 상황 정보를 이용하여 이미지가 가지는 의미적 정보를 어노테이션하여 사용자가 원하는 이미지를 검색 할 수 있는 Moment 시스템을 제안하였다. Moment는 어노테이션 정보를 RDF 모델을 이용하여 이미지 검색 시 SPARQL 질의를 이용하도록 하였다.

향후 과제로는 SPARQL 질의에 익숙하지 않은 사용자를 위한 SPARQL 질의 생성 기능이 필요하며 대용량 이미지 처리를 위한 하둡이나 NoSQL 등의 빅데이터 처리 기술을 활용하여 어노테이션 데이터의 처리를 효율적으로 가능하게 할 계획이다.

References

  1. D. Im and G. Park, "Linked Tag: Image Annotation using Semantic Relationships between Image Tags," Journal of Multimedia Tools and Applications, Vol. 74, No. 7, pp. 2273-2287, 2015. https://doi.org/10.1007/s11042-014-1855-z
  2. D. Im and G. Park, "STAG: Semantic Image Annotation Using Relationships between Tags," Proceedings of Information Science and Applications, pp. 1-2, 2013.
  3. J. Jeong, H. Hong, and D. Lee, "i-TagRanker: an Efficient Tag Ranking System for Image Sharing and Retrieval Using the Semantic Relationships between Tags," Journal of Multimedia Tools and Applications, Vol. 62, No. 2, pp. 451-478, 2013. https://doi.org/10.1007/s11042-011-0903-1
  4. H. No, K. Seo, and D. Im, "Design of Ontology-Based Image Annotation and Retrieval System in Android Environment," Proceedings of the Fall Conference of the Korea Multimedia Society, pp, 1748-1750, 2015.
  5. S. Xia, X. Gong, W. Wang, Y. Tian, X. Yang, and J. Ma, "Context-aware Image Annotation and Retrieval on Mobile Device," Proceedings of Multimedia and Information Technology, pp. 111-114, 2010.
  6. W. Viana, J. Filho, J. Gensel, M. Oliver, and H. Martin, "PhotoMap: Automatic Spatiotemporal Annotation for Mobile Photos," Proceeding of Web and Wireless Geographical Information Systems, pp. 187-201, 2007.
  7. Resource Description Framework(RDF): Concepts and Abstract Syntax, http://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/, W3C Recommendation, (accessed Jan., 14, 2016).
  8. SPARQL Query Language for RDF, http://w3c.org/TR/rdf-sparql-query/, (accessd Jan., 14, 2016).
  9. N. Magesh and P. Thangarai, "Semantic Image Retrieval Based on Ontology and SPARQL Query," Proceedings of ICACT, pp. 12-16, 2011.
  10. C. Yeung, N. Gibbins, and N. Shadbolt, "Contextualising Tags in Collaborative Tagging Systems," Proceedings of the Twentieth ACM Conference on Hypertext and Hypermedia, pp. 251-260, 2009.
  11. S. Fadzli and R. Setchi, "Semantic Approach to Image Retrieval Using Statistical Models Based on a Lexical Ontology," Proceedings of the 14th International Conference on Knowledge-based and Intelligent Information & Engineering Systems, pp. 240-250, 2010.
  12. L. Hollink, G. Schreiber, J. Wielemaker, and B. Wielinga, "Semantic Annotation of Image Collections," Proceedings of KCAP , pp. 41-48, 2003.
  13. K. Park, J. Jeong, and D. Lee, "OLYBIA: Ontology-based Automatic Annotation System Using Semantic Inference Rules," Proceedings of International Conference on Database Systems for Advanced Application, pp. 485-496, 2007.
  14. N. Chen, Q. Zhou, and V. Prasnna, "Under-Standing Web Images by Object Relation Network," Proceedings of World Wide Web, pp. 291-300, 2012.
  15. H. Shin and B. Chang, "Design and Implementation of Location-based Mobile Bus Guide System using Social Tagging," Journal of Korea Multimedia Society, Vol. 15, No. 2, pp. 281-289, 2012. https://doi.org/10.9717/kmms.2012.15.2.281