• Title/Summary/Keyword: Indexing searching

검색결과 147건 처리시간 0.029초

Keywords and Spatial Based Indexing for Searching the Things on Web

  • Faheem, Muhammad R.;Anees, Tayyaba;Hussain, Muzammil
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권5호
    • /
    • pp.1489-1515
    • /
    • 2022
  • The number of interconnected real-world devices such as sensors, actuators, and physical devices has increased with the advancement of technology. Due to this advancement, users face difficulties searching for the location of these devices, and the central issue is the findability of Things. In the WoT environment, keyword-based and geospatial searching approaches are used to locate these devices anywhere and on the web interface. A few static methods of indexing and ranking are discussed in the literature, but they are not suitable for finding devices dynamically. The authors have proposed a mechanism for dynamic and efficient searching of the devices in this paper. Indexing and ranking approaches can improve dynamic searching in different ways. The present paper has focused on indexing for improving dynamic searching and has indexed the Things Description in Solr. This paper presents the Things Description according to the model of W3C JSON-LD along with the open-access APIs. Search efficiency can be analyzed with query response timings, and the accuracy of response timings is critical for search results. Therefore, in this paper, the authors have evaluated their approach by analyzing the search query response timings and the accuracy of their search results. This study utilized different indexing approaches such as key-words-based, spatial, and hybrid. Results indicate that response time and accuracy are better with the hybrid approach than with keyword-based and spatial indexing approaches.

연속적 I/O와 클러스터 인덱싱 구조를 이용한 이미지 데이타 검색 연구 (A study on searching image by cluster indexing and sequential I/O)

  • 김진옥;황대준
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.779-788
    • /
    • 2002
  • 이미지, 비디오, 오디오와 같은 멀티미디어 데이터들은 텍스트기반의 데이터에 비하여 대용량이고 비정형적인 특성때문에 검색이 어렵다. 또한 멀티미디어 데이터의 특징은 행렬이나 벡터의 형태로 표현되기 때문에 완전일치 검색이 아닌 유사 검색을 수행하여 원하는 이미지와 유사한 이미지를 검색해야 한다. 본 논문에서는 멀티미디어 데이터 검색에 클러스터링과 인덱싱 기법을 같이 적용하여 유사한 이미지는 인접 디스크에 클러스터하고 이 클러스터에 접근하는 인덱스를 구축함으로써 이미지 근처의 클러스터를 찾아 빠른 검색 결과를 제공하는 유사 검색방법을 제시한다. 본 논문에서는 트리 유사 구조의 인덱스 대신 해싱 방법을 이용하며 검색시 I/O 시간을 줄이기 위해 오브젝트를 가진 클러스터 위치를 찾는데 한번의 I/O를 사용하고 이 클러스터를 읽기 위해 연속적인 파일 I/O를 사용하여 클러스터를 찾는 비용을 최소화한다. 클러스터 인덱싱 접근은 클러스터링을 생성하는 알고리즘과 해싱 기법의 인덱싱을 이용함으로써 고차원 데이터가 갖는 차원의 문제를 해결하며 클러스터링 또는 인덱싱 만을 이용하는 내용기반의 이미지 검색보다 효율적인 검색 적합성을 보인다.

클러스터 세그먼트 인덱스를 이용한 단백질 이차 구조의 효율적인 유사 검색 (Clustered Segment Index for Efficient Approximate Searching on the Secondary Structure of Protein Sequences)

  • 서민구;박상현;원정임
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권3호
    • /
    • pp.251-260
    • /
    • 2006
  • 단백질 일차 구조(아미노산 배열)에 대한 상동 검색은 유전자나 단백질의 기능과 진화 과정을 유추하기 위한 필수 연산이다. 그러나 진화 단계가 멀리 떨어진 경우 단백질 일차 구조는 보존되지 않기 때문에 단백질의 공간적 구조에 대한 유사 검색을 통해서만 진화 단계를 유추할 수 있다. 따라서 본 논문에서는 단백질의 공간적 구조를 표현하는 단백질 이차 구조를 대상으로 하여 RDBMS상에 쉽게 구현이 가능한 인덱싱 방안을 제안한다. 제안된 인덱싱 방안은 클러스터링 기법과 LookAhead 개념을 활용하여 Exact Match, Range Match, Wildcard Match 질의를 신속하게 처리한다. 제안된 방법의 우수성을 검증하기 위하여 실제의 단백질 데이타를 대상으로 성능 평가를 수행하였다. 실험 결과에 의하면, 제안된 방법은 기존의 방법과 비교하여 Exact Match의 경우 6.3배까지, Range Match의 경우 3.3배까지, Wildcard Match의 경우 1.5배까지의 개선된 검색 성능을 가지는 것으로 나타났다.

빅데이터 클러스터 기반 검색 플랫폼의 실시간 인덱싱 성능 최적화 (Real-Time Indexing Performance Optimization of Search Platform Based on Big Data Cluster)

  • 금나연;박동철
    • Journal of Platform Technology
    • /
    • 제11권6호
    • /
    • pp.89-105
    • /
    • 2023
  • 정보기술의 발달로 모든 데이터는 데이터베이스화 되어 빅데이터 시대를 맞이하였으며 방대한 양의 데이터에 대한 접근성과 활용 가능성을 높이고자 빅데이터 검색 플랫폼의 필요성이 증가되었다. 검색 플랫폼은 기본적으로 효율적인 검색을 위해 인덱스를 빠르게 생성하고 저장하는 인덱싱 (indexing) 과정과 생성된 인덱스를 활용하여 필요한 정보를 찾는 검색 (searching) 과정으로 구성된다. 빅데이터 시대를 지나 초빅데이터 시대를 맞이하여 데이터의 용량이 거대해짐에 따라 데이터 인덱싱 성능이 검색 플랫폼의 매우 중요한 성능문제로 대두되고 있다. 많은 기업들이 효율적인 빅데이터 검색을 위해 검색 플랫폼들을 도입하고 있으나, 검색 효율성 및 검색 정확도 관련 연구에 비해 검색 성능의 핵심이 되는 인덱싱(indexing)의 성능을 최적화하는 연구는 상대적으로 미흡한 실정이다. 또한 인덱싱(indexing) 기본 단위인 샤드(Shard) 수와 크기를 최적화하는 연구에 비해 검색 플랫폼을 클러스터 기반으로 운영하기 위한 다양한 성능 비교 관련 연구는 미흡하다. 이에 본 연구에서는 대표적인 엔터프라이즈 빅데이터 검색 플랫폼인 Elasticsearch 클러스터를 구성하여 확장성 높은 검색 환경을 위해 최적의 인덱싱 성능을 낼 수 있는 구성을 제안한다. 본 논문은 클러스터와 검색 플랫폼의 다양한 구성 변경을 통해 최고의 인덱싱 성능을 낼 수 있는 구성을 도출하여 최적 구성에서 기본 구성보다 평균 3.13배 높은 인덱싱 성능의 향상을 확인하였다

  • PDF

PDFindexer: Distributed PDF Indexing system using MapReduce

  • Murtazaev, JAziz;Kihm, Jang-Su;Oh, Sangyoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제4권1호
    • /
    • pp.13-17
    • /
    • 2012
  • Indexing allows converting raw document collection into easily searchable representation. Web searching by Google or Yahoo provides subsecond response time which is made possible by efficient indexing of web-pages over the entire Web. Indexing process gets challenging when the scale gets bigger. Parallel techniques, such as MapReduce framework can assist in efficient large-scale indexing process. In this paper we propose PDFindexer, system for indexing scientific papers in PDF using MapReduce programming model. Unlike Web search engines, our target domain is scientific papers, which has pre-defined structure, such as title, abstract, sections, references. Our proposed system enables parsing scientific papers in PDF recreating their structure and performing efficient distributed indexing with MapReduce framework in a cluster of nodes. We provide the overview of the system, their components and interactions among them. We discuss some issues related with the design of the system and usage of MapReduce in parsing and indexing of large document collection.

MPEG-7 시각 정보 기술자의 특성을 반영한 효율적인 멀티미디어 데이타 비트맵 인덱싱 방법 (An Efficient Bitmap Indexing Method for Multimedia Data Reflecting the Characteristics of MPEG-7 Visual Descriptors)

  • 정진국;낭종호
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권1호
    • /
    • pp.9-20
    • /
    • 2005
  • 최근 멀티미디어 정보를 기술하기 위한 표준인 MPEG-7이 제안되어 이미지/동영상 검색 시스템과 간은 응용분야에서 사용되기 시작하였다. 그러나 MPEG-7 시각 정보 기술자들은 대부분 고차원으로 표현이 되고, 고차원에서 발생되는 문제인 "Curse of dimensionality" 때문에 기존의 인덱싱 방법(예를 들면 트리 구조를 이용하는 다차원 인덱싱 방법, 차원을 줄이는 방법, 양자화 등의 압축 기법을 이용하는 방법 등)으로는 효율적인 검색을 할 수 없다. 본 논문에서는 MPEG-7 시각 정보 기술자들의 특징을 반영한 효율적인 인덱싱 방법을 제안한다. 제안된 방법에서는 기술자를 속성 히스토그램으로 변형하고 히스토그램의 자 빈 값을 이진 형태로 표현하여 비트열을 생성하며, 이러한 비트열들을 이용하여 비트맵 인덱스를 구성한다. 질의 오브젝트가 입력되면 비트맵 인덱스를 이용하여 결과에 포함될 가능성이 있는 후보 오브젝트 리스트를 생성하게 되는데 즉, 각 오브젝트의 인덱스와 질의 오브젝트의 비트열에 대한 XOR(Exclusive OR) 연산을 수행하여서 후보 오브젝트 리스트를 생성한다. 그리고 이 리스트에 있는 오브젝트들에 대해서만 L1-norm과 같은, 기술자를 위해 사용되는 비교 연산식을 수행하여 최종 결과 오브젝트들을 사용자에게 보여주게 된다. 본 논문에서 제안하는 알고리즘은 단순한 비트 연산을 통해 검색 결과에 포함될 가능성이 있는 오브젝트들을 추출해낼 수 있기 때문에 빠른 시간 내에 검색을 마칠 수 있도록 해준다. 실험에 의하면 제안한 방법을 이용하는 경우, 90% 이상의 정확도를 유지하면서 검색 시간에서는 순차 검색에 비해 15배 이상의 속도 향상을 보임을 알 수 있었다.

차원 축소 벡터들을 위한 인덱싱 및 검색 (Indexing and Searching for Reduced-Dimensional Vectors)

  • 정승도;김상욱;최병욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권1호
    • /
    • pp.44-49
    • /
    • 2010
  • 본 논문에서는 각도 성분 근사와 차원 그룹화 기법을 이용한 차원 축소 기법에 의해 변환된 축소 데이터를 색인하고 검색하기 위해서 해결되어야 하는 문제들을 분석하고 이를 해결하기 위한 방법을 제안한다. 또한 다양한 실험에 의한 성능 평가를 통하여 제안하는 방법의 우수성을 규명한다.

변형에 강인한 내용기반 동영상 검색방법 (Modification-robust contents based motion picture searching method)

  • 최갑근;김순협
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.215-217
    • /
    • 2008
  • 동영상 내용검색을 위해서 가장 많이 사용되고 있는 기술은 컷 추출에 의한 내용비교 방법이다. 그러나 컷 추출을 위해 사용되는 CHD(Color Histogram Difference)나 ECR(Edge Change Ratio)등은 영상물의 Cropping, Resizing Low bit rate등의 변화에 대해 대단히 취약하다. 본 방법은 이러한 변형에 강인하도록 상대적으로 변형이 적은 오디오정보를 이용하여 Indexing과 Searching을 수행하였다. 특히 변형에 강인한 Searching을 위해 오디오의 장면(Scene)을 검출하였고 장면을 중심으로 Time-frequency domain에서 각각의 Frequency bin. 에 대한 스펙트럴 파워를 파워임계값을 중심으로 이진화(Binary)하였다. 제안된 방법으로 Cropping, clipping, Lowbit rate, Additive Frame 등의 변형본에 대한 검색을 시도한 결과 False posit ive Error 와 True Negative Error 에 대해 각각 1%미만의 오탐지 결과를 얻었다.

  • PDF

오디오 데이터의 특징 파라메터 구성에 따른 내용기반 분석 (The Content Based Analysis According to the Composition of the Feature Parameters for the Auditory Data)

  • 한학용;허강인;김수훈
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.182-189
    • /
    • 2002
  • 본 논문은 오디오 색인·검색 시스템을 구현하기 위하여 오디오 신호에 대한특징 파라메터 풀 (pool)을 구성하고 이에 따른 오디오 데이터의 내용분석 및 분류에 관한 연구이다. 오디오 데이터는 기본적인 다양한 오디오 형태로 분류되어진다. 본 논문에서는 오디오 데이터의 분류에 이용 가능한 특징 파라메터를 분석하고 추출방법에 대하여 논한다. 그리고 특징 파라메터 풀을 색인 그룹 단위로 구성하여 오디오 카테고리에 대한 설정된 특징들의 포함 정도와 색인기준을 오디오 데이터의 내용을 중심으로 비교 ·분석한다. 그리고 위의 결과를 바탕으로 분류절차를 구성하여 오디오 신호를 분류하는 모의실험을 행하였다.

효과적인 이미지 브라우징을 위한 M-트리 기반의 인덱싱 방법 (M-tree based Indexing Method for Effective Image Browsing)

  • 유정수;낭종호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.442-446
    • /
    • 2010
  • 본 논문에서는 대량의 사진 데이터베이스에 대한 효과적인 사진 검색을 위하여 브라우징을 지원하는 인덱싱 방법을 제안하였다. 제안한 방법은 대표적인 거리 공간 인덱싱 방법인 M-트리를 기본 구조로 하였다. 그러나 M-트리는 pruning을 통한 검색의 효율성에 초점을 맞추었으며 브라우징을 직접적으로 고려하지 않는다. 따라서 본 논문에서는 M-트리의 노드 선택 방법, 노드 분할 방법 및 노드 분할 조건을 브라우징에도 적합하도록 변경하였다. 제안한 방법을 적용하여 실험한 결과 노드 응집도와 클러스터링 정확도에서 각각 2배와 1.5배의 향상을 나타내었으며, 검색 성능도 약 2배정도 빨라지는 효과를 확인하였다.