• Title/Summary/Keyword: 색인화

Search Result 272, Processing Time 0.023 seconds

Indexing and Ranking Mathematical Equations Using Postfix Notation (후위 표기법을 사용한 수학식 색인 및 랭킹)

  • Lee, Sehee;Shin, Junsoo;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.160-164
    • /
    • 2009
  • 최근 인터넷 및 컴퓨터의 사용이 활발해짐에 따라 문서의 디지털화가 빠르게 진행되고 있다. 이런 변화에 따라 수학식이 많이 사용되는 과학, 공학, 수학 등의 분야와 관련된 문서들을 검색해야할 필요성이 늘어가고 있다. 그러나 현재 일반 검색엔진은 텍스트 검색만을 제공하며 별도의 수학식 검색은 제공하지 않는다. 따라서 본 논문에서는 수학식 검색이 가능하도록 수학식의 색인 방법 및 랭킹 방법을 제안한다. 제안하는 색인 방법은 MathML로 입력되는 수학식을 후위 표기법과 일반 색인 방법의 두 가지로 색인하며, 언어모델을 사용하여 질의에 적합한 수학식을 랭킹한다. 일반 검색 엔진의 성능과 비교하기 위하여 2-포아송 모델과 제안 모델을 비교하였으며, 그 결과 제안 모델의 성능이 더 우수함을 보였다.

  • PDF

Splitting policies based on clustering trajectories for indexing positions of moving objects (이동체의 위치 색인을 위한 궤적 클러스터링 기반의 분할 정책)

  • 김진곤;전봉기;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.773-775
    • /
    • 2003
  • 이동성을 갖는 장치들의 위치 정보를 관리하기 위하여 이동체 데이터베이스에 관한 연구가 필요하게 되었다. 이동체 색인의 검색에서 영역 질의와 궤적 질의는 공간 근접성과 궤적 연결성과 같이 상반된 특징으로 인하여 함께 고려되지 않았다. 이동체 색인에서 영역 질의의 성능개선을 위해서는 노드간의 심한 중복과 사장 공간(Dead space)을 줄여야 하고, 궤적 질의의 성능 개선을 위해서는 이동체의 궤적 보전이 이루어져야 한다. 이와 같은 요구 조건을 만족하기 위해, 이 논문에서는 R-tree를 기반의 색인 구조에서 새로운 분할 정책을 제안한다. 제시하는 색인 구조에서 단말 노드의 엔트리는 궤적이며, 비단말 노드의 엔트리는 자식 노드이다. 단말 노드 분할 정책에서 동일 궤적을 그룹화해서 분할 하는 공간 축 분할 정책과 공간 활용도를 높이는 시간 축 분할 정책을 제안한다. 시간 축 분할 후 사장영역이 클 경우에는 다중 분할을 수행하여 사장 공간을 줄이고 노드간의 중복을 최소화한다. 비 단말 노드 분할 정책에서는 같은 궤적을 저장하는 노드들을 연결 노드(Connected Node)라고 정의하고, 엔트리의 궤적 연결성을 기준으로 분할한다.

  • PDF

Parallelization scheme of trajectory index using inertia of moving objects (이동체의 관성을 이용한 궤적 색인의 병렬화 기법)

  • Seo, Young-Duk;Hong, Bong-Hee
    • Journal of Korea Spatial Information System Society
    • /
    • v.8 no.1 s.16
    • /
    • pp.59-75
    • /
    • 2006
  • One of the most challenging and encouraging applications of state-of-the-art technology is the field of traffic control systems. It combines techniques from the areas of telecommunications and computer science to establish traffic information and various assistance services. The support of the system requires a moving objects database system (MODB) that stores moving objects efficiently and performs spatial or temporal queries with time conditions. In this paper, we propose schemes to distribute an index nodes of trajectory based on spatio-temporal proximity and the characteristics of moving objects. The scheme predicts the extendible MBB of nodes of index through the prediction of moving object, and creates a parallel trajectory index. The experimental evaluation shows that the proposed schemes give us the performance improvement by 15%. This result makes an improvement of performance by 50% per one disk.

  • PDF

Term Clustering and Duplicate Distribution for Efficient Parallel Information Retrieval (효율적인 병렬정보검색을 위한 색인어 군집화 및 분산저장 기법)

  • 강재호;양재완;정성원;류광렬;권혁철;정상화
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.1_2
    • /
    • pp.129-139
    • /
    • 2003
  • The PC cluster architecture is considered as a cost-effective alternative to the existing supercomputers for realizing a high-performance information retrieval (IR) system. To implement an efficient IR system on a PC cluster, it is essential to achieve maximum parallelism by having the data appropriately distributed to the local hard disks of the PCs in such a way that the disk I/O and the subsequent computation are distributed as evenly as possible to all the PCs. If the terms in the inverted index file can be classified to closely related clusters, the parallelism can be maximized by distributing them to the PCs in an interleaved manner. One of the goals of this research is the development of methods for automatically clustering the terms based on the likelihood of the terms' co-occurrence in the same query. Also, in this paper, we propose a method for duplicate distribution of inverted index records among the PCs to achieve fault-tolerance as well as dynamic load balancing. Experiments with a large corpus revealed the efficiency and effectiveness of our method.

n-Gram/2L: A Space and Time Efficient Two-Level n-Gram Inverted Index Structure (n-gram/2L: 공간 및 시간 효율적인 2단계 n-gram 역색인 구조)

  • Kim Min-Soo;Whang Kyu-Young;Lee Jae-Gil;Lee Min-Jae
    • Journal of KIISE:Databases
    • /
    • v.33 no.1
    • /
    • pp.12-31
    • /
    • 2006
  • The n-gram inverted index has two major advantages: language-neutral and error-tolerant. Due to these advantages, it has been widely used in information retrieval or in similar sequence matching for DNA and Protein databases. Nevertheless, the n-gram inverted index also has drawbacks: the size tends to be very large, and the performance of queries tends to be bad. In this paper, we propose the two-level n-gram inverted index (simply, the n-gram/2L index) that significantly reduces the size and improves the query performance while preserving the advantages of the n-gram inverted index. The proposed index eliminates the redundancy of the position information that exists in the n-gram inverted index. The proposed index is constructed in two steps: 1) extracting subsequences of length m from documents and 2) extracting n-grams from those subsequences. We formally prove that this two-step construction is identical to the relational normalization process that removes the redundancy caused by a non-trivial multivalued dependency. The n-gram/2L index has excellent properties: 1) it significantly reduces the size and improves the Performance compared with the n-gram inverted index with these improvements becoming more marked as the database size gets larger; 2) the query processing time increases only very slightly as the query length gets longer. Experimental results using databases of 1 GBytes show that the size of the n-gram/2L index is reduced by up to 1.9${\~}$2.7 times and, at the same time, the query performance is improved by up to 13.1 times compared with those of the n-gram inverted index.

Design and Implementation of Meta-Informations of Contents Search System for Portable Multimedia Player (휴대용 멀티미디어 단말을 위한 컨텐츠 메타 정보 검색 시스템의 설계 및 구현)

  • Park, Won-Ik;Lee, Kwang-Dong;Kim, Young-Kuk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06d
    • /
    • pp.350-355
    • /
    • 2007
  • 본 연구에서는 점점 보편화되고 있는 대용량 휴대용 멀티미디어 단말에서 동영상, 사진, 음악 등과 같은 멀티미디어 컨텐츠를 메타 정보를 이용하여 쉽고 빠르게 검색할 수 있게 하는 시스템을 설계 및 구현하였다. 멀티미디어 컨텐츠에서 메타 정보는 사용자가 필요로 하는 중요한 정보들을 포함하고 있으며, 이를 이용한 검색은 디렉토리와 파일명에 의존하던 기존의 제한적인 컨텐츠 관리방식을 내용 기반의 자동 분류 방식으로 개선할 수 있게 한다. 또한 모든 컨텐츠에 대한 정보를 색인화한 뒤, 색인되어 있는 메타 정보데이터베이스에서 원하는 정보를 찾아내는 방법을 사용하여, 기존 시스템에서 파일명 검색만 가능했던 한계와 디스크 기반 검색으로 인한 느린 속도의 문제점을 해결할 수 있을 것으로 기대된다.

  • PDF

A Survey on Example using Structural Information of Web documents (웹 문서의 구조적 정보 활용 사례에 관한 고찰)

  • Kim, Cheol-Su;Kim, Yang-Beom
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05b
    • /
    • pp.1011-1014
    • /
    • 2003
  • 브라우저를 통해서 보는 웹 문서는 보이는 문서 내용 이외에 많은 풍부한 정보들을 원시 문서에 포함하고 있다. 웹 문서 색인 및 분류 과정에서 이런 관련 정보를 효율적으로 사용한다면 색인어에 가중치를 부여하거나 문헌 분류과정에서 밀접하게 관련된 문헌들끼리 분류가 가능하다. 잘 색인된 색이어 집합 및 잘 분류된 문헌 집합은 검색자의 질의어에 대한 검색 견과의 문헌집합들에 대한 문헌 순위화를 효율적으로 수행하여 사용자로 하여금 검색 시간을 줄여줄 수 있다. 본 논문에서는 웹 문서를 대상으로 한 검색 시스템에서 검색 효율을 향상시키기 위하여 웹 문서의 구조적인 정보들을 이용한 방법들에 대하여 고찰해 본다. 색인 과정, 문헌 분류과정 순위화 과정에서 활용한 방법들에 대하여 중점적으로 살펴본다.

  • PDF

Indexing method for reusing the existing information with Visual Rhythm in the digital broadcasting (디지털 방송 환경에서 비주얼 리듬을 이용한 재색인화)

  • Cho, Yong-Rae;Sull, Sang-Hoon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2005.11a
    • /
    • pp.239-242
    • /
    • 2005
  • 본 논문은 디지털 방송에서 다양한 부가 정보 제공 및 관련 기기의 기능을 효과적으로 활용하기 위한 연구로서, 방송 시스템에서의 방송이나 편집 등을 고려하여 색인 정보를 재사용하는 알고리즘에 관한 것이다. 이를 위해 본 논문에서는 비주얼 리듬을 이용한 원본 영상과 목표 영상의 매칭을 제안하며, 비주얼 리듬의 히스토그램을 특징 벡터로 사용하여 유사도를 계산한다. 검색 시 목표 영상에 대해 우선 검색 구간을 설정하여 검색 시간을 줄이고자 하였으며, 실제 이 알고리즘을 적용한 결과 약97%의 정확도의 매칭 결과를 보였다. 또한 결과를 시각적으로 쉽게 알 수 있었기에 오류를 수정하는데 수월하였다. 이를 통해 기존의 색인화 정보를 목표 영상의 복호화작업 없이 쉽게 재사용 할 수 있어, 불필요한 비용의 증가를 방지하는 효과를 기대할 수 있다.

  • PDF

A Method to Process Spatial Information in Parallel Spatial DBMS (병렬 공간데이터베이스 시스템에서 공간 정보 처리 방안)

  • Kim, JinDeog
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.05a
    • /
    • pp.811-812
    • /
    • 2016
  • 최근 공간 정보는 생산 되는 양과 데이터의 생성 빈도 및 다양성으로 인해 기존의 공간 데이터베이스 시스템에서 처리하기 어렵다. 그래서 공간 정보는 빅데이터와 연계에 관한 시도가 활발히 진행되고 있다. 그러나 효율적인 단일할당, 다중할당 색인기반 공간 연산에 대한 연구는 거의 없다. 이 논문에서는 공간 연산 중 비용이 매우 큰 공간 조인을 빅데이터 시스템에서 처리하기 위한 고려요소를 제시하고자 한다. 구체적으로 맵리듀스 시스템의 태스크 할당을 위한 단일 할당 공간 색인방안을 설명하고, 불균일 분포가 심한 공간 정보의 특성을 고려한 부하 균등화 시 고려 요소를 제시하고자 한다. 맵리듀스와 같은 병렬 공간 데이터베이스 시스템에서의 두 가지 문제인 데이터 불균일 분포 문제와 경계 겹침 색인의 문제와의 연관성을 기술한다.

  • PDF

Video Retrieval based on Objects Motion Trajectory (객체 이동 궤적 기반 비디오의 검색)

  • 유웅식;이규원;김재곤;김진웅;권오석
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.25 no.5B
    • /
    • pp.913-924
    • /
    • 2000
  • This paper proposes an efficient descriptor for objects motion trajectory and a video retrieval algorithm based on objects motion trajectory. The algorithm describes parameters with coefficients of 2-order polynomial for objects motion trajectory after segmentation of the object from the scene. The algorithm also identifies types, intervals, and magnitude of global motion caused by camera motion and indexes them with 6-affine parameters. This paper implements content-based video retrieval using similarity-match between indexed parameters and queried ones for objects motion trajectory. The proposed algorithm will support not only faster retrieval for general videos but efficient operation for unmanned video surveillance system.

  • PDF