• Title/Summary/Keyword: TRIE구조

Search Result 46, Processing Time 0.02 seconds

Improving Speed for Dictionary-Based Term Recognition Using Trie and Interval Tree (트라이와 구간트리를 이용한 사전기반 전문용어 인식 속도 향상)

  • Kim, Hyung-Chul;Kim, Jae-Hoon;Choi, Yun-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.191-193
    • /
    • 2010
  • 전문용어는 특정 분야의 문서들에서 그 분야 특징을 반영하는 용어를 지칭하는 말로 최근 이러한 전문용어를 자동으로 인식하는 연구들이 활발하게 이루어지고 있다. 본 논문에서는 전문용어 인식의 방법 중 규칙 기반 방법의 한 종류인 사전 기반 방법을 이용하여 전문용어를 인식한다. 사전 기반 방법의 보통 다음과 같은 문제점이 있다. 첫째 같은 의미를 가지지만 형태가 다른 전문용어의 인식이 어려우며, 둘째 정확한 경계를 인식하기 위해서는 모든 단어에 대해 사전에 존재하는 가장 긴 단어의 크기만큼 매칭을 시도해야하며, 셋째 인식된 경계가 겹칠 수 있다는 문제점이 있다. 본 논문에서는 사전 매칭시 정규표현을 이용하여 첫 번째 문제를 해결하며, 트라이를 이용하여 사전을 구축하고, 매칭시 스택을 이용한 병렬구조를 사용하여 두 번째 문제를 해결하였으며, 구간트리라는 자료구조를 이용하여 세 번째 문제를 해결하였다.

  • PDF

Hierarchical Binary Search Tree (HBST) for Packet Classification (패킷 분류를 위한 계층 이진 검색 트리)

  • Chu, Ha-Neul;Lim, Hye-Sook
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.32 no.3B
    • /
    • pp.143-152
    • /
    • 2007
  • In order to provide new value-added services such as a policy-based routing and the quality of services in next generation network, the Internet routers need to classify packets into flows for different treatments, and it is called a packet classification. Since the packet classification should be performed in wire-speed for every packet incoming in several hundred giga-bits per second, the packet classification becomes a bottleneck in the Internet routers. Therefore, high speed packet classification algorithms are required. In this paper, we propose an efficient packet classification architecture based on a hierarchical binary search fee. The proposed architecture hierarchically connects the binary search tree which does not have empty nodes, and hence the proposed architecture reduces the memory requirement and improves the search performance.

An Electronic Dictionary Structure supporting Truncation Search (절단검색을 지원하는 전자사전 구조)

  • 김철수
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.9 no.1
    • /
    • pp.60-69
    • /
    • 2003
  • In an Information Retrieval System(IRS) based on an inverted file as a file structure it is possible to retrieve related documents when the searcher know the complete words of searching fields. however, there are many cases in which the searcher may not know the complete words but a partial string of words with which to search. In this case, if the searcher can search indexes that include the known partial string, it is possible to retrieve related documents. Futhermore, when the retrieved documents are few, we need a method to find all documents having indexes which include known the partial string. To satisfy these requests, the searcher should be able to construct a query formulation that uses the term truncation method. Also the IRS should have an electronic dictionary that can support a truncated search term. This paper designs and implements an electronic dictionary(ED) structure to support a truncation search efficiently. The ED guarantees very fast and constant searching time for searching a term entry and the inversely alphabetized entry of it, regardless of the number of inserted words. In order to support a truncation search efficiently, we use the Trie structure and in order to accommodate fast searching time we use a method using array. In the searching process of a truncated term, we can reduce the searching time by minimizing the length of string to be expanded.

Design of a Retrieval System for Digital Music Information (디지털 음악정보 검색 시스템의 설계)

  • 지정규;오해석
    • Proceedings of the Korea Database Society Conference
    • /
    • 1997.10a
    • /
    • pp.425-437
    • /
    • 1997
  • 본 논문은 디지털 도서관에서 임의의 음악정보를 효율적으로 검색하기 위한 시스템을 제안한다. 종래의 전형적인 음악정보 검색 항목인 제목이나 작곡자 또는 주제를 입력하는 것이 아니라, 사용자가 음악 데이터베이스로부터 검색하고자 하는 음악의 일부를 마이크를 통해서 노래한다. 그러면 입력된 선율에 대한 음 신호를 처리하여 음표정보를 인식하고, 이를 바탕으로 음정곡선을 생성하여 이를 탐색 패턴으로 사용한다. 동요를 대상으로 하여 음악 데이터베이스를 생성할 때는 각각의 곡에서 추출한 음정곡선을 이용하여 색인과 메타 데이터를 생성하는데, 색인은 유사 탐색을 용이하게 하기 위해서 Trie 구조를 사용한다. 탐색패턴을 이용해서 메타 데이터를 탐색할 때는 동적 프로그래밍 방법을 이용하여 유사 탐색을 함으로써 노래의 어느 마리를 부르더라도 쉽게 후보곡을 검색할 수 있도록 한다. 통상음악의 첫째 동기를 부르는 경우가 많기 때문에 첫째 악절로 구성한 색인을 먼저 탐색토록하고, 색인에서 탐색을 실패한 경우(음악의 첫째 동기 이후를 부른 경우)에 메타 데이터를 이용한 유사 음표열 탐색을 하도록 하여 효율적인 검색이 되도록 하였다.

  • PDF

Bit-Map Trie for Fast Routing Lookups (비트-맵 트라이를 이용한 빠른 라우팅 검색)

  • 오승현;나승구;안종석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.329-330
    • /
    • 2000
  • 기가비트 속도를 지원하는 고속 라우터의 IP 주소 검색은 소프트웨어로 구현할 수 없다는 일부의 믿음과는 달리 소프트웨어만으로도 고속 IP 주소 검색의 구현이 가능하다. 기가비트 라우터의 IP 주소 검색은 최장 프로픽스일치 기법을 사용하여 라우팅 엔트리를 검색하는데, 56Gbps 속도를 지원하기위해서는 평균 513byte의 패킷을 800 nsec 이하의 속도로 처리하여야 한다. 본 논문에서는 범용 펜티엄 프로세서의 캐쉬 크기에 적합한 고속 라우팅을 위한 포워딩 테이블 구조를 제안하였으며, 400 MHz의 페티엄 II 프로세서를 이용한 실험에서 초당 수백만개의 IP 주소 검색을 실현하였다. 제안된 포워딩 테이블은 약 48,000여개의 실제 라우팅 엔트리에 대해 284Kbyte의 매우 작은 크기로 작성되었는데, 이 크기는 펜티엄 프로세서의 L2 케쉬에 저장될 수 있는 작은 크기이다. 제안된 포워딩 테이블을 이용한 평균 검색 시간은 라우팅 테이블 별로 320~530 nsec가 소요되었다.

  • PDF

A Simulation Model for Korean Eojeol Retrieval (한국어 어절 재인의 시뮬레이션 모델)

  • Lim Heuiseok;Nam Kichun
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.301-304
    • /
    • 2002
  • 본 논문은 한국인 피험자를 대상으로 이루어진 어절 재인 실험 시 관찰된 언어 현상인 길이 효과, 빈도 효과, 그리고 이웃 효과를 설명할 수 있는 한국어 어절 재인 시뮬레이션 모델을 제안한다. 제안한 모델은 코퍼스에서 나타난 어절의 빈도를 이용하여 정렬한 트라이(trie) 구조를 기반으로 하고 있다. 본 모델은 피험자들의 어절 재인 현상을 모두 설명할 수 있으며 피험자들을 대상으로 한 실험에서 사용한 동일 자료를 이용하여 시뮬레이션한 결과 유의미한 상관 관계를 보였다. 현재 시뮬레이션 중 발견된 언어 현상이 한국인 피험자에서도 나타나는지를 규명하기 위한 실험과 영어 단어 재인시의 언어 현상에 대해서도 적용할 수 있는 확장 방안에 대하여 연구를 수행하고 있다.

  • PDF

Binary Search on Tree Levels for IP Address Lookup (IP 주소 검색을 위한 트리 레벨을 사용한 이진 검색 구조)

  • Mun, Ju-Hyoung;Lim, Hye-Sook
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.31 no.2B
    • /
    • pp.71-79
    • /
    • 2006
  • Address lookup is an essential function in the Internet routers, and it determines overall router performance. In this paper, we have thoroughly investigated the binary-search-based address lookup algorithms and proposed a new algorithm based on binary search on prefix lengths. Most of the existing binary search schemes perform binary search on prefix values, and hence the lookup speed is proportional to the length of prefixes or the log function of the number of prefixes. The previous algorithm based on binary search on prefix lengths has superior lookup performance than others. However, the algorithm requires very complicated pre-computation of markers and best matching prefixes in internal nodes since naive binary search is not possible in their scheme. This complicated pre-computation makes the composition of the routing table and incremental update very difficult. By using leaf-pushing, the proposed algorithm in this paper removes the complicated pre-computation of the Previous work in performing the binary search on prefix lengths. The performance evaluation results show that the proposed scheme has very good performance in lookup speed compared with previous works.

Memory Performance of Electronic Dictionary-Based Commercial Workload

  • Lee, Changsik;Kim, Hiecheol;Lee, Yongdoo
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.7 no.5
    • /
    • pp.39-48
    • /
    • 2002
  • long with the rapid spread of the Internet, a new class of commercial applications which process transactions with respect to electronic dictionaries become popular Typical examples are Internet search engines. In this paper, we present a new approach to achieving high performance electronic dictionaries. Different from the conventional approach which use Trie data structures for the implementation of electronic dictionaries, our approach used multi-dimensional binary trees. In this paper, we present the implementation of our electronic dictionary ED-MBT(Electronic Dictionary based on Multidimensional Binary Tree). Exhaustive performance study is also presented to assess the performance impact of ED-MBT on the real world applications.

  • PDF

Component Implementation of Electronic Dictionary (전자사전 컴포넌트의 구현)

  • Choe, Seong-Un
    • The KIPS Transactions:PartD
    • /
    • v.8D no.5
    • /
    • pp.587-592
    • /
    • 2001
  • Many applications are being developed to automate office works, and the electronic dictionary(e-Dictionary) is one of the main components of the office suites. Several requirements are proposed for the efficient e-dictionaries :1) Fast searching time, 2) Data compatibility with other e-dictionaries to deal with words and obsolete word, and 3) Reusable components to develop new customized e-dictionaries with minimized development time and cost. We propose a data format with which any e-dictionary can change data with others. We also develop System Dictionary component and Customer Dictionary component to enable-and-play component reuse. Our e-dictionary achieves fast searching time by efficiently managing Trie and B-tree index structure for the dictionary components.

  • PDF

A Two-Dimensional Binary Prefix Tree for Packet Classification (패킷 분류를 위한 이차원 이진 프리픽스 트리)

  • Jung, Yeo-Jin;Kim, Hye-Ran;Lim, Hye-Sook
    • Journal of KIISE:Information Networking
    • /
    • v.32 no.4
    • /
    • pp.543-550
    • /
    • 2005
  • Demand for better services in the Internet has been increasing due to the rapid growth of the Internet, and hence next generation routers are required to perform intelligent packet classification. For a given classifier defining packet attributes or contents, packet classification is the process of identifying the highest priority rule to which a packet conforms. A notable characteristic of real classifiers is that a packet matches only a small number of distinct source-destination prefix pairs. Therefore, a lot of schemes have been proposed to filter rules based on source and destination prefix pairs. However, most of the schemes are based on sequential one-dimensional searches using trio which requires huge memory. In this paper, we proposea memory-efficient two-dimensional search scheme using source and destination prefix pairs. By constructing binary prefix tree, source prefix search and destination prefix search are simultaneously performed in a binary tree. Moreover, the proposed two-dimensional binary prefix tree does not include any empty internal nodes, and hence memory waste of previous trio-based structures is completely eliminated.