• 제목/요약/키워드: String matching engine

검색결과 7건 처리시간 0.018초

CAM과 비트 분리 문자열 매처를 이용한 DPI를 위한 2단의 문자열 매칭 엔진의 개발 (A Memory-Efficient Two-Stage String Matching Engine Using both Content-Addressable Memory and Bit-split String Matchers for Deep Packet Inspection)

  • 김현진;최강일
    • 한국통신학회논문지
    • /
    • 제39B권7호
    • /
    • pp.433-439
    • /
    • 2014
  • 본 논문은 DPI (deep packet insepction)를 위한 CAM (content-addressable memory)과 병렬의 비트 분리(bit-split) 문자열 매처(matcher)를 이용한 2단의 문자열 매칭 엔진의 구조를 제안한다. 긴 타겟 패턴은 같은 길이의 서브 패턴으로 잘라지게 되고, 각 서브패턴은 1단의 CAM에 매핑된다. CAM으로부터의 매칭 인덱스의 시퀀스를 사용하여 2단에서 긴 패턴의 매칭 여부를 알 수 있다. CAM과 비트 분리 문자열 매처를 사용하여 이 기종의 메모리를 사용했을 경우에 메모리 요구량을 크게 줄일 수 있다.

정규 표현식을 이용한 패턴 매칭 엔진 개발 (Development of the Pattern Matching Engine using Regular Expression)

  • 고광만;박홍진
    • 한국콘텐츠학회논문지
    • /
    • 제8권2호
    • /
    • pp.33-40
    • /
    • 2008
  • 스트링 패턴 매칭 알고리즘은 특정 검색어, 키워드를 검색하는 속도에서는 우수성이 다양한 방법으로 입증되었지만 다양한 패턴에 대해서는 기존의 알고리즘으로는 한계를 가지고 있다. 본 논문에서는 정규 표현식을 이용하여 특정 키워드를 포함하여 다양한 패턴의 검색어에 대해서도 효율적인 패턴 매칭을 수행하여 패턴 검색의 효율을 높이고자 한다. 이러한 연구는 기존의 단순한 키워드 매칭에 비해 각종 유해한 스트링 패턴을 효과적으로 검색할 수 있으며 스트링 패턴 매칭 속도에서도 기존의 알고리즘에 비해 우수성을 갖는다. 본 연구에서 제안한 LEX로부터 생성된 스트링 검색 엔진은 패턴 검색 속도에 대한 실험에서 패턴의 수가 1000개 이상인 경우에서는 BM&AC 알고리즘보다 효율적이지만 키워드 검색에서는 유사한 결과를 얻었다.

A Hardware-Based String Matching Using State Transition Compression for Deep Packet Inspection

  • Kim, HyunJin;Lee, Seung-Woo
    • ETRI Journal
    • /
    • 제35권1호
    • /
    • pp.154-157
    • /
    • 2013
  • This letter proposes a memory-based parallel string matching engine using the compressed state transitions. In the finite-state machines of each string matcher, the pointers for representing the existence of state transitions are compressed. In addition, the bit fields for storing state transitions can be shared. Therefore, the total memory requirement can be minimized by reducing the memory size for storing state transitions.

FPGA 상에서 OpenCL을 이용한 병렬 문자열 매칭 구현과 최적화 방향 (Parallel String Matching and Optimization Using OpenCL on FPGA)

  • 윤진명;최강일;김현진
    • 전기학회논문지
    • /
    • 제66권1호
    • /
    • pp.100-106
    • /
    • 2017
  • In this paper, we propose a parallel optimization method of Aho-Corasick (AC) algorithm and Parallel Failureless Aho-Corasick (PFAC) algorithm using Open Computing Language (OpenCL) on Field Programmable Gate Array (FPGA). The low throughput of string matching engine causes the performance degradation of network process. Recently, many researchers have studied the string matching engine using parallel computing. FPGA's vendors offer a parallel computing platform using OpenCL. In this paper, we apply the AC and PFAC algorithm on DE1-SoC board with Cyclone V FPGA, where the optimization that considers FPGA architecture is performed. Experiments are performed considering global id, local id, local memory, and loop unrolling optimizations using PFAC algorithm. The performance improvement using loop unrolling is 129 times greater than AC algorithm that not adopt loop unrolling. The performance improvements using loop unrolling are 1.1, 0.2, and 1.5 times greater than those using global id, local id, and local memory optimizations mentioned above.

모바일 환경에서 파일 검색 엔진을 위한 효과적인 방식 (Effective Scheme for File Search Engine in Mobile Environments)

  • 조종근;하상은
    • 한국콘텐츠학회논문지
    • /
    • 제8권11호
    • /
    • pp.41-48
    • /
    • 2008
  • 본 논문에서는 파일 검색 엔진에 대해 모델링하고, 파일 검색의 정확도와 속도 향상을 위해 파일내의 내용들을 이용한 가중치 값 기반의 파일 검색 방식을 제안한다. 대부분의 파일 검색 엔진들은 빠른 검색 속도의 한계로 KMP와 같은 스트링 매칭 알고리즘을 사용해 왔다. 그러나, 이런 종류의 알고리즘들은 사용자가 원하는 파일들을 정확하게 찾아 주지는 못한다. 따라서, 모바일 환경에서 파일내의 내용들을 이용한 가중치 값 기반의 검색 엔진을 제안하고, 기존 방법들과 비교를 통해 제안한 방법의 우수한 성능을 증명한다.

Automatic Generation of Training Character Samples for OCR Systems

  • Le, Ha;Kim, Soo-Hyung;Na, In-Seop;Do, Yen;Park, Sang-Cheol;Jeong, Sun-Hwa
    • International Journal of Contents
    • /
    • 제8권3호
    • /
    • pp.83-93
    • /
    • 2012
  • In this paper, we propose a novel method that automatically generates real character images to familiarize existing OCR systems with new fonts. At first, we generate synthetic character images using a simple degradation model. The synthetic data is used to train an OCR engine, and the trained OCR is used to recognize and label real character images that are segmented from ideal document images. Since the OCR engine is unable to recognize accurately all real character images, a substring matching method is employed to fix wrongly labeled characters by comparing two strings; one is the string grouped by recognized characters in an ideal document image, and the other is the ordered string of characters which we are considering to train and recognize. Based on our method, we build a system that automatically generates 2350 most common Korean and 117 alphanumeric characters from new fonts. The ideal document images used in the system are postal envelope images with characters printed in ascending order of their codes. The proposed system achieved a labeling accuracy of 99%. Therefore, we believe that our system is effective in facilitating the generation of numerous character samples to enhance the recognition rate of existing OCR systems for fonts that have never been trained.

문화재 정보의 온톨로지 기반 검색시스템 (Ontology-Based Information Retrieval for Cultural Assets Information)

  • 백승재;천현재;이홍철
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권3호
    • /
    • pp.229-236
    • /
    • 2005
  • 시맨틱 웹(Semantic Web)은 정보자원의 효율적 검색, 통합, 재사용을 가능하게 한다. 현재의 웹 환경에서 사용되고 있는 키워드 검색방법은 단순한 문자열 일치 방법으로 인하여 정확한 검색결과에 한계가 있다. 이에 본 연구에서는 전통적인 키워드 검색에서의 나타난 문제점들을 해결할 방안으로 의미적인 연관성을 통한 온톨로지(Ontology) 검색방법을 제안하여 더욱 정확한 검색결과를 유도해 본다. 국내 문화재를 중심으로 하여 OWL기반의 온톨로지를 구축하였고 질의, 검색 방법으로는 RDQL 질의어와 Jena API를 사용하였다. 이와 더불어 온톨로지 속성(property)데이터를 데이터베이스에 저장하여 처리하는 방안을 제시한다.

  • PDF