• Title/Summary/Keyword: 문자열 탐색

Search Result 37, Processing Time 0.024 seconds

Enhancing Retrieval Performance for Hierarchical Compact Binary Tree (계층형 집약 이진 트리의 검색 성능 개선)

  • Kim, Sung Wan
    • Journal of Creative Information Culture
    • /
    • v.5 no.3
    • /
    • pp.345-353
    • /
    • 2019
  • Several studies have been proposed to improve storage space efficiency by expressing binary trie data structure as a linear binary bit string. Compact binary tree approach generated using one binary trie increases the key search time significantly as the binary bit string becomes very long as the size of the input key set increases. In order to reduce the key search range, a hierarchical compact binary tree technique that hierarchically expresses several small binary compact trees has been proposed. The search time increases proportionally with the number and length of binary bit streams. In this paper, we generate several binary compact trees represented by full binary tries hierarchically. The search performance is improved by allowing a path for the binary bit string corresponding to the search range to be determined through simple numeric conversion. Through the performance evaluation using the worst time and space complexity calculation, the proposed method showed the highest performance for retrieval and key insertion or deletion. In terms of space usage, the proposed method requires about 67% ~ 68% of space compared to the existing methods, showing the best space efficiency.

Decomposition of a Text Block into Words Using Projection Profiles, Gaps and Special Symbols (투영 프로파일, GaP 및 특수 기호를 이용한 텍스트 영역의 어절 단위 분할)

  • Jeong Chang Bu;Kim Soo Hyung
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.9
    • /
    • pp.1121-1130
    • /
    • 2004
  • This paper proposes a method for line and word segmentation for machine-printed text blocks. To separate a text region into the unit of lines, it analyses the horizontal projection profile and performs a recursive projection profile cut method. In the word segmentation, between-word gaps are identified by a hierarchical clustering method after finding gaps in the text line by using a connected component analysis. In addition, a special symbol detection technique is applied to find two types of special symbols tying between words using their morphologic features. An experiment with 84 text regions from English and Korean documents shows that the proposed method achieves 99.92% accuracy of word segmentation, while a commercial OCR software named Armi 6.0 Pro$^{TM}$ has 97.58% accuracy.y.

Construction of Linearly Aliened Corpus Using Unsupervised Learning (자율 학습을 이용한 선형 정렬 말뭉치 구축)

  • Lee, Kong-Joo;Kim, Jae-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.11B no.3
    • /
    • pp.387-394
    • /
    • 2004
  • In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can cause some difficulties like the search space explosion for applications using the aligned corpus with null characters and no possibility of applying to several machine learning algorithms. To alleviate these difficulties, we modify the algorithm not to contain null characters in the aligned source strings. We have shown the usability of our approach by applying it to different areas such as Korean-English back-trans literation, English grapheme-phoneme conversion, and Korean morphological analysis.

Design and Implementation of High-Speed Pattern Matcher Using Multi-Entry Simultaneous Comparator in Network Intrusion Detection System (네트워크 침입 탐지 시스템에서 다중 엔트리 동시 비교기를 이용한 고속패턴 매칭기의 설계 및 구현)

  • Jeon, Myung-Jae;Hwang, Sun-Young
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.40 no.11
    • /
    • pp.2169-2177
    • /
    • 2015
  • This paper proposes a new pattern matching module to overcome the increased runtime of previous algorithm using RAM, which was designed to overcome cost limitation of hash-based algorithm using CAM (Content Addressable Memory). By adopting Merge FSM algorithm to reduce the number of state, the proposed module contains state block and entry block to use in RAM. In the proposed module, one input string is compared with multiple entry strings simultaneously using entry block. The effectiveness of the proposed pattern matching unit is verified by executing Snort 2.9 rule set. Experimental results show that the number of memory reads has decreased by 15.8%, throughput has increased by 47.1%, while memory usage has increased by 2.6%, when compared to previous methods.

Efficient Approximate String Searches using Bitmap Filter (비트맵 필터를 이용한 효율적인 유사 문자열 검색 기법)

  • Kwon, In-Teak;Kim, Jong-Ik
    • Annual Conference of KIPS
    • /
    • 2011.04a
    • /
    • pp.1298-1301
    • /
    • 2011
  • 텍스트 데이터는 표현 방식의 차이, 타이핑 오류 등을 포함하고 있어 정확히 일치하는 검색으로는 유용한 정보를 얻기 어렵다. 따라서 유사도 기반 검색 방법이 많이 연구되고 있으며 효율적인 유사도 기반 검색을 위해 텍스트 데이터에 대한 역 리스트를 구성한다. 그리고 이를 병합하여 질의와 일정 기준 이상 유사한 데이터를 찾는다. 본 논문에서는 역 리스트 병합 과정에서 역 리스트의 탐색 비용을 줄이기 위해 비트맵 필터를 사용하는 기법을 제안한다. 비트맵 필터를 사용하여 역 리스트의 탐색 여부를 결정하여 불필요한 역 리스트 탐색을 회피함으로써 역 리스트 병합 비용을 줄인다. 실험을 통하여 제안된 기법이 기존의 연구에서 제안된 역 리스트 병합 알고리즘의 성능을 30~40% 정도 개선함을 보인다.

Automated extraction of MIPS firmware image base using page-granularity (페이지 입상도 기반의 MIPS 펌웨어 베이스 주소 자동추출 기법)

  • Seok-Joo Mun;Daehee Jang
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.5-6
    • /
    • 2023
  • 본 논문에서는 MIPS 아키텍쳐 기반 펌웨어에 대한 페이지 단위의 이미지 베이스 주소 탐색 방안을 제안한다. 이 방법은 MIPS 기반 임베디드 기기의 펌웨어를 대상으로, 대상 내의 분석 대상의 이미지 베이스 주소 계산 알고리즘을 효율적으로 개선하여 이미지 베이스 주소탐색 시간을 최소화하는 것을 목표로 한다. 이 방법은 펌웨어 내 문자열의 주소를 기준으로 세그먼트 시작 주소를 유추, 페이지 단위인 4KB 단위로의 이미지 베이스 주소 후보군을 계산하여 이미지 베이스 주소 후보군을 선별하는 것을 그 원리로 한다. 본 논문에 적용된 방법은 기존의 경험적 방법을 통한 펌웨어 베이스 탐색 방안에 비해 정확도면에서 우수함을 보인다.

  • PDF

An Efficient Method of IR-based Automated Keyword Tagging (정보검색 기법을 이용한 효율적인 자동 키워드 태깅)

  • Kim, Jinsuk;Choe, Ho-Seop;You, Beom-Jong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2008.05a
    • /
    • pp.24-27
    • /
    • 2008
  • As shown in Wikipedia, tagging or cross-linking through major key-words improves the readability of documents. Recently, the Semantic Web rises the importance of social tagging as a key feature of the Web 2.0 and Tag Cloud has emerged as its crucial phenotype. In this paper we provides an efficient method of automated keyword tagging based on controlled term collection, where the computational complexity of O(mN) - if pattern matching algorithm is used - can be reduced to O(mlogN) - if Information Retrieval is adopted - while m is the length of target document and N is the total number of candidate terms to be tagged. The result shows that IR-based tagging speeds up 5.6 times compared with fast pattern matching algorithm.

  • PDF

A Study on the Design of a Full-Text Indexing System for Thesis (학위논문의 전문색인시스템 설계)

  • 추윤미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1996.08a
    • /
    • pp.57-60
    • /
    • 1996
  • 전문데이터베이스는 원문의 접근가능성과 전문탐색의 장점으로 인해 최근 급속하게 발전하고 있다. 그러나 이제까지 대부분의 전문데이터베이스는 문헌의 구조를 고려하지 않고 본문의 문자열에서 자동추출한 색인어를 대상으로 비통제탐색방법을 사용하여 왔으므로 효율적이고 다양한 검색방법을 적용하기 어려웠다. 본 연구에서는 SGML을 이용하여 문헌을 구조화하고 이를 이용한 색인시스템을 설계함으로써, 문헌구조를 이용한 다양한 검색이 가능하도록 하였다. 이를 위해 논문을 대상으로 하여 문헌의 구조를 분석하고, 주요 문헌요소인 초록, 목차, 본문, 참고문헌의 특성을 색인에 반영하였다. 색인시스템은 문헌요소를 태그와 텍스트데이터로 분석하여 색인하는 일차색인과, 일차색인에 의해 만들어진 문헌요소테이블과 내용데이터파일을 이용하여 주요 문헌요소를 색인한 이차색인으로 구성된다.

  • PDF

A Naming Technique of the MPEG-4 Object for the Quick Search of the Scene Graph (씬 그래프의 빠른 탐색을 위한 MPEG-4 객체 Naming 기법)

  • 김남영;이숙영;김상욱
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.208-210
    • /
    • 2002
  • 재생기에서 MP4 파일을 재생하기 위해서는 Drawing 정보와 Routing 정보가 필요하다. 기존의 저작도구에서의 객체 Naming은 그 객체와는 상관없이 단순히 문자열과 숫자의 조합으로 되어 있고 실제 화면상에 기술되는 객체의 ID값을 부여하는 방법이었다. 객체 Naming을 구현하는 객체 ID 설정이 이러한 방법이었기 때문에 재생기에서 객체 정보를 구하려면 Scene 그래프를 반복해서 검색하는 load가 발생한다. 본 논문에서는 이러한 load를 줄이기 위해서 비트 연산을 이용한 각 객체의 ID를 부여함으로써 각 객체에 속하는 Attribute의 ID가 자신의 실제 객체의 ID를 추론할 수 있는 방법으로 객체에 대한 Naming을 구현하였다. 이러한 객체 Naming 기법으로 설정된 객체의 ID값은 비트 연산과 시프트 연산을 이용해서 객체 정보를 구할 수 있기 때문에 Scene 그래프 탐색 load를 줄일 수 있다.

  • PDF

Spelling Correction in Korean Using the `Eojeol` generation Dictionary (어절 생성 사전을 이용한 한국어 철자 교정)

  • Lee, Yeong-Sin;Park, Yeong-Ja;Song, Man-Seok
    • The KIPS Transactions:PartB
    • /
    • v.8B no.1
    • /
    • pp.98-104
    • /
    • 2001
  • 본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

  • PDF