• Title/Summary/Keyword: 문자집합

Search Result 87, Processing Time 0.036 seconds

String Matching Algorithm on Multi-byte Character Set Texts (다중바이트 문자집합 텍스트에서의 문자열 검색 알고리즘)

  • Kim, Eun-Sang;Kim, Jin-Wook;Park, Kun-Soo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.10
    • /
    • pp.1015-1019
    • /
    • 2010
  • An extensive research on exact string matching has been done, but there have been few researches on the matching in multi-byte character set texts such as EUC~KR. This paper shows that false matches may occur in multi-byte character set texts such as EUC-KR when using KMP algorithm, and presents a refined KMP algorithm without false matches applying a character-based prefix function. And also, Experimental results show that our algorithm is faster than string matching algorithms of widely used editors, Vim and Emacs, and the existing automata-based algorithm.

The Consensus String Problem based on Radius is NP-complete (거리반경기반 대표문자열 문제의 NP-완전)

  • Na, Joong-Chae;Sim, Jeong-Seop
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.36 no.3
    • /
    • pp.135-139
    • /
    • 2009
  • The problems to compute the distances or similarities of multiple strings have been vigorously studied in such diverse fields as pattern matching, web searching, bioinformatics, computer security, etc. One well-known method to compare multiple strings in the given set is finding a consensus string which is a representative of the given set. There are two objective functions that are frequently used to find a consensus string, one is the radius and the other is the consensus error. The radius of a string x with respect to a set S of strings is the smallest number r such that the distance between the string x and each string in S is at most r. A consensus string based on radius is a string that minimizes the radius with respect to a given set. The consensus error of a string with respect to a given set S is the sum of the distances between x and all the strings in S. A consensus string of S based on consensus error is a string that minimizes the consensus error with respect to S. In this paper, we show that the problem of finding a consensus string based on radius is NP-complete when the distance function is a metric.

An effective algorithm for checking subsumption relation on string data containing wildcard characters (Wildcard character를 포함하는 String Data 사이의 Subsumption 관계 확인을 위한 효율적인 알고리즘)

  • 김도한;박희진;백은옥
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.712-714
    • /
    • 2004
  • 본 논문에서는 wildcard character를 포함하는 문자열의 집합을 대상으로, 이들 사이의 subsumption 관계를 파악하여 더 구체적인 정보를 가지는 문자열들의 집합을 구하고자 하는 것이다. 이를 위해 기존의 suffix tree 알고리즘이 wildcard character를 포함하는 문자열을 처리할 수 있도록 단순 적용한 방법과 trie의 집합을 이용하여 wildcard character를 포함한 문자열을 처리하는 두 가지 방법을 고려하였다

  • PDF

An Efficient Algorithm for Constructing Suffix Arrays for DNA String (DNA스트링에 효율적인 써픽스 배열 구축 알고리즘)

  • 조준하;박회진;김동규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.961-963
    • /
    • 2004
  • 써픽스 배열은 텍스트의 써픽스들을 사전적 순서대로 저장하여 검색을 효율적으로 할 수 있는 자료구조이다. 생물학에서의 DNA 스트링과 같이 긴 텍스트에 대해 써픽스 배열을 이용하면 빠르게 검색할 수 있다. 써픽스 배열은 유사한 자료구조인 써픽스 트리에 비해 적은 공간을 차지하기 때문에 생물학에서 사용하는 긴 텍스트의 처리에 유리하다. 최근, 텍스트에서 바로 써픽스 배열을 선형시간에 구축하는 알고리즘들이 발표되었다. 그러나 이들 알고리즘은 정수 문자집합을 위한 알고리즘들이었다. 본 논문에서는 고정길이 문자집합에 대해 써픽스 배열을 빠르게 구축하는 알고리즘을 소개한다. 그리고 실험을 통해서 DNA 스트링과 같은 고정길이 문자집합에 대해서 다른 알고리즘들과 구축시간을 비교하여 속도 향상이 있음을 보인다.

  • PDF

Hierarchical Multi-Classifier for the Mixed Character Code Set (홍용 문자 코드 집합을 위한 계층적 다중문자 인식기)

  • Kim, Do-Hyeon;Park, Jae-Hyeon;Kim, Cheol-Ki;Cha, Eui-Young
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.11 no.10
    • /
    • pp.1977-1985
    • /
    • 2007
  • The character recognition technique is one of the artificial intelligence and has been widely applied in the automated system robot HCI(Human Computer Interaction), etc. This paper introduces the character set and the representative character that can be used in the recognition of the mage ROI. The character codes in this ROI include the digit, symbol, English and Hereat etc. We proposed the efficient multi-classifier structure by combining the small-size classifiers hierarchically. Moreover, we generated each small-size classifiers by delta-bar-delta learning algorithm. We tested the performance with various kinds of images and achieved the accuracy of 99%. The proposed multi-classifier showed the efficiency and the reliability for the mixed character code set.

Feature Combination and Selection Using Genetic Algorithm for Character Recognition (유전 알고리즘을 이용한 특징 결합과 선택)

  • Lee Jin-Seon
    • The Journal of the Korea Contents Association
    • /
    • v.5 no.5
    • /
    • pp.152-158
    • /
    • 2005
  • By using a combination of different feature sets extracted from input character patterns, we can improve the character recognition system performance. To reduce the dimensionality of the combined feature vector, we conduct the feature selection. This paper proposes a general framework for the feature combination and selection for character recognition problems. It also presents a specific design for the handwritten numeral recognition. Tn the design, DDD and AGD feature sets are extracted from handwritten numeral patterns, and a genetic algorithm is used for the feature selection. Experimental result showed a significant accuracy improvement by about 0.7% for the CENPARMI handwrittennumeral database.

  • PDF

Tyue Classification of Korean Characters Considering Relative Type Size (유형의 상대적 크기를 고려한 한글문자의 유형 분류)

  • Kim, Pyeoung-Kee
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.6 s.44
    • /
    • pp.99-106
    • /
    • 2006
  • Type classification is a very needed step in recognizing huge character set language such as korean characters. Since most previous researches are based on the composition rule of Korean characters, it has been difficult to correctly classify composite vowel characters and problem space was not divided equally for the lack of classification of last consonant which is relatively bigger than other graphemes. In this paper, I Propose a new type classification method in which horizontal vowel is extracted before vortical vowel and last consonants are further classified into one of five small groups based on horizontal projection profile. The new method uses 19 character types which is more stable than previous 6 types or 15 types. Through experiments on 1.000 frequently used character sets and 30.614 characters scanned from several magazines, I showed that the proposed method is more useful classifying Korean characters of huge set.

  • PDF

Efficient Approximate String Searches with Inverted Lists through Search Range Reduction (효율적인 유사문자열 검색을 위한 역리스트 탐색 기법)

  • Lee, Eun-Seok;Kim, Jong-Ik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1310-1313
    • /
    • 2011
  • 유사문자열 검색이란 문자열 집합에서 주어진 문자열과 유사한 문자열들을 검색하는 것으로 정보검색, 데이터 클리닝 등의 분야에서 활용되고 있다. 효율적인 유사문자열 검색을 위해 사전에 문자열 집합에 대한 역리스트를 구성하고 문자열이 주어졌을 때, 주어진 문자열에 관련된 역리스트를 병합하여 유사도 기준을 만족하는 문자열을 찾는다. 이때 비용을 줄이기 위해 일부의 역리스트만 병합하고 나머지 역리스트에 대해서는 이진탐색을 하는 방법이 있다. 본 논문에서는 역리스트를 이진탐색할 때, 불필요한 탐색구간을 제거하여 역리스트 탐색 비용을 줄이는 방법을 제안한다.

Development of Automatic Nuclear Fuel Rod Character Recognition System Based on Image Processing Technique (영상처리기술을 이용한 핵 연료봉 문자 자동인식시스템 개발)

  • Woong Ki Kim;Yong Bum Lee;Jong Min Lee;Sung IL Chien
    • Nuclear Engineering and Technology
    • /
    • v.25 no.3
    • /
    • pp.424-429
    • /
    • 1993
  • Numeric characters are printed at the end part of nuclear fuel rod containing nuclear pellets. Fuel rods are discriminated and managed systematically by these characters in the process of producing fuel assembly. The characters are also used to examine manufacturing process of fuel rods in the survey of burnup efficiency as well as in inspection of irradiated fuel rod. Therefore automatic character recognition is one of the most important technologies in automatic manufacture of fuel assembly. In this study, character recognition system is developed. In the developed system, mesh feature extracted from each character written in the fuel rod has been compared with reference feature value stored in database, and the character is thus identified. In the result of experiment, 95.83 percent recognition rate is achievable.

  • PDF

Adaptive SEJONG-NET (적응 학습 능력을 가진 SEJONG-NET)

  • Park, Hye-Young;Lee, Yill-Byung
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.164-168
    • /
    • 1995
  • SEJONG-NET은 시각 문자패턴의 인식 과정을 설명 할 수 있는 적절한 패러다임을 제공하기 위해 척추동물의 시신경계 구조와 기능을 모방하여 만든 문자인식 모형이다. 초기에는 온라인 한글 인식을 위하여 설계되었으며, 이후 다양한 문자 집합이나 오프라인 한글 문자를 위한 모뎀들이 개발되었다. 현재까지 개발된 여러 SEJONG-NET 모델이 가지고 있는 문제점은 정직성이라고 할 수 있다. 즉, 설계 초기에 고려한 인식 대상 문자 집합과 문자 패턴에 대해서만 인식이 가능하고, 변형된 패턴을 기존의 패턴으로 근사화하여 해석하거나 새로운 패턴에 대하여 그것을 추가 학습하는 것이 불가능하다. 따라서 본 논문은 SEJONG-NET의 이러한 제약점을 해결하여 한글 인식 문제에 일반적으로 적용될 수 있도록 개선하는 것을 목적으로 한다. 이를 위해 상위층에서는 인간이 가지고 있는 문자에 대한 구조적인 지식을 표현하고 학습을 통해 추가적으로 습득할 수 있는 형태로 구현하였고, 하위층에서는 상위층에서 쓰이는 구조적인 지식을 표현하는데 적합한 특징을 추출해 낼 수 있도록 구현하였다. 특히 하위층에서는 인간의 초기 시각 피질에서 감지되는 특징들을 추출하도록 구현하여 사용되는 특징이 일반성을 가질 수 있도록 하였다. 이러한 방법을 기반으로 하여 본 논문에서는 변형된 패턴에 대한 적응 학습 능력을 가지며 인지과학적인 사실에 보다 충실하도록 개선된, 온라인 한글 인식을 위한 SEJONG-NET 모델을 제안한다.

  • PDF