• Title/Summary/Keyword: 문자열 알고리즘

Search Result 165, Processing Time 0.099 seconds

Character Segmentation Using Depth Information (거리 정보를 활용한 문자 분할)

  • Jang, Seok-Woo;Park, Young-Jae;Kim, Gye-Young;Choi, Hyun-Jun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2013.01a
    • /
    • pp.229-230
    • /
    • 2013
  • 본 논문에서는 입체영상을 분석하여 3차원의 영상 내에 나타나는 문자 영역을 효과적으로 분리하는 알고리즘을 제안한다. 제안된 알고리즘은 먼저 입력된 영상에서 질감 특징을 이용해 문자영역이 존재하는 후보 영역을 분할하고, 후보 문자영역 중에서 문자열만을 형성하는 영역을 추출한다. 그런 다음, 지역화된 문자영역을 문자와 배경으로 분리하며, 거리 특징을 활용하여 추출된 문자영역이 비 문자영역을 포함하지 않고 문자영역만을 포함하고 있는지를 최종적으로 검증한다. 실험에서는 제안된 방법을 여러 가지 영상에 적용하여 테스트 해 보았으며, 제안된 방법이 기존의 방법에 비해 보다 정확하게 문자영역을 추출함을 확인하였다.

  • PDF

On-line word recognition of continuous English handwriting by mixture of stroke (영문 대문자의 획간 조합 순서를 이용한 온라인 필기의 문자열 인식)

  • 조현철;김우생
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.452-454
    • /
    • 1999
  • 온라인 필기 문자의 경우에는 필기의 변형이 심하고 문자간의 분리가 힘들기 때문에 인식률이 낮은 실정이다. 본 논문에서는 영문 대문자의 자유로운 필기를 인식할 수 있는 방법으로 영문 대문자의 필기시에 발생하는 획간 조합의 특징을 사용하여 인식하는 알고리즘을 제안한다.

  • PDF

δ-approximate Periods and γ-approximate Periods of Strings over Integer Alphabets (정수문자집합에 대한 문자열의 δ-근사주기와 γ-근사주기)

  • Kim, Youngho;Sim, Jeong Seop
    • Journal of KIISE
    • /
    • v.43 no.10
    • /
    • pp.1073-1078
    • /
    • 2016
  • (${\delta}$, ${\gamma}$)-matching for strings over integer alphabets can be applied to such fields as musical melody and share prices on stock markets. In this paper, we define ${\delta}$-approximate periods and ${\gamma}$-approximate periods of strings over integer alphabets. We also present two $O(n^2)$-time algorithms, each of which finds minimum ${\delta}$-approximate periods and minimum ${\gamma}$-approximate periods, respectively. Then, we provide the experimental results of execution times of both algorithms.

CUDA Implementation for the Four-Russian Algorithm (4-러시안 알고리즘의 CUDA 구현)

  • Kim, Young Ho;Jeong, Ju-Hui;Kang, Dae Woong;Sim, Jeong Seop;Kim, Minho;Park, Soo-jun;Lim, Myungeun;Jung, Ho-Youl
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.261-264
    • /
    • 2012
  • 상수 크기의 알파벳 ${\Sigma}$에 대해 길이가 각각 m, n인 두 문자열 X와 Y의 편집거리는 X를 Y로 변환하기 위해 필요한 최소 편집연산의 수로 정의된다. 두 문자열의 편집거리는 잘 알려진 동적프로그래밍을 이용하여 O(mn) 시간과 공간에 계산할 수 있으며, 4-러시안 알고리즘을 이용해도 계산할 수 있다. 4-러시안 알고리즘은 블록 크기를 상수 t라 할 때, 전처리 단계에서 $O\((3{\mid}{\Sigma}{\mid})^{2t}t^2\)$ 시간과 $O\((3{\mid}{\Sigma}{\mid})^{2t}t^2\)$ 공간이 필요하며, 계산 단계에서 O(mn/t) 시간과 O(mn) 공간을 이용하여 편집거리를 계산하는 알고리즘이다. 본 논문에서는 4-러시안 알고리즘의 계산 단계를 CUDA를 이용하여 구현하고 실험을 통해 CPU 기반의 순차적인 수행시간과 GPU 기반의 병렬적인 수행시간의 비교결과를 제시한다. 본 논문의 병렬알고리즘은 m/t개의 쓰레드를 사용하여 O(m+n) 시간에 편집거리를 계산한다. GPU 기반의 알고리즘이 CPU 기반의 알고리즘 보다 t=1일 때 약 10배 빠르고, t=2일 때 약 3배 빠른 결과를 보였다.

Improved Parallel Computation for Extended Edit Distances (개선된 확장편집거리 병렬계산)

  • Kim, Youngho;Sim, Jeong Seop
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.62-65
    • /
    • 2014
  • 근사문자열매칭 알고리즘은 검색엔진, 컴퓨터보안, 생물정보학 등 많은 분야에서 연구되고 있다. 근사문자열매칭에서는 거리함수를 이용하여 오차를 측정한다. 거리함수로는 해밍거리, 편집거리, 확장편집거리 등이 있다. 이때 확장편집거리는 mn) 시간과 공간에 계산할 수 있으며, 최근 m개의 쓰레드를 이용하여 O(m+n) 시간과 O(mn) 공간을 이용한 병렬알고리즘이 제시되었다. 본 논문에서는 기존의 확장편집거리를 계산하는 병렬알고리즘을 개선한 효율적인 병렬알고리즘을 제시한다. 기존의 병렬알고리즘을 최적화하고, 기존의 병렬알고리즘, 전역메모리만 사용한 최적화된 병렬알고리즘, 공유메모리를 활용한 최적화된 병렬알고리즘의 수행시간을 비교한다. 실험 결과, 개선된 병렬알고리즘이 기존의 병렬알고리즘보다 전처리단계에서 16 ~ 63배 이상, 모든 단계에 대해 19 ~ 24배 이상 빠른 수행시간을 보였다.

Fast and simple algorithm for sorting by reversals and transpositions (전도와 전치 연산을 사용하여 정렬하는 빠르고 간단한 알고리즘)

  • 한보형;박근수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.674-676
    • /
    • 2000
  • 최근 들어 계산분자생물학 분야에서 문자열 알고리즘과 관련된 유전자 재배열 문제가 많은 관심을 끌고 있다. 특히 이러한 문제에는 전도(reversal)나 전치(transpositon)와 같은 재배열 연산들이 사용되고 있다. 전도와 전치 두 가지 연산을 모두 사용하는 정렬은 필요한 최소 연산 회수의 3배 이내의 연산 수행만으로 가능하다고 알려져 있다. 이 논문에서는 기존의 알고리즘을 분석하고 휴리스틱을 사용함으로써 실제 연산 수행 회수를 대폭 줄일수 있음을 보였다. 또한, 기존의 알고리즘보다 간단한 새로운 알고리즘을 제시하고, 이 알고리즘과 휴리스틱을 같이 사용하는 경우 수행 시간과 근사비(approximation ratio)에 있어서 매우 효과적임을 보였다.

  • PDF

A Local Alignment Algorithm using Normalization by Functions (함수에 의한 정규화를 이용한 local alignment 알고리즘)

  • Lee, Sun-Ho;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.34 no.5_6
    • /
    • pp.187-194
    • /
    • 2007
  • A local alignment algorithm does comparing two strings and finding a substring pair with size l and similarity s. To find a pair with both sufficient size and high similarity, existing normalization approaches maximize the ratio of the similarity to the size. In this paper, we introduce normalization by functions that maximizes f(s)/g(l), where f and g are non-decreasing functions. These functions, f and g, are determined by experiments comparing DNA sequences. In the experiments, our normalization by functions finds appropriate local alignments. For the previous algorithm, which evaluates the similarity by using the longest common subsequence, we show that the algorithm can also maximize the score normalized by functions, f(s)/g(l) without loss of time.

Fast Matching Method for DNA Sequences (DNA 서열을 위한 빠른 매칭 기법)

  • Kim, Jin-Wook;Kim, Eun-Sang;Ahn, Yoong-Ki;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.36 no.4
    • /
    • pp.231-238
    • /
    • 2009
  • DNA sequences are the fundamental information for each species and a comparison between DNA sequences of different species is an important task. Since DNA sequences are very long and there exist many species, not only fast matching but also efficient storage is an important factor for DNA sequences. Thus, a fast string matching method suitable for encoded DNA sequences is needed. In this paper, we present a fast string matching method for encoded DNA sequences which does not decode DNA sequences while matching. We use four-characters-to-one-byte encoding and combine a suffix approach and a multi-pattern matching approach. Experimental results show that our method is about 5 times faster than AGREP and the fastest among known algorithms.

Extraction of Computer Virus Behavior by Using Language Compression Algorithm (언어 압축 알고리즘을 이용한 컴퓨터 바이러스의 행위 패턴 추출)

  • 임영환;위규범
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.754-756
    • /
    • 2001
  • 컴퓨터 사용증가와 함께 컴퓨터 바이러스 또한 증가하고 있다. 바이러스 검사 프로그램은 바이러스의 특정 문자열(signature)을 찾아 문자열 검색도구와 프로세스의 행동을 모니터링 하는 감시도구(general purpose monitor)의 두 가지 형태가 있으며, 각각은 미 발견 바이러스에 대한 취약성과 시스템 오버헤드를 단점으로 가지고 있다. 또한, 최근에 제안된 면역 시스템은 계산 복잡도나 시스템 구성면에서 지나친 부담을 가지고 있다. 본 논문에서는 바이러스들의 행위를 추출 할 수 있도록 하기 위하여, 언어 압축 알고리즘을 이용하여 바이러스 행동 패턴을 추출하는 방법을 고안하였고, 몇 가지 바이러스를 이용하여 실험해 보았다. 그 결과 실제 학습에 이용한 바이러스가 아니더라도 유사한 동작을 하는 바이러스에 대해서는 면역성을 가질 수 있었다.

  • PDF

Improvement of Practical Suffix Sorting Algorithm (실용적인 접미사 정렬 알고리즘의 개선)

  • Jeong, Tae-Young;Lee, Tae-Hyung;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.36 no.2
    • /
    • pp.68-72
    • /
    • 2009
  • The suffix array is a data structure storing all suffixes of a string in lexicographical order. It is widely used in string problems instead of the suffix tree, which uses a large amount of memory space. Many researches have shown that not only the suffix array can be built in O(n), but also it can be constructed with a small time and space usage for real-world inputs. In this paper, we analyze a practical suffix sorting algorithm due to Maniscalco and Puglisi [1], and we propose an efficient algorithm which improves Maniscalco-Puglisi's running time.