• 제목/요약/키워드: 부분문자열

검색결과 67건 처리시간 0.032초

텍스트의 핑거프린트를 이용한 순위다중패턴매칭 알고리즘 병렬 구현 (A Parallel Implementation of the Order-Preserving Multiple Pattern Matching Algorithm using Fingerprints of Texts)

  • 박소민;김영호;심정섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.57-60
    • /
    • 2020
  • 순위다중패턴매칭문제는 길이가 n인 텍스트 T와 패턴들의 집합 P' = {P1,P2…,Pk}가 주어졌을 때, P'에 속하는 패턴들과 상대적인 순위가 일치하는 T의 모든 부분문자열들의 위치를 찾는 문제이다. P'에서 가장 짧은 패턴의 길이가 m, 가장 긴 패턴의 길이를 $\bar{m}$, 모든 패턴들의 길이의 합을 M, q개의 연속된 문자들을 q-그램이라 할 때, 기존에 텍스트의 핑거프린트를 이용하여 순위다중패턴매칭문제를 $O(q!+nqlogq+Mlog\bar{m}+nM)$ 시간에 해결하는 알고리즘이 제시되었다. 본 논문에서는 텍스트의 핑거프린트를 활용하여 O(max(q!,M,n))개의 스레드를 이용하여 순위다중패턴매칭문제를 평균적으로 $O(\bar{m}+qlogq+n/q!)$ 시간에 해결하는 병렬 구현 방법을 제시한다. 실험 결과, n = 1,000,000, k = 1,000, m = 5, q = 3일 때, 본 논문에서 제시하는 병렬 구현 방법은 기존의 순차 알고리즘보다 약 19.8배 빠르게 수행되었다.

유전자 알고리즘을 이용한 혼합 네트워크에서의 Chinese Postman Problem 해법 (A Genetic Algorithm for the Chinese Postman Problem on the Mixed Networks)

  • 전병현;강명주;한치근
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.181-188
    • /
    • 2005
  • Chinese Postman Problem(CPP)는 주어진 네트워크에서 모든 에지나 아크를 적어도 한번씩 경유하는 최단 경로를 찾는 문제이다. 혼합네트워크에서의 CPP(MCPP)는 기존의 CPP를 일반화시킨 문제로 현실 세계에서 많은 응용 부분들을 가지고 있으며, MCPP는 NP-Complete로 알려져 있다. 본 논문에서는 Floyd 알고리즘을 이용하여 구성된 가상 아크를 이용하여 혼합네트워크를 대칭네트워크로 변환 후 근사최적해를 탐색하는데 효율적인 유전자 알고리즘을 적용한다. 본 논문에서는 유전자 알고리즘에 적용하기 위해 경로 문자열과 에지, 아크를 구분하기 위한 문자열의 쌍으로 구성된 염색체 구조, 인코딩 및 디코딩 방법을 제안한다. 또한 보정 방법으로 Power Law 보정 방법과 Logarithmic 보정 방법을 사용하고 비교 분석하였다 본 논문에서는 기존의 MIXED2 알고리즘과 제안된 유전자 알고리즘과의 성능 비교를 하였다. 에지가 많은 혼합 네트워크인 경우 제안된 유전자 알고리즘이 좋은 결과를 얻고, Logarithmic 보정 방법 보다 Power Law보정 방법을 사용할 경우 좋은 결과를 얻을 수 있음을 알 수 있었다.

  • PDF

실세계 영상에서 경계선과 영상 분할을 이용한 기울기 검출 및 보정 (Extracting the Slope and Compensating the Image Using Edges and Image Segmentation in Real World Image)

  • 백재경;서영건
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권5호
    • /
    • pp.441-448
    • /
    • 2016
  • 본 논문에서는 문자열과 배경이 혼합된 장면에서 영상을 분할하여 기울기를 추출하고 보정하는 방법을 제안한다. 제안된 방법은 모폴로지를 이용하여 전처리를 하고 캐니 연산자를 이용하여 경계선을 검출한다. 그리고 경계선이 검출된 영상을 분할하여 경계선이 포함되어 있지 않는 영역은 배제하고 경계선이 포함되어 있는 영역만을 이용하여 여러 방향의 기울기에 따른 투영 히스토그램을 생성한다. 이를 이용하여 각 영역의 최대 경계선 집중도를 갖는 기울기를 구하고 장면의 기울기를 보정한다. 문자열과 배경이 혼합된 장면의 기울기 검출에서 제안된 방법은 경계선이 없는 무의미한 부분을 배제하기 때문에 기존의 방법보다 0.7% 더 좋은 결과를 얻을 수 있었다.

수취인 주소 영역의 영상매칭에 기반 한 유사 우편물 추출 방법 (Postal Image Filtering Method based on ROI Image Matching)

  • 정창부;박상철;손화정;김수형
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.793-795
    • /
    • 2004
  • 우편물을 배달순서대로 정렬하는 과정을 순로구분이라고 하는데, 우편물의 처리과정에서 가장 많은 시간이 소요되는 부분이 바로 이 순로구분 과정이다. 우정선진국의 순로구분 자동화 시스템은 바코드를 이용하여 순로구분를 자동으로 처리하고 있지만, 국내의 시스템은 순로구분의 전 단계까지만 수행하고 나머지 과정은 배달원이 자신의 경험에 의해 수작업으로 처리하고 있다. 본 논문에서는 우편물을 자동 검증하는 방법으로 바코드 대신에 우편영상 특징기반의 Virtual ID 사용을 위한 유사한 우편영상 추출방법을 제안한다. 제안 방법은 질의영상과 후보영상간의 유사성을 판별할 때, 각 영상의 수취인 영역에서 추출된 문자열 Bounding Box들의 대응되는 쌍을 결정하고 그 쌍들의 영역이 겹치는 정도를 유사도로 측정하는 방법이다 291개의 우편영상에 대하여 실험한 결과, 289개의 영상이 정상적으로 유사한 우편영상으로 추출되었다. 또한, 유사한 우편영상으로 추출된 영상의 평균개수는 3.78개로 비교적 높게 나왔지만 이는 실험 데이터에 동일 DM 발송 우편물이 연속적으로 위치한 경우가 많았기 때문이다.

  • PDF

부분 투영기법을 이용한 필기체 주소 영상에서의 문자열 분리 (Text line separation in handwritten address image using partial projection technique)

  • 정선화;남윤석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.31-34
    • /
    • 2003
  • In this paper, we describe a method for separating text lines in handwritten Korean address images. The most remarkable feature of the proposed method is to use a modified projection technique. named a partial projection technique. A projection based text line separation method which projects the whole address image in horizontal direction to find split points for text line separation cannot avoid failing separation in case of images with a little skew or overlap between vertically neighboring text lines. To overcome this problem, we have introduced a partial projection technique which splits an address image into a few partial address images to be equal width and then project them each horizontally. The experiment done with 989 handwritten Korean address images extracted from live mails shows the superiority of the proposed method. The correct text-line separation rate fir the testing images was about 91.5%.

  • PDF

버퍼넘침(buffer overflow)을 사용한 해킹공격 기법 및 예방 방안 (A Study on Hacking Attack using Buffer Overflow and Strategy to Avoid the Attack)

  • 이형봉;박현미;박정현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.129-132
    • /
    • 2000
  • 버퍼넘침(buffer overflow)은 특정 프로그램 언어에서 발생하는 배열의 경계파괴 현상을 말한다. 그 대표적인 언어로서 C/C++을 들 수 있는데. 이들 언어는 기본적으로 스트링(문자열)을 정의함에 있어서 크기속성을 배제하고 끝을 의미하는 종료문자(delimiter character. NULL)를 사용함으로써 배열(버퍼)의 경계침범 가능성을 허용하고 있다. 이 때 스택영역에 할당된 버퍼가 넘친다면, 주변에 위치한 지역변수, 레지스터 보관, 복귀주소 둥의 값이 변질되어 원래의 의도된 제어흐름을 보장할 수 없게 된다. 특히 복귀주소 부분을 의도적으로 침범하여 특정 값을 덮어쓸 수 있다면 해당 프로그램의 동작을 인위적으로, 그리고 자유롭게 변경할 수 있게 된다. 본 논문에서는 이와 같은 스택영역에서의 버퍼넘침을 사용한 제어흐름 변경 해킹기법의 과정을 현존하는 UNIX 시스템 및 C/C++ 언어를 이용하여 살펴보고 대응방향을 모색한다.

  • PDF

버퍼넘침(buffer overflow)을 이용한 해킹 공격기법 및 예방방안 (A Study on Hacking Attack using Buffer Overflow and Strategy to Avoid the Attack)

  • 이형봉;차홍준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.653-655
    • /
    • 2000
  • 버퍼넘침(buffer overflow)은 특정 프로그램 언어에서 발생하는 배열의 경계파괴 현상을 말한다. 그 대표적인 언어로서 C/C++을 들 수 있는데, 이들 언어는 기본적으로 스트링(문자열)을 정의함에 있어서 크기속성을 배제하고 끝을 의미하는 종료문자(delimiter character, NULL)을 사용함으로써 배열(버퍼)의 경계침범 가능성을 허용하고 있다. 이때 스택영역에 할당된 버퍼가 넘침다면, 주변에 위치한 지역변수, 레지스터 보관, 복귀주소 등의 값이 변질되어 원래의 의도된 제어흐름을 보장할 수 없게 된다. 특히 복귀주소 부분을 의도적으로 침범하여 특정 값을 덮어쓸 수 있다면 해당 프로그램의 동작을 인위적으로, 그리고 자유롭게 변경할 수 있게 된다. 본 논문에서는 이와 같은 스택영역에서의 버퍼넘침을 사용한 제어흐름 변경 해킹기법의 과정을 현존하는 UNIX 시스템 및 C/C++ 언어를 이용하여 살펴보고 대응방향을 모색한다.

  • PDF

ISO 14651에 의한 한글 ordering의 문제점과 그 해결 방안 (Some Problems on the Ordering of Hangout by ISO 14651 and a Proposal for their Resolutions)

  • 김종휘;김경석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.187-189
    • /
    • 2001
  • 문자열 간추리기(string ordering)에 관한 국제 표준인 ISO 14651의 내용 중 공통틀표(CTT)의 한글 관련 규정은, 첫 가끝 조합형과 완성형 어느 쪽으로도 부호화가 가능한 한글 문서의 특성을 무시하여 이들을 분리하여 기술함으로써 두 부호값 체계에 대한 상호 연관성과 통일성을 잃고 있다. 또한 ordering에 필수적인 UCS 완성형 글자마디의 무게값(weight)을 할당하지 않음으로써 형식적 완결성과 내용적 명료성을 잃고 있다. 이에 따라 본 논문은 CTT의 규정을 한글 문서의 부호화 방법에 따라 유형별로 검토하여 그 문제점을 지적하고, 이와 관련하여 어떤 한글 문서이든 이를 일관성 있게 ordering할 수 있도록 하는 \"CTT 한글 부분의 개정 방안\"을 제안함으로써 한글 ordering과 관련된 현 CTT 상의 여러 문제점들을 해결하고자 하였다.해결하고자 하였다.

  • PDF

메타문자를 사용한 한국어 사전 탐색 앱 (Korean Word Search App Using Meta-characters)

  • 권홍석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.110-113
    • /
    • 2011
  • 스마트 폰의 보급이 대중화됨에 따라 다양한 앱들이 사용되고 있으나 효율적인 사전 탐색에 관한 앱은 그다지 많지 않다. 현재 공개된 한국어 사전 탐색 앱은 완전한 단어이거나 단어의 부분 문자열을 질의로 사용한다. 이 경우 완전한 단어를 기억하지 못하거나 한국어 정보처리를 위한 여러 형태의 음운 정보를 쉽게 탐색할 수 없다. 이러한 문제를 개선하기 위해 본 논문에서는 메타문자를 사용하여 효율적으로 단어를 탐색할 수 있는 앱을 개발한다. 본 논문에서 사용하는 메타문자는 임의의 음절을 표현하는 '*'와 '?'과 종성을 표현하는 ':'를 사용하며 사전구조는 자소 단위의 트라이를 사용한다. 또한 음절은 물론이고 자소(초성, 중성, 종성)로 구성된 질의를 탐색할 수 있다. 더구나 음절과 자소가 혼합된 질의도 사용할 수 있도록 하여 사용자의 편의를 크게 도모하였다.

  • PDF

PSAML과 Topology String 데이터베이스를 이용한 웹 기반 단백질 구조 비교 시스템 (A Web-Based Protein Comparison System Using PSAML and Topology String Databases)

  • 김진홍;안건태;변상희;이수현;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.271-273
    • /
    • 2004
  • 단백질의 기능은 단백질의 구조에 따라 결정되며, 새로운 단백질의 기능을 파악하기 위하여 이미 밝혀진 단백질의 기능과 구조를 비교하는 방법이 사용되고 있다. 단백질 구조를 비교하는 방법은 단백질 구조를 표현하는 방법에 따라 다양하게 개발되고 있으며, 보다 효과적으로 관련된 연구자들이 자신의 연구에 활용하기 위해서는 빠르고 쉽게 활용할 수 있는 인터페이스를 제공하는 도구가 필요하다. 본 논문에서는 PDB 데이터베이스에서 제공하는 단백질 정보를 이용하여 PSAML 및 Topology String 데이터베이스를 구축하고 이를 바탕으로 웹 기반에서 단백질 구조 비교를 보다 빠르고 효과적으로 수행하는 시스템에 대하여 기술한다. PSAML 데이터베이스는 단백질 구조를 단백질 이차구조 및 그들 사이의 관계를 포함하는 PSAML 데이터를 제공하며, Topology String 데이터베이스는 단백질 구조를 단백질 이차구조를 하나의 문자로 기술하여 아미노산 순서와 위상학적(공간적) 정보를 포함하는 문자열로 단백질 구조정보를 제공한다. 이를 이용하여 구축된 웹 기반 단백질 구조 비교 시스템은 Topology String 정렬 방법을 통하여 보다 빠르게 유사성이 높은 부분 구조를 찾는 방법을 제공한다.

  • PDF