• 제목/요약/키워드: 문자열 알고리즘

검색결과 164건 처리시간 0.026초

환형문자열에 대한 대표문자열을 찾는 병렬 알고리즘 (Parallel Algorithms for Finding Consensus of Circular Strings)

  • 김동희;심정섭
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.289-294
    • /
    • 2015
  • 대표문자열 문제는 k개의 문자열로 구성된 집합 S가 주어졌을 때 S를 대표하는 한 문자열인 대표문자열을 찾는 문제이다. 환형문자열은 일반적인 문자열과는 달리 문자열의 첫 글자와 마지막 글자가 연결되어 원 모양을 이루는 문자열이다. 본 논문에서는 먼저 k=3이고 길이 n인 환형문자열들로 구성된 S에 대해, 거리반경과 거리합을 동시에 고려한 대표문자열 문제를 O(n)개의 쓰레드를 사용하여 $O({\mid}{\Sigma}{\mid}nlogn)$ 시간에 병렬적으로 해결하는 알고리즘을 제시한다. 이때, ${\Sigma}$는 각 문자열을 구성하는 문자집합이다. 다음으로 k=4이고 길이 n인 환형문자열들로 구성된 S에 대해 거리합 기반 대표문자열 문제를 O(n)개의 쓰레드를 사용하여 $O({\mid}{\Sigma}{\mid}n^2logn)$ 시간에 병렬적으로 해결하는 알고리즘을 제시한다. 이후 두 문제에 대한 병렬 알고리즘들을 CUDA를 이용하여 구현하고 순차 알고리즘들과의 실행 속도를 비교한 결과를 제시한다.

윤곽선 추적 알고리즘과 개선된 ART1을 이용한 영문 명함 인식에 관한 연구 (A Study on the Recognition of an English Calling Card by using Contour Tracking Algorithm and Enhanced ART1)

  • 김광백;김철기;김정원
    • 지능정보연구
    • /
    • 제8권2호
    • /
    • pp.105-115
    • /
    • 2002
  • 본 논문에서는 4 방향 윤곽선 추적 알고리즘(contour tracking algorithm)과 개선된 ART1을 이용한 영문 명함인식 방법을 제안한다. 영문 명함 영상에서 문자열 추출은 영상을 3배로 축소하여 수평 스미어링 기법(smearing method)과 4방향 윤곽선 추적 방법을 적용하여 문자열 후보 영역을 추출하고 수평 및 수직의 비율과 면적을 이용하여 문자열 영역과 비문자열 영역을 구분하였다. 추출된 문자열 영역에서 개별 문자 추출은 수평 스미링 기법과 윤곽선 추적 알고리즘을 이용하여 추출하였고 개별 문자들의 인식은 ART1 알고리즘을 개선하여 인식에 적용하였다. 본 논문에서 제안한 ARTI 알고리즘은 퍼지 합 접속 연산자를 이용하여 유사도를 동적으로 조정함으로써 기존의 ART1을 개선하였다. 추출 및 인식 실험 결과, 제안된 추출 및 인식 방법이 영문 명함 인식에서 효율적인 것을 확인하였다.

  • PDF

Wildcard character를 포함하는 String Data 사이의 Subsumption 관계 확인을 위한 효율적인 알고리즘 (An effective algorithm for checking subsumption relation on string data containing wildcard characters)

  • 김도한;박희진;백은옥
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.712-714
    • /
    • 2004
  • 본 논문에서는 wildcard character를 포함하는 문자열의 집합을 대상으로, 이들 사이의 subsumption 관계를 파악하여 더 구체적인 정보를 가지는 문자열들의 집합을 구하고자 하는 것이다. 이를 위해 기존의 suffix tree 알고리즘이 wildcard character를 포함하는 문자열을 처리할 수 있도록 단순 적용한 방법과 trie의 집합을 이용하여 wildcard character를 포함한 문자열을 처리하는 두 가지 방법을 고려하였다

  • PDF

접미사 배열을 이용한 Suffix-Prefix가 일치하는 모든 쌍 찾기 (Finding All-Pairs Suffix-Prefix Matching Using Suffix Array)

  • 한선미;우진운
    • 정보처리학회논문지A
    • /
    • 제17A권5호
    • /
    • pp.221-228
    • /
    • 2010
  • 최근 문자열 연산들이 계산 생물학 및 인터넷의 보안, 검색 분야에 응용되면서 효율적인 문자열 연산을 위한 다양한 자료구조와 알고리즘이 연구되고 있다. suffix-prefix가 일치하는 모든 쌍 찾기는 두 개 이상의 문자열이 주어질 때 각 쌍의 문자열에 대해 가장 긴 suffix와 일치하는 prefix를 찾는 것으로 가장 짧은 슈퍼스트링을 검출하는 근사 알고리즘에서 사용될 뿐만 아니라 생물정보학, 데이터 압축 분야에서도 중요하게 사용된다. 본 논문에서는 접미사 배열을 이용하는 suffix-prefix가 일치하는 모든 쌍 찾기 알고리즘을 제안하며 O($k{\cdot}m$) 시간 복잡도를 가진다. 접미사 배열 알고리즘이 접미사 트리 알고리즘 보다 소요 시간과 메모리 면에서 더 우수함을 실험을 통해서 제시한다.

절단 접미사 트리를 생성하는 새로운 알고리즘 (A New Algorithm for Constructing the Truncated Suffix Tree)

  • 나중채
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.999-1001
    • /
    • 2009
  • 절단 접미사 트리(truncated suffix tree)는 접미사 트리의 절단 버전으로, 주어진 문자열의 부분 문자열 중 일정 길이 이하인 것들만을 표현하는 자료구조이다. 절단 접미사 트리는 일정 길이 이하의 문자열들만을 고려하는 응용에 유용한데, 특히 LZ77 압축과 같이 온라인 생성 알고리즘이 필요한 응용들도 있다. 본 논문에서는 절단 접미사 트리를 온라인으로 생성하는 새로운 알고리즘을 제시한다.

선형 시간 접미사 배열 생성 알고리즘들의 비교 (Comparison of Linear Time Suffix Array Construction Algorithms)

  • 이성림;박근수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.496-498
    • /
    • 2003
  • 접미사 배열은 긴 문자열에 대해 효율적인 문자열 검색을 가능하게 하는 자료구조이다. 접미사 배열은 문자열의 접미사들의 사전식 정렬순서를 배열로 저장한다. 비슷한 효과를 가진 접미사 트리에 비해서 접미사 배열은 저장 공간을 적게 차지하기 때문에 생명정보과학의 염기 서열 등 큰 크기의 문자열의 처리에 더욱 유리하다. 본 논문에서는 2003년에 발표된 Ko-Aluru, K$\square$rkk$\square$inen-Sanders 및 기존의 Manber-Myers 등 세 개의 접미사 배열 생성 알고리즘들의 염기 서열 입력 자료에 대한 실행 시간 및 기억 장치 사용량을 실험을 통해 비교한다. 특히 Ko-Aluru와 K$\square$rkk$\square$inen-Sanders 알고리즘은 실행 시간 및 저장 공간의 이론적인 복잡도가 O(n)으로 동일하기 때문에 실험을 통해서 계산 복잡도에 숨어있는 상수를 비교한다. 실험 결과 K$\square$rkk$\square$inen-Sanders 알고리즘이 가장 효율적임을 보인다.

  • PDF

최장 공통 부분 서열과 극대 공통 부분 서열의 길이 비교 및 분석 (Comparison and Analysis of Lengths of Longest Common Subsequence and Maximal Common Subsequence)

  • 이동엽;나중채
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.15-18
    • /
    • 2021
  • 최장 공통 부분 서열(Longest Common Subsequence, LCS)은 서열 유사도(Similarity)를 측정하기 위한 주요 지표 중 하나로 특별한 가정이 없는 한 두 문자열의 LCS 를 계산하기 위해서는 두 문자열의 길이의 곱에 비례하는 시간이 필요하다. 최근 최장(longest)이라는 조건을 극대(maximal)로 완화한 극대 공통 부분 서열(Maximal Common Subsequence, MCS)이 제시되었고, 두 문자열의 MCS 를 선형에 가까운 시간에 찾는 알고리즘이 개발되었다. 극대는 최장을 보장하지 않기 때문에 두 문자열의 MCS 길이는 LCS 길이와 달리 유일하지 않을 수 있고, LCS 길이가 매우 길어도 길이가 1인 MCS가 존재할 수도 있다. 본 논문에서는 기존 알고리즘에 의해 계산되는 MCS 의 효용성을 알아보기 위해, DNA 등 여러 종류의 실제 데이터와 랜덤 생성된 데이터에 대해 LCS 와 MCS 의 길이를 비교했다. MCS 길이는 LCS 길이 대비 실제 데이터에서 32.1 ~ 60.2%, 랜덤 데이터에서는 27.5 ~ 62.9%로 나타났다. 이 비율은 문자열을 이루고 있는 알파벳 수가 많을수록, 문자열의 길이가 길어질수록 감소했다.

영문 명함 영상에서의 문자 영역 추출에 관한 연구 (A Study on Character Area Extraction of An English Calling Card Image)

  • 이지훈;류재욱;이준행;신철수;김광백
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.750-753
    • /
    • 2003
  • 본 논문에서는 명함 영상에서 문자 영역을 추출하기 위해서 전처리 과정을 수행하여 잡영을 제거한다. 잡영이 제거된 명함 영상을 3배로 축소하여 가로 스미어링을 적용하여 문자열의 후보 영역을 추출하고 문자열과 비문자열의 영역으로 분리한 후, 문자열 영역에 세로 스미어링을 적용한다. 추출된 문자열 영역과 세로 스미어링된 문자열 영역에 대해 OR연산을 수행하여 문자의 특징이 분리되는 것을 제거하고 윤곽선 따라가기 알고리즘을 적용하여 문자의 영역을 추출한다 제안된 방법을 실제 영문 명함의 개별 문자 추출에 적용한 결과, 기존의 영문 명함 추출 방법보다 개선되었다.

  • PDF

잡영 가지 제거 알고리즘과 개선된 퍼지 ART를 이용한 여권 코드 인식 (Recognition of Passport Image Using Removing Noise Branches and Enhanced Fuzzy ART)

  • 이상수;장도원;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.377-382
    • /
    • 2005
  • 본 논문에서는 출입국자 관리의 효율성과 체계적인 출입국 관리를 위하여 여권 코드를 자동으로 인식하는 방법을 제안한다. 여권 이미지는 기울어진 상태로 스캔 되어 획득되어질 수도 있으므로 기울기 보정은 문자 분할 및 인식에 있어 매우 중요하다. 따라서 본 논문에서는 여권 영상을 스미어링한 후, 추출된 문자열 중에서 가장 긴 문자열을 선택하고 이 문자열의 좌측과 우측 부분의 두께 중심을 연결하는 직선과 수평선과의 기울기를 이용하여 여권 영상에 대한 각도 보정을 수행한다. 여권 코드 추출은 소벨 연산자와 수평 스미어링, 8방향 윤관선 추적 알고리즘을 적용하여 여권 코드의 문자열 영역을 추출하고, 추출된 여권 코드 문자열 영역에 대해 반복 이진화 방법을 적용하여 코드의 문자열 영역을 이진화 한다, 이진화된 문자열 영역에 대해 여권 코드의 인식율을 높이기 위하여 잡영 가지 제거 알고리즘을 적용하여 개별 문자의 잡영을 제거한 후에 개별 코드를 추출하며, CDM 마스크를 적용하여 추출된 개별코드를 복원한다. 추출된 개별코드는 개선된 퍼지 ART 알고리즘을 제안하여 인식에 적용한다. 실제 여권 영상을 대상으로 실험한 결과, CDM 마스크를 이용하여 추출된 개별 코드를 개선된 퍼지 ART 알고리즘을 적용하여 인식한 방법보다 잡영 제거 알고리즘과 CDM 마스크를 적용하여 개선된 퍼지 ART 알고리즘으로 개별 코드를 인식하는 것이 효율적인 것을 확인하였다. 그리고 기존의 퍼지 ART 알고리즘을 이용하여 개별 코드를 인식하는 경우보다 본 논문에서 제안한 개선된 퍼지 ART 알고리즘을 이용하여 개별 코드를 인식하는 경우가 서로 다른 패턴들이 같은 클러스터로 분류되지 않아 인식 성능이 개선되었다.생산하고 있다. 또한 이러한 자료를 바탕으로 지역통계 수요에 즉각 대처할 수 있다. 더 나아가 이와 같은 통계는 전 국민에 대한 패널자료이기 때문에 통계적 활용의 범위가 방대하다. 특히 개인, 가구, 사업체 등 사회 활동의 주체들이 어떻게 변화하는지를 추적할 수 있는 자료를 생산함으로써 다양한 인과적 통계분석을 할 수 있다. 행정자료를 활용한 인구센서스의 이러한 특징은 국가의 교육정책, 노동정책, 복지정책 등 다양한 정책을 정확한 자료를 근거로 수립할 수 있는 기반을 제공한다(Gaasemyr, 1999). 이와 더불어 행정자료 기반의 인구센서스는 비용이 적게 드는 장점이 있다. 예를 들어 덴마크나 핀란드에서는 조사로 자료를 생산하던 때의 1/20 정도 비용으로 행정자료로 인구센서스의 모든 자료를 생산하고 있다. 특히, 최근 모든 행정자료들이 정보통신기술에 의해 데이터베이스 형태로 바뀌고, 인터넷을 근간으로 한 컴퓨터네트워크가 발달함에 따라 각 부처별로 행정을 위해 축적한 자료를 정보통신기술로 연계${cdot}$통합하면 막대한 조사비용을 들이지 않더라도 인구센서스자료를 적은 비용으로 생산할 수 있는 근간이 마련되었다. 이렇듯 행정자료 기반의 인구센서스가 많은 장점을 가졌지만, 그렇다고 모든 국가가 당장 행정자료로 인구센서스를 대체할 수 있는 것은 아니다. 행정자료로 인구센서스통계를 생산하기 위해서는 각 행정부서별로 사용하는 행정자료들을 연계${cdot}$통합할 수 있도록 국가사회전반에 걸쳐 행정 체제가 갖추어져야 하기 때문이다. 특히 모든 국민 개개인에 관한 기본정보, 개인들이 거주하며 생활하는 단위인 개별 주거단위에 관한 정보가 행정부에 등록되어

  • PDF

다중바이트 문자집합 텍스트에서의 문자열 검색 알고리즘 (String Matching Algorithm on Multi-byte Character Set Texts)

  • 김은상;김진욱;박근수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.1015-1019
    • /
    • 2010
  • 문자열 완전일치 검색 알고리즘용 지금까지 많은 연구가 되어왔지만, EUC-KR 용 다중바이트 문자집합에 대해서는 연구원 것이 부족한 상황이다. 이 논문에서는 기존의 KMP 알고리즘을 사용할 때 EUC-KR과 같은 다중바이트 문자집합 텍스트에서 오검색이 발생할 수 있음을 보이며, 문자 단위의 접두사 함수를 적용하여 오검색이 발생하지 않도록 개선한 KMP 알고리즘을 제안한다. 또한, 널리 사용되고 있는 편집기인 Vim과 Emacs의 검색 알고리즘 및 기존의 오토마타 방식의 연구 결과에 비해 논문에서 제안한 알고리즘이 더 빠른 속도를 보이는 실험 결과를 제시한다.