• 제목/요약/키워드: 스트링 매칭

검색결과 38건 처리시간 0.023초

대용량 DNA서열 처리를 위한 서픽스 트리 생성 알고리즘의 개발 (Suffix Tree Constructing Algorithm for Large DNA Sequences Analysis)

  • 최해원
    • 한국산업정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.37-46
    • /
    • 2010
  • 서픽스 트리는 데이터의 내부구조를 자세히 나타내고 선형시간 탐색이 가능한 효과적인 자료구조로서 DNA 서열분석 등에 유용하다. 그러나 서열을 서픽스 트리로 구축하는 경우 트리의 크기가 원본의 최소 30배 이상으로 커지므로 테라바이트(TB)급의 대용량 DNA 서열의 경우에 메모리상의 응용은 매우 어려운 문제점이 있다. 이에 본 논문에서는 디스크를 이용한 대용량 DNA의 서픽스 트리 응용기법을 제시한다. 이때 DNA 서열구조를 고려한 서픽스 트리 선형 탐색 특성 유지를 보장한다. 이를 검증하기 위하여 9G Byte의 유전자 단편 서열을 이용해 424G Byte의 서픽스 트리를 디스크에 구축한 다음, 임의의 질의 서열에 대해 KMP알고리즘과 비교한 결과 질의 응답시간에서 우수한 성능을 보였다.

유전 알고리즘을 이용한 퍼지 패턴 매칭 분류기의 설계와 응용 (A design of fuzzy pattern matching classifier using genetic algorithms and its applications)

  • 정순원;박귀태
    • 전자공학회논문지B
    • /
    • 제33B권1호
    • /
    • pp.87-95
    • /
    • 1996
  • 본 논문에서는 새로운 퍼지 패턴 매칭 분류기(fuzzy pattern matching classifier) 설계 방법을 제안하였다. 기존의 퍼지 패턴 매칭 분류기를 설계함에 있어 분류기의 성능에 결정적인 영향을 미치는 소속 함수 (membership functions)의 모양과 개수에 대한 정확한 정보를 알 수 없었다. 따라서 소속 함수를 구하기 위하여 시행 착오(trial-error)법 혹은 경험에 의존하는(heuristic) 방법이 사용되어 왔다. 그러나 이러한 방법은 다양한 종류의 패턴에 대하여 적용하기에는 한계가 있다. 본 논문에서는 유전 알고리즘을 사용하여 분류 에러를 최소로 줄이는 소속 함수의 적절한 모양과 개수를 찾기 위한 새로운 방법을 제안한다. 유전 알고리즘(genetic algorithms)은 진화라는 생물학적 모델을 기초로한 통계적 알고리즘의 한 부류이다. 이는 여러 함수 최적화 문제에 적용되어 최적 혹은 최적 근처의 해를 찾아 준다. 본 논문에서 유전 알고리즘은 분류 에러에 반비례하는 적합도 함수(fitness function)를 기본으로 소속 함수의 모양과 개수를 결정하는데 쓰인다. 유전 알고리즘에 있어서의 스트링은 소속 함수를 결정하게 되며 인식 결과는 다음 세대의 재생(reproduction) 연산에 영향을 미치게 된다. 제안되는 방법을 타이어 접지면 패턴과 필기체 영문자 인식에 적용하여 보았다. 실험 결과는 본 방법이 유용함을 보여준다.

  • PDF

OntCIA: 시맨틱 웹 기술 기반의 소프트웨어 변경 영향분석 시스템 (OntCIA: Software Change Impact Analysis System Based on the Semantic Web)

  • 송희석
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.111-131
    • /
    • 2004
  • 소프트웨어 유지보수 단계에서는 고객니즈, 마케팅 정책, 법, 제도의 변화 등으로 인한 다양한 시스템 변경 요구를 수용하여야 한다. 그러나, 소프트웨어의 비가시성문제로 인해 새로운 변경 요구사항 발생 시 수정 대상 모듈을 발견하는데 지대한 시간이 요구될 뿐 아니라 모듈의 재 사용을 어렵게 만들어 중복 모듈이 양산 됨으로써 향후 장애의 근원이 되는 악순환이 전개된다. 이에 본 연구에서는 시맨틱 웹(Semantic Web) 기술을 활용하여 이동통신사의 과금/청구 도메인의 관리자와 개발자들이 공유하고 있는 개념과 개념간 관계를 명시적으로 표현하고 이를 이용하여 변경대상 모듈을 쉽게 발견 할 뿐 아니라, 발견된 모듈에 대해 구조적 호출 및 조립 관계를 분석하도록 지원하는 온톨로지 기반 변경 영향 분석 시스템(OntCIA; Ontology based Change Impact Analysis System)을 제시한다. OntCIA는 스트링 매칭과는 근본적으로 다른 의미적 모듈검색을 지원하며 잦은 변경이 요구되는 호출 및 조립 구조 정보는 데이터 베이스에서 관리하고 도메인 지식은 온톨로지로 관리함으로써 유지 보수가 용이한 구조를 가진다.

  • PDF

구조 및 의미 정보를 활용한 파스 트리 커널 기반의 온톨로지 정렬 방법 (Ontology Alignment based on Parse Tree Kernel usig Structural and Semantic Information)

  • 손정우;박성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.329-334
    • /
    • 2009
  • 기존 온톨로지 정렬 기법은 두가지 문제점을 가지고 있다. 먼저 자질을 해당 분야 전문가가 정의하기 때문에 중요한 자질들이 자질셋에 포함되지 않을 수 있다는 것이다. 다음으로는 온톨로지의 의미 정보와 구조 정보를 이용하여 유사도를 따로 계산한 후, 각각의 실험에 의해 정의된 가중치를 이용하여 전체 유사도를 계산한다. 하지만 온톨로지 상에 나타나는 의미 정보와 구조정보의 상대적인 가중치가 실험적인 방법 혹은 사용자에 의해 결정되기 때문에 시스템이 특정 온톨로지에 한정되거나 성능이 떨어질 수 있어 문제이다. 본 논문에서는 온톨로지 정렬을 위한 파스 트리 커널을 제안한다. 온톨로지 상의 개체에 대한 유사도를 계산하기 위해 먼저 온톨로지를 트리 구조로 변환한다 그 후, 변환된 트리 간의 유사도는 온톨로지 정렬을 위해 수정된 파스트리 커널을 이용하여 계산한다. 이때 자질은 명시적으로 나열하지 않는다. 유사도 계산시, 파스 트리 커널에 근사 스트링 매칭 기법을 적용하여 의미 정보를 반영한다. 검증 위한 실험에서 제안한 방법은 기존의 온톨로지 정렬 기법보다 나은 성능을 보였다.

X-treeDiff+ 기반의 프로그램 복제 탐지 (Program Plagiarism Detection based on X-treeDiff+)

  • 이석균
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.44-53
    • /
    • 2010
  • 컴퓨터 프로그래밍 교육에서 프로그램 복제는 프로그래밍 학습 효율을 저해하는 심각한 요인이다. 본 논문에서는 학생들이 프로그래밍 과제의 무분별한 복제를 방지하기 위해 유사 또는 동일 프로그램을 탐지하는 기법을 제안한다. 지문법이나 스트링 매칭을 기반으로 하는 기존의 탐지 기법과는 달리, 우선 C 프로그램을 파싱하여 문법요소를 엘리먼트로 하는 XML 문서로 변화시킨 후 XML 문서의 변화탐지 알고리즘인 X-treeDiff+를 실행시켜 그 차이를 분석하는 방법을 취한다. 이때 대응의 정도를 나타내는 유사도와 두 문서의 차이로 제시되는 일련의 편집연산인 편집스크립트를 프로그램 복제의 관점에서 분석하여 복제 여부에 대한 판단을 하게 된다. 편집스크립트의 분석은 두 프로그램 간의 변환 과정을 유추할 수 있게 하여 기존 방법들과는 달리 사용자는 과제의 성격이나 복제의 정도를 고려한 정성적인 판단이 가능하다는 장점이 있다.

GPU을 이용한 다중 고정 길이 패턴을 갖는 DNA 시퀀스에 대한 k-Mismatches에 의한 근사적 병열 스트링 매칭 (Parallel Approximate String Matching with k-Mismatches for Multiple Fixed-Length Patterns in DNA Sequences on Graphics Processing Units)

  • 호 티엔 루안;김현진;오승록
    • 전기학회논문지
    • /
    • 제66권6호
    • /
    • pp.955-961
    • /
    • 2017
  • In this paper, we propose a parallel approximate string matching algorithm with k-mismatches for multiple fixed-length patterns (PMASM) in DNA sequences. PMASM is developed from parallel single pattern approximate string matching algorithms to effectively calculate the Hamming distances for multiple patterns with a fixed-length. In the preprocessing phase of PMASM, all target patterns are binary encoded and stored into a look-up memory. With each input character from the input string, the Hamming distances between a substring and all patterns can be updated at the same time based on the binary encoding information in the look-up memory. Moreover, PMASM adopts graphics processing units (GPUs) to process the data computations in parallel. This paper presents three kinds of PMASM implementation methods in GPUs: thread PMASM, block-thread PMASM, and shared-mem PMASM methods. The shared-mem PMASM method gives an example to effectively make use of the GPU parallel capacity. Moreover, it also exploits special features of the CUDA (Compute Unified Device Architecture) memory structure to optimize the performance. In the experiments with DNA sequences, the proposed PMASM on GPU is 385, 77, and 64 times faster than the traditional naive algorithm, the shift-add algorithm and the single thread PMASM implementation on CPU. With the same NVIDIA GPU model, the performance of the proposed approach is enhanced up to 44% and 21%, compared with the naive, and the shift-add algorithms.

데이타웨어하우스 환경에서의 질의 처리 성능 향상을 위한 캐시 관리자 (A Cache Manager for Enhancing the Performance of Query Evaluation in Data Warehousing Environment)

  • 심준호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.408-419
    • /
    • 2003
  • 데이타웨어하우스는 의사결정시스템의 질의처리에 사용되는데, 통상적으로 의사결정질의의 응답 속도는 OLTP 질의 응답속도에 비해 수십 배 이상 오래 걸린다. 의사결정은 대부분 빠른 시간 안에 이루어지는 것이 필수적이므로 의사결정질의 응답 속도를 단축시키는 기술은 중요하다. 본 논문에서는 기존의 질의결과를 캐싱하여 주어진 질의처리에 이용하는 기법을 제시한다. 이를 위해 먼저 의사결정시스템이 이 기법에 적합한 환경을 가지고 있는지 살펴본다. 그 다음, 임의 형태의 모든 질의를 처리한다는 것은 불가능하므로 우리가 다루는 질의 형태인 정규화형태를 정의한다. 질의가 정규화형태를 따르지 않으면 단순 스트링 매칭을 하고, 정규화된 경우라면 질의스플릿이란 질의 변환 과정과 질의종속그래프를 통해 캐시된 질의결과를 찾은 후 그 결과 위에서 질의를 수행한다. 캐시 관리자는 질의응답시간을 최소화하도록 캐시를 유지해야한다. 이를 위해 질의 수행비용, 질의결과의 크기, 레퍼런스비율, 베이스 테이블의 업데이트비율 및 그에 따른 질의결과 유지비용 등을 고려하여 캐싱하는 동적 캐시효환기법을 제안한다. 제안된 기법은 실험을 통해 그 성능을 검증하였다.

투사에 기초한 얼굴 인식 알고리즘들의 통계적 분석 (Statistical Analysis of Projection-Based Face Recognition Algorithms)

  • 문현준;백순화;전병민
    • 한국통신학회논문지
    • /
    • 제25권5A호
    • /
    • pp.717-725
    • /
    • 2000
  • 최근 수년간 얼굴인식에 관한 많은 알고리즘이 개발되었고 그 대다수가 view와 투사에 기초한 알고리즘이었다. 본 논문에서의 투사는 비단 직교 기저상에 영상을 투사하는 것으로 국한하지 않고 영상 화소값을 변환하는 일반적인 선형 변환으로써 상관관계, 주성분 분석, 클러스트링, gray scale 투사, 그리고 추적 필터매칭을 포함한다. 본 연구에서는 FERET 데이터베이스 상의 얼굴 영상을 평가한 알고리즘들을 세부적으로 분석하고자 한다. 투사에 기초한 알고리즘은 3단계로 구성된다. 첫 번째 단계는 off-line상에서 행하며 알고리즘 설계자에 의해 새로운 기저가 설정되거나 또는 학습을 통해 새로운 기저를 결정한다. 두 번째 단계는 on-line상에서 행해지며 영상을 설정된 새로운 기저상에 투사한다. 세 번째 단계는 on-line상에서 행해지며 영상내의 얼굴은 가장 인접한 이웃 분류자로 인식된다. 대부분의 평가 방법들은 단일 gallery 상에서의 성능 평가가 이루어짐으로써 알고리즘 성능을 충분히 측정하지 못하는 반면 본 연구에서는 독립된 galley들의 집합을 구성함으로써 각각의 다른 galley상에서 가지는 변화와 이들의 상대적 성능을 평가한\ulcorner.

  • PDF