• 제목/요약/키워드: suffix array

검색결과 17건 처리시간 0.024초

시맨틱 웹 데이터에서 접미사 배열 기반의 경로 질의 처리 기법 (Suffix Array Based Path Query Processing Scheme for Semantic Web Data)

  • 김성완
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권10호
    • /
    • pp.107-116
    • /
    • 2012
  • 서로 연결된 데이터들의 의미를 컴퓨터가 이해하여 자동으로 처리할 수 있는 시맨틱 기술의 보급이 확산되고 있다. 시맨틱 웹에서 데이터에 대한 처리는 데이터 자체에 대한 접근뿐만 아니라 데이터 상호간의 연관성 즉, 데이터 상호간의 의미에 대한 이해와 접근을 중요시 하고 있다. 시맨틱 웹의 데이터와 그 연관성을 표현하기 위해 W3C에서는 RDF를 표준 형식으로 제정하였으며 RDF로 표현된 데이터에 대한 질의 처리를 지원하기 위해 여러 RDF 질의어가 제안되었으나 시맨틱 연관성을 고려한 질의어 정의와 이에 관련한 질의 처리 기법은 계속적인 연구가 필요한 분야이다. 본 논문에서는 RDF 질의 처리를 위해 소개된 접미사 배열 기반의 인덱싱 기법을 기반으로 시맨틱 연관성의 대표적 유형인 ${\rho}$-path 질의를 처리하기 위한 방법을 제안한다. 제안된 질의 처리 방법의 성능 평가를 위해 다른 두 가지 형태의 처리 방법을 구현하여 실험적으로 비교하였다. 평균 질의 처리 시간 측정을 통해 제안 기법이 다른 두 가지 처리 방법에 비해 각각 약 1.8~2.5배와 3.8~11배의 우수한 처리 성능을 보인다.

RDF 데이터에서 접미사 배열을 이용한 ρ-intersect 연산의 처리 (Processing of ρ-intersect Operation on RDF Data Using Suffix Array)

  • 김성완;김연희
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권7호
    • /
    • pp.95-103
    • /
    • 2011
  • 보다 신속하고 정확한 정보 검색에 대한 지능적이고 자동화 된 서비스 제공을 지향하는 시맨틱웹 기술의 실제적 활용이 점점 구체화 되고 있다. 이에 시맨틱 웹상에서 존재하는 방대한 양의 데이터를 관리하기 위한 표준 포맷 중 하나로 널리 사용되는 RDF로 표현된 데이터에 대한 효율적인 질의 처리는 계속적인 중요한 연구 주제가 되고 있다. RDF 데이터에 대한 전형적인 질의 처리유형은 임의의 리소스로부터 특정한 관계성을 갖는 리소스들을 검색하는 것으로 이에 대한 많은 연구들이 진행되어 왔다. 그러나, 기존의 연구들에서는 리소스간의 복잡한 관계성들의 발견(discovery) 즉, 질의 처리의 결과로 리소스간의 연관성을 반환하는 유형의 질의 처리에 대해서는 충분히 고려하지 않고 있다. 본 논문에서는 시맨틱 연관성 검색 유형의 하나인 ${\rho}$-intersect 연산의 처리를 위한 인덱싱 및 질의 처리 방안을 소개한다. 이를 위해 접미사 배열을 이용한 인덱싱과 ${\rho}$-intersect 연산의 특징을 고려한 최적화 처리 방안을 제안한다. 실험적 성능 평가는 기존 기법에 비해 제안 기법의 평균 실행 시간이 3~7배의 빠른 질의 처리 성능을 보인다.

접미사 배열 생성 과정에서 구간 최소간 위치를 상수 시간에 찾기 위한 효율적인 자료구조 (An Efficient Data Structure to Obtain Range Minima in Constant Time in Constructing Suffix Arrays)

  • 박희진
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권3_4호
    • /
    • pp.145-151
    • /
    • 2004
  • 본 논문에서는 배열에서 구간 최소값 위치를 상수 시간에 찾기 위한 효율적인 자료구조를 제시한다. 최근의 생물 정보학 분야에서 빠른 DNA 서열의 검색을 위해 접미사 배열이 많이 사용되고 있는데 이 접미사 배열을 생성하는 문제는 구간 최소값 위치 문제를 포함하고 있다. 이 접미사 배열을 생성할 때는 구간 최소값 위치 문제를 빠르게 푸는 것뿐만 아니라 공간 효율적으로 해결하는 것도 중요하다. 그 이유는 DNA 서열이 수백만 개에서 수십 억 개의 염기를 가진 굉장히 큰 데이타이기 때문이다. 배열의 구간 최소간 위치를 상수 시간에 찾기 위해 지금까지 알려진 가장 효율적인 자료구조는 배열의 구간 최소값 문제를 Cartesian 트리에서의 LCA(Lowest Common Ancestor) 문제로 바꾸고 이 트리에서의 LCA 문제를 다시 특수한 배열에서의 구간 최소값 문제로 바꾸어 푸는 방법을 이용한 자료구조이다. 이 자료구조는 이론적으로 O(n) 공간을 사용하여 O(n) 시간에 생성된다. 하지만 이 자료구조는 배열의 구간 최소값 문제를 두 번에 걸쳐 다른 문제로 변환하는 과정을 포함하고 있기 때문에 실제로 사용되는 공간은 상당히 큰 13n이며 또한 많은 시간이 요구된다. 본 논문에서 제시하는 자료구조는 배열의 구간 최소값 문제를 다른 문제로 변환하지 않고 직접 구하는 자료구조이다. 따라서 이론적으로 O(n) 공간을 차지하며 O(n) 시간에 생성될 뿐만 아니라 실제적으로도 5n의 적은 공간을 사용하며 빠른 시간에 생성된다.

접미사 배열을 이용한 JSON 데이터의 경로 기반 검색에 대한 연구 (A Study of Path-based Retrieval for JSON Data Using Suffix Arrays)

  • 김성완
    • 창의정보문화연구
    • /
    • 제7권3호
    • /
    • pp.157-165
    • /
    • 2021
  • 웹, 모바일, IoT 등의 기술을 활용한 다양한 어플리케이션 서비스의 활용과 이에 따른 대용량 데이터 관리의 필요성이 확대됨에 따라 효율적인 데이터 표현 및 교환 방법과 데이터에 대한 질의 처리의 중요성이 증가하고 있다. 간결함을 특징으로 갖는 JSON은 웹 상의 표준 데이터 표현 및 교환 언어인 XML를 대신하여 데이터 교환 및 대용량 데이터 저장의 포맷으로 다양한 영역에서 활용되고 있다. 이는 JSON으로 표현된 대량의 데이터를 효과적으로 접근 및 검색하기 위한 인덱싱 및 질의 처리 기법의 개발이 중요함을 의미한다. 이에 본 논문에서는 계층적 구조를 특징으로 가지는 JSON 데이터를 트리 형태로 모델링 하고 경로 개념을 이용한 인덱싱 및 질의 처리 방안을 제안한다. 특히, 텍스트 검색에서 널리 사용되는 접미사 배열을 활용한 인덱스 구조를 설계하였으며 이를 활용하여 단순 및 복합 경로 기반의 JSON 데이터 질의 처리 방안들을 소개하였다.

Succinct 표현의 효율적인 구현을 통한 압축된 써픽스 배열 생성 (Constructing the Compressed Suffix Array via Efficient Implementation of Succinct Representation)

  • 박치성;조준하;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.955-957
    • /
    • 2005
  • 대용량의 텍스트에 대해 빠른 패턴 검색의 필요성이 증가함에 따라 써픽스 트리, 써픽스 배열 등의 인덱스 자료구조에 대해 다양한 연구들이 진행되었다. 또한 써픽스 배열을 대용량의 인덱스 자료구조로 사용하기 위해 저장 공간을 O(n log n) 비트 이하로 줄이는 문제에 대한 연구들도 많이 수행되었다. 이들 중 Grossi & Vitter 는 써픽스 배열을 압축하여, 기존의 써픽스 배열보다 작은 저장 공간을 사용할 수 있는 알고리즘을 제안하였다. Grossi & Vitter 알고리즘은 압축된 써픽스 배열에서 실제 써픽스 배열의 정보를 찾기 위하여, succinct 표현에서 기본적으로 사용되는 rank와 select 함수를 필요로 한다. 본 논문은 다양한 rank와 select 알고리즘을 각각 사용하는 압축된 써픽스 배열들의 성능 비교를 통해, succinct 표현의 효율적인 구현이 압축된 써픽스 배열의 성능에 미치는 영향을 실험적으로 보인다.

  • PDF

시맨틱 연관성 검색을 위한 ${\rho}$-intersect 연산의 처리 (Processing of ${\rho}$-intersect Operation for Semantic Association Discovery)

  • 김성완
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.285-288
    • /
    • 2011
  • 시맨틱 웹상에서 메타 데이터를 표현하는 RDF 데이터에 대한 질의 처리를 위해 여러 가지 RDF 질의어가 제안되었으나 리소스간의 복잡한 관계성들의 발견(discovery)을 위한 충분한 지원을 하지 못하고 있다. 본 논문에서는 시맨틱 연관성 검색 유형의 하나인 ${\rho}$-intersect 연산의 처리 방법을 소개한다. 이를 위해 접미사 배열을 이용한 인덱싱과 ${\rho}$-intersect 연산의 특징을 고려한 최적화 방법을 활용한다. 제안된 처리 기법을 통해 전형적인 RDF 질의 유형뿐만 아니라 시맨틱 연관성 질의 유형도 지원할 수 있도록 한다.

  • PDF

선형 시간 접미사 배열 생성 알고리즘들의 비교 (Comparison of Linear Time Suffix Array Construction Algorithms)

  • 이성림;박근수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.496-498
    • /
    • 2003
  • 접미사 배열은 긴 문자열에 대해 효율적인 문자열 검색을 가능하게 하는 자료구조이다. 접미사 배열은 문자열의 접미사들의 사전식 정렬순서를 배열로 저장한다. 비슷한 효과를 가진 접미사 트리에 비해서 접미사 배열은 저장 공간을 적게 차지하기 때문에 생명정보과학의 염기 서열 등 큰 크기의 문자열의 처리에 더욱 유리하다. 본 논문에서는 2003년에 발표된 Ko-Aluru, K$\square$rkk$\square$inen-Sanders 및 기존의 Manber-Myers 등 세 개의 접미사 배열 생성 알고리즘들의 염기 서열 입력 자료에 대한 실행 시간 및 기억 장치 사용량을 실험을 통해 비교한다. 특히 Ko-Aluru와 K$\square$rkk$\square$inen-Sanders 알고리즘은 실행 시간 및 저장 공간의 이론적인 복잡도가 O(n)으로 동일하기 때문에 실험을 통해서 계산 복잡도에 숨어있는 상수를 비교한다. 실험 결과 K$\square$rkk$\square$inen-Sanders 알고리즘이 가장 효율적임을 보인다.

  • PDF