• 제목/요약/키워드: suffix

검색결과 149건 처리시간 0.019초

절단 접미사 트리를 생성하는 새로운 알고리즘 (A New Algorithm for Constructing the Truncated Suffix Tree)

  • 나중채
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.999-1001
    • /
    • 2009
  • 절단 접미사 트리(truncated suffix tree)는 접미사 트리의 절단 버전으로, 주어진 문자열의 부분 문자열 중 일정 길이 이하인 것들만을 표현하는 자료구조이다. 절단 접미사 트리는 일정 길이 이하의 문자열들만을 고려하는 응용에 유용한데, 특히 LZ77 압축과 같이 온라인 생성 알고리즘이 필요한 응용들도 있다. 본 논문에서는 절단 접미사 트리를 온라인으로 생성하는 새로운 알고리즘을 제시한다.

XML 문서의 상향식 질의처리를 지원하는 효율적인 색인구조 (An Efficient Index Structure for Bottom-Up Query Processing of XML Documents)

  • 서동민;김은재;성동욱;유재수;조기형
    • 인터넷정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.101-113
    • /
    • 2006
  • XML에서의 질의는 경로 질의를 사용하고, 경로 질의를 효과적으로 처리하기 위한 여러 가지 색인 기법들이 연구되었다. 최근에는 구조 조인 기법과 더불어 접미사(suffix) 트리를 이용한 기법이 제안되고 있다. 그 중에서 가장 대표적인 기법이 ViST(Virtual Suffix Tree) 이다. ViST는 질의 처리 시간을 줄이기 위해서 접미사 트리와 B+ 트리를 이용하여 질의 처리에 참여하는 엘리먼트만을 비교한다. 그러나 실제 문서에서 조상-후손 관계가 아닌 엘리먼트도 후손으로 보고 처리하는 문제점으로 인해 디스크 접근이 많아지는 비효율성을 지닌다. 따라서 본 논문에서는 ViST의 문제점을 해결하는 색인구조를 제안하고 이 색인구조에 알맞은 질의 처리기법을 제안한다. 그리고 다양한 질의 처리 실험을 통해 기존에 제안된 색인구조에 비해 향상된 질의 처리 성능을 나타냄을 보인다.

  • PDF

이차적 문법화와 영어부사의 시제 (Secondary Grammaticalization and English Adverbial Tense)

  • 김양순
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.115-121
    • /
    • 2020
  • 본 연구는 -ly 부사의 역사적 발달, 즉 문법화 과정을 통해 영어 -ly 부사출현에 관한 연구에 목표를 둔다. 이원화된 (일차적 & 이차적) 문법화 관점에서 고대영어의 형용사화 접사 -lic이 중세영어시기에 부사화 접사 -ly로 변화한 것은 일차적 문법화이며 연속적으로 동사구부사인 태도부사가 문법적 자질인 양태성[+modal]과 시제자질[+tense]을 습득하여 TP 영역의 문장부사로 변화가 일어난 문법화 과정은 이차적 문법화라고 정의한다. 이차적 문법화란 어휘항목에 바로 문법화가 적용되는 것이 아니고 이미 문법화가 일어난 통사형태적 표지의 재분석이 일어나는 것이다([어휘범주 → 문법기능범주1 → 문법기능범주2]). 부사화의 과정에서 형용사화 접사 -lic이 부사화 접사 -ly로 범주변화가 일어나는 일차적 문법화과정(형용사 → 태도부사)을 거친 후 태도부사는 이차적 문법화의 과정을 거쳐 새로운 문법적 기능인 시제와 양태성을 갖게 되고 이러한 이차적 문법화(태도부사 → 문장부사)의 결과가 문장부사의 출현으로 나타났다.

비트맵 필터를 이용한 효율적인 역 리스트 탐색 기법 (Efficient Inverted List Search Technique using Bitmap Filters)

  • 권인택;김종익
    • 정보처리학회논문지D
    • /
    • 제18D권6호
    • /
    • pp.415-422
    • /
    • 2011
  • 텍스트 데이터는 표현 방식의 차이, 타이핑 오류 등을 포함하고 있어 정확히 일치하는 검색으로는 유용한 정보를 얻기 어렵다. 따라서 유사도 기반 검색 방법이 많이 연구되고 있으며 효율적인 유사도 기반 검색을 위해 텍스트 데이터에 대한 역 리스트를 구성한다. 그리고 이를 병합하여 질의와 일정 기준 이상 유사한 데이터를 찾는다. 본 논문에서는 Suffix 필터링 과정에서 역 리스트의 탐색 비용을 줄이기 위해 역 리스트의 통계 정보인 비트맵 필터를 사용하는 기법을 제안한다. 제안하는 기법은 비트맵 필터를 사용하여 Suffix 필터링 과정에서 역 리스트의 탐색 여부를 결정하여 불필요한 역 리스트 탐색을 회피함으로써 역 리스트 병합 비용을 줄인다. 실험을 통하여 제안된 기법이 기존의 연구에서 제안된 Suffix 필터링 알고리즘보다 더 효율적임을 보인다.

와일드카드 문자를 포함하는 스트링 데이터 사이의 포함관계 확인을 위한 효율적인 알고리즘 (An Effective Algorithm for Checking Subsumption Relation on String Data Containing Wildcard Characters)

  • 김도한;박희진;백은옥
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권9호
    • /
    • pp.475-482
    • /
    • 2005
  • 와일드카드 문자를 포함하는 스트링 데이타는 텍스트에 나타나는 특정 패턴을 표현하는 데에 사용될 수 있다. 임의의 두 패턴 사이의 포함 관계는 각 패턴과 매칭이 가능한 모든 스트링의 집합 사이의 포함관계로 나타낼 수 있으며, 포함 관계를 결정하는 것은 패턴이 나타내는 스트링의 집합을 중복성없이 표현하기 위해 필요하다. 본 논문에서는 이와 같이 패턴의 중복성을 판단하기 위해 와일드카드 문자를 포함하는 스트링 데이타 사이의 포함 관계를 결정하기 위한 효율적인 알고리즘을 제안한다. 먼저 기존의 접미사 트리 알고리즘을 단순하게 확장하여 와일드카드 문자를 포함하는 스트링 데이타 사이의 포함 관계를 확인할 수 있도록 하는 방법과 이러한 접미사 트리를 스트링 데이타의 각 위치 별로 나누어 구성하여 포함 관계를 확인하는 방법을 제안한다.

Spectral encapsulation of OFDM systems based on orthogonalization for short packet transmission

  • Kim, Myungsup;Kwak, Do Young;Kim, Ki-Man;Kim, Wan-Jin
    • ETRI Journal
    • /
    • 제42권6호
    • /
    • pp.859-871
    • /
    • 2020
  • A spectrally encapsulated (SE) orthogonal frequency-division multiplexing (OFDM) precoding scheme for wireless short packet transmission, which can suppress the out-of-band emission (OoBE) while maintaining the advantage of the cyclic prefix (CP)-OFDM, is proposed. The SE-OFDM symbol consists of a prefix, an inverse fast Fourier transform (IFFT) symbol, and a suffix generated by the head, center, and tail matrices, respectively. The prefix and suffix play the roles of a guard interval and suppress the OoBE, and the IFFT symbol has the same size as the discrete Fourier transform symbol in the CP-OFDM symbol and serves as an information field. Specifically, as the center matrix generating the IFFT symbol is orthogonal, data and pilot symbols can be allocated to any subcarrier without distinction. Even if the proposed precoder is required to generate OFDM symbols with spectral efficiency in the transmitter, a corresponding decoder is not required in the receiver. The proposed scheme is compared with CP-OFDM in terms of spectrum, OoBE, and bit-error rate.

시퀀스 데이터베이스에서 유연 규칙의 탐사 (Elastic Rule Discovering in Sequence Databases)

  • 박상현;김상욱;김만순
    • 산업기술연구
    • /
    • 제21권A호
    • /
    • pp.147-153
    • /
    • 2001
  • This paper presents techniques for discovering rules with elastic patterns. Elastic patterns are useful for discovering rules from data sequences with different sampling rates. For fast discovery of rules whose heads and bodies are elastic patterns, we construct a suffix tree from succinct forms of data sequences. The suffix tree is a compact representation of rules, and is also used as an index structure for finding rules matched to a target head sequence. When matched rules cannot be found, the concept of rule relaxation is introduced. Using a cluster hierarchy and a relaxation error, we find the least relaxed rules that provide the most specific information on a target head sequence. Performance evaluation through extensive experiments reseals the effectiveness of the proposed approach.

  • PDF

확장된 단어 서픽스 트리에서의 완전매칭 알고리즘 (Exact Matching Algorithm on Expanded Word Suffix Tree)

  • 박준영;정원형;김삼묘
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.575-577
    • /
    • 2000
  • DNA 염기 서열을 분석하는데 효율적으로 쓸 수 있는 자료구조서 서픽스 트리(Suffix Tree)가 제시되었다. 그러나 매우 큰 유전자 서열에 대한 서픽스 트리는 대용량의 메모리 공간을 필요로 한다. 따라서 메모리 공간의 절약을 위해서 단어 서픽스 트리를 이용하는 방법이 제안되었다. 단어 서픽스 트리는 이러한 장점에도 불구하고 단어에 의미를 두고 만든 트리 구조이기 때문에 완전 매칭 문제를 해결하기 위한 정보가 부족해서 제한적 완전 매칭 알고리즘이 제시되었다. 제한적 완전 매칭 알고리즘에서는 찾으려는 패턴이 어떤 단어의 부-문자열에 위치하거나, 두 단어 이상에 걸쳐 나오면 찾지 못하는 문제가 발생한다. 본 논문에서는 단어 서픽스 트리의 완전 매칭 문제를 해결하기 위해 각 단어들의 서픽스에 대한 정보로 구성된 Generalized 서픽스 트리를 사용하여 확장된 단어 서픽스 트리를 제시하고, 완전 매칭 알고리즘을 제안한다.

  • PDF

Effective Biological Sequence Alignment Method using Divide Approach

  • 최해원;김상진;피수영
    • 한국산업정보학회논문지
    • /
    • 제17권6호
    • /
    • pp.41-50
    • /
    • 2012
  • This paper presents a new sequence alignment method using the divide approach, which solves the problem by decomposing sequence alignment into several sub-alignments with respect to exact matching subsequences. Exact matching subsequences in the proposed method are bounded on the generalized suffix tree of two sequences, such as protein domain length more than 7 and less than 7. Experiment results show that protein sequence pairs chosen in PFAM database can be aligned using this method. In addition, this method reduces the time about 15% and space of the conventional dynamic programming approach. And the sequences were classified with 94% of accuracy.

LCSeq를 이용한 변형 웜 시그니쳐 생성 엔진 구현 (Implementation of Engine Generating Mutation Worm Signature Using LCSeq)

  • 고준상;이재광;김봉한
    • 한국콘텐츠학회논문지
    • /
    • 제7권11호
    • /
    • pp.94-101
    • /
    • 2007
  • 본 논문에서는 알려지지 않은 변형 웜을 탐지하기 위한 방법을 제안한다. 그 방법으로, 페이로드 영역에서 시그니쳐 생성 방안들을 패턴인식 알고리즘으로 연구되었던 Suffix Tree중에서 Longest Common Subsequence(LCSeq) 기법을 이용하여 새로운 시그니쳐를 자동적으로 생성할 수 있는 프로그램을 설계하여 구현하였다. 테스트를 통해 코드레드 웜과 님다 웜의 변종을 검출하는 과정을 보여주고 기존 snort의 시그니쳐와 LCSeq를 이용해 생성된 시그니쳐를 비교 평가하였다.