• Title/Summary/Keyword: 문자열 정렬

Search Result 26, Processing Time 0.031 seconds

A Fast Algorithm for Constructing Suffix Arrays (써픽스 배열을 구축하는 빠른 알고리즘)

  • 조준하;박희진;김동규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.736-738
    • /
    • 2004
  • 써픽스 배열은 정렬된 모든 써픽스들의 인덱스를 저장한 자료구조이며, 긴 문자열에서 임의의 패턴을 효율적으로 검색을 할 수 있는 자료구조이다. 비슷한 자료구조인 써픽스 트리에 비해 적은 공간을 사용하기 때문에 대용량의 텍스트에 대한 처리에 더 적합하다. 본 논문에서는 써픽스 배열을 빠르게 구축하는 방법을 제안하고, 써픽스 배열 구축 알고리즘들 중에서 빠르다고 알려진 Larsson and Sadakane 알고리즘, 대표적인 선형 시간 알고리즘인 Karkkainen and Sanders 알고리즘 및 최근에 발표된 고정길이 문자집합에 효율적인 Kim et al. 알고리즘과 성능을 비교한다. 실험 결과 본 논문에서 제안한 알고리즘이 전반적으로 빠르게 써픽스 배열을 구축하였다.

  • PDF

A Classification Method for Deformed Words Using Multiple Sequence Alignment (다중서열정렬을 이용한 변형단어집합의 분류 기법)

  • Kim, Sung-Hwan;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.264-266
    • /
    • 2012
  • 인터넷 상에서의 변형 단어들을 처리하는 문제는 정보 검색, 기계 번역, 웹 마이닝, 욕설 및 스팸 필터링과 같은 다양한 분야에서 사용될 수 있다. 특히 단어의 변형 추이를 파악하는 등 데이터 수집 및 분석을 위해서는 주어진 단어가 어떤 변형 단어의 집합으로 이루어진 부류에 포함되는지 여부를 파악해야 할 필요성이 있다. 본 논문에서는 같은 부류에 속한 변형 단어 집합에 대하여 다중 서열 정렬(multiple sequence alignment)을 수행함으로써 해당 집합을 하나의 대표 문자열로 취급하는 변환 기법을 제안하고, 이를 이용해 주어진 단어가 해당 부류에 속하는지 여부를 효과적으로 분류하는 기법을 소개한다. 실험결과 제안 기법의 분류 성능은 민감도 93.4% 수준에서 89.1%의 특이도를 보여 전수 비교를 통한 분류에 비하여 결코 성능은 하락하지 않으면서 분류 속도는 16.5배 향상되었음을 확인할 수 있었다.

An Empirical Study of Base Pivot Choosing Method for Approximate Word Searching (근사 단어 검색 효율성 개선을 위한 기준 Pivot 선택방법 실험적 연구)

  • Yoon, Tai-Jin;Chung, Woo-Keun;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.271-274
    • /
    • 2010
  • 한글 근사 단어 검색 시스템은 사용자의 오류를 포함한 검색 질의에 효과적으로 대응할 수 있는 방법이나 검색 속도가 매우 느려서 실제 사용에 큰 어려움이 있다. 일반적으로 DNA 검색에 사용하는 서열 정렬 기법을 사용할 경우 데이터 베이스의 모든 문자열과 비교가 이루어져야 하기 때문에 많은 검색 시간이 걸리게 된다. 이것을 해결하기 위해 우리는 편집거리가 metric space를 만족하는 성질을 이용한 한글 근사단어 검색 시스템을 사용하여 실제 서열정렬을 사용하여 비교가 필요한 후보 단어를 거르게 된다. 이 한글 근사 단어 검색 시스템에서 가장 중요한 것은 기준축의 역할을 하는 Base-Pivot의 선택 방법이다. 본 논문에서는 이 Base-Pivot의 효율적인 선택방법을 실험을 통해서 분석하도록 한다.

  • PDF

A Web-Based Protein Comparison System Using PSAML and Topology String Databases (PSAML과 Topology String 데이터베이스를 이용한 웹 기반 단백질 구조 비교 시스템)

  • 김진홍;안건태;변상희;이수현;이명준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.271-273
    • /
    • 2004
  • 단백질의 기능은 단백질의 구조에 따라 결정되며, 새로운 단백질의 기능을 파악하기 위하여 이미 밝혀진 단백질의 기능과 구조를 비교하는 방법이 사용되고 있다. 단백질 구조를 비교하는 방법은 단백질 구조를 표현하는 방법에 따라 다양하게 개발되고 있으며, 보다 효과적으로 관련된 연구자들이 자신의 연구에 활용하기 위해서는 빠르고 쉽게 활용할 수 있는 인터페이스를 제공하는 도구가 필요하다. 본 논문에서는 PDB 데이터베이스에서 제공하는 단백질 정보를 이용하여 PSAML 및 Topology String 데이터베이스를 구축하고 이를 바탕으로 웹 기반에서 단백질 구조 비교를 보다 빠르고 효과적으로 수행하는 시스템에 대하여 기술한다. PSAML 데이터베이스는 단백질 구조를 단백질 이차구조 및 그들 사이의 관계를 포함하는 PSAML 데이터를 제공하며, Topology String 데이터베이스는 단백질 구조를 단백질 이차구조를 하나의 문자로 기술하여 아미노산 순서와 위상학적(공간적) 정보를 포함하는 문자열로 단백질 구조정보를 제공한다. 이를 이용하여 구축된 웹 기반 단백질 구조 비교 시스템은 Topology String 정렬 방법을 통하여 보다 빠르게 유사성이 높은 부분 구조를 찾는 방법을 제공한다.

  • PDF

A Phoneme-based Approximate String Searching System for Restricted Korean Character Input Environments (제한된 한글 입력환경을 위한 음소기반 근사 문자열 검색 시스템)

  • Yoon, Tai-Jin;Cho, Hwan-Gue;Chung, Woo-Keun
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.10
    • /
    • pp.788-801
    • /
    • 2010
  • Advancing of mobile device is remarkable, so the research on mobile input device is getting more important issue. There are lots of input devices such as keypad, QWERTY keypad, touch and speech recognizer, but they are not as convenient as typical keyboard-based desktop input devices so input strings usually contain many typing errors. These input errors are not trouble with communication among person, but it has very critical problem with searching in database, such as dictionary and address book, we can not obtain correct results. Especially, Hangeul has more than 10,000 different characters because one Hangeul character is made by combination of consonants and vowels, frequency of error is higher than English. Generally, suffix tree is the most widely used data structure to deal with errors of query, but it is not enough for variety errors. In this paper, we propose fast approximate Korean word searching system, which allows variety typing errors. This system includes several algorithms for applying general approximate string searching to Hangeul. And we present profanity filters by using proposed system. This system filters over than 90% of coined profanities.

Postal Image Filtering Method based on ROI Image Matching (수취인 주소 영역의 영상매칭에 기반 한 유사 우편물 추출 방법)

  • 정창부;박상철;손화정;김수형
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.793-795
    • /
    • 2004
  • 우편물을 배달순서대로 정렬하는 과정을 순로구분이라고 하는데, 우편물의 처리과정에서 가장 많은 시간이 소요되는 부분이 바로 이 순로구분 과정이다. 우정선진국의 순로구분 자동화 시스템은 바코드를 이용하여 순로구분를 자동으로 처리하고 있지만, 국내의 시스템은 순로구분의 전 단계까지만 수행하고 나머지 과정은 배달원이 자신의 경험에 의해 수작업으로 처리하고 있다. 본 논문에서는 우편물을 자동 검증하는 방법으로 바코드 대신에 우편영상 특징기반의 Virtual ID 사용을 위한 유사한 우편영상 추출방법을 제안한다. 제안 방법은 질의영상과 후보영상간의 유사성을 판별할 때, 각 영상의 수취인 영역에서 추출된 문자열 Bounding Box들의 대응되는 쌍을 결정하고 그 쌍들의 영역이 겹치는 정도를 유사도로 측정하는 방법이다 291개의 우편영상에 대하여 실험한 결과, 289개의 영상이 정상적으로 유사한 우편영상으로 추출되었다. 또한, 유사한 우편영상으로 추출된 영상의 평균개수는 3.78개로 비교적 높게 나왔지만 이는 실험 데이터에 동일 DM 발송 우편물이 연속적으로 위치한 경우가 많았기 때문이다.

  • PDF

Mail Image Filtering Method for Use of Virtual ID (Virtual ID 사용을 위한 유사한 우편 영상 추출 방법)

  • Park Sang-Cheol;Jeong Chang-Boo;Son Hwa-Jeong;Kim Soo-Hyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.817-820
    • /
    • 2004
  • 우편물을 배달하기 위해서 집배원은 오전 시간의 대부분을 이용하여 배달 경로에 따라 우편물을 정렬한다. 우리나라의 자동화 시스템은 순로구분의 전단계까지만 수행하는데 그치고 있으나 외국의 순로 구분 자동화 시스템은 바코드나 사용자 태그를 이용하여 순로구분을 수행한다. 본 논문에서는 영상 기반특징과 인식 기반 특징인 Virtual ID 사용을 위한 우편 영상 검증의 과정으로 처리 속도를 향상 시킬 수 있도록 유사한 영상 혹은 동일 DM 발송 우편 영상을 추출해 내는 2가지 방법을 제안한다. 첫째는 영상 기반 특징을 추출하여 신경망을 사용하고, 두 번째는 우편 영상의 문자열의 Bound Box를 추출하여 이들의 겹침정도를 이용하여 유사성을 판별한다. 실험을 통해 제안한 두가지 방법이 유용함을 입증하였다.

  • PDF

Korean Approximate String Searching System by Hierarchical Metric Space Structure (계층적 메트릭 공간(metric space) 구조의 한글 근사 단어 검색 시스템)

  • Yoon, Taijin;Cho, Hwan-Gue
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.397-400
    • /
    • 2010
  • 우리는 지난 연구에서 변형 비속어 필터링 시스템을 위하여 근사 문자열 검색 시스템을 적용하여 서열 정렬 횟수를 비약적으로 줄일 수 있었다. 다차원 데이터 구조를 이용한 한글 근사 검색 시스템은 기준축인 Base-Pivot의 숫자에 따라 검색 결과의 정확도를 높일 수 있으나 BP이 증가한 만큼 질의 단어의 좌표를 계산하기 위한 시간이 오래 걸린다. 소규모 데이터 검색에는 문제가 되지 않으나 60,000단어 이상의 데이터가 수록되는 국어사전과 같은 대규모 데이터를 검색하게 될 경우 요구되는 BP의 숫자도 증가하여 많은 연산시간을 필요로 한다. 본 논문에서는 기존의 근사 단어 검색 시스템을 계층구조화 하여 요구되는 BP 숫자를 감소 시켜 성능을 향상 시키는 방법을 제안하고자 한다. 그리고 실험을 통하여 본 아이디어의 실효성을 증명하였다. 본 아이디어는 기존의 6000개의 비속어에 대하여 약 20%정도의 성능향상을 보였다.

The Online Game Coined Profanity Filtering System by using Semi-Global Alignment (반 전역 정렬을 이용한 온라인 게임 변형 욕설 필터링 시스템)

  • Yoon, Tai-Jin;Cho, Hwan-Gue
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.12
    • /
    • pp.113-120
    • /
    • 2009
  • Currently the verbal abuse in text message over on-line game is so serious. However we do not have any effective policy or technical tools yet. Till now in order to cope with this problem, the online game service providers have accumulated a set of forbidden words and applied this list on the textual word used in on-line game, which is called 'Swear filter'. But young on-line game players easily avoid this filtering method by coining another words which is not kept in the list. Especially Korean is very easy to make new variations of a vulgar word. In this paper, we propose one smart filtering algorithm to identify newly coined profanities. Important features of our method include the canonical form transformation of coined profanities, semi-global alignment between in the level of consonant and vowel units. For experiment, we have collected more than 1000 newly coined vulgar words in on-line gaming sites and tested these word against our methods. where our system have successfully filtered more than 90% of those newly coined vulgar words.

A Fragmentation and Search Method of Query Document for Partially Plagiarized Section Detection (부분표절구간 검출을 위한 질의문서의 분할 및 탐색 기법)

  • Ock, Chang-Seok;Seo, Jong-Kyu;Cho, Hwan-Gue
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.586-589
    • /
    • 2012
  • 표절과 관련된 이슈가 주목받고 있는 상황에서 표절을 검출하는 방법에 대한 연구가 활발히 진행되고 있다. 일반적으로 표절구간 검출을 위해 복잡한 자연어처리와 같은 의미론적 접근방법이 아닌 비교적 단순한 어휘기반의 문자열 처리 방법을 사용한다. 대표적인 방법으로는 지문법 (Fingerprinting)과 서열정렬 (Sequence alignment) 등이 있다. 하지만 이 방법들을 이용하여 대용량 문서에 대한 표절검사를 수행하기에는 시공간적 복잡도의 문제가 발생한다. 본 논문에서는 이러한 단점을 극복하기 위해 NGS (Next Generation Sequencing)에서 사용하는 BWT (Burrows-Wheeler Transform)[1]를 이용한 탐색방법을 응용한다. 또한 부분표절구간을 검출하고 정확도를 향상시키기 위해 질의문서를 분할하여 작은 조각으로 만든 뒤, 조각들에 대한 질의탐색을 수행한다. 본 논문에서는 질의문서를 분할하는 두 가지 방법을 소개한다. 두 가지 방법은 k-mer analysis를 이용한 방법과 random-split analysis를 이용한 방법으로, 각 방법의 장단점을 실험을 통해 분석하고 실제 부분표절구간의 검출 정확도를 측정하였다.