• 제목/요약/키워드: 스트링 매칭

검색결과 38건 처리시간 0.031초

효율적인 웨이블렛 기반 오디오 데이터 검색 시스템 구현 (Implementation of an Efficient Wavelet Based Audio Data Retrieval System)

  • 이배호;조용춘;김광희
    • 한국음향학회지
    • /
    • 제21권1호
    • /
    • pp.82-88
    • /
    • 2002
  • 본 논문은 오디오 데이터의 검색을 위해 웨이블렛 (wavelet) 변환을 이용한 효율적인 인덱싱 방법을 제안하였다. 오디오 데이터는 그 자신이 가지고 있는 많은 저장공간의 필요, 전송에 있어서의 실시간 필요성, 큰 대역폭등의 다양한 특성 때문에 좋은 검색효율을 위한 인덱스를 구성하기가 쉽지 않다. 신호 및 영상처리에서 각광받고 있는 웨이블렛을 이용한 인덱스는 웨이블렛 변환이 가지고 있는 여러 특징들로 인해 데이터를 블록으로 나누지 않은 상태에서의 인덱싱과 검색을 가능케 한다. 오디오 데이터의 인덱싱은 웨이블렛의 마지막 단계의 고주파 부분과 저주파 부분의 계수를 이용하여 고주파부분은 스트링 매칭 알고리즘에 의해 스트링의 연속으로 변환하고, 저주파 부분은 영점 교차 히스토그램으로 변환한다. 구축된 인덱스를 이용한 오디오 데이터 검색은 질의 데이터와 데이터 베이스안의 인덱스 각 부분, 즉 고주파 부분과 저주파 부분의 스트링을 비교하여 가장 적은 편차를 갖는 결과를 검색 결과로 한다. 본 논문은 적절한 비교 계수 결정, 질의 길이의 변화에 따른 검색율의 변화, 데이터 각 분류별 유사도 검색 효율에 대한 실험을 하였으며, 본 논문에서 제안한 방법이 기존의 방법보다 우수한 성능 향상을 보였다.

써픽스 배열 합병을 이용한 일반화된 써픽스 배열의 효율적인 구축 알고리즘 (Efficient Construction of Generalized Suffix Arrays by Merging Suffix Arrays)

  • 전정은;박희진;김동규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권6호
    • /
    • pp.268-278
    • /
    • 2005
  • 본 논문에서는 A와 B의 써픽스 배열이 주어졌을 때 두 배열을 합병하여 이들의 일반화된 써픽스 배열을 구축하는 방법을 연구하였다. 흘수 써픽스와 짝수 써픽스같이 특별한 경우의 두 써픽스를 합병하는 알고리즘은 이미 발표되었지만, A와 』가 임의의 문자열인 일반적인 경우 두 써픽스 배열을 합병하는 효율적인 알고리즘은 아직 개발되지 않았다. 따라서 현재까지는 A와 B의 써픽스 배열을 합병하기 위해서 A와 B의 써픽스 배열이 이미 주어져 있음에도 불구하고 A$\#$B$\$$라는 문자열에 대한 써픽스 배열을 다시 구축해야했다. 본 논문에서는 상수 문자집합이나 정수 문자집합에서 정의된 임의의 두 문자열 A와 B에 대한 써픽스 배열을 합병하는 효율적인 알고리즘을 제시한다. 실험결과 상수문자집합의 경우 A$\#$B$\$$에대한 써픽스 배열을 다시 구축하는 것보다 합병하는 것이 5배 정도 빨랐다. 여기서 제시한 알고리즘은 써픽스 배열 A에서 스트링 B의 모든 써픽스를 검색하여야 한다. 이를 위해 써픽스 배열에서 정의한 써픽스 링크를 사용하였고, 또 써픽스 링크를 계산하는 효율적인 알고리즘도 개발하였다. 써픽스 링크는 생물정보학에서 사용되는 매칭 통계나 최장 공통 부분 문자열 검색처럼 다른 스트링의 써픽스 배열에서 주어진 스트링의 모든 써픽스를 찾는 데 이용할 수 있으므로, 이를 계산하는 효율적인 방법을 제시한 것 역시 많은 의미를 가진다. 실험을 통해 여기서 제시한 방법이 기존 알고리즘 중 가장 빠른 방법보다 3$\~$4배 정도 빠르다는 것을 보였다.

컬러 분포와 WordNet상의 유사도 측정을 이용한 의미적 이미지 검색 (Semantic Image Retrieval Using Color Distribution and Similarity Measurement in WordNet)

  • 최준호;조미영;김판구
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 의미기반 이미지 검색에서의 의미적 내용 인식은 주석 위주의 텍스트 정보를 이용하는 것이 일반적이다. 이러한 텍스트 정보 기반 이미지 검색은 전통적인 검색 방법인 키워드 검색 기술을 그대로 사하여 쉽게 구현할 수 있으나, 텍스트의 개념적 매칭이 아닌 스트링 매칭이므로 주석 처리된 단어와 정확한 매칭이 없다면 검색할 수 없는 단점이 있었다. 이에 본 논문에서는 Ontology의 일종인 WordNet을 이용하여 깊이, 정보량, 링크 타입, 밀도 등을 고려한 단어간 의미 유사도를 측정하여 패턴 매칭의 문제점을 해결하고자 한다. 또한, 이미지의 컬러 분포 유사도를 측정하여 저차원 특징과 결합한 의미적 이미지 검색이 가능하도록 설계하였다. 제안된 검색 방안에 대해 'Microsoft Design Gallery Live'의 주석을 포함한 이미지를 대상으로 실험한 결과, 기존 의미기반 검색 시스템보다 향상된 결과를 확인하였다.

접미사 배열을 이용한 Suffix-Prefix가 일치하는 모든 쌍 찾기 (Finding All-Pairs Suffix-Prefix Matching Using Suffix Array)

  • 한선미;우진운
    • 정보처리학회논문지A
    • /
    • 제17A권5호
    • /
    • pp.221-228
    • /
    • 2010
  • 최근 문자열 연산들이 계산 생물학 및 인터넷의 보안, 검색 분야에 응용되면서 효율적인 문자열 연산을 위한 다양한 자료구조와 알고리즘이 연구되고 있다. suffix-prefix가 일치하는 모든 쌍 찾기는 두 개 이상의 문자열이 주어질 때 각 쌍의 문자열에 대해 가장 긴 suffix와 일치하는 prefix를 찾는 것으로 가장 짧은 슈퍼스트링을 검출하는 근사 알고리즘에서 사용될 뿐만 아니라 생물정보학, 데이터 압축 분야에서도 중요하게 사용된다. 본 논문에서는 접미사 배열을 이용하는 suffix-prefix가 일치하는 모든 쌍 찾기 알고리즘을 제안하며 O($k{\cdot}m$) 시간 복잡도를 가진다. 접미사 배열 알고리즘이 접미사 트리 알고리즘 보다 소요 시간과 메모리 면에서 더 우수함을 실험을 통해서 제시한다.

재귀적 지역정렬을 이용한 프로그램 표절 탐색 (Source code Plagiarism Detection with Recursive Local Alignments)

  • 전명재;이평준;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.946-948
    • /
    • 2004
  • 지역정렬(local alignment)과 전체정렬(global alignment)로 대표되는 정렬 문제는 전산학 분야의 전형적인 문제로, 두 서열의 전체적인 또는 부문적인 유사성(similarity)을 찾아 주기 위한 방법이다. 특히 정렬은 두 문자열에서 유사하게 나타나는 유사 서브스트링을 찾아내는 문제라든가 근래의 생물정보학에서 두 DNA시퀀스간의 유사도를 판별하는 문제 등에서 매우 중요란 기법이다. 본 논문에서는 두 서열들을 유사하게 매칭 시켜 주는 기존의 정렬 방법을 응용, 변형하여 C, C++. JAVA등으로 짜여진 프로그램 소스들의 유사도를 측정하는 방법을 제시하였다. 실제로 이런 프로그램 소스의 표절은 대학교육 수업과정 등에서 빈번하게 발생되는 문제점으로서 본 논문에서는 프로그램 소스표절을 검사, 탐지할 수 있는 방법론 및 구체적인 프로그램과 그 결과를 제시하고 있다. 아울러 두 프로그램간의 유사성을 비교하기 위해 기존의 지역정렬 방법을 보다 효율적으로 적절히 변형시키는 방법을 제시하고 있다.

  • PDF

내용기반 검색을 위한 비디오텍스트 검출 (Videotext Detection for Content-based Retrieval)

  • 곽동엽;김은이;장재식;김항준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.805-808
    • /
    • 2001
  • 본 논문은 비디오 영상에서 내용 기반 검색을 위한 비디오 텍스트를 검출하는 방법을 제안한다. 영어와 달리 한글과 같이 다중 분할된 문자가 포함된 비디오 텍스트를 자동으로 검출하기 위해 형태와 크기 및 위치 정보를 이용하고 이러한 정보들은 K-mean 클러스트링 알고리즘을 이용해 얻어진 템플릿의 형태로 표현 된다. 연결 성분 분석(connected component analysis)방법을 통해 비디오 영상을 분할하고, 잡음을 제거한 후 정확한 문자 성분을 검출하기 위해 클러스터 기반의 템플릿 매칭을 한다. 제안된 방법은 정확도와 에러율에서 기존의 방법보다 효과적 이었다.

  • PDF

셀들의 군집 정보를 이용한 한글 문자 인식률 향상 기법 연구 (Improving Korean Character Recognition Rate based on the Cell Clustering Information)

  • 신우준;고윤식;임영택;윤영수;박희완
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.810-812
    • /
    • 2015
  • 문자인식 즉 OCR(Optical Character Recognition)기술은 광학적으로 인식할 수 있는 문자를 컴퓨터가 읽을 수 있도록 하는 기술을 뜻한다. 문자인식의 근간이 되는 방법은 스트링 매칭 기법이 사용되어 왔지만 한글의 경우 자음, 모음, 자음 조합으로 만 가지 유형이 넘고, 더욱이 상용한자와 영어를 섞어 쓰기 때문에 오인식되는 경우가 많다. 본 논문에서는 한글이 수직선, 수평선, 사선과 같이 방향성이 강한 선소들로 구성되어 있다는 점을 이용하여 한글의 인식률을 높이는 방법을 제안하였다.

WhiteList 기반의 악성코드 행위분석을 통한 악성코드 은닉 웹사이트 탐지 방안 연구 (Research on Malicious code hidden website detection method through WhiteList-based Malicious code Behavior Analysis)

  • 하정우;김휘강;임종인
    • 정보보호학회논문지
    • /
    • 제21권4호
    • /
    • pp.61-75
    • /
    • 2011
  • 최근 DDoS공격용 좀비, 기업정보 및 개인정보 절취 등 각종 사이버 테러 및 금전적 이윤 획득의 목적으로 웹사이트를 해킹, 악성코드를 은닉함으로써 웹사이트 접속PC를 악성코드에 감염시키는 공격이 지속적으로 증가하고 있으며 은닉기술 및 회피기술 또한 지능화 전문화되고 있는 실정이다. 악성코드가 은닉된 웹사이트를 탐지하기 위한 현존기술은 BlackList 기반 패턴매칭 방식으로 공격자가 악성코드의 문자열 변경 또는 악성코드를 변경할 경우 탐지가 불가능하여 많은 접속자가 악성코드 감염에 노출될 수 밖에 없는 한계점이 존재한다. 본 논문에서는 기존 패턴매칭 방식의 한계점을 극복하기 위한 방안으로 WhiteList 기반의 악성코드 프로세스 행위분석 탐지기술을 제시하였다. 제안방식의 실험 결과 현존기술인 악성코드 스트링을 비교하는 패턴매칭의 MC-Finder는 0.8%, 패턴매칭과 행위분석을 동시에 적용하고 있는 구글은 4.9%, McAfee는 1.5%임에 비해 WhiteList 기반의 악성코드 프로세스 행위분석 기술은 10.8%의 탐지율을 보였으며, 이로써 제안방식이 악성코드 설치를 위해 악용되는 웹 사이트 탐지에 더욱 효과적이라는 것을 증명할 수 있었다.

XML 문서의 구조와 내용을 고려한 유사도 측정 (Similarity Measure based on XML Document's Structure and Contents)

  • 김우생
    • 한국멀티미디어학회논문지
    • /
    • 제11권8호
    • /
    • pp.1043-1050
    • /
    • 2008
  • XML(Extensible Markup Language)은 인터넷 상에서 데이터 표현과 교환을 위한 표준으로 자리 잡고 있다. 웹의 발전과 함께 XML문서들이 정보 검색, 문서 관리, 데이터 마이닝 등의 응용에서 폭 넓게 사용되면서 구조적으로 정보가 풍부한 이러한 문서들을 자동으로 처리하고 검색하는 기술들이 요구되고 있다. 본 연구에서는 XML 문서 의 구조와 내용을 고려하여 유사한 문서들을 검색하는 새로운 방법을 제안한다. XML 문서의 구조적 유사성은 간단한 스트링 매칭 기법으로 찾고, 문서 내용의 유사성은 문서 요소(element)들의 이름과 경로를 고려한 가중치를 통해 찾는 방법으로 전체의 시간 복잡도는 비교되는 두 문서의 크기에 선형적으로 비례한다.

  • PDF

모바일 환경에서 파일 검색 엔진을 위한 효과적인 방식 (Effective Scheme for File Search Engine in Mobile Environments)

  • 조종근;하상은
    • 한국콘텐츠학회논문지
    • /
    • 제8권11호
    • /
    • pp.41-48
    • /
    • 2008
  • 본 논문에서는 파일 검색 엔진에 대해 모델링하고, 파일 검색의 정확도와 속도 향상을 위해 파일내의 내용들을 이용한 가중치 값 기반의 파일 검색 방식을 제안한다. 대부분의 파일 검색 엔진들은 빠른 검색 속도의 한계로 KMP와 같은 스트링 매칭 알고리즘을 사용해 왔다. 그러나, 이런 종류의 알고리즘들은 사용자가 원하는 파일들을 정확하게 찾아 주지는 못한다. 따라서, 모바일 환경에서 파일내의 내용들을 이용한 가중치 값 기반의 검색 엔진을 제안하고, 기존 방법들과 비교를 통해 제안한 방법의 우수한 성능을 증명한다.