• 제목/요약/키워드: 문자 검색

검색결과 287건 처리시간 0.022초

가변길이 그램의 역리스트 생성을 이용한 효율적인 유사 문자열 검색 기법 (An Efficient String Similarity Search Technique based on Generating Inverted Lists of Variable-Length Grams)

  • 김종익
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1275-1280
    • /
    • 2016
  • 유사 문자열 검색을 위해 기존의 기법들은 우선 후보 문자열 집합을 생성한 후에 후보 문자열을 검증하는 방법을 사용한다. 이때, 유사 문자열 검색의 성능을 결정짓는 가장 중요한 요소는 후보 생성 방법이다. 기존의 기법들은 질의 문자열로부터 고정길이 q-그램들을 선택하고, 선택된 q-그램에 해당하는 역리스트를 이용해 후보 문자열을 생성한다. 본 논문에서는 질의 문자열 내의 가변길이 그램들을 사용하여 후보 문자열을 생성할 수 있는 기법과 질의 문자열로부터 최적의 가변길이 그램들의 조합을 선택하는 동적 프로그래밍 알고리즘을 제안한다. 실험을 통해 제안하는 기법이 기존의 기법들 보다 유사 문자열 검색의 성능을 향상시킴을 보인다.

자연영상에서 한글 자소 구조 및 유형 특징을 이용한 문자 영역 검출 (Character Region Detection Using Hangul Character Structure and Class Feature in Natural Images)

  • 박종천;권교현;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2011년도 춘계학술논문집 1부
    • /
    • pp.396-399
    • /
    • 2011
  • 모바일 기기의 보급이 확대됨으로서 모바일 기기에 내장된 카메라로 획득한 영상을 처리하는 다양한 종류의 응용프로그램이 개발되어 사용되고 있다. 대표적인 응용프로그램은 카메라로 찍은 영상의 사물 검색결과를 인터넷 검색엔진과 연계함으로서 키워드 입력 없이 검색할 수 있도록 하는 것이다. 본 연구는 그 중에서 한글 문자가 포함된 영상을 대상으로 영상검색 수행하는 연구로서 영상에서 한글 문자 영역을 검출하는 방법을 제안하였다. 한글 문자 구조 특징으로 한글 자소를 병합하여 후보 문자 영역을 추출하고 병합된 후보 문자 영역을 한글 6가지 문자 유형 특징을 기반으로 문자 영역을 여부를 판별함으로서 최종적인 문자 영역을 검출한다. 실험결과 문자영역 재현률이 향상됨을 알 수 있었다.

  • PDF

다중바이트 문자집합 텍스트에서의 문자열 검색 알고리즘 (String Matching Algorithm on Multi-byte Character Set Texts)

  • 김은상;김진욱;박근수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.1015-1019
    • /
    • 2010
  • 문자열 완전일치 검색 알고리즘용 지금까지 많은 연구가 되어왔지만, EUC-KR 용 다중바이트 문자집합에 대해서는 연구원 것이 부족한 상황이다. 이 논문에서는 기존의 KMP 알고리즘을 사용할 때 EUC-KR과 같은 다중바이트 문자집합 텍스트에서 오검색이 발생할 수 있음을 보이며, 문자 단위의 접두사 함수를 적용하여 오검색이 발생하지 않도록 개선한 KMP 알고리즘을 제안한다. 또한, 널리 사용되고 있는 편집기인 Vim과 Emacs의 검색 알고리즘 및 기존의 오토마타 방식의 연구 결과에 비해 논문에서 제안한 알고리즘이 더 빠른 속도를 보이는 실험 결과를 제시한다.

효율적인 유사문자열 검색을 위한 역리스트 탐색 기법 (Efficient Approximate String Searches with Inverted Lists through Search Range Reduction)

  • 이은석;김종익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1310-1313
    • /
    • 2011
  • 유사문자열 검색이란 문자열 집합에서 주어진 문자열과 유사한 문자열들을 검색하는 것으로 정보검색, 데이터 클리닝 등의 분야에서 활용되고 있다. 효율적인 유사문자열 검색을 위해 사전에 문자열 집합에 대한 역리스트를 구성하고 문자열이 주어졌을 때, 주어진 문자열에 관련된 역리스트를 병합하여 유사도 기준을 만족하는 문자열을 찾는다. 이때 비용을 줄이기 위해 일부의 역리스트만 병합하고 나머지 역리스트에 대해서는 이진탐색을 하는 방법이 있다. 본 논문에서는 역리스트를 이진탐색할 때, 불필요한 탐색구간을 제거하여 역리스트 탐색 비용을 줄이는 방법을 제안한다.

문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색 (Keyword Spotting on Hangul Document Images Using Character Feature Models)

  • 박상철;김수형;최덕재
    • 정보처리학회논문지B
    • /
    • 제12B권5호
    • /
    • pp.521-526
    • /
    • 2005
  • 본 논문에서는 저 품질의 한글 문서 영상에서 OCR 기반 검색 시스템의 대안으로 키워드 검출 시스템(Keyword Spotting)을 제안하고 OCR 기반 문서 검색 시스템과 비교한다. 제안 시스템은 문자 분할, 키워드 특징 추출 그리고 단어 매칭으로 구성된다. 문자 분할 단계에서는 인접한 두 문자간의 연결을 효과적으로 분리하면서 문자 넓이 값의 분산이 최소가 되도록 하는 문자 분할 방법을 제안한다. 키워드 특징은 서체별 문자 모델의 결합으로 구성한다. 단어 매칭 단계에서는 문자 매칭에 기반한 단어 대 단어 매칭 방법을 적용한다. 본 논문에서 제안한 키워드 검출 시스템의 성능을 평가하기 위해 한글 문서 영상을 대상으로 OCR 기반 문서 검색 시스템과 비교하였다. 그 결과 한글 글자 크기가 작고 문서의 상태가 좋지 않은 경우 제안한 키워드 검출 시스템에 의한 검색 성능이 OCR 기반 검색 시스템 보다 우수함을 입증하였다.

DNA 서열의 위치 정보를 이용한 효율적인 유사성 검색 알고리즘 (An Efficient Algorithm for Similarity Search using Positional Information of DNA Sequences)

  • 정인선;박경욱;임형석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.970-972
    • /
    • 2005
  • 유전자 데이터베이스의 서열의 길이가 수백만에서 수백억 정도의 대용량 텍스트이기 때문에 기존의 Smith-waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 매우 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 이러한 방법들은 질의 서열과 일치될 가능성이 높은 후보들만을 추출한 후 이들 각각에 대하여 질의 서열과의 일치 여부를 조사하므로 빠르게 유사성 검색을 할 수 있다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정확도가 Smith-Waterman 알고리즘에 비해 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 인덱싱함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은 문자 빈도만을 사용하는 알고리즘에 비해 $5\~15\%$정도 정확성이 향상되었다.

  • PDF

XML 기반의 본문검색 미들웨어 시스템 설계 및 구현 (Design and Implementation of the Search Inside Middleware System by using XML)

  • 김효남
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.229-232
    • /
    • 2011
  • 최근 스마트 디바이스 기반의 다양한 콘텐츠 제작 공급에 대한 새로운 마켓 시장 형성과 태블릿 디바이스 기반의 전자책 시장 규모의 확대에 따른 새로운 유형의 디지털 콘텐츠 시장이 형성되고 있다. 디지털 미디어는 정보환경 범위를 종이의 범위에서 벗어나 매체와 연계한 다양한 형태로의 변화뿐만 아니라 서술 방식과 소통방식의 방법에도 변화를 발생하였다. 그리고 지면에서 국한된 아날로그 매체의 물리적, 공간적, 시간적인 한계를 뛰어넘어 다양한 콘텐츠를 손쉽게 접근할 수 있게 만들었다. 이런 환경에서 본문검색 서비스는 아날로그와 디지털 매체의 상호 공존관계를 형성할 수 있다. 본 논문에서는 그림종이문서를 본문검색이 가능한 이미지형태의 디지털문서로 변환해주는 디지털라이징 시스템으로 문자위치정보를 포함하는 광학문자인식(OCR)기능과 인식된 문자의 오류를 수정하는 에디터기능을 통해 추출된 내용을 XML형태로 제공하는 본문검색 시스템을 제안한다. 특히, 문자인식 후처리 공정에서 복수의 관학문자인식(OCR)엔진을 통해 결과 비교와 문자위치 정보 확인 및 편집, 맞춤법 검사 등의 특화된 기능 등은 본 논문에서 가지는 강점으로 디지털문서 구축에 소요되는 시간과 비용을 혁신적으로 절감시켜준다.

  • PDF

문자정보 기반 비디오 분할에서 성능 향상을 위한 음성신호처리 (Speech Signal Processing for Performance Improvement of Text-Based Video Segmentation)

  • 이용주;손종목;강경옥;배건성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 학술대회
    • /
    • pp.187-191
    • /
    • 1999
  • 비디오 프로그램에서 영상 내에 포함되어 있는 문자정보는 동영상의 내용 검색 및 색인을 위한 비디오 분할에 사용될 수 있다. 일반적으로 장면 내에 포함되어 있는 문자들은 해상도가 낮고 글자 크기와 형태가 다양하기 때문에 추출과 인식이 어려울 뿐만 아니라 의도하지 않은 배경화면의 문자인 경우도 많기 때문에 내용기반 검색에는 사용되기가 어렵다. 그러나 비디오 내에 포함된 문자정보가 나타나는 시작 프레임과 끝나는 프레임을 검출하여 비디오 프로그램을 분할함으로써 내용기반요약정보를 만들 수 있으며, 동영상의 내용 검색 및 색인에 사용할 수 있다. 일반적으로 문자정보의 추출에 의해서 비디오를 분할할 때 음성정보는 전혀 고려되지 않으므로 분할된 비디오 정보를 재생할 경우음성신호가 단어 또는 어절/음절의 임의의 점에서 시작되고 끝나게 되어 듣기에 부자연스럽게 된다 따라서 본 논문에서는 뉴스방송의 비디오 프로그램에서 문자정보가 포함되어 는 비디오의 시작 프레임과 끝 프레임을 중심으로 그에 대응되는 구간의 음성신호를 검출한 후 이를 적절히 처리하여 분할 된 비디오를 재생할 때 음성신호가 보다 자연스럽게 들릴 수 있도록 하는 방법에 대해 연구하였다.

  • PDF

기계학습을 이용한 동작인식 동영상 검색시스템 제안 (A Proposal of Motion Recognition-based Video Search System using Machine Learning)

  • 서원성;이강희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.463-464
    • /
    • 2019
  • 본 논문은 기계학습을 기반으로 아두이노와 시리얼통신을 통한 사용자의 동작인식을 이용해 보다 간단하게 인터넷상의 원하는 동영상을 찾을 수 있는 검색시스템을 제작하고자 하였다. 이 검색시스템은 Python을 기반으로 SVM(Support Vector Machine)을 이용한 패턴 분류를 사용하였으며 이를 통해 사용자의 동작을 입력받아 문자를 예측 할 수 있다. 사용자는 이 검색시스템을 사용하기 위하여 우선 문자에 대한 사용자의 동작입력을 통해 학습 데이터 셋을 만들어야 하며 그것을 SVM을 이용하여 학습 모델과 식별자를 만들고, 만들어진 분류기를 통하여 동작인식을 바탕으로 문자의 결과를 예측 할 수 있다. 최종적으로 사용자의 동작인식을 거쳐 만들어진 문자열을 이용해 인터넷 동영상 사이트인 Youtube를 통해 웹 크롤링하여 문자열과 관련 있는 동영상을 찾아준다.

  • PDF

POI(Point Of Interest) 데이터 검색에서 문자열 유사도 측정 정확도 향상 기법 (Accuracy Improvement Methods for String Similarity Measurement in POI(Point Of Interest) Data Retrieval)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.498-506
    • /
    • 2014
  • 교통의 발달로 활동범위가 넓은 현대인들은 네비게이션과 지도 앱을 통한 길찾기 검색을 자주 이용한다. 하지만 기존 검색 시스템에서는 부정확한 질의어가 입력되면 원하는 결과를 출력하지 못한다. 이 문제를 해결하기 위해 집합-기반 POI 검색 알고리즘이 등장했고 이어 문자열 유사도 측정 기법, 중복 글자를 고려한 검색 알고리즘이 연구되었다. 본 논문에서는 이전에 연구된 문자열 유사도 측정 알고리즘의 정확도를 향상시킨 기법을 제안한다. 기존 문자열 유사도 측정 기법에서 고려하지 않았던 고유어의 추정단계와 중복 단어를 고려한 블록 및 블록 나열 순서 구하기를 추가하고 측정 기법을 수식화한다. 이를 통해 측정방법을 체계적으로 표현하고 일반화함으로써 POI 검색 결과의 정확도를 향상시킨다. 실험을 통해 본 논문에서 제시하는 기법이 검색 결과 및 검색 순위의 정확도를 향상시킨다는 것을 확인하였다.