• Title/Summary/Keyword: 문자 검색

Search Result 287, Processing Time 0.029 seconds

An Efficient Algorithm for Similarity Search in Large Biosequence Database (대용량 유전체를 위한 효율적인 유사성 검색 알고리즘)

  • Jeong, In-Seon;Park, Kyoung-Wook;Lim, Hyeong-Seok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.2
    • /
    • pp.1073-1076
    • /
    • 2005
  • Since the size of biosequence database grows exponentially every year, it becomes impractical to use Smith-Waterman algorithm for exact sequence similarity search. For fast sequence similarity search, researchers have been proposed heuristic methods that use the frequency of characters in subsequences. These methods have the defect that different sequences are treated as the same sequence. Because of using only the frequency of characters, the accuracy of these methods are lower than Smith-Waterman algorithm. In this paper, we propose an algorithm which processes query efficiently by indexing the frequency of characters including the positional information of characters in subsequences. The experiments show that our algorithm improve the accuracy of sequence similarity search approximately 5${\sim}$20% than heuristic algorithms using only the frequency of characters.

  • PDF

A Study on Efficient Extraction of Text frame in MPEG News Video Images (MPEG 뉴스영상에서 효율적인 텍스트 프레임 추출에 관한 연구)

  • 정하영;황보택근
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.11a
    • /
    • pp.234-237
    • /
    • 2000
  • 멀티미디어 데이터를 다루는 기술이 급격하게 발전함에 따라 멀티미디어 데이터베이스를 운용함에 있어서 사용자의 효율적인 검색을 지원하기 위한 연구가 활발히 진행되고 있다. 본 논문에서는 MPEG으로로 압축된 뉴스 영상에서 내용기반 검색을 위한 효율적인 텍스트 프레임 추출방법을 제시한다. 제시하는 방법은 문자가 있는 프레임을 탐색하는 데 있어서 압축된 데이터에 최소한의 복호화만을 함으로써 탐색시간을 줄이고, 뉴스 영상에서의 문자의 특성을 고려하여 중복 추출을 줄이고 시간을 단축한다.

  • PDF

A Study of Disaster prevention design, research on disaster evacuation system using location based message service (방재디자인 기반, 위치에 따른 재난문자서비스를 이용한 재난대피시스템 연구)

  • Kim, min-kyu;Noh, hwang-woo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2017.05a
    • /
    • pp.201-202
    • /
    • 2017
  • 현재 재난문자서비스는 재난재해 상황의 발생이 예상되거나 발생된 지역에 관련 내용을 전달해주지만 재해 예측 및 재해 발생시 알림 기능 이상을 하지 못하고 있는 실정이다. 본 연구는 기존의 재난문자서비스 사용 경험이 있는 사용자의 의견을 통해 문제점을 파악하고, 개선하여 문자를 받는 사람의 위치를 중심으로 가까운 대피소를 즉시 검색할 수 있는 웹 애플리케이션(Web App)의 URL 주소를 첨부하여 신속히 대피를 유도할 수 있는 재난대피시스템을 제안하려 한다.

  • PDF

The Method of Searching Metathesaurus, Using Automatic Modified a Query (질의어 자동수정을 이용한 메타시소러스 검색 방법)

  • 김종광;하원식;김태용;류중경;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.454-456
    • /
    • 2003
  • UMLS(2003AA edition 기준)의 메타시소러스는 다국어를 지원하며 875.233개의 개 (concept)과 2,146,897개의 개념명(concept name)을 포함한다. 현재 UMLS 메타시소러스 검색을 제공하는 PubMed나 NLM에서는 UMLS에서는 개념명에 존재하지 않는 잘못된 질의나, 잘못된 구문 또는 개념명의 일부를 이용한 검색이 불가능하다. 이는 사용자가 UMLS에서 정보를 얻기 위해서는 정확한 의학용어를 숙지해야 되며. UMLS 메타시소러스의 데이터가 잘못 되었을 경우 정보를 얻을 수 없다. 본 연구에서는 이러한 문제점을 보완하기 위해서 자연어처리에서 연구되고 있는 문자열 간의 유사도 측정방식을 적용하여 잘못된 질의어에 대한 자동수정 기능을 이용한 메타시소러스 검색방법을 제안한다. 제안한 방법에서는 질의어를 자동수정하기 위하여 철자사전을 자동으로 추출하고 문자열 비교알고리즘을 도입하여 질의어와 철자사전간의 용어의 유사도를 측정한다. 유사도에 의하여 얻어진 용어를 메타시소러스의 형식에 맞게 변환하여 질의에 대한 최적의 결과를 얻을 수 있도록 한다. 제안된 방법의 성능을 평가하기 위해서 최근(2003년 8월) bi-gram 방식을 도입한 NLM에서의 시스템과 비교 평가한다.

  • PDF

Design and Implementation of High-Speed Pattern Matcher in Network Intrusion Detection System (네트워크 침입 탐지 시스템에서 고속 패턴 매칭기의 설계 및 구현)

  • Yoon, Yeo-Chan;Hwang, Sun-Young
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.33 no.11B
    • /
    • pp.1020-1029
    • /
    • 2008
  • This paper proposes an high speed pattern matching algorithm and its implementation. The pattern matcher is used to check patterns from realtime input packet. The proposed algorithm can find exact string, range of string values, and combination of string values from input packet at high speed. Given string and rule set are modelled as a state transition graph which can find overlapped strings simultaneously, and the state transition graph is partitioned according to input implicants to reduce implementation complexity. The pattern matcher scheme uses the transformed state transition graph and input packet as an input. The pattern matcher was modelled and implemented in VHDL language. Experimental results show the proprieties of the proposed approach.

Pattern Search Algorithm in Suffix Arrays (접미사 배열에서의 패턴 검색 알고리즘)

  • 최용욱;박근수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.958-960
    • /
    • 2004
  • 접미사 배열은 긴 문자열에 대한 효율적인 패턴 검색을 위해 널리 쓰이는 자료 구조로서 지금까지 접미사 배열을 이용하여 텔스트 T 안에서 패턴 P를 검색하는 O(|P|ㆍ|∑|), O(|P|ㆍlog|∑|)시간 알고리즘(|∑|:알파벳 크기)들 이 발표되었다. 본 논문에서는 O(|P|)시간 알고리즘을 제시하고, 기존의 알고리즘들과 비교한 실험 결과를 보여준다.

  • PDF

Coupon recognition system Using Mobile SMS (휴대폰 문자메세지를 이용한 쿠폰 인식 시스템)

  • Kang, Sin-Kuk;Kang, Youl-Been
    • 한국HCI학회:학술대회논문집
    • /
    • 2009.02a
    • /
    • pp.733-736
    • /
    • 2009
  • In this paper, we proposed the coupon recognition system using vision techniques. In the proposed system coupon information represented by the ID in the database. We use the camera to acquire images which contains coupon information. By using the ID we get information from the database. The performance of proposed system is verified through many mobile phones.

  • PDF

Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing (음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기)

  • 전남열;박혁로
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한극어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bi-gram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분서고가 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing (음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기)

  • Jeon, Nam-Youl;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

Image Search Algorithm with Tile Alignment (타일 정렬을 이용한 이미지 검색 알고리즘)

  • 박웅;전호윤;신종우;전명재;조환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.712-714
    • /
    • 2004
  • 인터넷상의 대부분 이미지 검색엔진들은 이미지의 실제 내용보다는 이미지 파일명이나 부가적인 색인과 같은 문자 정보에 의존하여 이미지 검색을 하고 있다. 한편 이미지의 색상 정보를 비교에 사용하는 RGB 히스토그램 방법은 수행시간은 짧지만 형태는 고려하지 않기 때문에 높은 정확도는 기대하기 어렵다. 본 논문에서는 이미지의 실제 내용을 비교하여 비정형의 복잡한 물체를 검색하는 새로운 이미지 검색 알고리즘을 제안한다. 제안하는 알고리즘은 이미지의 색상과 형태 정보를 담은 타일 서열을 local alignment 알고리즘으로 정렬하여 이미지 검색을 한다 비정형 물체인 음식 사진을 사용한 실험에서 기존의 방법 RGB 히스토그램을 이용한 방법보다 월등히 향상된 정확도를 나타내었다.

  • PDF