• Title/Summary/Keyword: 문자열비교

Search Result 101, Processing Time 0.026 seconds

An Efficient Method of IR-based Automated Keyword Tagging (정보검색 기법을 이용한 효율적인 자동 키워드 태깅)

  • Kim, Jinsuk;Choe, Ho-Seop;You, Beom-Jong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2008.05a
    • /
    • pp.24-27
    • /
    • 2008
  • As shown in Wikipedia, tagging or cross-linking through major key-words improves the readability of documents. Recently, the Semantic Web rises the importance of social tagging as a key feature of the Web 2.0 and Tag Cloud has emerged as its crucial phenotype. In this paper we provides an efficient method of automated keyword tagging based on controlled term collection, where the computational complexity of O(mN) - if pattern matching algorithm is used - can be reduced to O(mlogN) - if Information Retrieval is adopted - while m is the length of target document and N is the total number of candidate terms to be tagged. The result shows that IR-based tagging speeds up 5.6 times compared with fast pattern matching algorithm.

  • PDF

Full Parsing Approach to Extracting Protein-to-Protein Interactions from the Biological Literature (생물학 문헌으로부터 단백질 상호작용 정보 추출을 위한 자연어 처리 기법)

  • 노정호;차재혁;최용석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.256-258
    • /
    • 2004
  • 단백질 상호작용에 대한 연구는 생명현상의 전반적인 원리를 규명하는데 필수적이다. 생물학 문헌 데이터베이스로부터 단백질 상호작용 정보를 찾는 것은 많은 시간과 노력이 필요하기 때문에 컴퓨터로 자동화시키는 방법이 요구된다. 문헌으로부터 단백질 상호작용 정보를 추출하는 작업은 단순 문자열 비교를 통한 정보검색으로는 한계가 있으므로 자연어 처리 기법을 적용해 문장의 문법 구조, 품사 정보 등을 이용하면 더 정확한 추출이 가능하다. 본 논문에서는 자연어 처리를 이용하여 문장을 트리로 표현한 뒤 가지치기, 병합 등을 통해 추상화된 트리를 패턴과 매칭하는 방법을 제안한다. 그리고 실제 데이터를 이용한 실험 결과를 통해 기존 방법에 비해 더 높아진 정확도를 확인하였다.

  • PDF

Postal Image Filtering Method based on ROI Image Matching (수취인 주소 영역의 영상매칭에 기반 한 유사 우편물 추출 방법)

  • 정창부;박상철;손화정;김수형
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.793-795
    • /
    • 2004
  • 우편물을 배달순서대로 정렬하는 과정을 순로구분이라고 하는데, 우편물의 처리과정에서 가장 많은 시간이 소요되는 부분이 바로 이 순로구분 과정이다. 우정선진국의 순로구분 자동화 시스템은 바코드를 이용하여 순로구분를 자동으로 처리하고 있지만, 국내의 시스템은 순로구분의 전 단계까지만 수행하고 나머지 과정은 배달원이 자신의 경험에 의해 수작업으로 처리하고 있다. 본 논문에서는 우편물을 자동 검증하는 방법으로 바코드 대신에 우편영상 특징기반의 Virtual ID 사용을 위한 유사한 우편영상 추출방법을 제안한다. 제안 방법은 질의영상과 후보영상간의 유사성을 판별할 때, 각 영상의 수취인 영역에서 추출된 문자열 Bounding Box들의 대응되는 쌍을 결정하고 그 쌍들의 영역이 겹치는 정도를 유사도로 측정하는 방법이다 291개의 우편영상에 대하여 실험한 결과, 289개의 영상이 정상적으로 유사한 우편영상으로 추출되었다. 또한, 유사한 우편영상으로 추출된 영상의 평균개수는 3.78개로 비교적 높게 나왔지만 이는 실험 데이터에 동일 DM 발송 우편물이 연속적으로 위치한 경우가 많았기 때문이다.

  • PDF

A Web-server Application Technology using Dynamic Shared Object Servlet (동적 공유객체 서블릿을 사용한 웹 서버 어플리케이션 기술)

  • Kim, Dae-Jung;Kwak, Duk-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.838-840
    • /
    • 2005
  • 웹 어플리케이션 개발에 있어서 동적인 컨텐츠를 생성하는 기술은 매우 다양하다. 본 논문은 동적인 컨텐츠를 생성하는 어플리케이션을 위하여 동적공유객체를 사용하는 기술인 DHE(DCL HTTP Server Extension)에 대하여 다룬다. DHE는 DHE 서블릿과 DHE 서블릿 컨테이너로 이루어져 있다. 서블릿(Servlet)은 HTTP 요청에 대한 구체적인 처리를 하도록 개발된 DSO이고 서블릿 컨테이너에 의하여 실행된다. 서블릿 컨테이너는 이미 널리 사용되고 있는 웹 서버 소프트웨어의 플러그인(plug-in) 형태로 개발되며 서블릿에게 웹 서버 소프트웨어간에 이식이 가능하도록 하는 독립된 환경을 제공한다. DHE의 유효성을 검증하기 위해 동일한 알고리즘이 적용되어 작성된 ASP. PHP, JSP 어플리케이션과 성능비교 실험을 실시 하였다. 실험의 결과는 DHE가 가장 적은 VM(Virtual Memory)를 사용하고 있었고 200라인 이상(27.8KB)의 문자열을 생성하는 실험에서 단위 시간당 처리할 수 있는 HTTP 요청의 개수가 JSP에 비하여 3배 이상, ASP, PHP에 비하여 6배 이상의 결과를 얻었다.

  • PDF

String matching for Network Intrusion Detection System using FPGA (FPGA를 사용한 네트워크 침입탐지 시스템의 문자열 비교)

  • Lee, Jang-Haeng;Hwang, Sung-Ho;Park, Neung-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.886-888
    • /
    • 2005
  • Network Intrusion Detection System(NIDS)는 네트워크를 통해 들어오는 패킷들을 모니터링 하고 분석하여 내부 시스템에 유해한 내용을 담고 있는 패킷을 탐지 하는 시스템이다. 이 시스템은 네트워크의 안에서 돌아다니는 패킷을 놓치지 않고 분석할 수 있어야 하며, 예측 불허의 공격 방법들에 대해서는 새로운 법칙을 적용하여 방어할 수 있어야 한다. 본 연구에서 NDIS에 snort를 이용한 소프트웨어적인 패턴매칭을 FPGA를 이용하여 하드웨어적 패턴매칭으로 구현하였으며, 새로운 법칙에 따라서 유연하게 적응할 수 있도록 패턴매칭을 정규 표현식(Regular Expression)으로 나타내어 FPGA에 재구성할 수 있도록 하였다.

  • PDF

Effective Highlighting Retrieval Results of Historical Documents (고전 문서의 효과적인 검색 결과 하이라이팅)

  • Jeong, Chang-Hoo;Choi, Yun-Soo;Kim, Kwang-Young;Seo, Jeong-Hyeon;Yoon, Hwa-Mook
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2006.11a
    • /
    • pp.543-546
    • /
    • 2006
  • In this paper, we introduce a method to effectively highlight retrieval results without impairing meaningful features after historical documents were digitized into XML format. Especially, making the best of the features of historical documents, we perform string matching for the highlighting. Also, considering the features of the XML document, we carry out various processes when highlighting tag is inserted.

  • PDF

A Study to Prevent Computer Virus Infection (컴퓨터 바이러스 감염 예방을 위한 연구)

  • 김경수;노태상;정민영;김판구
    • Proceedings of the Korea Institutes of Information Security and Cryptology Conference
    • /
    • 1996.11a
    • /
    • pp.177-184
    • /
    • 1996
  • 요즘 새로운 컴퓨터 바이러스가 날로 늘어나고 있고, 또한 지능화되어 가고 있다. 기존의 시스템들은 그들을 막기 위해 화일의 내용에 대해 바이러스의 문자열을 비교하거나 바이러스의 행동을 모니터 하는 방법으로 바이러스에 대처하고 있다. 그러나 이러한 방법들은 알려지지 않은 바이러스를 감지할 수 없고 일단 바이러스가 먼저 실행되면 예방 시스템이 감지할 수 없게 된다. 따라서, 바이러스 감지시스템은 반드시 시스템이 바이러스에 감염되기 전에 수행되어야 한다. 본 논문에서는 시스템의 오버헤드를 증가시키지 않고 부팅시에 부트 바이러스가 실행되기 전에 안전한 부팅을 보장하고, 감염되었다 하더라도 부팅시에 안전하게 복구할 수 있고 아울러 화일 바이러스의'피해를 최소화할 수 있는 새로운 예방 기법인 VIDS(Virus Intrusion Detection System)을 설계, 구현하였다.

  • PDF

Stripe-geometry 2D Gratings for High-Efficiency Array Spot Generation (고효율 스폿 배열 발생을 위한 줄무늬형 2차원 회절격자)

  • Lee, Deug-Ju;Yoon, Byeong-Ho;Kim, Nam;Suh, Ho-Hyung
    • Korean Journal of Optics and Photonics
    • /
    • v.6 no.2
    • /
    • pp.108-114
    • /
    • 1995
  • 규칙적인 간격이 $M\timesN$ 이차원패턴과 임의 모양 빔 스폿을 발생시키기 위해 일반적인 이차원 Dammann 격자보다 재구성 에러가 작고, 높은 효율을 보이는 줄무늬형 격자를 설계하였다. 회절효율은 일반적인 이차원 Dammann 격자의 효율보다 평균 15-20% 정도 높은 60% 이상을 얻었다. 설계된 격자는 컴퓨터 시뮬레이션을 통해 회절특성을 확인하였으며 우수한 패턴 발생 결과가 확인되었다. $3\times3에서 11\times11$까지의 규칙적인 스폿 배열과 문자열에 대한 효율, 계산 시간 및 표준편차를 비교분석하였다.

  • PDF

Design of A Page Modification Detector for Meta-search Engines (메타 검색엔진을 위한 페이지 변경 탐지기 설계)

  • 박상위;오정석;이상호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.205-207
    • /
    • 2001
  • 웹 상의 HTML 문서들은 수시로 변경되고 있으며, 정보를 검색하는 웹사이트 또한 예외는 아니다. 다수의 웹 검색엔진들의 결과를 통합하는 메타 검색엔진은 각 검색엔진의 정보 변경에 민감해야 된다. 본 논문은, 수시로 변경되는 검색엔진들의 HTML 문서 정보를 메타 검색 엔진에 반영하기 위해, 자동적으로 검색엔진들의 질의 형태 변경과 검색 엔진의 검색 결과 HTML 문서의 구조 변경 탐지는 질의 결과가 반복되는 HTML 태그(tags) 문서 구조를 패턴(pattern)으로 이용한다. 패턴 발견 알고리즘은 문자열에서 규칙적으로 발생하는 패턴을 찾아내는 Jaak Vilo 알고리즘을 기반으로 HTML 문서를 처리할 수 있도록 확장하였다. 발견된 HTML 문서 패턴과 기존의 검색 엔진 HTML 페이지의 구조적 패턴 정보를 비교하여 문서 구조 변경을 탐지한다.

  • PDF

A Classification Method for Deformed Words Using Multiple Sequence Alignment (다중서열정렬을 이용한 변형단어집합의 분류 기법)

  • Kim, Sung-Hwan;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.264-266
    • /
    • 2012
  • 인터넷 상에서의 변형 단어들을 처리하는 문제는 정보 검색, 기계 번역, 웹 마이닝, 욕설 및 스팸 필터링과 같은 다양한 분야에서 사용될 수 있다. 특히 단어의 변형 추이를 파악하는 등 데이터 수집 및 분석을 위해서는 주어진 단어가 어떤 변형 단어의 집합으로 이루어진 부류에 포함되는지 여부를 파악해야 할 필요성이 있다. 본 논문에서는 같은 부류에 속한 변형 단어 집합에 대하여 다중 서열 정렬(multiple sequence alignment)을 수행함으로써 해당 집합을 하나의 대표 문자열로 취급하는 변환 기법을 제안하고, 이를 이용해 주어진 단어가 해당 부류에 속하는지 여부를 효과적으로 분류하는 기법을 소개한다. 실험결과 제안 기법의 분류 성능은 민감도 93.4% 수준에서 89.1%의 특이도를 보여 전수 비교를 통한 분류에 비하여 결코 성능은 하락하지 않으면서 분류 속도는 16.5배 향상되었음을 확인할 수 있었다.