• Title/Summary/Keyword: 색인기법

Search Result 654, Processing Time 0.044 seconds

A System for the Decomposition of Text Block into Words (텍스트 영역에 대한 단어 단위 분할 시스템)

  • Jeong, Chang-Boo;Kwag, Hee-Kue;Jeong, Seon-Hwa;Kim, Soo-Hyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.293-296
    • /
    • 2000
  • 본 논문에서는 주제어 인식에 기반한 문서영상의 검색 및 색인 시스템에 적용하기 위한 단어 단위 분한 시스템을 제안한다. 제안 시스템은 영상 전처리, 문서 구조 분석을 통해 추출된 텍스트 영역을 입력으로 단어 단위 분할을 수행하는데, 텍스트 영역에 대해 텍스트 라인을 분할하고 분할된 텍스트 라인을 단어 단위로 분할하는 계층적 접근 방법을 사용한다. 텍스트라인 분할은 수평 방향 투영 프로파일을 적용하여 분할 지점을 구한다. 그리고 단어 분할은 연결요소들을 추출한 후 연결요소간의 gap 정보를 구하고, gap 군집화 기법을 사용하여 단어 단위 분한 지점을 구한다. 이때 단어 단위 분할의 성능을 저하시키는 특수기호에 대해서는 휴리스틱 정보를 이용하여 검출한다. 제안 시스템의 성능 평가는 50개의 텍스트 영역에 적용하여 99.83%의 정확도를 얻을 수 있었다.

  • PDF

Time Parameterized Interval Modeling for Tracing Tags in RFID Systems (RFID 시스템에서 태그의 위치 추적을 위한 시간 매개변수 간격 모델링 기법)

  • Ban, Chae-Hoon;Hong, Bong-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.129-132
    • /
    • 2005
  • RFID 시스템에서 태그의 위치를 추적하기 위해서 궤적은 모델링되고 색인되어야 한다. 궤적은 태그가 판독기의 인식영역으로 들어갈 때와 나갈 때 보고되는 두개의 시공간 위치를 연결한 선분으로 표현될 수 있다. 만약 태그가 판독기의 인식영역에 들어와 나가지 않으면 시공간 위치는 오직 태그가 인식영역에 들어올 때만 보고된다. 따라서 판독기에 머물고 있는 태그는 궤적을 표현할 수가 없으므로 질의 시 이러한 태그를 검색할 수 없다. 이러한 문제를 해결하기 위하여 이 논문에서는 태그의 궤적을 시간 매개변수 간격으로 정의한다. 시간 매개변수 간격은 시간에 따라 시간 축길이가 변하는 시간에 종속적인 선분으로 판독기에 머무는 객체의 궤적을 표현할 수 있다. 또한 RFID 시스템에서 사용되는 질의를 분류하고 효율적인 처리를 위해 태그의 식별자를 차원에 추가하는 방법을 제안한다.

  • PDF

Object and Cell Clustering Algorithms of the Fixed Grid File (고정 그리드 파일의 객체 및 셀 클러스터링 알고리즘)

  • Jo, Dae-Su;Yu, Jin-Yeong;Hong, Bong-Hui
    • Journal of KIISE:Databases
    • /
    • v.28 no.1
    • /
    • pp.69-85
    • /
    • 2001
  • 공간 데이터베이스에서 효율적으로 공간 질의를 처리하기 위해서는 클러스터링을 통해서 이스크 접근 비용을 줄이는 것이 필요하다. 이 논문은 공간 지역성에 기반을 둔 여러 가지 클러스터링 알고리즘을 제안하고 실험을 통해 제안한 클러스터링 알고리즘의 성능을 평가하였다. 이 논문에서 제안하는 클러스터링 알고리즘은 객체 클러스터링 알고리즘과 셀 클러스터링 알고리즘으로 나뉜다. 객체 클러스터링 알고리즘은 정규 준할 공간 색인 구조에서 영역 분할 선과 겹치는 객체들의 저장 위치를 결정하는데 사용된다. 셀 클러스터링 알고리즘은 클러스터를 만들기 위해 정규 분할된 영역들을 그룹화하는데 사용된다. 실험결과 객체 클러스터링 알고리즘에서는 객체간의 거리를 이용한 경우에 대체로 좋은 성능을 보였지만, 버퍼 크기가 커지거나 데이터가 희박한 영역의 질의에 있어서는 알고리즘 별로 성능의 차이는 거의 없었다. 셀 클러스터링 알고리즘에 대한 실험에서는 이 논문에서 제안한 클러스터링 알고리즘은 N-순서화 기법에 의한 클러스터링 알고리즘에 비해 우수한 성능을 보였다. 특히 중복 참조도를 이용한 경우와 셀의 무게 중심간 거리를 이용한 방법이 가장 우수하였다.

  • PDF

Computing Similarities between Segmented Objects in the image for Content-Based Retrieval (내용기반 검색을 위한 분할된 영상객체간 유사도 판별)

  • 유헌우;장동식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.358-360
    • /
    • 2001
  • 본 논문에서는 내용기반 영상검색중 객체기반검색 방법에 대해 다룬다. 먼저 색상과 질감정보가 동일한 영역을 VQ알고리즘을 이용해 군집화 함으로써 동일한 영역을 추출하는 새로운 영상분할기법을 제안하고, 분할 후에 분할에 사용된 색상과 질감정보, 객체간의 위치정보와 영역크기정보를 가지고 객체간 유사도를 판별하여 영상을 검색한다. 이 때 사용되는 색상의 범위의 몇 개의 주요한 색상으로 표시하기 위해 색상테이블을 사용하고 인간의 인지도에 의해 다시 그룹화 함으로써 계산량과 데이터저장의 효율성을 높인다. 영상검색시에는 질의 영상의 관심객체와 비교대상이 되는 데이터베이스 영상의 여러 객체와의 유사성을 판단하여 영상간의 유사도를 계산하는 일대다 매칭 방법(One Object to Multi Objects Matching)과 질의 영상의 여러 객체와 데이터베이스영상의 여러 객체간의 유사도를 판단하는 다대다 매칭 방법(Multi Objects to Multi Objects Matching)을 제안한다. 또한, 제안된 시스템은 고속검색을 실현하기 위해 주요한 색상값을 키(key)색인화 해서 일치가능성이 없는 영상들은 1차적으로 제거함으로써 검색시간을 줄일 수 있도록 했다.

  • PDF

Automatic Extraction of Technical Terminologies from Scientific Text based on Hidden Markov Model (은닉마르코프 모델(HMM)을 이용한 과학기술문서에서의 외래어 추출 모델)

  • Oh, Jong-Hoon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.137-141
    • /
    • 1999
  • 기술의 발달로 인해 수많은 용어들이 생성되고 있다. 이들은 대부분 전문용어이며 이는 비영어권 국가인 우리나라에 도입될 때, 외래어나 원어형태로 도입된다. 그런데 외래어나 원어형태의 전문용어는 형태소 분석기, 색인기 등의 시스템에서 오류의 원인이 되어, 이를 전처리기로 사용하는 자연언어처리 시스템의 성능을 저하 시킨다. 따라서 본 논문에서는 외래어나 원어로 된 전문용어를 처리하기 위한 전단계로서 문서에서 자동적으로 외래어를 인식하고 추출하는 방법을 제시한다. 본 논문에서 제시하는 방법은 외래어 추출 문제를 태깅문제로 변환하여, 태깅 문제를 해결하는 기법 중의 하나인 은닉마르코프 모델 (Hidden Markov Model)을 이용하여 외래어 추출을 하였다. 그 결과 94.90%의 재현률과 95.41%의 정확도를 나타내었다.

  • PDF

Error Detection Method for Korean Compound Noun Decomposition (한국어 복합명사 분해 오류 탐지 기법)

  • Kang, Minkyu;Seungshik, Kang
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.181-185
    • /
    • 2009
  • 복합명사를 분해하는데 있어서 발생하는 분해오류들은 대부분 예외상황들로 취급된다. 전체적으로 차지하는 비중은 크지 않은데 오류 처리를 위해 들어가는 비용이 상대적으로 크기 때문이다. 하지만 분해된 데이터를 색인기나 문서분류기, 기계번역기 등에 실제로 적용해야 할 경우, 분해오류들을 수정해주어야 더 나은 성능을 보일 수 있기 때문에 분해오류를 찾아내고 수정하는 방법을 고안해야 한다. 본 논문에서는 복합명사 분해기에서 추출된 결과를 살펴보고, 주요 분해오류들이 가진 공통적인 특징을 파악하여 분해오류를 발견하는 방법을 생각해보고자 한다.

  • PDF

F-Tree : Flash Memory based Indexing Scheme for Portable Information Devices (F-Tree : 휴대용 정보기기를 위한 플래시 메모리 기반 색인 기법)

  • Byun, Si-Woo
    • Journal of Information Technology Applications and Management
    • /
    • v.13 no.4
    • /
    • pp.257-271
    • /
    • 2006
  • Recently, flash memories are one of best media to support portable computer's storages in mobile computing environment. The features of non-volatility, low power consumption, and fast access time for read operations are sufficient grounds to support flash memory as major database storage components of portable computers. However, we need to improve traditional Indexing scheme such as B-Tree due to the relatively slow characteristics of flash operation as compared to RAM memory. In order to achieve this goal, we devise a new indexing scheme called F-Tree. F-Tree improves tree operation performance by compressing pointers and keys in tree nodes and rewriting the nodes without a slow erase operation in node insert/delete processes. Based on the results of the performance evaluation, we conclude that F-Tree indexing scheme outperforms the traditional indexing scheme.

  • PDF

A Study of Designing the Automatic Information Retrieval System based on Natural Language (자연어를 이용한 자동정보검색시스템 구축에 관한 연구)

  • Seo, Hwi
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.35 no.4
    • /
    • pp.141-160
    • /
    • 2001
  • This study is to develop a new system for conducting the information retrieval automatically. The system in this study is programmed by Delphi 4.0(PASCAL) and consists of automatic indexing, clustering technique, establishing and expressing term hierarchic relation, and automatic information retrieval technique. Thus this browser system can automatically control all the processes of information searching such as representation, generation and extension of queries and construction of searching strategy and feedback searching.

  • PDF

A Study of Development on technique for document & image unite (웹 기반 영상과 문서의 자동결합기법에 관한 연구)

  • Na, Jong-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.187-190
    • /
    • 2006
  • 텍스트위주의 자료와 영상회의 자료를 결합하여 통합하고 이를 웹을 통해 서비스 하도록 구현하였다. 멀티미디어 회의정보 등록시 사용자는 DAM실행 파일을 자신의 PC에서 실행하고 프로그램에 내장된 윈도우 탐색기를 통해 등록하고자 하는 회의파일을 선택하면 XML 자동 피싱모듈이 실행되면서 자료 저장을 위한 핵심정보와 검색을 위한 단어색인 및 인덱스를 수행하여 오류시에는 에러메세지를 보여주고 성공시에는 분석된 핵심정보를 제공해준다. 서버로 전송된 멀티미디어 회의자료는 종류/시간/등으로 구분되어 윈도우 탐색기 형태의 트리구조와 사용자가 직접 단어를 입력하여 원하는 회의 정보를 검색하는 2가지 형태의 검색서비스를 제공하게 된다. 사용자는 본인의 서비스 환경에 따라 영상+문서, 문서 등을 자유롭게 선택하여 볼 수 있다. DAM의 경제적인 효과에 대하여 정확한 통계 자료가 국내에 아직 발표되지 않아 유사분야인 WCM시장 분석을 근거로 예상하였으며 시스템이 다양하고 복잡해질수록 투자대비 경제적인 효과가 높아 동기화 기술분야 시장이 확대될 것으로 기대된다.

  • PDF

Adapting R-Tree to Fuzzy Indexing (R-Tree를 이용한 퍼지 인덱스)

  • Min, Kyoung-In;Shin, Yae-Ho;Kim, Hong-Ki
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.51-54
    • /
    • 2001
  • 퍼지 데이터의 일반적 특성인 불명확한 경계의 문제는 항상 명확한 데이터만을 전제로 데이터 관리를 할 수 있는 기존의 데이터베이스 시스템에서는 이를 효과적으로 저장 관리할 수 없다는 것이다. 실세계에 존재하는 많은 현상들은 항상 명확한 값들로 귀결되지 않고 불명확한 상태로 존재하는 경우가 상당하다. 따라서 데이터베이스 시스템 내에서 이와 같이 불명확한 상태를 반영하기 위한 노력의 일환으로 퍼지 데이터에 대한 표현 및 저장 관리 기법에 대한 연구가 다수 수행되었다. 그러나 기존 연구들은 주로 데이터의 상태변화가 거의 없는 정적 환경에 적합한 뿐 값의 갱신이 빈번히 발생하는 동적 환경에는 적합하지 않은 문제가 있다. 이에 본 논문에서는 데이터 갱신이 빈번히 발생하는 동적 환경하에서 경계가 불명확한 퍼지 데이터의 관리를 효과적으로 수행하도록 하기 위한 방안으로서 R-Tree를 이용한 퍼지 데이터 색인 방법을 제안한다.

  • PDF