• 제목/요약/키워드: 색인기법

검색결과 654건 처리시간 0.031초

역파일에 기반한 웹 검색 엔진의 랭킹 시스템 구현 (Implementation of a Ranking System for the Web Search Engine based on Inverted Files)

  • 임성채;안준선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.35-40
    • /
    • 2007
  • 역파일을 사용한 색인 기법은 정보 검색 분야에서 널리 사용되었으며, 최근 대용량 검색 시스템으로 사용되고 있는 웹 검색 엔진에서도 적응되고 있다. 본 논문에서는 웹 검색 엔진의 특성에 완친 구현된 역파일 기법 기반의 웹 문서 색인 파일의 구조와 디스크에 저장된 대용량의 역파일 색인을 기반으로 웹 페이지의 검색 적합도를 계산하는 랭킹 시스템을 설명한다. 이를 통하여 상용 웹 검색 엔진의 랭킹 시스템과 디스크 자원 사용의 최소화 기법을 제시한다.

  • PDF

시공간 질의 처리를 위한 태그 객체의 모델링 기법 (The Modeling Scheme of Tag Objects for processing Spatio-Temporal Queries)

  • 김동현;반재훈
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2004년도 국내 LBS 기술개발 및 표준화 동향세미나
    • /
    • pp.14-19
    • /
    • 2004
  • RFID는 라디오 주파수 기반의 자동 인식 데이터 수집 장치로서 유비쿼터스 컴퓨팅 기반 기술의 핵심 분야이다. RFID 태그(전자태그)가 부착된 개체의 위치를 저장할 수 있기 때문에 시간에 따라 위치가 변하는 이동체와 유사하다. 그러나 태그 객체는 판독기(reader)의 위치로 인식되며 일정 수 이상의 객체들이 같은 시간에 함께 이동하는 특징을 가지기 때문에 기존의 이동체 모델링 방법을 사용하여 전자 태그 객체를 표현하면 색인의 성능이 저하되는 문제가 발생한다. 이 논문에서는 시공간 질의를 처리하는 색인의 성능을 개선하기 위하여 태그 객체의 특징을 반영한 모델링 기법을 제안한다. 제안한 모델링 기법에서 간격 데이터 개념을 기반으로 시간과 공간 도메인 외에 식별자 도메인을 추가하여 태그 객체를 표현한다. 그리고 세 가지 도메인을 이용하여 태그 객체에 대한 색인을 구성한다.

  • PDF

DSMS 에서 환형 큐 버퍼 기반의 해시 색인을 이용한 조인 기법 (Join processing using Hash Index based on Ring Queue Buffer in DSMS)

  • 김상기;이연;백성하;이동욱;김경배;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.389-392
    • /
    • 2008
  • 유비쿼터스 환경에서 센서 데이터는 빠르고 연속적인 데이터 스트림 형태로 전송된다. 이러한 개별적인 데이터 스트림 정보를 연관되어 처리하기 위해 조인 연산이 필요하다. LWO, SWF 와 같은 기존 기법들은 Nested Loop Join 을 이용해 데이터 스트림 환경에서 조인 알고리즘을 제시하였다. 하지만 Nested Loop Join 을 사용하기 때문에 슬라이딩 윈도우의 크기에 따라 처리 속도가 영향을 많이 받고 XJoin 은 디스크 I/O 추가 비용이 필요하다. 제안 기법은 환형 큐 버퍼 기반의 해시 색인을 이용한 조인 기법은 환형 큐를 이용하여 데이터의 삽입, 삭제를 관리하고 해시 색인을 이용해 조인 연산을 처리 하여 제안 기법은 기존의 기법 보다 조인 연산을 보다 효율적으로 처리 할 수 있다.

태그 궤적 색인을 위한 인식공간 근접성 기법 (The Proximity Scheme of the Perceptual Space for Indexing The Trajectories of Tags)

  • 김동현;안성우
    • 한국정보통신학회논문지
    • /
    • 제13권10호
    • /
    • pp.2140-2146
    • /
    • 2009
  • 태그는 위치정보가 없기 때문에 리더의 식별자를 위치정보로 사용하지만 비연속적인 심볼형 정보이다. 따라서 태그 이동 궤적간의 근접성을 정의하는 것이 어려우며 사용자 질의 처리시 비효율적이다. 본 논문에서는 태그 위치를 표현하기 위하여 인식공간을 정의하고 인식공간 근접성을 제안한다. 인식공간 근접성은 정적 인식공간 근접성과 동적 인식공간 근접성으로 구성되며 이를 이용하여 태그 궤적 간의 근접성을 측정하고 효율적인 색인을 구축할 수 있다. 제안한 태그 이동 궤적 근접성 함수를 평가하기 위해 태그 색인 기법인 IR-tree와 이동체 색인 기법인 $R^*$-tree를 대상으로 성능평가 실험을 수행하였다.

베이지안 추론망 기반 색인어의 심층 분석 방법 (Deep Analysis on Index Terms Using Baysian Inference Network)

  • 송사광;이승우;정한민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.84-87
    • /
    • 2012
  • 대분분의 검색 엔진에서 색인어의 추출 및 가중치의 부여방법은 매우 중요한 연구주제로, 검색 엔진의 성능에 큰 영항을 미친다. 일반적으로, 불용어 리스트를 통해 성능에 긍정적인 영향을 미치지 않는 색인어를 제거하거나, 핵심어 또는 전문용어 등 상대적으로 중요한 색인어를 강조하는 방식을 사용하여 검색엔진의 성능을 향상시킨다. 하지만, 어절 분리, 형태소 분석, 불용어 처리 등 검색엔진의 단계열 처리 과정에서, 개별적인 색인어가 검색엔진에 미치는 영향을 분석하고 이를 반영한 검색 엔진 성능 향상 기법은 제시되지 않고 있다. 따라서 본 연구에서는 각 단계별 처리 과정에서 생성된 색인어가 미치는 영항을 계랑화하여 긍정적/부정적 색인어를 분류하는 방법론을 소개하고, 이를 기반으로 색인어 가중치를 조절함으로써 검색 엔진의 성능 또한 향상 가능한 방법을 소개한다.

  • PDF

RFID 태그 데이터의 색인을 위한 불균형 확장 정책 (Disproportional Enlargement Policy for Indices of RFID Tag Data)

  • 김기홍;안성우;홍봉희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.421-424
    • /
    • 2006
  • RFID 시스템에서 태그를 부착한 객체의 위치를 추적하는 응용이 중요하며 태그 위치를 추적하기 위한 질의를 효율적으로 처리하기 위해서는 태그 궤적의 저장 및 검색을 빠르게 처리 할 수 있는 색인이 필요하다. 기존의 시공간 기반 이동체 색인과는 달리 태그 위치 색인은 태그 식별자(tid), 리더 식별자(rid), 시간(time)을 도메인으로 가진다. RFID 환경에서는 태그 위치 색인의 rid 와 tid 도메인의 크기가 크고 한쪽 도메인으로 불균등한 영역 질의의 발생이 빈번하다. 따라서, 최소 면적 확장 정책에 따른 기존의 이동체 색인의 삽입 기법을 태그 위치 색인에 그대로 적용했을 경우 질의 영역과 생성된 노드 간의 겹침이 심하게 되어 색인 검색 비용이 증가하는 문제가 발생한다. 논문에서는 R$^{\ast}$-tree 의 삽입 정책을 따르는 태그 위치 색인의 삽입 방법으로 불균형 확장 정책을 제안한다. 제안한 삽입 정책은 둘레길이에 가중치를 부여하는 방법이며 이러한 정책을 사용함으로써 불균등한 질의 영역으로 인해 발생하는 질의 영역과 노드간의 중첩을 최소화하여 검색 시 노드 접근 횟수를 줄인다. 또한 실험을 통하여 기존 삽입 방법인 최소 면적 확장 정책의 삽입 비용과 검색 비용을 비교하였으며 그 결과 불균등한 질의 영역을 가지는 RFID 환경에서 삽입 및 검색 비용을 줄여 성능을 향상시켰다.

  • PDF

ATM 교환기용 분산 주기억장치 상주 데이터베이스 시스템에서의 T-tree 색인 구조의 회복 기법 (The T-tree index recovery for distributed main-memory database systems in ATM switching systems)

  • 이승선;조완섭;윤용익
    • 한국통신학회논문지
    • /
    • 제22권9호
    • /
    • pp.1867-1879
    • /
    • 1997
  • DREAM-S는 ATM 네트워크용 교환 시스템에서 응용 프로그램들의 교환기 운용 데이터에 대한 실시간 처리 요구를 지원하기 위한 분산 주기억장치 상주 데이터베이스 시스템(Main Memory Database Systems)이다. DREAM-S는 클라이언트-서버 구조를 가지면서 서버 프로세서에만 디스크가 연결되어 있으며, 대량의 데이터로부터 원하는 데이터를 신속히 검색하기 위하여 T- Tree 색인 구조를 제공한다. 본 논문에서논 DREAM-S에서 T- Tree 색인 구조에 대한 회복 기법를 제안한다. 주기억장치 상주 데이터베이스는 디스크 상주 데이터베이스 보다 뛰어난 성능을 제공하지만 시스템 고장 시(정전 등과 같은 오류) 주기억장치에 저장된 모든 데이터(릴레이션과 색인 구조)가 파손될 수 있다. 따라서 고장 후 파손된 주기억장치 데이터베이스를 신속히 정상 데이터베이스 상태로 회복하는 회복 기법이 필수적이다. 제안된 회복 기법에서는 T-Tree 색인 구조를 각 프로세서의 주기억장치에만 유지하도록 함으로서 ATM 교환기 시스템의 성능에서 병복 현상을 일으킬 수 있는 서버 프로세서의 디스크 출입 오버헤드를 줄인다. 또한, 시스템 고장 후 서버와 모든 클라이언트 시스템들이 병렬 처리 방식으로 각자의 T- Tree(들)를 회복하도룩 함으로서 클라이언트 개수가 많은 경우에도 신속한 회복이 가능하도록 하였다.

  • PDF

플래시 메모리상에 B+트리를 위한 효율적인 색인 버퍼 관리 정책 (An Efficient Index Buffer Management Scheme for a B+ tree on Flash Memory)

  • 이현섭;주영도;이동호
    • 정보처리학회논문지D
    • /
    • 제14D권7호
    • /
    • pp.719-726
    • /
    • 2007
  • 최근 NAND 플래시 메모리는 충격에 강한 내구력과, 저 전력 소비, 그리고 비휘발성이라는 특징 때문에 MP3 플레이어, 모바일 폰, 노트북과 같은 다양한 이동 컴퓨팅 장비의 저장 장치로 사용되고 있다. 그러나 플래시 메모리의 특수한 하드웨어적 특징 때문에 디스크 기반의 시스템을 플래시 메모리상에 곧바로 적용 하는 것은 여러 단점들을 발생 시킬 수 있다. 특히 B트리가 구축될 때 레코드의 삽입, 삭제연산 및 노드 분할 연산은 많은 중첩쓰기 연산을 발생하기 때문에 플래시 메모리의 성능을 심각하게 저하시킬 것이다. 본 논문에서는 IBSF로 불리는 효율적인 버퍼 관리 기법을 제안한다. 이것은 색인 단위에서 중복된 색인 단위를 제거하여 버퍼가 채워지는 시간을 지연시키기 때문에 B트리를 구축할 때 플래시 메모리에 데이터를 쓰는 횟수를 줄인다. 또한 다양한 실험을 통하여 IBSF 기법이 기존에 제안되었던 BFTL 기법보다 좋은 성능을 보이는 것을 증명한다.

주제 색인법의 분석적 고찰(1)

  • 윤구호
    • 정보관리학회지
    • /
    • 제5권1호
    • /
    • pp.3-30
    • /
    • 1988
  • 주제 색인은 정보 검색의 필수 도구이다. 커터의 사전체 목록 규칙의 출간이래 다양 한 주제 색인법이 연구 개발 되었다. 그러나 그 대부분이 영어를 비롯한 서구어를 중심으로 한 이론과 기법으로서 우리나라 도서관에서 그대로 적용하기에는 맞지 않는 경우가 많다. 한국어의 통사론과 어의론에 가장 알맞는 새로운 주제 색인법을 개발하기 위한 선행 연구로 서 국내외의 주요 색인법을 검토 분석하였다.

  • PDF

이동 객체의 미래 위치 검색을 위한 시공간 색인 구조 (Spatio-Timporal Index Structure for Retrieving Future Positions of Moving Objects)

  • 서동민;복경수;유재수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (하)
    • /
    • pp.1395-1398
    • /
    • 2003
  • 최근 위치기반 기술의 급속한 발전으로 인하여 이동 객체를 효율적으로 관리하기 위한 색인 구조의 필요성이 증가하고 있다. 본 논문에서는 KDB-트리를 기반으로 하는 새로운 형태의 시공간 색인 구조인 TPKDB-트리 (Time Parameterized KDB-Tree)를 제안한다. 제안하는 색인 구조는 갱신 비용을 최소화 하여 이동 객체 검색의 효율성을 증가시키고 노드 내에 포함되어 있는 이동 객체의 변화를 시간에 대한 파라미터로 유지함으로서 효율적으로 이동 객체의 미래 위치 검색을 지원한다. 또한, 공간활용도를 최대화하기 위해 EFP 분할 (Enhanced First Division Splitting) 기법을 제안한다. 제안하는 색인 구조의 우수성을 입증하기 위해 실험을 통해 다른 색인 구조차의 성능 비교를 수행한다.

  • PDF