• 제목/요약/키워드: 중복 인덱싱

검색결과 9건 처리시간 0.022초

중복제거 파일시스템에서 서머리 기반 인덱싱 기법 (A Method of Summary based Indexing in De-duplication File System)

  • 이중수;안창원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.312-313
    • /
    • 2012
  • 중복제거 파일 시스템은 가상머신 이미지와 같이 서로 중복되는 데이터가 많은 파일에서 용량을 줄이기 위하여 많이 사용된다. 중복제거를 위하여 많은 경우 서머리 벡터와 인덱스를 함께 사용하고 있는데, 이는 메모리를 많이 소모하고 인덱스 구조에 따라 여러 번의 하드 디스크 접근을 해야 하는 한계가 있었다. 본 논문에서는 서머리 벡터를 인덱스 내에서 활용하고 하드디스크를 접근하는 횟수를 감소할 수 있는 인덱싱 기법을 제안한다.

블로그 서비스 시스템을 위한 효과적인 중복문서의 검출 기법 (An Efficient Method for Detecting Duplicated Documents in a Blog Service System)

  • 이상철;이순행;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권1호
    • /
    • pp.50-55
    • /
    • 2010
  • 블로그 서비스 시스템에 존재하는 중복문서는 블로그 검색의 서비스 질과 성능을 저하시키는 요인 중 하나이다. 기존의 웹 페이지 환경에서와는 달리, 블로그 서비스 시스템에서는 각 문서의 생성이 매번 보고되기 때문에 문서 생성 시점에 중복 판정이 가능하다. 본 논문에서는 이 점에 착안하여 문서를 저장하는 시점에 해당 문서의 중복 여부를 판정하는 새로운 중복문서 검출 기법을 제안한다. 제안된 기법을 통하여 검출된 중복문서는 검색 엔진을 위한 인덱싱에 반영시키지 않음으로써 중복문서가 검색 결과에 반영되는 문제를 원천적으로 방지할 수 있다. 또한, 효과적인 중복문서 검출을 위하여 3가지 인덱싱 기법을 제안하며, 실제 블로그 데이터를 이용하여 각 인덱싱 기법 중 가장 효율적인 기법을 보인다.

MLR 트리 : 다중 레벨 지리정보 데이터의 윈도우 질의를 위한 공간 인덱싱 기법 (MLR-tree : Spatial Indexing Method for Window Query of Multi-Level Geographic Data)

  • 권준희;윤용익
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권5호
    • /
    • pp.521-531
    • /
    • 2003
  • 다중 레벨 지리정보 데이타는 화면 확대와 축소와 같은 윈도우 질의를 통해 다루어질 수 있다. 다중 레벨 지리정보 데이타를 효율적으로 다루기 위해서는 이러한 윈도우 질의를 지원하는 공간 인덱싱 기법이 필요하다. 그러나, 기존의 전통적인 공간 인덱싱 기법은 다중 레벨 지리정보 데이타를 액세스하는데 비효율적이다. 이를 위해 다중 레벨 지리정보 데이타를 위한 몇 가지 공간 인덱싱 기법이 알려진다. 그러나. 이 공간 인덱싱 기법은 모든 유형의 다중 레벨 지리정보 데이타를 지원하지 못한다는 문제점을 가진다. 본 논문에서는 다중 레벨 지리정보 데이타의 윈도우 질의를 위한 공간 인덱싱 기법, MLR 트리를 제안한다. MLR 트리는 우수한 검색 성능을 보이면서도 데이타 중복성이 발생하지 않으며, 이를 실험을 통해 보인다. 이 외에도 MLR 트리는 모든 유형의 다중 레벨 지리정보 데이타를 지원한다.

레벨별로 상세화된 공간 데이터를 위한 새로운 공간 인덱싱 기법 (A New Spatial Indexing Method for Level-Of-Detailed Data)

  • 권준희;윤용익
    • 한국멀티미디어학회논문지
    • /
    • 제5권4호
    • /
    • pp.361-371
    • /
    • 2002
  • GIS에 있어 효율적인 액세스 기법은 가장 중요한 요구사항 중 하나이다. 레벨별로 상세화된 공간 데이터를 사용하게 되면 한번에 모든 데이터를 검색할 필요가 없어 효율적인 공간 데이터 검색이 가능해진다 데이터 검색을 위한 기존의 공간 인덱싱 기법은 이러한 레벨별로 상세화된 공간 데이터를 효율적으로 다루지 못한다. 이를 위해 레벨별로 상세화된 공간 데이터를 위한 공간 인덱싱 기법이 알려졌다. 그러나 이 기법들은 단순화와 선택 연산자를 거친 몇 가지 종류의 레벨별로 상세화된 데이터만을 지원한다는 문제점을 가진다 이러한 문제점들을 해결하고자 본 논문에서는 모든 종류의 레벨별로 상세화된 공간 데이터를 지원하면서 검객이 효율적으로 이루어지는 새로운 공간 인덱싱 기법을 제안한다. 제안된 기법은 레벨별로 각각의 인덱스 구조가 한 개의 인덱스 구조로 통합된다. 실험 결과는 제안된 기법이 데이터 중복이 발생하지 않으면서도 검색 성능이 우수함을 보인다.

  • PDF

CopyCheck: 한국어 표절 검사 시스템 (CopyCheck: Korean Plagiarism Detection System)

  • 장은서;권도형;김낙원;박소영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.117-118
    • /
    • 2012
  • 기존의 표절 검사 소프트웨어의 경우에는 수행 시간이 지나치게 오래 걸리거나 표절의 의미가 희박한 구간들을 찾는 등의 문제가 있었다. 본 논문은 대학에서 과제물 표절 검사에 활용할 수 있는 소프트웨어인 CopyCheck을 설계 및 개발하였다. CopyCheck은 각각의 대상 문서로부터 문서 고유의 시그니처 세트를 추출 비교하여 표절이 의심되는 문서들 간의 중복 인텍스 세트를 만들어 의심 구간들을 추려낸 다음 지역 정렬 방법을 이용하여 일치 구간을 찾아내는 방법으로 많은 문서들을 대상으로도 표절 구간들을 빠르게 찾아낸다.

  • PDF

그래프 데이터에 대한 비-중복적 키워드 검색 방법 (A Method for Non-redundant Keyword Search over Graph Data)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제16권6호
    • /
    • pp.205-214
    • /
    • 2016
  • 최근 소셜 네트워크, 시맨틱 웹, 바이오 인포매틱스 등 여러 응용 분야에서 그래프 구조를 갖는 대용량 데이터들에 활용됨에 따라 이런 데이터들에 대한 키워드 기반 검색 방법이 많은 관심을 받고 있다. 본 논문에서는 그래프 구조 데이터에 대한 키워드 질의에 대해 질의와 연관성이 높으면서 구조적인 중복성을 갖지 않는 top-k 결과 집합을 효율적으로 검색하는 방법을 제안한다. 키워드 질의에 대한 비-중복적인 결과 트리 구조와 그것의 연관도 척도를 정의하고, 그래프 내에 포함된 유용한 경로 정보들에 대한 효과적인 인덱싱 방법을 제안한다. 그리고 기 생성된 인덱스를 활용하여 주어진 키워드 질의에 대해 비-중복적이면서 연관도가 큰 top-k 결과 집합을 생성하는 효율적인 질의 처리 알고리즘을 제시한다. 실 데이터를 이용한 실험을 통해 제안한 방법의 효과와 성능을 기존 방법과 비교 분석한다.

RGB 최대 주파수 인덱싱과 BW 클러스터링을 이용한 콘텐츠 기반 영상 검색 (Content based Image Retrieval using RGB Maximum Frequency Indexing and BW Clustering)

  • 강지영;백정욱;강광원;안영은;박종안
    • 한국정보전자통신기술학회논문지
    • /
    • 제1권2호
    • /
    • pp.71-79
    • /
    • 2008
  • 칼라 코렐로그램은 계산량이 많아지고 저장 공간이 커져서 검색하는 시간이 길어지므로 일반적으로 64*64 로 양자화 하여 사용되어지는데, 본 논문에서는 메디안 픽셀 특징에 공간정보를 이용하여 9*9 로 양자화 하였다. 기존 알고리즘의 경우 메디안 값이 중복되는 경우 중복된 값들을 정렬하여 그 중 가운데 값을 특징자 값으로 정하였으나, 제안된 알고리즘에서는 중복된 값들을 정렬하여 그 중 공간정보가 가장 작은 값을 특징자 값으로 정하였다. 그리고 코렐로그램을 적용하여 특징자 테이블을 구성하고 이를 이용하여 비교하였다. 제안된 알고리즘은 시뮬레이션을 통해 테스트 하였고 그 결과 기존 알고리즘 보다 더 나은 검색성능을 나타내게 되었다.

  • PDF

이동 클라이언트에서 효율적인 XML 질의 처리를 위한 XML 조각 스트림 구성 기법 (Techniques of XML Fragment Stream Organization for Efficient XML Query Processing in Mobile Clients)

  • 류정훈;강현철
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.75-94
    • /
    • 2009
  • XML이 웹에서 데이터 교환의 표준으로 부각된 이래 전자 거래의 핵심 요소로 자리 잡으며 유비쿼터스 컴퓨팅 환경에서도 XML 데이터에 대한 효율적인 질의 처리에 관한 연구가 발하게 이루어지고 있다. 최근에는 XML 문서를 XML 조각으로 분할하여 스트리밍하고 이동 클라이언트에서 이를 수신하면서 질의 처리하는 기법이 제안되었다. XML 조각 스트림에대한 질의 처리는 스트림을 구성하는 각 조각의 전송 순서에 따라 평균 접근 시간에서 큰 차이를 보인다. 따라서 질의 성능을 높이기 위한 효과적인 XML 조각 스트림 구성 방법이 요구되며, 튜닝 시간의 단축을 통해 에너지 효율적인 질의 처리를 가능하게 하는 인덱싱도 요구된다. 본 논문에서는 사용자 질의 빈도와 질의 처리 시 접근되는 XML 조각의 크기 및 중복에 기반을 둔 XML 조각 스트림 구성 및 능동 XML 형식의 인덱스 구성을 제안한다. 구현 및 성능 실험 결과 본 논문에서 제시한 기법이 다양한 사용자 질의 집합 및 빈도에 대해 기존의 XML 조각 스트림 구성 기법에 비해 접근 시간 및 튜닝 시간 양면에서 모두 우수함을 확인하였다.

  • PDF

MVCC 지원 스킵 리스트의 범위 탐색 향상 기법 (An Enhancing Technique for Scan Performance of a Skip List with MVCC)

  • 김이주;이은지
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권5호
    • /
    • pp.107-112
    • /
    • 2020
  • 본 논문에서는 LSM-tree 기반 키밸류 스토어에서 인메모리 데이터 관리를 위해 사용되는 스킵 리스트에 대한 연구를 수행하였다. 키밸류 스토어에서 사용되는 스킵 리스트는 덮어쓰기를 허용하지 않고 삽입만으로 모든 변경을 처리하는 삽입 기반 스킵 리스트이다. 이러한 동작 방식은 스냅샷 분리(Snapshot Isolation)을 통해 다중 읽기/쓰기 요청을 동시다발적으로 처리할 수 있는 MVCC(Multi-Version Concurrency Control)을 지원할 수 있다. 그러나 중복된 키가 다수 스킵 리스트에 존재함에 따라 리스트 탐색 시 불필요한 노드 방문으로 성능이 심각하게 저하될 수 있다. 특히 특정 범위의 데이터를 집합적으로 탐색하는 범위 탐색(Range Query)나 스캔(Scan) 연산 발생 시 심각한 오버헤드가 발생한다. 본 논문은 이러한 오버헤드를 줄이기 위해 새롭게 고안된 스트라이드 스킵 리스트(Stride Skip List)를 제안한다. 스트라이드 스킵 리스트는 동일 키의 마지막 노드에 대한 인덱싱 포인터를 추가적으로 유지하여 불필요한 노드 방문을 피할 수 있도록 한다. 제안된 기법은 RocksDB의 인메모리 컴포넌트를 활용하여 구현되었으며 다양한 워크로드에서 SCAN 연산의 성능을 기존 스킵 리스트 대비 최대 350배까지 향상시켰다.