• Title/Summary/Keyword: 질의 클러스터

Search Result 161, Processing Time 0.025 seconds

최근접 질의를 위한 고차원 인덱싱 방법

  • Kim, Sang-Uk;Aggarwal, Charu;Yu, Philip
    • Journal of KIISE:Databases
    • /
    • v.28 no.4
    • /
    • pp.632-642
    • /
    • 2001
  • The nearest neighbor query is an important operation widely used in multimedia databases for finding the object that is most similar to a given object Most of techniques for processing nearest neighbor queries employ multidimensional indexes for effective indexing of objects. However, the performance of previous multidimensional indexes, which use N-dimensional rectangles or spheres for representing the capsule of the object cluster, deteriorates seriously as th number of dimensions gets higher, In this paper we first point out the fact that the simple representation of capsuler incurs performance degradation in processing nearest neighbor queries. For alleviating this problem,. we propose(1) adopting new axis systems appropriate to a given cluster (2) representing various shapes of capsules by combining rectangles and spheres, and (3) maintaining outliers separately, We also verify the superiority of our approach through performance evaluation by performing extensive experiments.

  • PDF

Alleviating Semantic Term Mismatches in Korean Information Retrieval (한국어 정보 검색에서 의미적 용어 불일치 완화 방안)

  • Yun, Bo-Hyun;Park, Sung-Jin;Kang, Hyun-Kyu
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.12
    • /
    • pp.3874-3884
    • /
    • 2000
  • An information retrieval system has to retrieve all and only documents which are relevant to a user query, even if index terms and query terms are not matched exactly. However, term mismatches between index terms and qucry terms have been a serious obstacle to the enhancement of retrieval performance. In this paper, we discuss automatic term normalization between words in text corpora and their application to a Korean information retrieval system. We perform two types of term normalizations to alleviate semantic term mismatches: equivalence class and co-occurrence cluster. First, transliterations, spelling errors, and synonyms are normalized into equivalence classes bv using contextual similarity. Second, context-based terms are normalized by using a combination of mutual information and word context to establish word similarities. Next, unsupervised clustering is done by using K-means algorithm and co-occurrence clusters are identified. In this paper, these normalized term products are used in the query expansion to alleviate semantic tem1 mismatches. In other words, we utilize two kinds of tcrm normalizations, equivalence class and co-occurrence cluster, to expand user's queries with new tcrms, in an attempt to make user's queries more comprehensive (adding transliterations) or more specific (adding spc'Cializationsl. For query expansion, we employ two complementary methods: term suggestion and term relevance feedback. The experimental results show that our proposed system can alleviatl' semantic term mismatches and can also provide the appropriate similarity measurements. As a result, we know that our system can improve the rctrieval efficiency of the information retrieval system.

  • PDF

Buffering Strategy for Efficient Processing of Range Queries (영역 질의의 효율적 처리를 위한 버퍼링 기법)

  • Kim Sang-Woo;Lee Joon-Woo;Jeon Seg-Il;Nah Yun-Mook
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06c
    • /
    • pp.124-126
    • /
    • 2006
  • 휴대전화, PDA, GPS 등 모바일 기기들의 발전과 보급으로 인하여 위치 기반 서비스에 대한 관심이 크게 증가하고 있다. 휴대폰 사용자 위치 추적과 같은 대용량의 객체를 처리하기 위해서 기존의 단일 노드 기반 시스템으로는 어려움이 있어, 클러스터 기반 분산 컴퓨팅 구조로 GALIS 아키텍처가 제안되었다. 본 논문에서 제안하는 질의 처리 성능 개선을 위한 버퍼링 기법은 GALIS의 질의 처리 서브 시스템 성능 향상을 위해 질의 처리 결과를 버퍼링하고 연속된 질의 처리시 발생할 수 있는 중첩된 질의 영역을 관리하게 설계 하였다. 버퍼링 기법을 통해 수행되는 질의는 중첩된 질의 영역을 제외한 부분만을 수행하기 때문에 결과 셋의 크기를 줄여주는 역할을 하고, 질의 처리 시간 감소에 큰 영향을 미친다.

  • PDF

Effective Data Partitioning in Hierarchical Clustering: A Parameter-Insensitive Approach (계층적 클러스터링을 위한 매개변수를 요구하지 않은 초기 데이터 분할 방안)

  • Song, Suk-Soon;Yoon, Seok-Ho;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.856-857
    • /
    • 2010
  • 본 논문에서는 계층적 클러스터링을 위한 매개변수에 민감하지 않은 효과적인 데이터 분할 방안을 제안한다. 먼저, 선행 실험을 통하여 기존 방안이 매개 변수에 민감하다는 것을 보인다. 본 논문에 제안하는 방안은 주어진 데이터를 최적의 초기 부분 클러스터의 크기를 결정할 수 있는 측정 함수를 제안하고 제안된 측정 함수를 이용해서 주어진 데이터를 최적의 초기 부분 클러스터들로 분할한다. 또한, 분할된 초기 부분 클러스터들을 병합해서 질이 좋은 최종 클러스터들을 생성한다. 실험을 통하여 제안하는 방안이 기존 방안보다 매개 변수에 민감하지 않는다는 것을 보인다.

Design and Implementation of WMI based VOD Service for efficient Load Balance Policy (효율적인 부하 분산 정책을 위한 WMI 기반 VOD 서비스의 설계 및 구현)

  • Han-Min Bang;Chong-Myung Park;Dong-Mahn Seo;Hark-Soo Kim;In-Bum Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.1272-1275
    • /
    • 2008
  • 클러스터 VOD 시스템에서 한정된 자원을 사용하여 많은 사용자에게 안정적인 QoS를 제공하기 위해서는 클러스터 노드들 간의 효율적인 부하 분산이 필요하다. 본 연구에서는 효율적인 부하 분산 방법으로 윈도우즈 환경에서 클러스터 각 노드의 정보를 WMI를 이용하여 부하 분배 서버가 필요할 때마다 원격 질의를 통해 네트워크의 오버헤드를 줄이면서 각 클러스터 노드의 장애 상황을 파악하고 복구하는 방법에 대해 연구한다.

Parallel Information Retrieval with Query Expansion (질의 확장을 이용한 병렬 정보 검색)

  • 정유진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.103-105
    • /
    • 2002
  • 이 논문에서는, PC 클러스터 환경에서 질의 확장을 사용하는 정보 검색 시스템 (IR)을 설계하고 구현한 내용을 기술한다. 이 정도 검색 시스템은 문서 집합을 저장하고, 문서 집합은 역색인 파인 (IIF)로 색인되고, 랭킹 방법으로 벡터 모델을 사실하며, 질의 확장 방법으로 코사인 유사도를 사용한다. 질의 확장이란 사용자가 준 원래의 질의에 연관된 단어를 추가하여 검색 효율을 향상시키는 것이다. 여기서 제안하는 병렬 정보 검색 시스템에서는 역색인 과일은 여러 개로 분활되는데 lexical 분할 방법과 greedy 분할 방법을 사용한다. 사용자의 질의가 들어오면 질의확장을 하여 여러 개의 단어로 이루어진 확장된 질의가 만들어 지는데 이 확장된 질의를 구성하는 단어들은 각 단어와 연관된 IIF를 가지고 있는 노드에 보내어져서 병렬로 처리된다. 실험을 통하여 병렬 IR 시스템의 성능이 질의 확장과 IIF의 두 가지 분한 방법에 의해 어떻게 영향을 받는지 보인다. 실험에는 표준 한국어 테스트 말뭉치인 EKSET과 KTSET을 사용하였다. 실험에 따르면 greedy 분활 방법이 lexical 분할 방법에 비해 20%정도의 성능 향상을 보였다.

  • PDF

Mean Shift Clustering을 이용한 영상 검색결과 개선

  • Kwon, Kyung-Su;Shin, Yun-Hee;Kim, Young-Rae;Kim, Eun-Yi
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2009.05a
    • /
    • pp.138-143
    • /
    • 2009
  • 본 논문에서는 감성 공간에서 mean shift clustering과 user feedback을 이용하여 영상 검색 결과를 개선하기 위한 시스템을 제안한다. 제안된 시스템은 사용자 인터페이스, 감성 공간 변환, 검색결과 순위 재지정(re-ranking)으로 구성된다. 사용자 인터페이스는 텍스트 형태의 질의 입력과 감성 어휘 선택에 따른 user feedback에 의해 개선된 검색결과를 보인다. 사용된 감성 어휘는 고바야시가 정의한 romantic, natural, casual, elegant, chic, classic, dandy, modern 등의 8개 어휘를 사용한다. 감성 공간 변환 단계에서는 입력된 질의에 따라 웹 영상 검색 엔진(Yahoo)에 의해 검색된 결과 영상들에 대해 컬러와 패턴정보의 특징을 추출하고, 이를 입력으로 하는 8개의 각 감성별 분류기에 의해 각 영상은 8차원 감성 공간으로의 특징 벡터로 변환된다. 이때 감성 공간으로 변환된 특징 벡터들은 mean shift clustering을 통해 군집화 되고, 그 결과로써 대표 클러스터를 찾게 된다. 검색결과 순위 재지정 단계에서는 user feedback 유무에 따라 대표 클러스터의 평균 벡터와 user feedback에 의해 생성된 사용자 감성 벡터에 의해 검색 결과를 개선할 수 있다. 이때 각 기준에 따라 유사도가 결정되고 검색결과 순위가 재지정 된다 제안된 시스템의 성능을 검증하기 위해 7개의 질의의 각 400장, 총 2,800장에 대한 Yahoo 검색 결과와 제안된 시스템을 개선된 검색 결과를 비교하였다.

  • PDF

A Dual Processing Load Shedding to Improve The Accuracy of Aggregate Queries on Clustering Environment of GeoSensor Data Stream (클러스터 환경에서 GeoSensor 스트림 데이터의 집계질의의 정확도 향상을 위한 이중처리 부하제한 기법)

  • Ji, Min-Sub;Lee, Yeon;Kim, Gyeong-Bae;Bae, Hae-Young
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.1
    • /
    • pp.31-40
    • /
    • 2012
  • u-GIS DSMSs have been researched to deal with various sensor data from GeoSensors in ubiquitous environment. Also, they has been more important for high availability. The data from GeoSensors have some characteristics that increase explosively. This characteristic could lead memory overflow and data loss. To solve the problem, various load shedding methods have been researched. Traditional methods drop the overloaded tuples according to a particular criteria in a single server. Tuple deletion sensitive queries such as aggregation is hard to satisfy accuracy. In this paper a dual processing load shedding method is suggested to improve the accuracy of aggregation in clustering environment. In this method two nodes use replicated stream data for high availability. They process a stream in two nodes by using a characteristic they share stream data. Stream data are synchronized between them with a window as a unit. Then, processed results are merged. We gain improved query accuracy without data loss.

Clustering XML Documents Considering The Weight of Large Items in Clusters (클러스터의 주요항목 가중치 기반 XML 문서 클러스터링)

  • Hwang, Jeong-Hee
    • The KIPS Transactions:PartD
    • /
    • v.14D no.1 s.111
    • /
    • pp.1-8
    • /
    • 2007
  • As the web document of XML, an exchange language of data in the advanced Internet, is increasing, a target of information retrieval becomes the web documents. Therefore, there we researches on structure, integration and retrieval of XML documents. This paper proposes a clustering method of XML documents based on frequent structures, as a basic research to efficiently process query and retrieval. To do so, first, trees representing XML documents are decomposed and we extract frequent structures from them. Second, we perform clustering considering the weight of large items to adjust cluster creation and cluster cohesion, considering frequent structures as items of transactions. Third, we show the excellence of our method through some experiments which compare which the previous methods.

Parallel Processing of Multiple Queries in a Declustered Spatial Database (디클러스터된 공간 데이터베이스에서 다중 질의의 병렬 처리)

  • Seo, Yeong-Deok;Park, Yeong-Min;Jeon, Bong-Gi;Hong, Bong-Hui
    • Journal of KIISE:Databases
    • /
    • v.29 no.1
    • /
    • pp.44-57
    • /
    • 2002
  • Multiple spatial queries are defined as two or more spatial range queries to be executed at the same time. The primary processing of internet-based map services is to simultaneously execute multiple spatial queries. To improve the throughput of multiple queries, the time of disk I/O in processing spatial queries significantly should be reduced. The declustering scheme of a spatial dataset of the MIMD architecture cannot decrease the disk I/O time because of random seeks for processing multiple queries. This thesis presents query scheduling strategies to ease the problem of inter-query random seeks. Query scheduling is achieved by dynamically re-ordering the priority of the queued spatial queries. The re-ordering of multiple queries is based on the inter-query spatial relationship and the latency of query processing. The performance test shows that the time of multiple query processing with query scheduling can be significantly reduced by easing inter-query random seeks as a consequence of enhanced hit ratio of disk cache.