• 제목/요약/키워드: Query Optimizing

검색결과 30건 처리시간 0.02초

An Improved Combined Content-similarity Approach for Optimizing Web Query Disambiguation

  • Kamal, Shahid;Ibrahim, Roliana;Ghani, Imran
    • 인터넷정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.79-88
    • /
    • 2015
  • The web search engines are exposed to the issue of uncertainty because of ambiguous queries, being input for retrieving the accurate results. Ambiguous queries constitute a significant fraction of such instances and pose real challenges to web search engines. Moreover, web search has created an interest for the researchers to deal with search by considering context in terms of location perspective. Our proposed disambiguation approach is designed to improve user experience by using context in terms of location relevance with the document relevance. The aim is that providing the user a comprehensive location perspective of a topic is informative than retrieving a result that only contains temporal or context information. The capacity to use this information in a location manner can be, from a user perspective, potentially useful for several tasks, including user query understanding or clustering based on location. In order to carry out the approach, we developed a Java based prototype to derive the contextual information from the web results based on the queries from the well-known datasets. Among those results, queries are further classified in order to perform search in a broad way. After the result provision to users and the selection made by them, feedback is recorded implicitly to improve the web search based on contextual information. The experiment results demonstrate the outstanding performance of our approach in terms of precision 75%, accuracy 73%; recall 81% and f-measure 78% when compared with generic temporal evaluation approach and furthermore achieved precision 86%, accuracy 71%; recall 67% and f-measure 75% when compared with web document clustering approach.

데이타 스트림에서의 다중 조인 질의 최적화 방법 (Optimizing Multi-way Join Query Over Data Streams)

  • 박홍규;이원석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권6호
    • /
    • pp.459-468
    • /
    • 2008
  • 데이타 스트림이란 실시간에 연속적으로 빠르게 생성되는 데이타 집합을 의미한다. 이러한 데이타 스트림들은 최근 사회가 발달과 더불어 정보 환경도 급속도로 발전함에 따라 센서 데이타, 교통상황 수집 자료, 웹 클릭 모니터링 등과 같은 많은 응용 분야에서 적용되고 있다. 이러한 형태의 데이트 스트립을 처리하기 위해서는 미리 등록된 질의에 대하여 새롭게 들어오는 스트림 데이타의 결과를 계속적으로 생성하게 된다. 이와 같은 이유로 끊임없이 들어오는 스트링 데이타들을 빠르게 처리하는 것이 이 분야에서 주된 이슈가 되었으며, 이를 위한 방법으로 등록된 질의들을 효율적으로 처리하기 위한 질의 최적화분야에 많은 연구가 있었다. 그러므로 본 논문에서는 기존 연구에서 사용되었던 그리디 방법을 기반으로 비용 모델을 이용하여 최소의 비용을 갖는 질의 계획을 선택하는 확장된 그리디 방법(EGA)을 제시한다. 화장된 그리디 방법은 알고리즘의 정확성이 떨어지는 그리디 알고리즘의 단점을 극복하기 위하여 비용이 가장 작은 연산하나를 선택하는 대신 비용이 자은 연산들의 집합을 선택한다. 이 연산들의 집합의 크기는 알고리즘의 정확성과 수행 시간에 영향을 끼치며, 투 개의 변수에 의해서 적응적으로 조절 수 있다. 실험에서는 다양한 스트림 환경에서 대부분 그리디 알고리즘보다 향상된 성능을 보장하고, 두 변수에 의한 알고리즘의 성능 및 수행 시간 차이를 보여줌으로써 본 알고리즘의 효율성을 검증하였다.

On Optimizing Route Discovery of Topology-based On-demand Routing Protocols for Ad Hoc Networks

  • Seet, Boon-Chong;Lee, Bu-Sung;Lau, Chiew-Tong
    • Journal of Communications and Networks
    • /
    • 제5권3호
    • /
    • pp.266-274
    • /
    • 2003
  • One of the major issues in current on-demand routing protocols for ad hoc networks is the high resource consumed by route discovery traffic. In these protocols, flooding is typically used by the source to broadcast a route request (RREQ) packet in search of a route to the destination. Such network-wide flooding potentially disturbs many nodes unnecessarily by querying more nodes than is actually necessary, leading to rapid exhaustion of valuable network resources such as wireless bandwidth and battery power. In this paper, a simple optimization technique for efficient route discovery is proposed. The technique proposed herein is location-based and can be used in conjunction with the existing Location-Aided Routing (LAR) scheme to further reduce the route discovery overhead. A unique feature of our technique not found in LAR and most other protocols is the selective use of unicast instead of broadcast for route request/query transmission made possible by a novel reuse of routing and location information. We refer to this new optimization as the UNIQUE (UNIcast QUEry) technique. This paper studies the efficacy of UNIQUE by applying it to the route discovery of the Dynamic Source Routing (DSR) protocol. In addition, a comparative study is made with a DSR protocol optimized with only LAR. The results show that UNIQUE could further reduce the overall routing overhead by as much as 58% under highly mobile conditions. With less congestion caused by routing traffic, the data packet delivery performance also improves in terms of end-to-end delay and the number of data packets successfully delivered to their destinations.

BERT 기반 의미론적 검색을 활용한 관광지 순위 시스템 개발 (Development of a Ranking System for Tourist Destination Using BERT-based Semantic Search)

  • 이강우;김명선;홍순구;노수경
    • 한국산업정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.91-103
    • /
    • 2024
  • 본 연구의 목적은 시맨틱 검색 기법을 활용하여 사용자 쿼리 기반의 타당한 정확도를 가진 관광지 랭킹시스템을 설계하는 것이다. 이를 위해 관광지에 대한 텍스트 리뷰 데이터 수집, 데이터 전처리 및 SBERT를 활용한 임베딩 과정을 거쳤다. 이후 유사도를 측정하고 임계값을 충족하는 데이터를 필터링한 후 카운트 기반 랭킹 알고리즘을 적용하여 쿼리와 의미적으로 유사한 순서로 관광지 순위를 도출하였다. 제안된 랭킹 알고리즘의 평가를 위해 4개의 쿼리로 실험을 진행하여 연관성이 높은 상위 5개 관광지를 도출하였다. 도출된 결과값의 비교를 위해 58,175개의 문장에 직접 라벨을 붙여 세 번째 쿼리인 혼잡도와 의미적으로 연관성이 있는지를 확인하였다. 두 결과값이 유사하여 본 연구에서 제시된 랭킹 알고리즘의 효율성이 검증되었다. 임계값 최적화, 데이터 불균형 등의 문제에도 불구하고 이 연구는 시맨틱 검색 기법을 이용하여 적은 비용과 시간으로도 사용자의 의도를 파악하여 관광지를 추천하는 것이 가능하다는 것을 보여주었다.

GR-tree: 무선 센서 네트워크에서 에너지 효율적인 분산 공간색인기법 (The GR-tree: An Energy-Efficient Distributed Spatial Indexing Scheme in Wireless Sensor Networks)

  • 김민수;장인성
    • Spatial Information Research
    • /
    • 제19권5호
    • /
    • pp.63-74
    • /
    • 2011
  • 최근 특정 공간영역 내에 포함되는 센서노드들만의 센싱정보를 에너지 효율적으로 수집하는 센서 네트워크 기반 공간질의처리에 대한 관심이 증가하고 있다. 이러한 센서 네트워크 기반 공간질의처리의 가장 단순한 방법은 모든 센서노드의 위치와 센싱정보를 서버로 수집한 다음, 서버에서 공간질의를 처리하는 Centralized 방법이다. 이 방법은 간단하다는 장점은 있지만, 모든 센서노드를 접근하기 위하여 소요되는 높은 무선통신 비용으로 인하여 센서노드의 에너지 효율성이 크게 떨어지는 단점을 가지고 있다. 이러한 Centralized 방법을 보완하기 위하여 센서노드에서 분산 공간 필터링을 수행하여 센서노드 간의 무선통신 횟수를 감소시키는 In-network 기반 분산 공간색인기법들이 제안되어 왔다. 그러나, 이러한 분산 공간색인기법들은 대부분 서버에서 이용되던 기존 공간색인기법들을 센서 네트워크에 단순히 적용하였기 때문에, In-network 환경에서 공간 필터링의 효과와 센서노드들 간의 무선 라우팅을 동시에 최적화하지 못하는 단점을 가지고 있다. 이에 본 논문에서는 In-network 환경에서 공간 필터링을 최적화하면서 동시에 센서노드들 간의 라우팅을 보장할 수 있는 GR-tree의 새로운 분산 공간색인기법을 제안하고자 한다. GR-tree 방법은 R-tree와 유사하게 MBR 기반의 트리를 구성하며, 센서노드들 간의 무선 라우팅 및 공간적인 인접성을 보장하면서 MBR들 간의 겹침을 최소화할 수 있는 특징을 가지고 있다. 끝으로, GR-tree와 기존 방법들의 다양한 성능 비교 실험을 통하여 제안된 방법의 효율성을 보여주고자 한다.

Rend 3D R-tree : 3D R-tree 기반의 이동 객체 데이터베이스 색인구조 연구 (Rend 3D R-tree: An Improved Index Structure in Moving Object Database Based on 3D R-tree )

  • 임향초;임기욱;남지은;이경오
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.878-881
    • /
    • 2008
  • To index the object's trajectory is an important aspect in moving object database management. This paper implements an optimizing index structure named Rend 3D R-tree based on 3D R-Tree. This paper demonstrates the time period update method to reconstruct the MBR for the moving objects in order to decrease the dead space that is produced in the closed time dimension of the 3D R-tree, then a rend method is introduced for indexing both current data and history data. The result of experiments illustrates that given methods outperforms 3D R-Tree and LUR tree in query processes.

순차 패턴 마이닝을 사용한 두 XML 문서간 최대 유사 경로 추출 (Extracting Maximal Similar Paths between Two XML Documents using Sequential Pattern Mining)

  • 이정원;박승수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.553-566
    • /
    • 2004
  • 최근 XML 저장 기법, 질의 최적화, 인덱싱 등의 XML 관련 기술이 활발히 연구되고 있다. 이와 관련하여 하나의 DTD나 XML Schema로 정의된 고정 구조를 공유하는 문서 집합이 아니라 다양한 구조를 가진 문서 집합인 경우 다중 문서간의 구조적 유사성이나 차이점 등을 파악할 필요가 있다. 예를 들어 서로 다른 사이트나 문서 관리 시스템에서 도출된 문서들을 합병하거나 분류할 필요가 있을 때, 문서를 처리하기 위해 공유 구조를 발견하는 일은 매우 중요하다. 본 연구에서는 다양한 문서들의 구조를 구성하는 경로들간의 유사성을 파악하기 위해 기존의 순차패턴 마이닝 알고리즘(1)을 변형하여 두 XML 문서간 최대 유사 경로를 추출한다. 몇 가지 실험을 통해 본 논문에서 제안한 변형된 순차패턴 마이닝 알고리즘이 두 문서간의 최대 유사 경로를 찾아내고 또한 두 문서간의 정확한 공유 경로 및 최대 유사 경로를 정확히 찾을 수 있음을 보인다. 또한 실험 결과 분석을 위해 최대 유사 경로를 기반으로 정의된 유사성 척도가 XML 문서를 정확하게 분류할 있음을 보인다.

CUDA 프레임워크 상에서 스카이라인 질의처리 알고리즘 최적화 (Optimizing Skyline Query Processing Algorithms on CUDA Framework)

  • 민준;한환수;이상원
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.275-284
    • /
    • 2010
  • GPU는 대용량 데이터 처리를 위해 특화된 멀티 코어 기반의 스트림 프로세서로서 빠른 데이터 처리 속도 및 높은 메모리 대역 동의 장점을 가지며, CPU에 비해 가격이 저렴하다. 최근 이러한 GPU의 특성용 활용하여 범용 컴퓨팅 분야에 활용하고자 하는 시도가 계속되고 있다. 엔비디아에서 발표한 범용 병렬 컴퓨팅 아키텍처인 쿠다(CUDA) 프로그래밍 모델의 경우 프로그래머가 GPU 상에서 동작하는 범용 어플리케이션을 보다 손쉽게 개발할 수 있도록 지원한다. 본 논문에서는 쿠다 프로그래밍 모델을 이용하여 기본적인 중첩-반복 스카이라인 알고리즘을 병렬화시킨다. 그리고 스카이라인 알고리즘의 특성을 고려하여 GPU 자원용 효율적으로 사용할 수 있도록 GPU의 메모리 및 명령어 처리율에 중점을 두고 단계적인 최적화를 진행한다. 최적화 단계에 따라 각각 다른 성능 개선이 나타나는 것을 확인하였으며, 그 결과 기본 병렬 중첩-반복 알고리즘에 비해 평균 80%의 성능이 향상됨을 확인하였다.

시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭 : 관찰, 최적화, 성능 결과 (Subsequence Matching Under Time Warping in Time-Series Databases : Observation, Optimization, and Performance Results)

  • 김만순;김상욱
    • 정보처리학회논문지D
    • /
    • 제11D권7호
    • /
    • pp.1385-1398
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 준다. 먼저, 사전 실험을 통하여 기존의 기본적인 처리 방식인 Naive-Scan의 성능 병목이 CPU 처리 과정에 있음을 지적하고, Naive-Scan의 CPU 처리 과정을 최적화하는 새로운 기법을 제안한다. 제안된 기법은 질의 시퀀스와 서브시퀀스들간의 타임 워핑 거리들을 계산하는 과정에서 발생하는 중복 작업들을 사전에 제거함으로써 CPU 처리 성능을 극대화한다. 제안된 기법이 착오 기각을 발생시키지 않음과 Naive-Scan을 처리하기 위한 최적의 기법임을 이론적으로 증명한다. 또한, 제안된 기법을 기존의 타임 워핑 하의 서브시퀀스 매칭 기법인 LB-Scan과 ST-Filter의 후처리 정량적으로 검증한다. 실험 결과에 의하면, 기존의 타임 워핑 하의 서비시퀀스 매칭을 위한 모든 기법들이 제안된 최적화 기법에 의하여 성능이 개선되는 것으로 나타났다. 특히, Nsive-Scan은 최적화 기법의 적용 전에는 가장 떨어지는 성능을 보였으나, 최적화 기법의 적용 후에는 모든 경우에서 ST-Filter나 LB-Scan을 사용한 경우보다 더 좋은 성능을 보였다. 이것은 성능 병목인 CPU 처리 과정을 최적화함으로써 기존 기법들인 Naive-Scan, LB-Scan, ST-Filter 간의 처리 성능 상의 순위 역전 현상이 발생하였음을 보이는 매우 중요한 결과이다.

인터넷 질의 처리를 위한 웨이블릿 변환에 기반한 통합 요약정보의 관리

  • 조문증;황규영;김상욱;심규석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.702-714
    • /
    • 2001
  • 최근, 인터넷 기술의 급격한 발전으로 인하여 다수의 정보원들을 처리 대상으로 하는 인터넷 질 의의 사용이 점차 확대되고 있다. 인터넷 질의 처리를 위해서는 여러 정보원들에 분산된 전체 데이타분포를 함축적으로 표현한 통합 요약정보가 필요하다 본 논문에서는 웨이블릿 변환을 기반으로 한 통합 요약정보의 관리 및 이를 이용한 인터넷 질의 최적처리에 관하여 논의한다. 통합 요약정보의 구성을 위한 가장 단순한 방법은 각 정보원에 분산된 데이타분포들을 합병한 후, 이를 기반으로 퉁합 요약정보를 구성하는 것이다. 그러나 이 방법은 큰 용량의 데이타분포를 전송, 저장. 통합하는 비용이 매우 크므로 실용적이지 야다. 본 논문 에서는 이러한 문점을 극복하기 위하여 웨이블릿 변환을 기반으로 요약정보들을 합병함으로써 통합 요약 정보를 구성하는 새로운 방법과 이를 이용한 인터넷 질의 최적화 방안을 제시한다. 웨이블릿 요약정보는 합 병 조건을 만족하도록 변환되며. 합병 과정이 웨이블릿의 특성으로 인하여 매우 단순하다는 장점을 갖는다 본 논문에서는 제안된 방법으로 구성된 통합 요약정보의 오타 상한선을 정량적으로 유도한다. 제안된 방법에 대한 실험 결과에 의하면, 히스토그램 요약정보의 합병과 웨이블릿 요약정보의 합병을 비교한 선택률 추정 실험은 통합 히스토그램에 비해 퉁합 웨이블릿 요약정보가 1.6 ~ 5.5배 더 정확하다는 결과를 보였다 또한,56개개의 정보원이 참여하는 인터넷 top-N 질의를 처리할 때, 통합 요약정보를 사용하지 않는 방법과 비교하 여 이를 사용하는 경우 약 44배의 성능 개건 효과를 보였다.

  • PDF