• 제목/요약/키워드: 유사 질의 처리

검색결과 510건 처리시간 0.035초

데이터베이스에서 유사도 질의 처리 비용 감소 방법 (A Method of Reducing the Processing Cost of Similarity Queries in Databases)

  • 김선경;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권4호
    • /
    • pp.157-162
    • /
    • 2022
  • 오늘날 대부분의 데이터는 데이터베이스(database: DB)에 저장된다. 이러한 DB 환경에서 사용자는 자신이 원하는 데이터를 찾아줄 것을 DB에게 요청하게 된다. DB 질의 중 유사도 질의는 DB 사용자가 원하는 조건으로 유사도가 포함되어 있는 것을 말한다. 그러나 유사도 질의를 처리하기 위한 과정은 처리 레코드의 범위를 줄일 수 있는 색인을 이용하기 힘들어 테이블의 전체 레코드에 대해서 매번 유사도를 계산하는 비용이 높다. 본 논문은 이러한 문제점을 해결하기 위하여 경량 유사도 함수를 정의한다. 경량 유사도 함수는 유사도 함수에 비해 데이터를 여과하는 정확도는 떨어지지만 비용이 유사도 함수에 비하여 적게 소모되는 특징이 있다. 이러한 경량 유사도 함수의 특징을 이용하여 유사도 질의 처리 비용 감소 방법을 제시한다. 그리고 유클리드 거리 함수에 경량 유사도 함수로 체비쇼프 거리를 제시하고 기존의 유사도 함수를 이용하는 질의와 경량 유사도 함수를 이용하는 질의의 처리 비용을 비교한다. 그리고 실험을 통하여 유클리드 유사도에 대한 경량 유사도 함수로 체비쇼프 거리를 적용하였을 때 유사도 질의 처리 비용이 감소하는 것을 확인한다.

다수의 MBR을 이용한 시계열 서브시퀀스 매칭 연구 (A Study on Time-Series Subsequence Matching using Multi MBRs)

  • 임선영;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1068-1069
    • /
    • 2012
  • 시계열 데이타는 일정 시간 간격으로 측정한 값의 시퀀스를 뜻하는데, 사용자에 의해 주어진 질의 시퀀스와 유사한 데이타 시퀀스를 검색하는 방법을 유사 시퀀스 매칭이라고 한다. 본 논문에서는 유사 시퀀스 매칭 시, 질의 시퀀스로 MBR을 구성할 때 한 개의 MBR이 아닌 다수의 MBR로 구성하는 방법을 제안하였다. 다수의 MBR로 구성하여 질의 처리를 하면 질의 시퀀스의 길이가 길 경우 적은 비용으로 질의 처리를 수행할 수 있다.

모바일 P2P 네트워크에서 에너지 효율적인 유사성 스카이라인 질의 처리 기법 (An Energy-efficient Similarity Skyline Query Processing Method in Mobile P2P Networks)

  • 박선용;임종태;복경수;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.13-14
    • /
    • 2014
  • 최근 스마트폰, 태블릿 PC 등 다양한 모바일 기기들의 처리 능력이 향상됨에 따라 모바일 P2P 환경에서의 질의 처리 성능이 향상되고 있다. 본 논문에서는 모바일 P2P 네트워크에서 에너지 효율적인 유사성 스카이라인 질의 처리 기법을 제안한다. 제안하는 기법은 질의 배포 범위를 확장 및 제한함으로써 결과로 제공될 수 있는 잠재적 객체를 얻음과 동시에 전체 네트워크로의 불필요한 배포를 방지한다. 또한 각 피어들은 질의를 받았을 때 자신이 보유하고 있는 객체를 이용하여 로컬 유사성 스카이라인을 처리하고, 질의를 요청한 피어(질의 피어)에게 처리된 결과를 병합하여 전송한다.

  • PDF

분산 컴퓨팅 환경에서 효율적인 유사 조인 질의 처리를 위한 행렬 기반 필터링 및 부하 분산 알고리즘 (Matrix-based Filtering and Load-balancing Algorithm for Efficient Similarity Join Query Processing in Distributed Computing Environment)

  • 양현식;장미영;장재우
    • 한국콘텐츠학회논문지
    • /
    • 제16권7호
    • /
    • pp.667-680
    • /
    • 2016
  • 하둡 맵리듀스와 같은 분산 컴퓨팅 플랫폼이 개발됨에 따라, 기존 단일 컴퓨터 상에서 수행되는 질의 처리 기법을 분산 컴퓨팅 환경에서 효율적으로 수행하는 것이 필요하다. 특히, 주어진 두 데이터 집합에서 유사도가 높은 모든 데이터 쌍을 탐색하는 유사 조인 질의를 분산 컴퓨팅 환경에서 수행하려는 연구가 있어 왔다. 그러나 분산 병렬 환경에서의 기존 유사 조인 질의처리 기법은 데이터 전송 비용만을 고려하기 때문에 클러스터 간에 비균등 연산 부하 분산의 문제점이 존재한다. 본 논문에서는 분산 컴퓨팅 환경에서 효율적인 유사 조인 처리를 위한 행렬 기반 부하 분산 알고리즘을 제안한다. 제안하는 알고리즘은 클러스터의 균등 부하 분산을 위해 행렬을 이용하여 예상되는 연산 부하를 측정하고 이에 따라 파티션을 생성한다. 아울러, 클러스터에서 질의 처리에 사용되지 않는 데이터를 필터링함으로서 연산 부하를 감소시킨다. 마지막으로 성능 평가를 통해 제안하는 알고리즘이 기존 기법에 비해 질의 처리 성능 측면에서 우수함을 보인다.

비디오의 의미검색과 유사성검색을 위한 통합비디오정보시스템 (Hybrid Video Information System Supporting Content-based Retrieval and Similarity Retrieval)

  • 윤미희;윤용익;김교정
    • 한국정보처리학회논문지
    • /
    • 제6권8호
    • /
    • pp.2031-2041
    • /
    • 1999
  • 본 논문에서는 비정형, 대용량의 비디오데이터의 특징기반 검색과 주석기반 검색을 통합하여 다양한 사용자의 의미검색을 지원하고, 유사성 질의를 지원하는 통합비디오정보시스템(Hybrid Video Information System : HVIS)을 제안한다. HVIS는 메타데이터 모델링을 위해 한편의 비디오를 비디오 다큐먼트, 시퀸스, 장면, 객체로 나누고 물리적인 비디오스트림을 위한 원시데이터계층(raw_data layer)과 주석기반 검색, 특징기반 검색, 유사성 검색을 지원하기 위한 메타데이터계층(meta_data layer)의 두 개의 계층을 가진 통합 계층지향 메타데이터모델(Two layered Hybrid Object-oriented Metadata Model : THOMM)과 이 모델을 기반으로 주석기반 질의, 특징기반 질의, 유사질의가 가능한 비디오질의언어 (Video Query Language)와 질의를 처리하기 위한 비디오질의처리기 (Video Query Processor : VQP)와 질의처리알고리즘을 제안한다. 특히 유사한 장면, 객체를 찾는 유사질의시 사용자의 관심을 고려한 유사성 정도를 나타내는 식을 제시한다. 제안된 시스템은 Visual C++, ActiveX와 ORACLE를 이용하여 구현되었다.

  • PDF

정보 검색에서 질의문 길이에 대한 가중치와 질의어 출현 빈도 가중치 적용 (Applying the Weight for Query Length and the Frequency of Query Term to Information Retrieval)

  • 강승식;전영진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.763-766
    • /
    • 2005
  • 정보검색 시스템에서 긴 문장으로 질의가 들어올 경우 질의문의 길이와 시스템이 정답이라고 판단한 문서에서 질의문을 분석하여 추출한 질의어들이 출현한 빈도수를 가중치로 준다면 좀더 정확한 결과를 보일 수 있을 것이라 가정하였다. 즉 벡터 모델을 이용하여 문서와 질의와의 유사도를 계산하고 여기에 질의문의 길이에 대한 가중치와 유사도를 이용하여 얻은 결과 문서에서 질의문을 분석하여 얻은 질의 용어들의 출현 빈도에 대한 가중치를 적용하는 방법을 제안하였다.

  • PDF

GB-색인: 고차원 데이타의 복합 유사 질의 및 적합성 피드백을 위한 색인 기법 (GB-Index: An Indexing Method for High Dimensional Complex Similarity Queries with Relevance Feedback)

  • 차광호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권4호
    • /
    • pp.362-371
    • /
    • 2005
  • 멀티미디어 데이타베이스와 같은 고차원 응용에서 유사 색인과 검색은 어려운 문제이며, 특히, 다수의 특성을 함께 색인하는 경우에는 더욱 어렵다. 본 논문에서는 고차원 이미지 데이타베이스에서 복합 유사 질의 및 적합성 피드백을 효율적으로 처리하기 위한 새로운 색인 기법인 GB-색인을 제시한다. GB-색인은 각 특성 차원을 독립적으로 처리함으로써 다수의 특성과 다수의 질의 객체를 유연하게 제어한다. 아울러, 비트맵 색인을 통해 데이타베이스에 있는 모든 객체를 비트맵의 집합으로 표현하여 질의를 효율적으로 처리한다. GB-색인의 기술적인 주된 공헌은 다음과 같다: (1) 고차원 데이타를 위한 효율적인 색인, (2) 효율적인 복합 유사 질의 처리, (3) 적합성 피드백을 위한 분리형 질의의 효과적 처리. 실험 결과에 따르면 GB-색인은 순차 탐색 및 VA-파일에 비해 큰 성능 향상을 보였다.

유사도를 이용한 질의 확장과 컴포넌트 검색 방법 (Query Extension and Component Retrieval Method using similarity)

  • 정대성;한정수;김귀정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1829-1832
    • /
    • 2003
  • 본 연구는 유의어 매트릭스를 이용하여 질의의 확장을 통한 컴포넌트 검색 과정을 기술하였다. 컴포넌트 검색은 질의를 입력하면 질의의 확장이 이루어지고 컴포넌트 사이의 신뢰도를 측정하여 검색한다. 신뢰도 계산을 위해서는 질의와 컴포넌트 사이에 유사한가를 나타내는 동치관계, 클래스의 가중치와 동치관계 값을 이용한 포함관계, 그리고 유사도를 계산한다. 끝으로 이들 값을 이용하여 신뢰도를 계산한 후 이 신뢰도 값에 의하여 유사 컴포넌트들을 검색하여 유사도 우선순위로 컴포넌트가 검색된다.

  • PDF

향상된 균일 스케일링을 이용한 유사 음악 검색시스템 (A Similar Music Retrieval System using Improved Uniform Scaling)

  • 이혜환;심규석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.183-188
    • /
    • 2006
  • 허밍을 통한 유사 검색 질의가 주어질 때 효과적으로 음악 데이터베이스를 검색하는 시스템에 대한 연구는 다양한 방향으로 진행되어 왔다. 최근에는 음악 데이터와 허밍 질의를 시계열 데이터로 보고 시계열 데이터 유사 검색과 관련하여 제안되어 왔던 여러 가지 거리 척도(distance measure)나 인덱싱 기법등을 적용하여 효과적으로 질의를 처리하려는 시도가 계속 되고 있다. 허밍 질의의 특성을 고려한 균일 스케일링(Uniform Scaling)을 사용하여 효과적인 유사 검색을 하는 방법은 가장 최근 제시된 방법 중 하나이다. 본 논문에서는 허밍을 통한 유사 검색 시스템인 Humming BIRD(Humming Based similaR miDi music retrieval system)를 제안하고 구현하였다. 슬라이딩 윈도우를 사용하여 음악의 임의의 부분에 대한 허밍 질의를 처리할 수 있도록 하였으며 효율적인 검색을 위해 중심을 일치시킨(center-aligned) 균일 스케일링을 제안하고 이 거리의 하한을 계산하는 하계 함수를 사용하여 탐색 공간(search space)을 효과적으로 줄여 더 빠르고 효과적인 유사 검색을 가능하도록 하였으며 실험을 통해 중심을 일치시킨된 균일 스케일링이 이전과 같은 검색 결과를 얻으면서도 효과적으로 검색함을 탐색 공간을 줄이는 가지치기 성능을 비교함으로써 보였다.

  • PDF

유사 질의 매칭 기반 데이터베이스 캐쉬 엔진 설계 및 구현 (Design and Implementation of Database Cache engine based on Similarity Query Matching)

  • 한윤희;이정준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.119-124
    • /
    • 2007
  • 인터넷 웹사이트의 급격한 증가와 함께 이용자도 증가하고 있으며, 이용 목적은 주로 자료검색과 조회서비스 이다. 조회 요청이 많을수록 질의의 증가를 야기하며, 데이터베이스 서버의 질의 분석(Parse), 질의 실행 계획(Query Execution Plan)을 과도하게 발생시킨다. 즉 데이터베이스 서버에서 처리하는 작업량의 과부하로 인하여 병목현상을 초래한다. 데이터베이스 서버의 조회를 위한 질의처리량을 감소시키는 작업이 필요하다. 그리고 조회 대상이 데이터는 웹사이트에서 자주 갱신되지 않거나, 데이터가 주기적으로 갱신되는 특징이 있다. 이 데이터를 대상으로 데이터베이스 캐쉬 엔진을 구성하면 데이터베이스 서버의 과부하률 해소 할 수 있다. 본 논문에서는 유사 질의 매칭 기반 데이터베이스 캐친 엔진을 설계하고 구현한다. 유사 질의 매칭 기반으로 하여 적중률을 높여 데이터베이스 병목현상을 해결하여, 검색서비스에 더욱 효과적일 것으로 사료되며, 웹사이트의 성능 향상을 기대한다.

  • PDF