• 제목/요약/키워드: 질의결과 순위결정

검색결과 28건 처리시간 0.025초

문서 클러스터를 이용한 재순위화 모델 (Document Reranking Model Using Clusters)

  • 이경순;박영찬;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-87
    • /
    • 1998
  • 본 연구에서는 정보검색시스템의 모델로 문서 클러스터를 이용한 재순위화 모델을 제시한다. 이 방법은 검색단계와 분석단계로 이루어지는데, 검색단계에서는 역화일기법을 이용해서 질의어를 포함하는 문서들을 검색하여 질의어-문서 유사도에 따라 순위를 결정한다. 분석단계에서는 이미 구축된 문서 클러스터를 이용해서 검색되어진 문서들의 분석을 통해 질의어-클러스터 유사도를 계산한다. 질의어-문서 유사도와 질의어-클러스터 유사도를 결합하고, 이 유사도에 기반해서 문서들을 재순위화한다. 이때 이용하는 클러스터는 정적 클러스터이고, 질의어에 따라 서로 다른 클러스터를 생성하는 동적인 뷰를 제공한다. 재순위화 모델은 역화일 기법과 클러스터 분석기법이 가지는 장점을 결합하여 질의어 뿐만 아니라 문서에 포함된 모든 단어들을 분석함으로써 문서의 문맥을 고려할 수 있다. 제안하는 모델은 역화일 기법을 이용한 검색 결과에 비해서 우수한 성능 향상을 나타내고 있다.

  • PDF

OLAP 환경에서 다중점 MAX/MIN 질의의 효율적인 처리기법 (Efficient Processing of Multipoints MAX/MIN Queries in OLAP Environment)

  • 양우석;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권1호
    • /
    • pp.13-21
    • /
    • 2000
  • OLAP(Online analytical processing)은 의사지원시스템을 효과적으로 지원하기 위한 핵심요소이며 주로 집단함수를 포함한 분석 질의를 처리한다. 이러한 질의를 효율적으로 처리하기 위한 연구들이 많이 이루어져 왔으나, 기존의 연구들은 어떤 범위 내의 모든 값을 대상으로 하는 집단함수의 처리 방법들을 다루고 있다. 그러나 이러한 범위 질의 외에도 범위 내의 특정 값들, 즉 다중점에 대한 질의도 많이 사용될 수 있으며, 이러한 질의에는 기존의 연구가 적용되기 어렵다. 본 논문에서는 다중점 MAX/MIN 질의를 효율적으로 처리하는 방법으로 순위 색인과 순위 결정 트리를 제안한다. 최대/최소값을 구하기 위해, 비트맵 형태의 노드로 이루어진 순위 결정 트리를 사용하여 결과의 순위를 구하고, 순위 색인을 통하여 질의의 결과를 얻는다. 그리고 실험을 통하여 제안한 방법이 대부분의 MAX/MIN 질의에 대해 안정적으로 높은 성능을 나타낸다는 것을 보였다. 또한, 단일 선계산 자료만으로 MAX와 MIN 질의를 모두 처리할 수 있다는 것도 제안한 방법의 주요 장점이다.

  • PDF

데이터 스트림에서 공간질의의 영역 겹침을 이용한 우선순위 기반의 부하 분산 기법 (Priority based Load Shedding Method using Range Overlap of Spatial Queries on Data Stream )

  • 김호;백성하;이연;이동욱;정원일;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.401-404
    • /
    • 2008
  • u-GIS 환경에서 발생하는 시공간 데이터는 지속적으로 발생하는 데이터 스트림의 특성을 갖으며, 그런 특성으로 인하여 데이터 발생량이 급격히 증가함에 따라 데이터 손실 및 시스템 성능 저하현상이 발생한다. 이를 해결하기 위해 부하 분산 연구들이 활발히 진행되어 오고 있다. 그러나 기존의 연구 방식인 랜덤 부하 분산 방식과 의미적 부하 분산 방식은 현 u-GIS 환경에서 부하 분산 속도 및 질의 결과의 정확도 측면에 만족스럽지 못한 결과를 준다. 그래서 본 논문에서는 우선순위를 이용한 차등적 부하 분산(DLSM : Different Load Shedding using MAP table)기법을 제안한다. DLSM 기법은 등록된 공간질의의 공간연산을 통해 영역의 우선순위를 미리 부여하고, 데이터가 발생하여 질의 처리기로 유입되기 전 우선순위를 파악한다. 데이터는 우선순위 단계에 따라 유입량을 확인 후 삭제 여부가 결정된다. 결과적으로 부하 분산 속도와 질의 결과의 정확도를 향상시켰다.

유사 적합성 피드백 기반의 문서 요약 기법을 이용한 효과적인 스니펫 생성 (An Effective Snippet Generation Method using Text Summarization Techniques based on Pseudo Relevance Feedback)

  • 안홍국;고영중;서정연
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.174-181
    • /
    • 2007
  • 정보 검색의 결과로 나타나는 요약문을 스니펫(snippet)이라 한다. 사용자는 자신이 원하는 정보를 얻기 위해 문서를 검색하는데, 이 때 스니펫은 사용자가 원하는 문서를 찾는데 중요한 역할을 한다. 본 논문에서는 정보검색 분야에서 높은 성능을 보이는 유사 적합성 피드백을 자동 문서 요약에 맞게 적용하여 높은 성능의 스니펫 생성 시스템을 구현한다. 우선, 사용자의 질의가 포함된 문장들을 일차적으로 요약 문장 후보로 추출한다. 그리고 추출된 문장 후보로부터 명사들을 질의 후보로 고려한다. 각 문장이 질의의 포함 여부에 따라 문장의 적합성을 판단하게 되고, 유사 적합성 피드백 확률 모델에 적용한 후 질의 후보들의 가중치를 추정하여 가중치 순위를 통해 확장할 질의들을 결정한다. 확장된 질의들과 기존의 질의들의 가중치를 합산하여 각 문장의 순위를 매기게 되고 가장 높은 순위의 문장들이 스니펫으로 제시된다. 논문에서 제안한 기법은 추가적인 핵심 질의들을 자동으로 확장하여 중요한 문장을 추출할 수 있다. 이 연구를 위해서 일반 상용 정보 검색 서비스에서 제공하는 스니펫을 수집하였고 이들의 정확도와 시스템의 정확도를 비교하였다. 실험 결과를 통해 살펴본 제안된 시스템의 성능은 상용 정보 검색기에서 제공되고 잇는 스니펫의 정확도 보다 우수한 성능을 보였다.

  • PDF

계량화된 지식 추상화 계층을 이용한 협력적 질의 처리 (Cooperative Query Answering Using the Metricized Knowledge Abstraction Hierarchy)

  • 신명근
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권3호
    • /
    • pp.87-96
    • /
    • 2006
  • 데이터베이스 시스템에서 협력적 질의응답이란 질의 내용과 정확히 일치하는 자료뿐만 아니라 좀 더 넓은 인근 범위의 자료 또는 근사적인 자료를 검색해 주는 것을 말한다. 협력적 질의응답은 질의 분석, 질의 유연화, 유연화된 질의에 따른 근사적 자료 제공의 세 단계로 이루어져 있다. 질의 유연화를 수행하기 위해 의미적 관계를 표현하는 지식추상화 방법과 자료 사이의 정량적인 유사도를 거리로 표현하는 방법들이 지식표현 방법으로 사용된다. 본 논문에서는 보다 효과적으로 질의 유연화 단계를 지원하기 위해, 다단계 데이터 추상화 계층과 거리 척도를 지원하는 계량화된 지식추상화 계층(MKAH: Metricized Knowledge Abstraction Hierarchy)을 제안한다. MKAH는 카테고리화 될 수 있는 자료에 대해 질의 유연화를 효과적으로 지원하며 두 값 사이의 정량적인 의미상의 유사도를 제공하여, 질의 결과에 순위가 매겨질 수 있도록 한다. MKAH의 실용성과 효율성을 검증하기 위하여 경력직 검색 분야에 대한 원형 시스템을 구현해보았다. 다양한 실험을 통하여 MKAH가 풍부한 의미 표현이 가능하면서 질적으로도 높은 거리 척도를 제공해 준다는 것을 보였다. 그 결과 MKAH를 채택하는 도메인은 다른 정량적인 숫자 도메인과 호환될 수 있다는 점과, 큰 규모의 시스템을 만드는 데에도 장점이 있음을 확인하였다.

  • PDF

Mean Shift Clustering을 이용한 영상 검색결과 개선

  • 권경수;신윤희;김영래;김은이
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2009년도 춘계학술대회 미래 IT융합기술 및 전략
    • /
    • pp.138-143
    • /
    • 2009
  • 본 논문에서는 감성 공간에서 mean shift clustering과 user feedback을 이용하여 영상 검색 결과를 개선하기 위한 시스템을 제안한다. 제안된 시스템은 사용자 인터페이스, 감성 공간 변환, 검색결과 순위 재지정(re-ranking)으로 구성된다. 사용자 인터페이스는 텍스트 형태의 질의 입력과 감성 어휘 선택에 따른 user feedback에 의해 개선된 검색결과를 보인다. 사용된 감성 어휘는 고바야시가 정의한 romantic, natural, casual, elegant, chic, classic, dandy, modern 등의 8개 어휘를 사용한다. 감성 공간 변환 단계에서는 입력된 질의에 따라 웹 영상 검색 엔진(Yahoo)에 의해 검색된 결과 영상들에 대해 컬러와 패턴정보의 특징을 추출하고, 이를 입력으로 하는 8개의 각 감성별 분류기에 의해 각 영상은 8차원 감성 공간으로의 특징 벡터로 변환된다. 이때 감성 공간으로 변환된 특징 벡터들은 mean shift clustering을 통해 군집화 되고, 그 결과로써 대표 클러스터를 찾게 된다. 검색결과 순위 재지정 단계에서는 user feedback 유무에 따라 대표 클러스터의 평균 벡터와 user feedback에 의해 생성된 사용자 감성 벡터에 의해 검색 결과를 개선할 수 있다. 이때 각 기준에 따라 유사도가 결정되고 검색결과 순위가 재지정 된다 제안된 시스템의 성능을 검증하기 위해 7개의 질의의 각 400장, 총 2,800장에 대한 Yahoo 검색 결과와 제안된 시스템을 개선된 검색 결과를 비교하였다.

  • PDF

검색 재순위화를 위한 가중치 반영 딥러닝 학습 모델 (Search Re-ranking Through Weighted Deep Learning Model)

  • 안기택;최우석;박준용;박정민;이경순
    • 정보처리학회 논문지
    • /
    • 제13권5호
    • /
    • pp.221-226
    • /
    • 2024
  • 정보검색에서 질의는 다양한 유형이 존재한다. 추상적인 질의부터 구체적인 키워드를 포함하는 질의까지 다양한 형태로 구성되어 있어서 사용자의 요구에 정확한 결과 도출은 어려운 과제이다. 또한 검색시스템이 오타, 다국어, 코드와 같은 다양한 요소를 포함하는 질의를 다뤄야 하는 특징이 존재한다. 본 연구에서는 질의 유형을 분석하고, 이에 따라 딥러닝 기반 재순위화의 적용 여부를 결정하는 방법을 제안한다. 최근 연구에서 높은 성능을 보인 딥러닝 모델인 DeBERTa를 이용하여 질의에 대한 적합 문서의 학습을 통해 재순위화를 수행한다. 제안 방법의 유효성을 평가하기 위해 국제정보검색 평가대회인 TREC 2023의 상품 검색 트랙(Product Search Track) 테스트컬렉션을 이용하여 실험을 하였다. 실험 결과에 대한 정규화된 할인누적이득(NDCG) 성능측정 비교에서 제안 방법이 정보검색 기본 모델인 BM25 에 비해 질의 오류 처리를 통한 검색, 잠정적 적합성피드백을 통한 상품제목 기반 질의확장과 질의유형에 따른 재순위화에서 0.7810으로 BM25 대비 10.48% 향상을 보였다.

센서 네트워크를 위한 데이터 인지 우선순위 기반의 에너지 효율적인 Top-k 질의 처리 (Data-Aware Priority-Based Energy Efficient Top-k Query Processing in Sensor Networks)

  • 여명호;성동욱;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권3호
    • /
    • pp.189-197
    • /
    • 2009
  • Top-k 질의는 많은 센서 네트워크 응용 분야에서 중요하게 사용된다. 기존에 제안된 필터 기반의 Top-k 질의 처리 기법은 질의 결과에 영향을 미치는 값만을 수신하기 위해 각 센서 노드의 측정 허용 범위를 필터로 설정함으로써 센서 데이타의 전송 횟수를 줄인다. 하지만, 센서 데이타의 재검증과 필터의 재배포 과정에서 추가적인 에너지를 소모한다. 또한, 질의 결과값이 빈번히 변경될수록 필터의 재배포 횟수가 증가하여 에너지의 소모가 더욱 증가한다. 본 논문에서는 Top-k 질의를 처리하기 위해서 측정한 데이타를 기반으로 우선 순위를 결정하고, 우선 순위에 따라 최소한의 센서 데이타를 수집하는 새로운 Top-k 질의 처리 기법을 제안한다. 제안하는 기법의 우수성을 보이기 위해서 시뮬레이션을 통한 성능 평가를 수행하였으며, 그 결과 기존 필터 기반의 기법에 비해 네트워크의 수명이 크게 향상되었다.

순위 테이블을 이용한 동적 글로벌 로드벨런싱 기법 제안 및 구현 (Technique and Implementation of Dynamic Global Load Balancing using Rank Table)

  • 김성;김경훈;남지승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.517-519
    • /
    • 2001
  • 멀티미디어 서비스를 제공하는 서버의 부하분산을 위해 로드밸런싱 방식을 제안한다. 서버를 지역적으로 분산시키고 분산된 서버는 하나의 클러스터 같이 동작하면서 서버의 시스템 정보(CPU, M/M 사용량)를 체크하여 순위테이블을 작성한다. 작성된 순위테이블을 서버는 교환하면서 도일한 순위테이블을 서버는 갖고 있게 된다. 클라이언트의 연결요청이 있으면 서버는 클라이언트에게 에이전트를 배포하고 에이전트는 클라이언트로 전송되게 된다. 전송된 에이전트는 서버에서 클라이언트간의 전송속도, 유동적으로 변하는 트래픽, 순위테이블을 체크하여 서버를 결정한 후 결정된 서버로 연결을 설정하고 상황에 따라 연결을 재 설정한다. 그 결과 서버 부하를 균등하게 배분하고 그에 따른 서비스 질의 향상을 얻을 수 있다.

Lexico-Semantic Pattern을 이용한 오픈 도메인 질의 응답 시스템 (Open-domain Question Answering Using Lexico-Semantic Patterns)

  • 이승우;정한민;곽병관;김동석;차정원;안주희;이근배;김학수;김경선;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.538-545
    • /
    • 2001
  • 본 연구에서는 오픈 도메인에서 동작할 수 있는 질의 응답 시스템(Open-domain Question Answer ing System)을 구현하고 영어권 TREC에 참가한 결과를 기술하였다. 정답 유형을 18개의 상위 노드를 갖는 계층구조로 분류하였고, 질문 처리에서는 LSP(Lexico-Semantic Pattern)으로 표현된 문법을 사용하여 질문의 정답 유형을 결정하고, lemma 형태와 WordNet 의미, stem 형태의 3가지 유형의 키워드로 구성된 질의를 생성한다. 이 질의를 바탕으로, 패시지 선택에서는 문서검색 엔진에 의해 검색된 문서들을 문장단위로 나눠 정수를 계산하고, 어휘체인(Lexical Chain)을 고려하여 인접한 문장을 결합하여 패시지를 구성하고 순위를 결정한다. 상위 랭크의 패시지를 대상으로, 정답 처리에서는 질문의 정답 유형에 따라 품사와 어휘, 의미 정보로 기술된 LSP 매칭과 AAO (Abbreviation-Appositive-Definition) 처리를 통해 정답을 추출하고 정수를 계산하여 순위를 결정한다. 구현된 시스템의 성능을 평가하기 위해 TREC10 QA Track의 main task의 질문들 중, 200개의 질문에 대해 TRIC 방식으로 자체 평가를 한 결과, MRR(Mean Reciprocal Rank)은 0.341로 TREC9의 상위 시스템들과 견줄 만한 성능을 보였다.

  • PDF