• 제목/요약/키워드: Ranking Query Results

검색결과 50건 처리시간 0.022초

전공분류표, 사용자 프로파일, LSI를 이용한 검색 모델 (Retrieval Model using Subject Classification Table, User Profile, and LSI)

  • 우선미
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.789-796
    • /
    • 2005
  • 현재 대부분의 도서관 정보검색 시스템들은 키워드 정합매칭(exacting matching) 방법으로 검색 서비스를 제공하고 있으므로, 검색 결과의 양이 방대하고 비적합한 결과가 많이 포함되어 있다. 따라서 본 논문에서는 키워드기반 검색 엔진의 단점을 보완하고 현재 도서관 검색 환경을 고려하여 보다 적합한 결과를 사용자에게 신속하게 제공하기 위하여 전공분류표와 사용자 프로파일을 이용한 검색 모델 SULRM(Retrieval Model using Subject Classification Table, User Profile & LSI)을 제안한다. SULRM은 키워드 검색 결과로 얻은 자료들을 분류된 자료의 경우와 미분류된 자료의 경우로 나누어, 분류된 자료의 경우에는 전공분류표를 생성하여 자료 필터링을 수행하고, 미분류된 자료의 경우에는 사용자 프로파일과 LSI(Latent Semantic Indexing)을 이용하여 자료의 순위를 결정해서 사용자에게 제시한다. 실험평가는 우리 대학의 디지털 도서관을 실험환경으로 하여 필터링 방법, 사용자 프로파일 갱신 방법, 그리고 문서순위결정 방법의 성능을 측정한다.

Efficiently Processing Skyline Query on Multi-Instance Data

  • Chiu, Shu-I;Hsu, Kuo-Wei
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1277-1298
    • /
    • 2017
  • Related to the maximum vector problem, a skyline query is to discover dominating tuples from a set of tuples, where each defines an object (such as a hotel) in several dimensions (such as the price and the distance to the beach). A tuple, an instance of an object, dominates another tuple if it is equally good or better in all dimensions and better in at least one dimension. Traditionally, skyline queries are defined upon single-instance data or upon objects each of which is associated with an instance. However, in some cases, an object is not associated with a single instance but rather by multiple instances. For example, on a review website, many users assign scores to a product or a service, and a user's score is an instance of the object representing the product or the service. Such data is an example of multi-instance data. Unlike most (if not all) others considering the traditional setting, we consider skyline queries defined upon multi-instance data. We define the dominance calculation and propose an algorithm to reduce its computational cost. We use synthetic and real data to evaluate the proposed methods, and the results demonstrate their utility.

지식기반 의미 메타 검색엔진 (Knowledge-based Semantic Meta-Search Engine)

  • 이인근;손세호;권순학
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.737-744
    • /
    • 2004
  • 웹으로부터 사용자가 원하는 정보에 잘 부응하는 정보를 추출하는 것은 검색엔진이 갖추어야 할 기본적 요소라 할 수 있다. 그러나 질의어와의 패턴 매칭 방식에 의존하는 기존의 대부분의 검색엔진은 질의어가 갖는 애매성으로 인하여 사용자의 요구에 부합하는 검색결과를 제공하기가 쉽지 않다는 단점을 지니고 있다. 이를 극복하기 위하여 본 논문에서는 다음과 같은 5가지 과정, 즉, (i) 질의어 형성, (ii) 질의어 확장, (iii) 검색, (iv) 순위 재생성 및 (v) 지식베이스로 구성되는 지식기반 의미 메타 검색엔진의 기본 구조를 제안한다 영어로 구현된 웹 문서에 대한 모의실험을 통하여 본 논문에서 제안된 지식기반 의미 메타 검색엔진이 기존의 검색엔진(구글)을 사용하여 얻은 결과보다 좋은 결과를 보임을 확인할 수 있었다.

베이지안 SOM과 붓스트랩을 이용한 문서 군집화에 의한 문서 순위조정 (A Document Ranking Method by Document Clustering Using Bayesian SoM and Botstrap)

  • 최준혁;전성해;이정현
    • 한국정보처리학회논문지
    • /
    • 제7권7호
    • /
    • pp.2108-2115
    • /
    • 2000
  • The conventional Boolean retrieval systems based on vector spae model can provide the results of retrieval fast, they can't reflect exactly user's retrieval purpose including semantic information. Consequently, the results of retrieval process are very different from those users expected. This fact forces users to waste much time for finding expected documents among retrieved documents. In his paper, we designed a bayesian SOM(Self-Organizing feature Maps) in combination with bayesian statistical method and Kohonen network as a kind of unsupervised learning, then perform classifying documents depending on the semantic similarity to user query in real time. If it is difficult to observe statistical characteristics as there are less than 30 documents for clustering, the number of documents must be increased to at least 50. Also, to give high rank to the documents which is most similar to user query semantically among generalized classifications for generalized clusters, we find the similarity by means of Kohonen centroid of each document classification and adjust the secondary rank depending on the similarity.

  • PDF

질의어 의미별 사용자 선호도를 이용한 웹 검색의 성능 향상 (Improving Performance of Web Search using The User Preference in Query Word Senses)

  • 김형일;김준태
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1101-1112
    • /
    • 2004
  • 본 논문에서는 웹 검색의 성능 향상을 위해 질의어 의미별 사용자 선호도를 이용한 웹 페이지의 가중치 부여 방식을 제안한다. 일반적으로 검색엔진들은 검색 질의어와 웹 페이지의 어휘 비교에 의한 관련도 측정만을 사용하여 웹 페이지의 가중치를 부여한다. 웹과 같이 방대한 자료를 대상으로 검색을 할 경우 유사한 관련도를 가진 검색 결과가 매우 많으므로 어휘 비교만으로는 중요한 웹 페이지를 선별하기 어렵다. 본 논문에서는 질의어의 의미를 구분하도록 워드넷(WordNet)을 이용한 사용자 인터페이스를 구축하고, 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 검색 행위에 의한 묵시적 평가가 웹 페이지의 검색 순위에 반영되는 검색 시스템을 구현하였다. 클릭수의 누적에 있어서 질의 어 의미별로 가중치를 구분하여 저장함으로써 일반적인 검색엔진보다 정확한 검색이 되었으며, 웹 페이지의 범주별 가중치와 질의어의 의미별 사용자 선호도를 이용함으로써 검색 시스템의 성능을 향상시킬 수 있다는 것을 20개의 어휘에 관련된 41개의 의미들을 대상으로 실험한 결과로 확인하였다.

도메인 질의응답 시스템 (Domain Question Answering System)

  • 윤승현;임은희;김덕호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권2호
    • /
    • pp.144-147
    • /
    • 2015
  • Question Answering (QA) 서비스는 사용자의 자연어 질의에 대응하는 정확한 답변을 제공하는 시스템이다. 본 연구는 특정 도메인에 관련한 사용자들의 질문에 대해 QA 서비스가 자동으로 대응하는 방법에 관한 연구이다. 이를 수행하기 위하여 사용자의 자연어 질문을 이해하고, 정형 데이터 및 비정형 데이터로부터 사용자 질문에 적합한 답변을 도출하여 제공하는 방법을 제시한다. 실험 결과 top 1 accuracy 68%, top 5 accuracy 77% 결과를 얻었다. 또한 본 논문은 QA 시스템 내부 모듈이 전체 accuracy에 미치는 영향에 대해서도 기술하였다.

Thai Classical Music Matching Using t-Distribution on Instantaneous Robust Algorithm for Pitch Tracking Framework

  • Boonmatham, Pheerasut;Pongpinigpinyo, Sunee;Soonklang, Tasanawan
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1213-1228
    • /
    • 2017
  • The pitch tracking of music has been researched for several decades. Several possible improvements are available for creating a good t-distribution, using the instantaneous robust algorithm for pitch tracking framework to perfectly detect pitch. This article shows how to detect the pitch of music utilizing an improved detection method which applies a statistical method; this approach uses a pitch track, or a sequence of frequency bin numbers. This sequence is used to create an index that offers useful features for comparing similar songs. The pitch frequency spectrum is extracted using a modified instantaneous robust algorithm for pitch tracking (IRAPT) as a base combined with the statistical method. The pitch detection algorithm was implemented, and the percentage of performance matching in Thai classical music was assessed in order to test the accuracy of the algorithm. We used the longest common subsequence to compare the similarities in pitch sequence alignments in the music. The experimental results of this research show that the accuracy of retrieval of Thai classical music using the t-distribution of instantaneous robust algorithm for pitch tracking (t-IRAPT) is 99.01%, and is in the top five ranking, with the shortest query sample being five seconds long.

Image Retrieval Based on the Weighted and Regional Integration of CNN Features

  • Liao, Kaiyang;Fan, Bing;Zheng, Yuanlin;Lin, Guangfeng;Cao, Congjun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.894-907
    • /
    • 2022
  • The features extracted by convolutional neural networks are more descriptive of images than traditional features, and their convolutional layers are more suitable for retrieving images than are fully connected layers. The convolutional layer features will consume considerable time and memory if used directly to match an image. Therefore, this paper proposes a feature weighting and region integration method for convolutional layer features to form global feature vectors and subsequently use them for image matching. First, the 3D feature of the last convolutional layer is extracted, and the convolutional feature is subsequently weighted again to highlight the edge information and position information of the image. Next, we integrate several regional eigenvectors that are processed by sliding windows into a global eigenvector. Finally, the initial ranking of the retrieval is obtained by measuring the similarity of the query image and the test image using the cosine distance, and the final mean Average Precision (mAP) is obtained by using the extended query method for rearrangement. We conduct experiments using the Oxford5k and Paris6k datasets and their extended datasets, Paris106k and Oxford105k. These experimental results indicate that the global feature extracted by the new method can better describe an image.

검색 재순위화를 위한 가중치 반영 딥러닝 학습 모델 (Search Re-ranking Through Weighted Deep Learning Model)

  • 안기택;최우석;박준용;박정민;이경순
    • 정보처리학회 논문지
    • /
    • 제13권5호
    • /
    • pp.221-226
    • /
    • 2024
  • 정보검색에서 질의는 다양한 유형이 존재한다. 추상적인 질의부터 구체적인 키워드를 포함하는 질의까지 다양한 형태로 구성되어 있어서 사용자의 요구에 정확한 결과 도출은 어려운 과제이다. 또한 검색시스템이 오타, 다국어, 코드와 같은 다양한 요소를 포함하는 질의를 다뤄야 하는 특징이 존재한다. 본 연구에서는 질의 유형을 분석하고, 이에 따라 딥러닝 기반 재순위화의 적용 여부를 결정하는 방법을 제안한다. 최근 연구에서 높은 성능을 보인 딥러닝 모델인 DeBERTa를 이용하여 질의에 대한 적합 문서의 학습을 통해 재순위화를 수행한다. 제안 방법의 유효성을 평가하기 위해 국제정보검색 평가대회인 TREC 2023의 상품 검색 트랙(Product Search Track) 테스트컬렉션을 이용하여 실험을 하였다. 실험 결과에 대한 정규화된 할인누적이득(NDCG) 성능측정 비교에서 제안 방법이 정보검색 기본 모델인 BM25 에 비해 질의 오류 처리를 통한 검색, 잠정적 적합성피드백을 통한 상품제목 기반 질의확장과 질의유형에 따른 재순위화에서 0.7810으로 BM25 대비 10.48% 향상을 보였다.

오피니언 마이닝 기술을 이용한 효율적 상품평 검색 기법 (An Efficient Search Method of Product Reviews using Opinion Mining Techniques)

  • 윤홍준;김한준;장재영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권2호
    • /
    • pp.222-226
    • /
    • 2010
  • 급속한 전자상거래의 발전으로 인하여 온라인상으로 상품을 구매하고 그에 대한 평가를 작성하는 것이 일반적인 구매 패턴이 되었다. 구매자들의 상품평은 다른 잠재적인 소비자들의 상품 구입을 이끌어내는데 큰 동기가 된다. 하지만 온라인 쇼핑몰에서는 상품평의 성질에 부합하는 순위를 부여하지 않기 때문에, 사용자가 구입 결정을 위하여 수많은 상품평에 포함된 의견들을 효과적으로 검토하기는 쉽지 않다. 일반적으로 상품평은 감정적이며 주관적인 의견을 포함하고 있다. 그래서 이러한 상품평에 순위를 부여하는 방법은 일반 웹 검색과는 달라야 한다. 본 논문에서는 오피니언 마이닝 기술을 이용하여, 사용자의 의도에 따라 상품평 데이터에 대해 순위를 결정하는 기법을 제안한다. 제안된 기법은 사용자의 검색어뿐만 아니라 상품평 내에 주관적인 의견의 포함 여부 및 감정 극성의 엔트로피 등을 고려하여 상품평의 가치를 판단하였다. 또한 실험을 통하여 제안된 기법의 우수성을 검증하였다.