• 제목/요약/키워드: Semantic Query Expansion

검색결과 26건 처리시간 0.021초

시맨틱 콘텐츠 검색을 위한 질의 확장 시스템 (Query Expansion System for Semantic Contents Retrieval)

  • 이무훈;최의인
    • 디지털융복합연구
    • /
    • 제10권10호
    • /
    • pp.307-312
    • /
    • 2012
  • 최근 논리적으로 표현된 지식 베이스를 사용하는 키워드 기반 검색에서 보다 더 정확한 결과를 제공하기 위해 시맨틱 검색 방법에 대한 연구가 진행되고 있다. 대부분의 사용자는 정형화된 질의어와 스키마를 사용하는 것 보다 사용자 키워드의 의미를 해석해서 사용한다. 본 논문에서는 시맨틱 검색을 위한 사용자 질의 확장을 제안한다. 제안 시스템에서는 지식 베이스와 연관 검색어를 활용한 사용자 질의 확장 콤포넌트와 사용자 질의 해석 결과를 조정하기 위한 콤포넌트를 제공한다. 마지막으로 논문에서 제안한 사용자 질의 의미 해석 기법의 검증을 위해 프로토타입 시스템의 실험 결과를 설명한다.

검색 성능 향상을 위한 약품 온톨로지 기반 연관 피드백 (Relevance Feedback based on Medicine Ontology for Retrieval Performance Improvement)

  • 임수연
    • 정보관리학회지
    • /
    • 제22권2호
    • /
    • pp.41-56
    • /
    • 2005
  • 기계가 정보의 의미를 이해하고 처리할 수 있도록 기존의 웹을 확장하는 것을 목적으로 하는 시멘틱 웹은 온톨로지를 이용하여 지식을 공유하게 된다. 본 논문에서는 정교한 질의의 처리를 위하여 온톨로지 내에 존재하는 의미 관계들을 질의의 확장을 위한 연관피드백 정보로 이용하는 방안을 제안한다. 실험은 도메인 온톨로지인 Medicine 온톨로지를 대상으로 하였으며, 출현 용어들의 빈도정보만을 이용한 키워드 기반 문서검색과 제안한 온톨로지기반 문서검색의 성능을 비교하였다. 이 때, 두 시스템의 정확률과 재현율을 성능 평가의 기준으로 삼았다. 그 결과, 검색 엔진은 온톨로지에 정의된 개념들과 규칙들을 활용하면서 검색의 정확률을 향상시키는데 도움이 되었고 검색 성능을 향상시키기 위한 추론의 기반으로도 사용될 수 있었다.

Vocabulary Expansion Technique for Advertisement Classification

  • Jung, Jin-Yong;Lee, Jung-Hyun;Ha, Jong-Woo;Lee, Sang-Keun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권5호
    • /
    • pp.1373-1387
    • /
    • 2012
  • Contextual advertising is an important revenue source for major service providers on the Web. Ads classification is one of main tasks in contextual advertising, and it is used to retrieve semantically relevant ads with respect to the content of web pages. However, it is difficult for traditional text classification methods to achieve satisfactory performance in ads classification due to scarce term features in ads. In this paper, we propose a novel ads classification method that handles the lack of term features for classifying ads with short text. The proposed method utilizes a vocabulary expansion technique using semantic associations among terms learned from large-scale search query logs. The evaluation results show that our methodology achieves 4.0% ~ 9.7% improvements in terms of the hierarchical f-measure over the baseline classifiers without vocabulary expansion.

Survey of Automatic Query Expansion for Arabic Text Retrieval

  • Farhan, Yasir Hadi;Noah, Shahrul Azman Mohd;Mohd, Masnizah
    • Journal of Information Science Theory and Practice
    • /
    • 제8권4호
    • /
    • pp.67-86
    • /
    • 2020
  • Information need has been one of the main motivations for a person using a search engine. Queries can represent very different information needs. Ironically, a query can be a poor representation of the information need because the user can find it difficult to express the information need. Query Expansion (QE) is being popularly used to address this limitation. While QE can be considered as a language-independent technique, recent findings have shown that in certain cases, language plays an important role. Arabic is a language with a particularly large vocabulary rich in words with synonymous shades of meaning and has high morphological complexity. This paper, therefore, provides a review on QE for Arabic information retrieval, the intention being to identify the recent state-of-the-art of this burgeoning area. In this review, we primarily discuss statistical QE approaches that include document analysis, search, browse log analyses, and web knowledge analyses, in addition to the semantic QE approaches, which use semantic knowledge structures to extract meaningful word relationships. Finally, our conclusion is that QE regarding the Arabic language is subjected to additional investigation and research due to the intricate nature of this language.

QA 시스템에서 질의 패턴을 이용한 질의 확장 기법 (A Query Expansion Technique using Query Patterns in QA systems)

  • 김혜정;부기동
    • 한국산업정보학회논문지
    • /
    • 제12권1호
    • /
    • pp.1-8
    • /
    • 2007
  • QA(질의응답) 시스템은 질의에서 요구하는 정답 유형 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 혹은 다른 문법적 정보를 가진 카테고리로 등장하여 정답 추출에 어려움이 따른다. 따라서 본 논문은 질의에서 사용된 의미적으로 더 가까운 단어들로 구성되는 심층적 질의 카테고리의 질의 패턴을 이용한 질의 확장 방법론을 제안한다. 제안한 방법은 질의 유형에 따른 개념 리스트를 우선 구축하고, 학습 알고리즘에 의해 각 질의 카테고리에 대한 개념 리스트를 구축한다. 실험의 결과로서 제안한 방법의 성능이 향상되었음을 입증하였다.

  • PDF

지식 거래 서비스를 위한 규칙기반 시맨틱 검색 기법 (Rule-based Semantic Search Techniques for Knowledge Commerce Services)

  • 송성광;김영지;우용태
    • 디지털산업정보학회논문지
    • /
    • 제6권1호
    • /
    • pp.91-103
    • /
    • 2010
  • This paper introduces efficient rule-based semantic search techniques to ontology-based knowledge commerce services. Primarily, the search techniques presented in this paper define rules of reasoning that are required for users to search using the concept of ontology, multiple characteristics, relations among concepts and data type. In addition, based on the defined rules, the rule-based reasoning techniques search ontology for knowledge commerce services. This paper explains the conversion rules of query which convert user's query language into semantic search words, and transitivity rules which enable users to search related tags, knowledge products and users. Rule-based sematic search techniques are also presented; these techniques comprise knowledge search modules that search ontology using validity examination of queries, query conversion modules for standardization and expansion of search words and rule-based reasoning. The techniques described in this paper can be applied to sematic knowledge search systems using tags, since transitivity reasoning, which uses tags, knowledge products, and relations among people, is possible. In addition, as related users can be searched using related tags, the techniques can also be employed to establish collaboration models or semantic communities.

시맨틱 검색 시스템의 개념적 모형화와 그 구현에 대한 연구 (A Study on the Conceptual Modeling and Implementation of a Semantic Search System)

  • 한동일;권혁인;정학진
    • 지능정보연구
    • /
    • 제14권1호
    • /
    • pp.67-84
    • /
    • 2008
  • 본 논문은 시맨틱 검색 시스템에 관한 포괄적인 개념적 모델 제안과 실질적인 구현 사례를 제시한다. 제안된 시맨틱 검색 시스템은 개념적으로 3계층의 아키텍처 지식획득 계층, 지식표현 계층, 지식이용 계층으로 구성하여 설계 및 구현되었다. 지식획득(Knowledge acquisition) 계층은 다양한 소스(Source)의 콘텐츠(텍스트, 이미지, 멀티미디어등)로부터 시맨틱 메타데이터를 생성 및 저장하는 영역이다. 지식표현(Knowledge Representation) 계층은 온톨로지의 스키마와 인스턴스를 구축하고, 이러한 온톨로지 기반 질의 확장 등을 통해 시맨틱 검색을 처리하는 영역이다. 마지막으로 지식이용(Knowledge Utilization) 계층은 검색 이용자가 시맨틱 웹 언어 또는 온톨로지에 대한 지식이 없더라도 직관적으로 검색 질의(Query)를 입력하고 검색 결과를 확인할 수 있도록 구성하였다. 향후 제시된 시맨틱 검색 시스템은 기존 연구 수준의 시맨틱 검색 시스템을 상용화 수준으로 향상시킬 수 있는 계기가 될 것으로 기대된다.

  • PDF

TAKES: Two-step Approach for Knowledge Extraction in Biomedical Digital Libraries

  • Song, Min
    • Journal of Information Science Theory and Practice
    • /
    • 제2권1호
    • /
    • pp.6-21
    • /
    • 2014
  • This paper proposes a novel knowledge extraction system, TAKES (Two-step Approach for Knowledge Extraction System), which integrates advanced techniques from Information Retrieval (IR), Information Extraction (IE), and Natural Language Processing (NLP). In particular, TAKES adopts a novel keyphrase extraction-based query expansion technique to collect promising documents. It also uses a Conditional Random Field-based machine learning technique to extract important biological entities and relations. TAKES is applied to biological knowledge extraction, particularly retrieving promising documents that contain Protein-Protein Interaction (PPI) and extracting PPI pairs. TAKES consists of two major components: DocSpotter, which is used to query and retrieve promising documents for extraction, and a Conditional Random Field (CRF)-based entity extraction component known as FCRF. The present paper investigated research problems addressing the issues with a knowledge extraction system and conducted a series of experiments to test our hypotheses. The findings from the experiments are as follows: First, the author verified, using three different test collections to measure the performance of our query expansion technique, that DocSpotter is robust and highly accurate when compared to Okapi BM25 and SLIPPER. Second, the author verified that our relation extraction algorithm, FCRF, is highly accurate in terms of F-Measure compared to four other competitive extraction algorithms: Support Vector Machine, Maximum Entropy, Single POS HMM, and Rapier.

의미적 언어자원을 활용한 과학기술정보 검색 서비스 개선 (Improvement of Science and Technology Information Retrieval Service using Semantic Language Resource)

  • 조민희;최성필;최호섭;윤화묵
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.570-574
    • /
    • 2006
  • 현재 한국과학기술정보연구원의 과학기술정보 포털 서비스는 방대한 전문용어를 포함한 문서를 서비스하고 있으므로 포괄적인 질의어만으로는 사용자의 의도를 반영한 검색 결과를 얻을 수 없다. 따라서 본 연구에서는 의미적 언어자원으로 알려진 사용자 어휘지능망(U-WIN)의 동의어, 유의어, 관련어, 하위어, 상위어 관계 정보를 활용하여 검색어 자동 추천, 관련 단어 제시, 질의어 확장 등을 서비스에 반영하는 사용자 중심의 검색 서비스 요소를 제안한다. 이러한 어휘지능망의 의미 관계 정보를 활용한 서비스 요소를 통해 현재의 과학기술정보서비스의 검색 만족도를 향상시키는 동시에 사용자가 요구하는 정보를 빠르고 정확하게 검색할 수 있는 서비스 환경으로 개선시키고자 한다.

  • PDF

질의 응답 시스템에서 심층적 질의 카테고리의 개념 커버리지에 기반한 의미적 질의 확장 (Semantic Query Expansion based on Concept Coverage of a Deep Question Category in QA systems)

  • 김혜정;강보영;이상조
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.297-303
    • /
    • 2005
  • 질의응답(Question Answering) 시스템은 질의에서 요구하는 정답 유형(Answer type) 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 흑은 다른 문법적 정보를 가진 카테고리에 등장하여 정답 추출에 어려움이 따른다. 만약, 질의에서 요구하는 정보유형을 보다 깊게 세분화하고, 세분화된 질의 유형과 개념적으로 유사한 문장을 대상으로 정답 추출을 수행할 수 있다면 보다 정확한 정답을 추출할 수 있을 것이다. 따라서, 본 논문은 심층 질의 카테고리의 개념 커버리지에 기반한 효과적인 의미적 질의 확장 방법론을 제안한다. 질의에서 요구하는 정보 유형을 보다 세분화된 심충 질의 카테고리로 나누고, 이러한 심층 질의 카테고리를 표현하기 위해 동원되는 어휘 집합에 질의 확장을 적용함으로써 정답 추출의 성능을 향상시키고자 하였다. 제안된 시스템의 성능 평가를 위하여, TREC 문서 중 1991년도 WSJ(Wall Street Journal) 42,654건과 TREC-9의 질의를 대상으로 실험한 결과 질의 확장을 수행하지 않는 시스템의 경우 MRR(Mean reciprocal ratio) 측정에서 0.223의 결과를 보인 반면 제안된 시스템의 경우 0.50의 향상된 결과를 보였다.