• 제목/요약/키워드: 확장검색어

검색결과 200건 처리시간 0.025초

An XML Tag Search System By Using Thesaurus (시소러스를 이용한 XML 태그 검색 시스템)

  • 양승원;노희영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.145-147
    • /
    • 2000
  • 현재 웹 기술은 HTML에서 정보를 표현하는 외형과 내용을 분리하여 정보를 구조화할 수 있는 XML을 사용하고 있다. 구조적으로 구성된 XML은 새로운 정보 검색의 방법을 제시하였다. 즉, 태그를 이용한 정보검색으로 검색어에 의미를 부여함으로써 정보 검색자에게 좀더 효율적인 검색을 가능하게 하였다. 그러나 이러한 구조화 문서 검색 기법은 정확한 태그를 입력하였을 경우에만 결과를 얻을수 있는 단점을 지니고 있다. 따라서 본 논문에서는 XML문서의 태그 검색에 있어 정확한 태그 검색을 확장한 유사 태그 검색기법을 설계하고 구현하였다. 유사한 태그를 검색하기 위하여 시소러스를 구성하였으며, 작성된 시소러스를 이용하여 유사한 태그에 대한 검색을 수행하였다. 기존의 XML문서 검색 시스템은 정한 태그에 대한 검색만을 수행할 수 있는 반면, 본 시스템은 태그검색에 있어 시소러스를 활용함으로써 질의에 입력되어진 태그와 유사한 태그에 대한 검색 결과를 보여줌으로써 사용자에게 질의어 선정의 불편함을 감소시켰다.

  • PDF

Design of XPath Query Processor in Decomposition Storage System (분할 저장 시스템에 적합한 XPath 질의 처리기 설계)

  • 고영기;홍의경
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.52-54
    • /
    • 2002
  • 인터넷에서 XML은 고유의 확장성과 문서 관계성의 우수성을 활용하여 새로운 정보 공유 환경의 표준으로 자리잡고 있으며 XML문서 안의 정보 검색을 위해서 XPath 질의어가 널리 사용 중이다. 따라서, XML 문서를 데이터베이스에 효율적으로 저장하고 검색하는 연구들이 진행되고 있다. 본 연구는 관계형 데이터베이스(RDBMS)를 통하여 XML문서를 저장하고 검색할 수 있게 하기 위해 XPath 질의어에 적합하도록 하부 저장 스키마를 설계하였다. 그리고, XPath 질의를 SQL문으로 변화시켜 수행함으로써 XML 데이터에 대한 접근을 허용하였다. 더욱이 SQL문 수행 후의 결과를 효율적으로 DOM 형식의 XML 문서를 생성시킴으로써 문서의 재 조작을 가능하게 하였다.

  • PDF

Document filtering for automatic construct ion of Answer Set (Answer set 자동 구축을 위한 문서 필터링)

  • Jeong, Yong-Kyo;Shin, Seug-Eun;Oh, Hyo-Jung;Jang, Myung-Gil;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.253-258
    • /
    • 2002
  • 본 논문은 의미기반 정보검색 소프트웨어 기술에서 정답 문서 자동 구축을 위한 문서 필터링기법을 제안한다. 문서 필터링은 1차 질의어와 문서간의 유사도와 2차 질의어와 문서간의 유사도를 이용하여 이루어지며, 1차 질의어와 문서간의 유사도를 구하기 위하여 개념 망과 백과사전 정보를 이용한 1차 질의어 확장 과정을 수행하고, 화장된 질의어와 문서와의 유사도를 계산한다. 1차 확장 질의어를 이용해 얻어진 결과 중 유사도가 상위 10%에 속하는 문서를 이용하여 2차 질의어 확장을 한다. 2차 질의어 확장은 상위 10% 문서에 출현하는 명사중 문서 출현 빈도가 임계치 이상인 명사를 선택하여 이루어지고, 그것을 이용하여 문서의 유사도를 계산한다. 이렇게 얻어진 두 가지의 유사도를 결합하여 문서들을 순위화하고 Accept Point를 이용하여 문서를 필터링한다.

  • PDF

A Study of Designing the Knowledge Base System for the Query Extension by Index File (색인파일 기반의 질의어 확장용 지식베이스 구축에 관한 연구)

  • Seo, Whee
    • Journal of Korean Library and Information Science Society
    • /
    • 제40권2호
    • /
    • pp.139-159
    • /
    • 2009
  • This study is to develop knowledge base system for query extension to the user oriented information retrieval. This study has survey the theories of the concept-based information retrieval method and statistic based information retrieval method. In the construction method of knowledge base, the common hypothesis is that the emergence of related term is the frequency of simultaneous emergence of a set of documents. Using the subject index file algorithms and the 'and' operator of boolean logic based on this hypothesis, this study builds the knowledge base. In this research experiment, a subject of knowledge base is education. Using the book of the Introduction to Education, two experimental knowledge base systems is constructed by the different indexing method. One system has constructed by controlled language indexing method, and another system has constructed by natural language indexing method. The performance of two knowledge base system is evaluated.

  • PDF

A Knowledge Based Thesaurus for Intelligent Information Retrieval (지능형 정보검색을 위한 지식 기반 시소러스)

  • 정정호;김민구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.12-14
    • /
    • 1998
  • 지식구조로 시소러스를 이용하는 기존의 정보검색 시스템들이 사용자에게 만족할 만한 검색결과를 제시하지 못하고 있다. 이것은 기존의 정보검색 시스템들이 이용하고 있는 시소러스 구조가 사람의 지식구조와 다르고, 시소러스를 이용하는 검색 방법이 사람의 검색 방법과 차이가 있기 때문이다. 본 논문에서는 어떤 분야의 인간 전문가가 해당분야에 관한 전문지식이 없는 일반인이 필요로 하는 정보를 찾아주는 방법을 모델링한 지능형 정보검색 시스템을 개발하기 위하여 인간 전문가의 지식구조를 모방한 시소러스 구조를 설계하였고, 인간 전문가의 검색 방법을 모방한 검색 방법을 고안하였다. 설계된 시소러스 구조에는 인간 전문가의 지식구조 내에 표현되어 있는 여러 종류의 관계들이 포함되어있고, 고안된 검색방법은 관련도를 사용자의 질의어와 확장된 색인어 사이의 관계의 종류를 추론한 결과와 거리 단계를 고려하여 평가한다.

  • PDF

Personalized Web Search using Query based User Profile (질의기반 사용자 프로파일을 이용하는 개인화 웹 검색)

  • Yoon, Sung Hee
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • 제17권2호
    • /
    • pp.690-696
    • /
    • 2016
  • Search engines that rely on morphological matching of user query and web document content do not support individual interests. This research proposes a personalized web search scheme that returns the results that reflect the users' query intent and personal preferences. The performance of the personalized search depends on using an effective user profiling strategy to accurately capture the users' personal interests. In this study, the user profiles are the databases of topic words and customized weights based on the recent user queries and the frequency of topic words in click history. To determine the precise meaning of ambiguous queries and topic words, this strategy uses WordNet to calculate the semantic relatedness to words in the user profile. The experiments were conducted by installing a query expansion and re-ranking modules on the general web search systems. The results showed that this method has 92% precision and 82% recall in the top 10 search results, proving the enhanced performance.

A Study on the Content Utilization of KISTI Science and Technology Information Service (KISTI 과학기술정보서비스의 콘텐츠 활용 분석)

  • Kang, Nam-Gyu;Hwang, Mi-Nyeong
    • Journal of Internet Computing and Services
    • /
    • 제21권4호
    • /
    • pp.87-95
    • /
    • 2020
  • The Science and Technology Information Service provided by the Korea Institute of Science and Technology Information (KISTI) is a service designed to allow users to easily and conveniently search and view content that is built similar to the general information service. NDSL is KISTI's core science, technology and information service, providing about 138 million content and having about 93 million page views in a year of 2019. In this paper, various insights were derived through the analysis of how science and technology information such as academic papers, reports and patents provided by NDSL is searched and utilized through web services (https://www.ndsl.kr) and search query words. In addition to general statistics such as the status of content construction, utilization status and utilization methods by type of content, monthly/weekly/time-of-day content usage, content view rate per one-time search by content type, the comparison of the use status of academic papers by year, the relationship between the utilization of domestic academic papers and the KCI index we analyzed the usability of each content type, such as academic papers and patents. We analyzed query words such as the language form of query words, the number of words of query words, and the relationship between query words and timeliness by content type. Based on the results of these analyses, we would like to propose ways to improve the service. We suggest that NDSL improvements include ways to dynamically reflect the results of content utilization behavior in the search results rankings, to extend query and to establish profile information through non-login user identification for targeted services.

Query Extension of Retrieve System Using Hangul Word Embedding and Apriori (한글 워드임베딩과 아프리오리를 이용한 검색 시스템의 질의어 확장)

  • Shin, Dong-Ha;Kim, Chang-Bok
    • Journal of Advanced Navigation Technology
    • /
    • 제20권6호
    • /
    • pp.617-624
    • /
    • 2016
  • The hangul word embedding should be performed certainly process for noun extraction. Otherwise, it should be trained words that are not necessary, and it can not be derived efficient embedding results. In this paper, we propose model that can retrieve more efficiently by query language expansion using hangul word embedded, apriori, and text mining. The word embedding and apriori is a step expanding query language by extracting association words according to meaning and context for query language. The hangul text mining is a step of extracting similar answer and responding to the user using noun extraction, TF-IDF, and cosine similarity. The proposed model can improve accuracy of answer by learning the answer of specific domain and expanding high correlation query language. As future research, it needs to extract more correlation query language by analysis of user queries stored in database.

Query Extension and Component Retrieval Method using similarity (유사도를 이용한 질의 확장과 컴포넌트 검색 방법)

  • Jung, Dae-Sung;Han, Jung-Soo;Kim, Gui-Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1829-1832
    • /
    • 2003
  • 본 연구는 유의어 매트릭스를 이용하여 질의의 확장을 통한 컴포넌트 검색 과정을 기술하였다. 컴포넌트 검색은 질의를 입력하면 질의의 확장이 이루어지고 컴포넌트 사이의 신뢰도를 측정하여 검색한다. 신뢰도 계산을 위해서는 질의와 컴포넌트 사이에 유사한가를 나타내는 동치관계, 클래스의 가중치와 동치관계 값을 이용한 포함관계, 그리고 유사도를 계산한다. 끝으로 이들 값을 이용하여 신뢰도를 계산한 후 이 신뢰도 값에 의하여 유사 컴포넌트들을 검색하여 유사도 우선순위로 컴포넌트가 검색된다.

  • PDF

Intelligne information retrieval using latent semantic analysis on the internet (인터넷에서 잠재적 의미 분석을 이용한 지능적 정보 검색)

  • 임재현;김영찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • 제22권8호
    • /
    • pp.1782-1789
    • /
    • 1997
  • Most systems that retrieve distributed information on the Internet have difficulties in retrieving relevant information for they are not able to reflect exact semantics on retrieval queries that usersrequest. In this paepr, we propose an automatic query expansion based on ter distribution which reflects semantics of retrieval term to emhance the performance of information retrieval. We computed weight, indicating its overal imoritance in the collection documents and user's query and we use LSI's SVD technique to measure the term distribution which appears similar to query. And also, we measure the similarity to compared numerical value with query terms. Also we researched the method to reduce additional terms automatically and evaluated the performance of the proposed method.

  • PDF