• Title/Summary/Keyword: Information Retrieval Engine

검색결과 136건 처리시간 0.025초

질의어 의미정보와 사용자 피드백을 이용한 웹 검색엔진의 성능향상 (Improving Performance of Web Search Engine using Query Word Senses and User Feedback)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제8권2호
    • /
    • pp.280-285
    • /
    • 2007
  • 본 논문에서는 웹 정보검색 시스템의 사용자 질의어와 색인에 기반한 검색 과정에서 나타나는 중의성을 해소하기 위해 질의어 의미정보와 사용자 피드백을 사용하여 검색 성능을 향상시키기는 방법을 제안한다. 의미 정보를 이용한 질의어 중의성 해소 과정은 결과 문서집합에서 의미적으로 무관한 많은 문서들을 배제함으로써 검색 정확도를 크게 높일 수 있는 매우 중요한 처리 과정이다. 검색의 색인어가 되는 명사 중심의 의미범주 분류를 이용하여 의미정보 지식베이스를 구축하고, 웹 문서들을 색인어와 사용되는 의미범주로 분류한다. 사용자의 질의 의미 선택과 정답문서에 대한 참조 행위를 피드백 정보로 웹 페이지의 순위 결정에 반영하여 검색시스템의 성능을 향상시킬 수 있다.

  • PDF

순차적 전달방식(STM)을 이용한 분산정보검색시스템의 설계 및 알고리즘 구현 (Design and Algorithm Implementation of a Distributed Information Retrieval System using Sequential Transferring Method(STM))

  • 윤희병;김용한;김화수
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.603-610
    • /
    • 2004
  • 분산검색시스템은 중재자 또는 메타검색엔진에 의한 중앙통제로 인하여 중앙 시스템에 트래픽이 집중된다. 또한 중앙통제를 위한 복잡한 알고리즘의 설계와 별도의 하드웨어 설치 등의 비용 증가 문제가 발생한다. 따라서 이러한 문제를 해결하기 위해 여러 검색시스템이 서로 독립적인 검색기능을 가지면서도 중앙의 통제를 받지 않으면서 상호 협조할 수 있는 방식이 필요하다. 본 논문에서는 분산검색시스템과 관련된 여러 연구를 살펴보고 다중의 정보검색시스템이 중앙의 통제를 받지 않는 순차적 전달방식(STM)을 이용한 분산정보검색시스템의 Framework를 설계하며 이와 관련된 알고리즘을 구현한다 이를 위해 먼저 웹을 논리적으로 분할하여 관리하는 웹 분할 정책을 제시하며, 검색시스템의 수에 따른 순차적인 질의 처리방식을 각각 예제를 통해 설명한다. Framework에 적합한 정보검색시스템의 3 Layer구조와 각 Layer별 기능과 모듈을 또한 제시한다. 마지막으로, STM 알고리즘의 효율적 구현을 위하여 모듈 구조를 분석하고 이의 pseudocode 표현을 제시하며 서버간 순차적 질의 전달 시연과정을 통해 제안한 SIM 알고리즘이 효율적으로 동작함을 보여준다.

초등학생 정보검색 방법에 대한 연구 (The Study on Information Retrieval Methods for Elementary School Students)

  • 장세지;전석주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.227-230
    • /
    • 2014
  • 현대인들은 인터넷의 등장과 함께 지식정보의 풍요 속에 살고 있다. 지식정보의 풍요는 언제, 어디서나 내가 원하는 정보를 탐색 및 검색, 분석, 생성할 수 있다는 것을 의미한다. 지식정보화 사회에 초등학교 현장에서 가장 흔히 활용되는 능력은 정보검색이다. 정보검색은 쉬워 보이지만, 넘쳐나는 정보의 홍수 속에서 올바르고 정확한 정보를 찾아내기란 초등학생들에게 어려운 일이 아닐 수 없다. 이에 본 연구에서는 웹기반에서의 초등학생들이 학습주제에 따라 효율적으로 활용할 수 있는 정보검색방법에 대해 논하고자 한다.

  • PDF

오픈 소스 프레임워크를 활용한 검색엔진 구현 (Implement on Search Machine using Open Source Framework)

  • 송현옥;김아용;정회경
    • 한국정보통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.552-557
    • /
    • 2015
  • IT 기술 발전과 스마트 기기들의 사용 증가로 인해 인터넷에서는 많은 데이터가 생산되고 소비된다. 이로 인해 정보 검색 기술의 중요성이 높아지고 있지만 정보 검색 기술은 많은 배경 지식을 요구하여 접근하기 어려운 기술로 인식되고 있다. 그러나 Luene의 등장으로 인해 검색 기술에 대한 배경 지식이 부족해도 Lucene을 사용하여 검색 엔진을 구현할 수 있는 배경을 마련되었다. 본 논문에서는 Lucene 기반으로 개발된 프레임워크들을 사용하여 검색엔진을 구현하는 방법에 대해 제안한다. 제안하는 검색엔진에 사용되는 프레임워크들은 Hadoop과 Nutch, Solr, Zookeeper를 사용하여 분산처리와 분산저장, 그리고 고가용성을 지원하는 서버 환경을 보장한다.

웹 사용자의 선호도 추출을 위한 지능모델 설계 및 평가 (Design & Evaluation of an Intelligent Model for Extracting the Web User' Preference)

  • 김광남;윤희병;김화수
    • 한국지능시스템학회논문지
    • /
    • 제15권4호
    • /
    • pp.443-450
    • /
    • 2005
  • 본 논문에서는 웹 사용자의 선호도를 추출하기 위한 지능적 모델을 제안하고 이에 대한 평가결과를 제시한다. 이를 위해 현재 정보검색엔진의 문제점을 분석하고, 선호도 가중치를 학습기에 반영한다. 이것은 키워드에 의한 단어별 빈도수에 의존하지 않고 지능적으로 사용자의 행동유형을 학습하게 함으로써 질의에 대한 결과집합을 사용자의 의도에 맞게 제공하는 메커니즘이다. 다음으로 선호도 유행성에 대한 개념과 고려요소를 제안하며, 선호도 추출 알고리즘과 이에 대한 예를 제시한다. 또한 행동유형 추출을 위한 지능모델을 설계하고 HTML 색인과 선호도 결정 지능학습과정을 제안한다. 마지막으로 선호도를 적용한 후의 문서 랭킹 측정결과를 비교함으로써 본 논문에서 제안한 모델의 타당성을 검증한다.

중요 여행 정보를 찾기 위한 지능 검색 시스템 (Intelligent Retrieval System for finding important travel information)

  • 윤은일;신현일;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권11호
    • /
    • pp.113-121
    • /
    • 2009
  • 최근 주 5일 근무의 시행범위가 확대되면서 여가활동에 대한 관심이 증대되고 있다. 또한 인터넷과 모바일 인프라가 널리 보급되어 특정 정보를 필요로 하는 사용자들은 검색 엔진을 이용하여 원하는 정보를 얻을 수 있게 되었다. 그러나 공유되는 정보의 양이 급속하게 증가함에 따라, 검색되는 정보는 많지만 사용자가 원하는 정확한 정보만을 제공받기는 쉽지 않다. 단적인 예로, 여행 정보의 경우사용자들은 자신이 필요한 정보를 검색하지만, 그 결과로는 수많은 여행 상품의 광고들을 보게 된다. 이 논문에서는 정보 수집 에이전트를 이용하여 여행 정보 검색 시스템(TIRS)을 설계하고 구현한다. 정보 수집 에이전트는 포털 사이트의 여행 관련 카테고리 페이지와 주요 언론사들의 여행 기사 페이지를 주기적으로 방문하여 여행과 관련된 정보를 수집하고, 수집된 정보를 데이터베이스에 저장한다. 이를 이용하여 사용자들은 여행에 관련된 정보를 얻기 위해 여러 광고들에 둘러싸일 필요 없이 TIRS의 질의서버를 통하여 필요한 정보를 간편하게 검색할 수 있다.

XML DOM을 이용한 웹문서 검색 알고리즘 (Retrieval algorithm for Web Document using XML DOM)

  • 김노환;정충교
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권6호
    • /
    • pp.775-782
    • /
    • 2001
  • 현재까지 웹 검색엔진은 각 문서가 어떤 키워드를 얼마나 갖고 있는지, 키워드의 빈도수에 따라서, 문서에 키워드를 많이 포함하는 문서가 가까운 문서라는 가정에 의거 문서 순위를 사용자에게 보여주는 형태였다. 이런 형태의 검색은 HTML 웹 데이터처럼 구조적인 정보를 포함하지 않은 일반 문서형태의 경우 키워드의 발생빈도를 고려하는 형태에서는 별 문제가 없지만 구조적인 정보를 갖고 있는 XML로 표현된 웹 데이터일 경우에는 그래프 형태의 모델표현이 가능하기 때문에 단순히 키워드의 빈도만을 고려하는 형태로서는 바른 검색결과를 얻을 수 없다. 따라서 XML 문서의 구조적인 특성을 최대한 활용하여 SQL과 유사한 형태의 질의를 통하여 원하는 데이터만을 추출한다면 단순히 키워드에 의존하는 형태의 질의를 탈피하며 보다 분명한 검색결과를 획득할 수 있다고 생각한다. 본 논문에서는 XML DOM을 이용하여 XML 데이터의 정보검색 시스템을 모델링하고, 이와 관련된 알고리즘을 제안하고자 한다.

  • PDF

영상 분할을 이용한 영역기반 내용 검색 알고리즘 (Region-based Content Retrieval Algorithm Using Image Segmentation)

  • 이강현
    • 전자공학회논문지CI
    • /
    • 제44권5호
    • /
    • pp.1-11
    • /
    • 2007
  • 영상 정보의 이용이 증가함에 따라 영상을 효율적으로 관리할 수 있는 시스템의 필요성이 증가하고 있다. 이에 따라, 본 논문에서는 영상 분할 알고리즘, 색상 특성, 질감, 그리고 영상의 형태와 위치 정보의 효율적인 결합에 근거한 영역기반 내용 검색 알고리즘을 제안한다. 색상 특징으로는 색상의 공간적인 상관관계를 잘 나타내는 HSI 색상 히스토그램을 선택하였고, 영상의 분할과 질감특성은 각각 Active control와 CWT(Complex wavelet transform)를 사용하였다. 그리고 형태와 위치 특징들은 HSI의 휘도 성분에서 불변 모멘트를 이용하여 추출하였다. 효율적인 유사도 측정을 위해 추출된 특징(색상 히스토그램, Hu 불변 모멘트, CWT)을 결합하여 정확도와 재현율을 측정하였다. www. freefoto.com에서 제공하는 DB를 사용하여 실험한 결과, 제안된 검색엔진은 94.8%의 정확도와 82.7%의 재현율을 가지며 성공적으로 영상 검색 시스템에 응용할 수 있다.

Korean-Chinese Person Name Translation for Cross Language Information Retrieval

  • Wang, Yu-Chun;Lee, Yi-Hsun;Lin, Chu-Cheng;Tsai, Richard Tzong-Han;Hsu, Wen-Lian
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.489-497
    • /
    • 2007
  • Named entity translation plays an important role in many applications, such as information retrieval and machine translation. In this paper, we focus on translating person names, the most common type of name entity in Korean-Chinese cross language information retrieval (KCIR). Unlike other languages, Chinese uses characters (ideographs), which makes person name translation difficult because one syllable may map to several Chinese characters. We propose an effective hybrid person name translation method to improve the performance of KCIR. First, we use Wikipedia as a translation tool based on the inter-language links between the Korean edition and the Chinese or English editions. Second, we adopt the Naver people search engine to find the query name's Chinese or English translation. Third, we extract Korean-English transliteration pairs from Google snippets, and then search for the English-Chinese transliteration in the database of Taiwan's Central News Agency or in Google. The performance of KCIR using our method is over five times better than that of a dictionary-based system. The mean average precision is 0.3490 and the average recall is 0.7534. The method can deal with Chinese, Japanese, Korean, as well as non-CJK person name translation from Korean to Chinese. Hence, it substantially improves the performance of KCIR.

  • PDF

독립적인 질의 경로들을 사용하여 이질적인 문서들을 검색하는 XML 문서 검색 모델 (XML Document Retrieval Models for Heterogeneous Data Set using Independent Regular paths)

  • 유신재;민경섭;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권1_2호
    • /
    • pp.140-152
    • /
    • 2003
  • XML 문서는 태그를 가지고 있고 이 태그가 중첩됨에 따라 구조를 나타낼 수 있다. XML 문서가 DTD를 가지지 않거나 여러 곳에서 XML 문서를 모았을 때 그 구조는 비정규적 일 수 있다. 사용자는 이러한 비정규적인 구조에 대해 잘 알기 어려우며 설사 잘 알고 있다고 하더라도 실수하기 쉽다. 특히 비정규적인 구조를 가지는 문서들에 대해 정확한 구조질의를 작성하는 것은 더욱 어렵다. 따라서 사용자는 구조가 없거나 있다 하더라도 적은 양의 구조정보 만을 기술하는 일반적인 질의를 작성하게 된다. 이런 환경에서 구조 정보를 이용하여 문서의 순위결정에 이용하고 사용자 구조 질의와 문서 구조간의 차이에 대해 보상해 주는 검색 모델을 제안한다. 질의 처리를 단순화하기 위하여 질의 경로간의 독립을 가정하였다 이 가정은 질의 언어의 표현능력의 저하를 가져올 수 있는데 이를 해결하는 질의 모델도 제시한다. 지금까지 어떤 문서를 위한 테스트 컬랙션이 없었기 때문에 TIPSTER 컬랙션에서 일부 문서를 추출하여 작은 테스트 컬랙션을 만들고 여기에 구조가 없는 질의를 수행하여 제시한 검색 모델의 유용성을 보였다. 실험 결과 벡터 모델에 비하여 평균 67%의 정확률 개선효과를 얻을 수 있었다.