• 제목/요약/키워드: 웹 검색어

검색결과 263건 처리시간 0.026초

Web 검색 엔진의 제목과 문서요약을 이용한 동위어와 문맥의 발견 (Discovery of Coordinate Terms and Context using the Title and Snippet in Web Search)

  • 한상용;이상훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.210-215
    • /
    • 2007
  • 웹상에서의 정보량이 증가함에 따라, 사용자가 알고 싶어 하는 단어에 대해서 연관된 단어를 통해서 이해하게 된다. 동위어란 공통의 상위어를 가지는 단어이다. 이를 위한 기존의 연구로서 동위어와 상위어, 하위어 등을 찾는 연구는 많이 있었지만, 웹상의 문서를 이용하여 거대한 코퍼스를 해석해서 결과를 구하는 데 많은 시간이 소요되었다. 이에 본 논문에서는 사용자의 질의어에 대해서 웹 검색엔진이 가지는 제목과 문서요악으로부터 동위어와 문맥을 빠른 시간 안에 발견하는 방법에 대해 제안한다. 어떤 단어에 대한 동위어가 병렬조사 #와#로 접속되는 것을 이용하여 웹 검색 엔진에 대한 질의어를 작성하고, 그 검색 결과로부터 동위어를 얻는다. 이와 동시에 발견된 동위어와 질의어의 배후에 있는 문맥도 얻는다. 이를 통해, 웹 검색에 있어서 질의어의 확장과 비교 대상의 발견 등 폭넓은 분야에서도 적용가능하다고 할 수 있다.

  • PDF

질의어 의미별 사용자 선호도를 이용한 웹 검색의 성능 향상 (Improving Performance of Web Search using The User Preference in Query Word Senses)

  • 김형일;김준태
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1101-1112
    • /
    • 2004
  • 본 논문에서는 웹 검색의 성능 향상을 위해 질의어 의미별 사용자 선호도를 이용한 웹 페이지의 가중치 부여 방식을 제안한다. 일반적으로 검색엔진들은 검색 질의어와 웹 페이지의 어휘 비교에 의한 관련도 측정만을 사용하여 웹 페이지의 가중치를 부여한다. 웹과 같이 방대한 자료를 대상으로 검색을 할 경우 유사한 관련도를 가진 검색 결과가 매우 많으므로 어휘 비교만으로는 중요한 웹 페이지를 선별하기 어렵다. 본 논문에서는 질의어의 의미를 구분하도록 워드넷(WordNet)을 이용한 사용자 인터페이스를 구축하고, 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 검색 행위에 의한 묵시적 평가가 웹 페이지의 검색 순위에 반영되는 검색 시스템을 구현하였다. 클릭수의 누적에 있어서 질의 어 의미별로 가중치를 구분하여 저장함으로써 일반적인 검색엔진보다 정확한 검색이 되었으며, 웹 페이지의 범주별 가중치와 질의어의 의미별 사용자 선호도를 이용함으로써 검색 시스템의 성능을 향상시킬 수 있다는 것을 20개의 어휘에 관련된 41개의 의미들을 대상으로 실험한 결과로 확인하였다.

개념 그래프를 이용한 개념 기반 검색시 검색 질의어의 문맥 확장 (Context Extension In Concept-based Searching Using the Conceptual Graph)

  • 배환국;전성진;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.331-333
    • /
    • 2002
  • 웹그래프는 웹문서 간의 하이퍼링크를 각 웹문서의 핵심어간의 링크관계로 추상화하대 이 관계를 이용하여 핵심어의 개념 그래프를 구축하고 질의의 확장이나 영역지식을 제공하는 개념 기반 검색이 가능한 검색 시스템이다 본 논문에서는 웹그래프에서 가능했던 질의어에 대한 한 단계의 질의 확장에 그치지 않고. 최초의 질의어와 이후 확장어들에 대한 문맥을 유지하대 추가적인 다단계의 확장이 가능하도록 하는 방법을 계시한다. 검색 시스템 사용자는 최초 질의어가 속하는 해당 분야에 대한 지식이 부족한 경우, 문맥을 유지한 확장을 통하여 자신이 찾고자 하는 바를 명확히 해 나가며 세부 질의를 구축할 수 있고 해당 분야에 대한 지식을 얻는 것이 가능하다

  • PDF

질의어 의미정보와 사용자 피드백을 이용한 웹 검색엔진의 성능향상 (Improving Performance of Web Search Engine using Query Word Senses and User Feedback)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제8권2호
    • /
    • pp.280-285
    • /
    • 2007
  • 본 논문에서는 웹 정보검색 시스템의 사용자 질의어와 색인에 기반한 검색 과정에서 나타나는 중의성을 해소하기 위해 질의어 의미정보와 사용자 피드백을 사용하여 검색 성능을 향상시키기는 방법을 제안한다. 의미 정보를 이용한 질의어 중의성 해소 과정은 결과 문서집합에서 의미적으로 무관한 많은 문서들을 배제함으로써 검색 정확도를 크게 높일 수 있는 매우 중요한 처리 과정이다. 검색의 색인어가 되는 명사 중심의 의미범주 분류를 이용하여 의미정보 지식베이스를 구축하고, 웹 문서들을 색인어와 사용되는 의미범주로 분류한다. 사용자의 질의 의미 선택과 정답문서에 대한 참조 행위를 피드백 정보로 웹 페이지의 순위 결정에 반영하여 검색시스템의 성능을 향상시킬 수 있다.

  • PDF

자연어 질의 분석과 검색어 확장에 기반한 웹 정보 검색 (Web Information Retrieval based on Natural Language Query Analysis and Keyword Expansion)

  • 윤성희;장혜진
    • 정보관리학회지
    • /
    • 제21권2호
    • /
    • pp.235-248
    • /
    • 2004
  • 웹 문서 정색을 위해 키워드와 불리언 연산식을 사용하는 것에 비해 자연어 질의 문장을 입력하는 방법은 검색 시스템 사용자에게 훨씬 이상적인 인터페이스이다. 본 논문은 사용자가 입력하는 자연어 질의 문장을 구문 분석하고 그 구문 구조에 기반하여 검색어를 확장하는 다중 검색 기법을 제안한다. 구문 트리를 순회하여 구조적으로 연관된 복합 명사를 조합하거나 분할하는 과정을 거치고, 이형 표기 및 축약 표기 용어들에 대해 확장 다중 검색함으로써 웹 정보 검색 시스템의 재현율과 정확도를 높일 수 있다.

웹 문서 검색을 위한 검색어 추출과 확장에 관한 연구 (A Study on Keyword Extraction and Expansion for Web Text Retrieval)

  • 윤성희
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.1111-1118
    • /
    • 2004
  • 웹 문서 검색 시스템 사용자에게 자연어 질의를 입력하는 방법은 가장 이상적인 인터페이스이다. 본 논문은 자연어 질의를 입력하는 웹 문서 검색 시스템을 위해 자연어 처리 기술에 기반하여 사용자의 입력 질의 문장을 구문 분석한 후 검색어를 추출하고 확장하는 다중검색 기법을 제안한다. 질의문에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하며, 검색어가 되는 음역어와 축약어들을 확장하여 다중 검색함으로써 재현율과 정확도를 향상시킬수 있음을 보였다.

  • PDF

개인화된 웹 검색을 위한 선호 기준 분석 (Analysis of Preference Criteria for Personalized Web Search)

  • 이수정
    • 컴퓨터교육학회논문지
    • /
    • 제13권1호
    • /
    • pp.45-52
    • /
    • 2010
  • 웹 문서 수의 급증으로 인해 인터넷을 검색할 때마다 발생하는 정보의 과부하 문제가 심각하게 부각되었다. 웹 검색 결과를 개선하기 위하여 개발된 기존의 알고리즘들은 주로 사용자의 질의어 및 선호어와 문서의 링크수를 이용하였다. 본 연구에서는 실험을 통하여 이 두가지 요소들을 이용한 검색 결과의 성능을 알아보고 이들 요소들 외에 선호하는 웹문서의 선택 기준을 조사 분석하였다. 실험 결과 질의어 및 선호어를 이용한 개인화된 검색 결과는 현 검색 엔진에 비해 최대 약 1.7배의 성능 향상을 가져 왔으며, 링크수를 이용한 검색 결과는 최대 약 1.3배의 향상을 보였다. 사용자가 웹문서를 선호하는 기준은 문서 내용이 최우선이었으나, 가독성과 문서가 포함한 이미지도 큰 비중을 차지하였다. 따라서 질의어 및 선호어 개수 이외에 각 사용자의 성향에 부합하는 객관적 데이터를 추가적으로 활용한다면 웹 검색 개인화 알고리즘의 성능이 크게 향상될 수 있을 것이다.

  • PDF

워드넷 기반 협동적 평가와 하이퍼링크를 이용한 검색엔진의 성능 향상 (Improving Performance of Search Engine By Using WordNet-based Collaborative Evaluation and Hyperlink)

  • 김형일;김준태
    • 정보처리학회논문지B
    • /
    • 제11B권3호
    • /
    • pp.369-380
    • /
    • 2004
  • 본 논문에서는 정색엔진의 성능 향상을 위하여 질의어의 모호성 해결과 새로운 가중치 부여 방식을 제안한다. 일반적인 검색엔진은 질의어의 형태와 같은 것들이 포함되어 있는 웹 페이지를 결과로 보여주는 내용기만 방식을 사용하고 있다. 검색 결과로 나타난 웹 페이지들의 순위를 결정하는데 있어서도 주어진 질의어와 웹 페이지 사이의 키워드 매칭에 의한 내용기반 방식을 사용한다. 이와 같이 질의어의 형태만으로 웹페이지들과 유사도를 비교한다는 것은 정확한 검색에 많은 장애를 준다. 또한 질의어의 의미에 모호성이 존재할 경우에는 사용자의 의도와 관련 없는 것들이 결과로 나타나기도 한다. 이러한 원인의 발생은 일반적인 검색엔진들이 내용기반 방법을 기반으로 웹 검색에 이용되기 때문이다. 본 논문에서는 질의어에 모호성이 있는 경우 워드넷을 이용하여 모호성을 해결하도록 하는 사용자 인터페이스를 구현했다. 그리고 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 협동적 평가에 따른 웹 페이지의 중요도가 검색 순위에 반영되도록 하였다. 클릭수의 누적에 있어서 질의어의 의미 카테고리별로 가중치를 구분하여 저장함으로써 보다 세분화된 웹 페이지 가중치 부여 방식을 사용하였다 그리고 점 페이지의 하이퍼링크를 웹 페이지의 가중치에 적용하였다. 웹 페이지의 가중치에 하이퍼링크를 적용함으로써 웹 페이지의 대표성을 가중치에 부여하여 가중치에 신뢰도를 증가시켰다. 실험용 정색엔진이 일반 검색엔진에 비해 높은 검색 정확도를 나타내는 것을 실험을 통해 확인하였다.

의미검색을 위한 지식표현 연구 (A Study on Knowledge Representation for Semantic Search)

  • 김명관;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.31-33
    • /
    • 2003
  • 웹은 사람만이 읽을 수 있는 자연언어 문장들로 구성되어있다. 웹을 기계가 이해할 수 있게 하기 위해 의미적 표기로 구성되어야 한다. 광대한 웹의 성격상 수작업으로 이를 해결할 수는 없다. 따라서 본 연구에서는 링크 파서 및 개념그래프를 사용하여 자연어 문장을 지식표현으로 변환하고 이에 대한 검색을 다룬다. 기존의 연구에서는 3쌍으로 이루어진 지식표현과 검색으로 접근하고 있다. 그러나 이 경우 각 구(Phrase) 사이에 관계를 표현할 수가 없다. 또한 동의어 및 다의어에 대한 문제가 발생한다. 본 연구에서는 이 문제를 해결하기 위해 개념그래프를 사용하여 단어 사이의 의미를 표현하며 동의어 및 다의어 문제를 해결하기 위해 다중 단어로 된 동의어 즉 동일구(Paraphrase)를 사용한다. 이 경우 의미검색에서 다의어 및 동의어 문제가 개선됨을 보였다.

  • PDF

웹 디렉토리 서비스를 위한 문서 클러스터링 (Document Clustering for Web Directory Service)

  • 이문기;권오욱;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.351-353
    • /
    • 2000
  • 대부분의 검색 엔진에서의 사용자의 정보 검색 요구에서 나타나는 키워드 장벽의 문제점을 해결하고 사용자의 정보 검색 과정에 도움을 주기 위해 디렉토리 서비스를 제공한다. 하지만 디렉토리 서비스에서 새로운 웹 사이트를 지속적으로 인덱스하여 하나의 주제어에 너무 많은 수의 웹 사이트가 부여되어 있으면 사용자의 검색 편의를 위해서 재분류하여 세분류할 필요가 있다. 따라서 본 논문에서는 한 주제어에 과다하게 부여된 웹 사이트들을 세분류하기 위해 기존의 문서 클러스터링 기법을 사용하여 클러스터링 할 때 생기는 문제점을 보완한 문서 클러스터링 시스템을 소개한다.

  • PDF