• 제목/요약/키워드: web search engine

검색결과 247건 처리시간 0.024초

시멘틱 웹 기반 DQL 검색 시스템 설계 (Semantic Web based DQL Search System)

  • 김제민;박영택
    • 정보처리학회논문지B
    • /
    • 제12B권1호
    • /
    • pp.91-100
    • /
    • 2005
  • 인터넷의 등장 이후 폭발적으로 증대되는 웹 정보를 효율적으로 사용하기 위한 방안이 연구 되고 있다. 현재, 웹 서비스에서 사용하고 있는 키워드 기반 검색은 syntactic 정보만을 제공하므로 자신이 원하는 서비스를 받고자하는 사용자의 의도와는 상관없는 정보를 검색하여 제공하는 경우가 많다. 웹 서비스의 이러한 단점을 보완 하고자 시멘틱 웹(semantic web)기술이 제안되고 있는데, 시멘틱 웹을 이용하면 사용자가 원하는 의미와 일치하는 정보를 찾아줄 수 있다. 시멘틱 웹을 기반으로 만들어진 시스템은 BQL (Daml Query Language)을 이용한 시멘틱 검색(Semantic search)기법을 이용하고 있다. 시멘틱 검색은 사용자가 입력한 질의들을 해석하여 사용자의 원하는 정보와 의미가 같은 해답을 얻어내는 것이다. 이에 본 논문에서는 효율적인 정보 검색을 위해 시멘틱 엘 기반의 검색 시스템을 설계하는데 목적을 가지며, 효과적인 검색 시스템을 설계하기위해 사용자 중심의 키워드 형태 질의론 시스템 중심의 DQL로 변환하는 RDQL 변환기와 추론엔진을 불러내어 추론을 실행하는 RDQL 엔진을 제안한다.

인터넷 검색과 형태소분석을 이용한 표절검사시스템의 개발에 관한 연구 (Development of A Plagiarism Detection System Using Web Search and Morpheme Analysis)

  • 황인수
    • Journal of Information Technology Applications and Management
    • /
    • 제16권1호
    • /
    • pp.21-36
    • /
    • 2009
  • As the World Wide Web (WWW) has become a major channel for information delivery, the data accumulated in the Internet increases at an incredible speed, and it derives the advances of information search technologies. It is the search engine that solves the problem of information overloading and helps people to identify relevant information. However, as search engines become a powerful tool for finding information, the opportunities of plagiarizing have increased significantly in e-Learning. In this paper, we developed an online plagiarism detection system for detecting plagiarized documents that incorporates the functions of search engines and acts in exactly the same way of plagiarizing. The plagiarism detection system uses morpheme analysis to improve the performance and sentence-based comparison to investigate document comes from multiple sources. As a result of applying this system in e-Learning, the performance of plagiarism detection was improved.

  • PDF

RDF 기반 시맨틱 웹 시스템 설계 (Design for RDF-based Semantic Web System)

  • 이종원;장기만;김경환;양새동;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.684-686
    • /
    • 2014
  • 현재의 웹은 점점 늘어가는 데이터로 인해 효율적인 검색과 관리가 어려워지고 있다. 이를 타개하기 위한 방법으로 차세대 웹인 시맨틱 웹 기술이 개발되고 있으나, 기존에 사용되고 있는 검색엔진들은 시맨틱 웹 기술을 도입하지 않음에도 압도적인 국내 사용률을 독점하고 있다. 이로 인해 시맨틱 웹에 대한 개발은 더뎌지고 있으며, 검색엔진을 사용하는 사용자들 역시 시맨틱 웹의 사용을 꺼려하고 있다. 본 논문에서는 현재 사용되고 있는 웹과 차세대 웹을 비교분석하며, 시맨틱 웹 기술을 사용하는 검색엔진이 기존 웹 기술을 사용하는 검색엔진에 비해 사용률이 왜 낮고, 무엇 때문에 비효율적인지 연구하였으며, RDF 기반으로 시맨틱 웹을 설계하여 효율성을 높일 해결방법을 제시한다.

  • PDF

개인화 웹 검색 시스템 기반의 문서 요약 시스템 (A Document Summary System based on Personalized Web Search Systems)

  • 김동욱;강수용;김한준;이병정;장재영
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권3호
    • /
    • pp.357-365
    • /
    • 2010
  • 개인화 웹 검색 시스템은 사용자의 검색의도에 따라 질의어 확장, 검색 결과의 재순위화 등의 방법을 통하여 사용자에게 개인화된 검색 결과를 제공한다. 이를 위해 검색 시스템은 질의어와 사용자의 프로파일 정보를 활용하여 사용자의 검색 의도를 파악하고 분석하여, 검색 결과 페이지에 반영하여 보여주게 된다. 이때 검색 결과 페이지는 문서의 URL과 문서의 제목, 작은 텍스트 조각을 표시한다. 여기서 작은 텍스트 조각은 검색 질의어가 포함된 문서의 요약이며, 스니펫이라고 알려져 있다. 사용자는 이러한 문서의 요약을 통하여 웹 문서가 자신이 원하는 정보를 가진 문서인지를 판단하거나, 해당 URL에 직접 접속하지 않고도 원하는 정보를 얻을 수 있게 된다. 따라서 문서 요약은 사용자가 문서를 볼 것인지 아닌지에 대한 중요한 판단 기준이 되며, 만약 문서 요약 시스템이 개인화된 요약 결과를 제공한다면 사용자의 만족도는 더욱 증가할 것이다. 본 논문은 전체 웹 검색 시스템에서 검색 속도의 큰 하락없이 사용자의 만족도를 증가시킬 수 있는 개인화 문서 요약 시스템을 제안한다.

하이퍼텍스트 정보 관점에서 의도적으로 왜곡된 웹 페이지의 검출에 관한 연구 (Detecting Intentionally Biased Web Pages In terms of Hypertext Information)

  • 이우기
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.59-66
    • /
    • 2005
  • 웹(World Wide Web)은 정보의 저장 및 검색에 있어서 보편적인 매체가 되고 있다 웹에서는 일반적으로 검색엔진(Web search engine)을 통해 정보 검색을 수행하지만, 그 결과가 사용자의 요구와 늘 일치하는 것은 아니며 때로는 의도적으로 조작된 검색 결과가 제시되기도 한다. 웹 페이지에 대한 평가를 조작하는 것을 의도적 조작이라고 부른다. 최근에 가장 각광을 받는 링크 기반 검색 방식에는 의도적 조작이 상대적으로 어렵지만, 링크 기반 검색 방식의 대표격인 구글의 페이지 점수법(PageRank algorithm)도 구글밤처럼 조작할 수 있는 방법이 있다 본 논문에서는 기본적으로 링크 기반 검색 방식을 기초로 웹을 하나의 유향그래프(directed graph)로 인식하여 각 웹 페이지들은 하나의 노드로, 하이퍼텍스트 링크를 에지(edge)로 표현하며. 하이퍼텍스트 정보관점에서 링크 내역과 대상 페이지(target page) 사이의 유사도(similarity)를 구하고. 이것을 이용하여 페이지 점수화 (PageRank) 접근법의 전이 행렬(transition matrix)을 재구성하는 방법을 취했다 결과적으로 기존의 점수화 방법과 비교하여 효과가 $60\%$ 이상 될 수 있음을 입증했다.

  • PDF

Implementation of Annotation and Thesaurus for Remote Sensing

  • Chae, Gee-Ju;Yun, Young-Bo;Park, Jong-Hyun
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2003년도 Proceedings of ACRS 2003 ISRS
    • /
    • pp.222-224
    • /
    • 2003
  • Many users want to add some their own information to data which was on the web and computer without actually needing to touch data. In remote sensing, the result data for image classification consist of image and text file in general. To overcome these inconvenience problems, we suggest the annotation method using XML language. We give the efficient annotation method which can be applied to web and viewing of image classification. We can apply the annotation for web and image classification with image and text file. The need for thesaurus construction is the lack of information for remote sensing and GIS on search engine like Empas, Naver and Google. In search engine, we can’t search the information for word which has many different names simultaneously. We select the remote sensing data from different sources and make the relation between many terms. For this process, we analyze the meaning for different terms which has similar meaning.

  • PDF

질의어 의미별 사용자 선호도를 이용한 웹 검색의 성능 향상 (Improving Performance of Web Search using The User Preference in Query Word Senses)

  • 김형일;김준태
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1101-1112
    • /
    • 2004
  • 본 논문에서는 웹 검색의 성능 향상을 위해 질의어 의미별 사용자 선호도를 이용한 웹 페이지의 가중치 부여 방식을 제안한다. 일반적으로 검색엔진들은 검색 질의어와 웹 페이지의 어휘 비교에 의한 관련도 측정만을 사용하여 웹 페이지의 가중치를 부여한다. 웹과 같이 방대한 자료를 대상으로 검색을 할 경우 유사한 관련도를 가진 검색 결과가 매우 많으므로 어휘 비교만으로는 중요한 웹 페이지를 선별하기 어렵다. 본 논문에서는 질의어의 의미를 구분하도록 워드넷(WordNet)을 이용한 사용자 인터페이스를 구축하고, 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 검색 행위에 의한 묵시적 평가가 웹 페이지의 검색 순위에 반영되는 검색 시스템을 구현하였다. 클릭수의 누적에 있어서 질의 어 의미별로 가중치를 구분하여 저장함으로써 일반적인 검색엔진보다 정확한 검색이 되었으며, 웹 페이지의 범주별 가중치와 질의어의 의미별 사용자 선호도를 이용함으로써 검색 시스템의 성능을 향상시킬 수 있다는 것을 20개의 어휘에 관련된 41개의 의미들을 대상으로 실험한 결과로 확인하였다.

WebDBs: 사용자 중심의 웹 검색 엔진 (WebDBs : A User oriented Web Search Engine)

  • 김홍일;임해철
    • 한국통신학회논문지
    • /
    • 제24권7B호
    • /
    • pp.1331-1341
    • /
    • 1999
  • 본 연구에서는 SQL과 유사한 질의어를 사용하여 웹에 등록된 정보를 검색하는 시스템인 WebDBs(Web DataBase system)를 제안한다. 제안된 시스템에서는 웹에 산재되어 있는 HTML 문서로부터 검색에 필요한 정보들을 자동으로 추출한다. 추출된 자료에 대하여 SQL 기반의 질의 처리가 가능하도록 하였다. 웹 데이터베이스 시스템에서는 대부분의 질의 수행 시간이 통신 회선을 통한 문서 획득에 소요된다. 따라서, 웹 검색의 경우 웹 지역성에 많이 의존한다는 점에 착안하여, 사용자 검색 결과를 캐쉬에 저장하고 유사한 응용에서 이를 재사용 하고자 한다. 이때 캐쉬에 저장된 정보들을 검색된 질의와 연관하여 저장함으로써 좀더 사용자 응용을 고려한 캐쉬 관리기법을 제안하였다. 또한 위와 같은 개념에 입각한 웹 검색엔진을 구하였다.

  • PDF

An analysis of user behaviors on the search engine results pages based on the demographic characteristics

  • Bitirim, Yiltan;Ertugrul, Duygu Celik
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권7호
    • /
    • pp.2840-2861
    • /
    • 2020
  • The purpose of this survey-based study is to make an analysis of search engine users' behaviors on the Search Engine Results Pages (SERPs) based on the three demographic characteristics gender, age, and program studying. In this study, a questionnaire was designed with 12 closed-ended questions. Remaining questions other than the demographic characteristic related ones were about "tab", "advertisement", "spelling suggestion", "related query suggestion", "instant search suggestion", "video result", "image result", "pagination" and the amount of clicking results. The questionnaire was used and the data collected were analyzed with the descriptive statistics as well as the inferential statistics. 84.2% of the study population was reached. Some of the major results are as follows: Most of each demographic characteristic category (i.e. female, male, under-20, 20-24, above-24, English computer engineering, Turkish computer engineering, software engineering) have rarely or more click for tab, spelling suggestion, related query suggestion, instant search suggestion, video result, image result, and pagination. More than 50.0% of female category click advertisement rarely; however, for the others, 50.0% or more never click advertisement. For every demographic characteristic category, between 78.0% and 85.4% click 10 or fewer results. This study would be the first attempt with its complete content and design. Search engine providers and researchers would gain knowledge to user behaviors about the usage of the SERPs based on the demographic characteristics.

그래프 탐색 기법을 이용한 효율적인 웹 크롤링 방법들 (Effective Web Crawling Orderings from Graph Search Techniques)

  • 김진일;권유진;김진욱;김성렬;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권1호
    • /
    • pp.27-34
    • /
    • 2010
  • 웹 크롤러는 웹에서 링크를 따라다니며 웹 페이지들을 자동으로 다운로드하는 프로그램으로 주로 웹 환경을 연구하거나 검색 엔진을 만들기 위해 사용된다. 기존의 연구들에서는 웹 크롤러가 인기 있는 웹 페이지들을 먼저 크롤링 할 수 있도록 몇 가지 방법들이 제안되었으나 그래프 이론 분야에서 연구되어 온 몇몇 그래프 탐색 기법들은 아직 웹 크롤링 방법으로 고려되지 않았다. 이 논문에서는 잘 알려진 너비 우선 탐색, 깊이 우선 탐색 뿐 아니라 사전식 너비 우선 탐색, 사전식 깊이 우선 탐색 및 최대 크기 탐색을 웹 크롤링 방법으로 고려하여 이 중에서 선형적인 시간복잡도를 가지면서도 인기 있는 웹 페이지를 효율적으로 수집할 수 있는 웹 크롤링 방법을 찾는다. 특히 선형 구현이 단순하지 않은 최대 크기 탐색과 사전식 너비 우선 탐색에 대해서는 분할 정제 방법을 이용한 선형 시간 웹 크롤링 방법을 제시한다. 실험 결과는 최대 크기 탐색이 다른 그래프 탐색 방법에 비해 시간 복잡도 및 크롤링 된 페이지들의 질에 있어서 바람직한 성질을 가짐을 보여준다.