• 제목/요약/키워드: 검색 엔진

검색결과 825건 처리시간 0.025초

메타검색에서 링크정보와 요약정보를 이용한 검색결과 통합 (A Ranking method using link & description information in Meta searching)

  • 양명석;이석형;강남규;윤화묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.118-120
    • /
    • 2002
  • 본 논문은 메타검색엔진 시스템에서 다양한 검색결과를 하나의 검색결과로 통합시켜주는 통합랭킹 방법에 대한 연구이다 검색결과 통합시 메타검색 시스템에서 실질적으로 이용할 수 있는 링크정보와 요약정보를 사용하였다 통해 이루어져 있다. 또한 링크정보와 요약정보에 대한 가중치 값을 변화시키면서 다양한 검색결과들을 얻을 수 있었는데, 요약정보의 가중치를 높여 주었을 때 검색 효율이 좋음을 알 수 있었다.

  • PDF

기자들의 WWW탐색엔진 이용에 관한 연구 (A Study on the Use of WWW search engines for Journalist)

  • 임석종;남태우
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1997년도 제4회 학술대회 논문집
    • /
    • pp.127-130
    • /
    • 1997
  • 본 연구는 www탐색엔진의 이용에 관한 연구로서 인터넷 이용자의 개략적인 이용현황과 www 탐색엔진 이용에 관한 현황을 제시하였다. 탐색엔진의 유형과 그 내용을 설명하고 인터넷 이용에 관련된 자료를 분석하였으며, 신문사 기자 27명을 대상으로 www탐색엔진 이용에 관한 설문조사를 실시하여 분석된 결과를 기술하였다. 이 결과에 따르면 기자들의 인터넷 이용에 대한 필요성은 인정하고 있으나 활용정도는 낮은 것으로 나타났다. 또한 탐색엔진을 사용했을때 정확한 정보검색의 어려움이 가장 큰 문제로 나타났으며 그 다음은 속도의 문제로 나타났다.

  • PDF

온톨로지 기반 대학정보 검색 시스템의 설계 및 구현 (Implementation and Design of College Information Retrieval System Based On Ontology)

  • 박종훈;김철원
    • 한국정보통신학회논문지
    • /
    • 제16권2호
    • /
    • pp.296-301
    • /
    • 2012
  • 오늘날 효과적인 정보검색을 위해 지능형 검색에 대한 다양한 기법들을 사용하고 있다. 이중에서 효과적인 검색 방법은 온톨로지 기술을 적용하는 것이다. 온톨로지는 시맨틱웹에서의 핵심기술이라 할 수 있다. 시맨틱웹에서 온톨로지 기술은 간단하면서 정확하게 추론엔진을 통하여 관련 정보를 검색하는데 사용될 수 있다. 본 논문에서는 대학, 대학원, 구성원을 중심으로 정보를 검색할 수 있는 온톨로지 기반 대학정보검색 시스템을 설계 및 구현을 하고자 한다. 대학, 대학원, 구성원 정보들의 계층구조를 수집하였으며, 온톨로지 개발도구인 protege 에디터를 이용하였다. 대학정보를 온톨로지로 설계하기 위해 설계된 대학정보 온톨로지를 protege 에디터의 추론기능을 이용하여 검증하였으며, 검증된 온톨로지는 지나 추론엔진을 적용하여 웹서비스 할 수 있도록 대학정보검색 시스템을 구현하였다.

XML 컴포넌트 명세서 기반의 컴포넌트 검색 기법 (A Search Method for Components Based-on XML Component Specification)

  • 박서영;신영길;우치수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권2호
    • /
    • pp.180-192
    • /
    • 2000
  • 최근 들어 컴포넌트는 소프트웨어 재사용의 핵심 기술로 인식되고 있다. 컴포넌트는 인터페이스 부분만을 이용하여 개발되는 소프트웨어에 바로 바인딩시켜 재사용될 수 있는 독립적인 바이너리 코드이다. 많은 컴포넌트 사용자들이 인터넷 상에서 적합한 컴포넌트를 검색하고 사용할 수 있도록, 컴포넌트 명세서는 웹 문서 형태를 사용하는 것이 바람직하다. 기존의 HTML 웹 문서 기반의 검색 엔진을 통하여 컴포넌트를 검색할 때 정확한 의미 검색이 불가능하다는 문제점이 있다. 본 논문에서는 정확한 의미 검색을 수행할 수 있도록 컴포넌트 명세서를 HTML 문서 대신 XML 문서로 사용할 것을 제안한다. 또한, XML 컴포넌트 명세서를 통하여 사용자가 원하는 컴포넌트를 정확하게 검색할 수 있는 XML 문맥 기반 검색(context-based search)을 제안한다. 문맥 기반 검색은 컴포넌트의 특성을 나타내는 문맥(context)과 컴포넌트 특성의 실제 값인 용어(term)를 사용하여 사용자가 원하는 컴포넌트의 특성을 정확하게 질의하고 검색할 수 있는 방법이다. 이 검색 방법은 용어-문맥-컴포넌트 명세서 순으로 된 역화일 인덱싱 (Inverted File Indexing) 방법을 사용한다. 이와 함께 사용자의 편의를 위하여, 기존의 소프트웨어 재사용 라이브러리에서 사용되던 검색 방법인 키워드 검색, 퍼싯 검색, 브라우징 검색 방법 등을 지원한다. 이들 다양한 검색 방법들은 인터페이스 레이어, 질의 확장 레이어, XML 검색 엔진 레이어 등 3-레이어 검색엔진 구조를 통한 효율적인 인덱스 스킴에 의해 지원된다. 본 논문에서는 컴포넌트 사용자들이 원하는 컴포넌트를 정확하게 검색할 수 있도록 하기 위하여 컴포넌트 명세서를 대한 XML DTD(Document Type Definition)를 정의하고, HTML 기반 검색 방법과 XML 기반 검색 방법에 대한 컴포넌트 검색 성능을 비교한다.

  • PDF

포스트의 구조 유사성과 일일 발행수를 이용한 스플로그 탐지 (Splog Detection Using Post Structure Similarity and Daily Posting Count)

  • 백지현;조정식;김성권
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권2호
    • /
    • pp.137-147
    • /
    • 2010
  • 블로그는 웹과 로그의 합성어로, 개개인의 생각이나 관심사 등을 일기처럼 기록할 수 있는 웹 서비스이다. 블로그에는 문자 외에, 그림이나 비디오 파일 등 다양한 컨텐츠를 올릴 수 있다. 일반적으로 블로그의 포스트는 시간상의 역순으로 정렬되어 표현된다. 블로그 검색 엔진은 웹 검색 엔진처럼 블로그를 대상으로 사용자의 질의에 따라 정보를 찾아주는 서비스이다. 블로그 검색 엔진은 때때로 만족스럽지 못한 결과를 내곤 하는데, 이것은 스플로그라고 불리는 블로그 스팸에 의해 발생한다. 스플로그는 다른 블로그나 웹 페이지를 무단 도용하거나 자동으로 생성된 컨텐츠로 구성된 스팸 포스트를 가지고 있다. 스플로그는 검색 엔진의 검색 순위를 높이거나, 회원 가입 사이트로 보다 많은 사람들을 유치하기 위해 사용된다. 본 논문은 스플로그 탐지를 목적으로 한다. 본 논문에서 제안하는 스플로그 탐지 기법은 블로그 포스트의 구조 유사성과 일일 포스트 발행수에 따른 분석으로 토대로 이루어진다. 본 논문에서 제안하는 기법을 바탕으로 한 실험의 결과, 스플로그 탐지에 있어 90% 이상의 높은 정확도를 가지며, 만족할만한 수준을 보여준다.

아파치 스파크 기반 검색엔진의 설계 및 구현 (Design and Implementation of a Search Engine based on Apache Spark)

  • 박기성;최재현;김종배;박제원
    • 한국정보통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.17-28
    • /
    • 2017
  • 최근 데이터의 활용가치가 높아지면서 데이터에 관한 연구가 활발히 진행되고 있다. 데이터의 수집, 저장, 활용을 위한 대표적인 프로그램으로 웹 크롤러, 데이터베이스, 분산처리 등이 있으며, 최근에는 웹 크롤러가 다양한 분야에 활용할 수 있는 유용성으로 인해 크게 각광받고 있는 실정이다. 웹 크롤러란 자동화된 방법으로 웹서버를 순회하여 웹 페이지를 분석하고 URL을 수집하는 도구라고 정의할 수 있다. 인터넷 사용량의 증가로 매일 대량으로 생성되는 웹 페이지의 처리를 위해 하둡의 맵리듀스를 기반으로 하는 분산 웹 크롤러가 많이 사용되고 있다. 그러나 맵리듀스는 사용이 어렵고 성능에 제약이 있는 단점이 있다. 이러한 맵리듀스의 한계를 보완하여 제시된 인메모리 기반 연산 플랫폼인 아파치 스파크가 그 대안이 되고 있다. 웹 크롤러의 주요용도 중 하나인 검색엔진은 웹 크롤러로 수집한 정보 중 특정 검색어에 맞는 결과를 보여준다. 검색엔진을 기존 맵리듀스 기반의 웹 크롤러 대신 스파크 기반 웹 크롤러로 구현할 경우 더욱 빠른 데이터 수집이 가능할 것이다.

고객중심의 과학기술정보 서비스를 위한 FAST 검색엔진 커스터마이징 (FAST Search Engine Customizing for S&T Information Service)

  • 한희준;이태석;김선태;예용희;이상기;여일연
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2008년도 춘계 종합학술대회 논문집
    • /
    • pp.480-483
    • /
    • 2008
  • 다양한 인터넷 기술이 개발 및 발전됨에 따라 정보 제공자는 사용자에게 보다 효율적이고 고객중심의 서비스를 제공하기 위해 노력하고 있다. 특히 방대한 양의 정보에 대하여 고객이 원하는 정보를 정확하고 쉽게 제공하기 위해서는 검색기능의 효율성이 필수이다. 한국과학기술정보연구원(KISTI)에서는 국가과학기술포털서비스 성능향상을 위하여 FAST(Fast Search & Transfer ASA) 검색엔진을 도입하였다. 하지만 무엇보다도 서비스 환경에 적합하게 검색엔진의 하드웨어 및 소프트웨어적 성능을 최적화하는 것이 중요하다. 본 논문에서는 국가과학기술정보의 효율적 서비스를 위한 FAST 검색엔진 설계 및 최적화 기법에 대해 논한다.

  • PDF

동적 색인 스토리지 및 통합 검색 서비스 개발 (Dynamic index storage and integrated searching service development)

  • 이왕우;이석형;최호섭;윤화묵;김종환;허윤영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.346-349
    • /
    • 2007
  • 본 논문은 웹뉴스 및 리뷰 검색 서비스를 위해 만든 통합 검색 시스템을 소개한다. 검색 서비스를 위한 데이터 수집을 위해서 특정 사이트에서 수집한 뉴스와 리뷰 문서로부터 제목, 날짜, 저자, 본문처럼 특정한 영역의 데이터만 추출하는 XSLTRobot을 만들었다. XSLTRobot은 원하는 부분의 데이터만 추출하기 위해 XSLT 기술을 이용한다. 여러가지 검색 데이터 형식에 적합한 통합 검색엔진과 통합 검색엔진의 스토리지 모듈중 하나인 동적 색인 저장소(Dynamic Index Storage)를 소개한다. 동적 색인 저장소는 뉴스 데이터처럼 색인의 업데이트가 빨라야 하는 환경에 이용된다. 본 논문에서 제시하는 동적 색인 저장소는 대량의 실시간 업데이트 문서를 처리하지 않기 때문에 검색성능에 초점을 맞춰서 설계하였다.

  • PDF

하이퍼링크 구조를 이용한 웹 검색의 순위 알고리즘에 관한 연구 (The Study on the Ranking Algorithm of Web-based Sear ching Using Hyperlink Structure)

  • 김성희;오건택
    • 정보관리연구
    • /
    • 제37권2호
    • /
    • pp.33-50
    • /
    • 2006
  • 본 연구에서는 하이퍼 링크 구조를 이용한 웹 검색 알고리즘에 대해 살펴 본 후 페이지 품질을 측정하기 위해 웹의 하이퍼 구조를 이용하고 있는 알고리즘인 HITS와 PageRank를 분석하였다. 이어서 이들 방법을 이용한 검색 엔진인 Google과 Ask.com을 검색 알고리즘의 특성을 기준으로 분석하였다. 이런 연구는 미래의 웹 문서의 중요도를 평가하는 데 기초자료로 활용할 수 있으며, 웹 정보검색의 검색성능을 향상시키는 시스템 개발에 도움이 될 수 있을 것이라 생각한다.

정규 표현식을 이용한 패턴 매칭 엔진 개발 (Development of the Pattern Matching Engine using Regular Expression)

  • 고광만;박홍진
    • 한국콘텐츠학회논문지
    • /
    • 제8권2호
    • /
    • pp.33-40
    • /
    • 2008
  • 스트링 패턴 매칭 알고리즘은 특정 검색어, 키워드를 검색하는 속도에서는 우수성이 다양한 방법으로 입증되었지만 다양한 패턴에 대해서는 기존의 알고리즘으로는 한계를 가지고 있다. 본 논문에서는 정규 표현식을 이용하여 특정 키워드를 포함하여 다양한 패턴의 검색어에 대해서도 효율적인 패턴 매칭을 수행하여 패턴 검색의 효율을 높이고자 한다. 이러한 연구는 기존의 단순한 키워드 매칭에 비해 각종 유해한 스트링 패턴을 효과적으로 검색할 수 있으며 스트링 패턴 매칭 속도에서도 기존의 알고리즘에 비해 우수성을 갖는다. 본 연구에서 제안한 LEX로부터 생성된 스트링 검색 엔진은 패턴 검색 속도에 대한 실험에서 패턴의 수가 1000개 이상인 경우에서는 BM&AC 알고리즘보다 효율적이지만 키워드 검색에서는 유사한 결과를 얻었다.