• 제목/요약/키워드: 웹문서

검색결과 1,603건 처리시간 0.084초

웹 정보 검색 엔진을 위한 저장구조의 설계 및 실험 (Design and Study on Structure of Storage for Web Search Engine)

  • 이동광;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.539-542
    • /
    • 2002
  • 인터넷의 발달은 월드 와이드 웹을 탄생 시켰고 그로 인한 인터넷의 폭발적 성장은 인터넷을 하나의 생활로 만들었다. 인터넷의 엄청난 자료의 양과 친숙해진 인터넷으로 인해 인터넷은 하나의 정보창구의 역할을 하게 되었고, 그에 따라 정보검색이 발전하게 되었다. 초기의 월드 와이드 웹은 많은 웹 문서가 아니었지만, 구글이 현재 20억 페이지를 색인할 만큼 엄청난 규모가 되었다. 또한 앞으로의 검색 엔진은 정보나, 웹상의 링크 정보를 통한 그 문서의 중요도를 분석하여 문서의 중요도를 판단하게 될 것이며, 지금까지의 검색엔진의 저장구조와는 다른 구조를 가지게 될 것이다. 그에 따라 웹 정보검색엔진의 저장구조는 효율적 저장과 속도 향상을 위해 중요한 구조가 되어가고 있다. 본 논문에서는 검색엔진의 저장구조에 따른 용량의 변화와 앞으로의 웹 검색엔진에서 등장할 기능인 문서의 정보나, 문서간의 링크 정보를 통한 문서의 중요도 분석 등을 수행할 수 있는 저장구조를 만들어보고 실험해 보았다.

  • PDF

웹 로봇 구현 및 한국 웹 통계보고 (Implementation of a Web Robot and Statistics on the Korean Web)

  • 김성진;이상호
    • 정보처리학회논문지C
    • /
    • 제10C권4호
    • /
    • pp.509-518
    • /
    • 2003
  • 웹 로봇은 웹 문서를 다운로드하고 저장하는 프로그램이다. 현재 웹 로봇 구현에 대한 여러 연구들이 진행되고, 웹에 대한 다양한 통계들이 보고되고 있다. 첫째, 본 논문에서는 새로운 웹 로봇을 개발하고, 개발된 웹 로봇의 전체적인 구조와 구현 결정들을 기술한다. 둘째, 약 7천 4백만 한국 웹 문서들에 대한 여러 통계치를 보고한다. 셋째, 1,424 개의 한국 웹 사이트를 지속적으로 관찰하여 웹 문서들의 변경 경향을 조사한다. 본 논문에서는 웹 문서의 변경에 영향을 미치는 요소들이 식별된다. 식별된 요소는 갱신할 웹 문서를 선택하기 위한 정보로서 유용하게 활용될 수 있다.

웹서버를 이용한 그룹웨어 시스템의 설계 및 구현 (Design and Implementation of a Groupware System Base on the Web Server)

  • 김성연;최용엽
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 춘계학술대회 발표논문집
    • /
    • pp.184-187
    • /
    • 2001
  • 이전까지의 결재방식은 직접 결재문서를 들고 결재자로부터 결재를 받는 방식이었으나 이제는 결재자가 집에서 또는 출장 중에 있어서도 웹 상에서 서버에 접속하여 결재자에게 전달되어진 결재문서를 검토, 결재할 수 있도록 하는 그룹웨어시스템이 필요하게 되었다. 본 연구개발의 주된 목적은 사내에서 기존의 결재방식을 웹 상에서 전자결재방식으로 변경하여 문서의 기안작성, 검토, 결재 및 결재상황을 실시간으로 파악할 수 있도록 하였으며 또한, 이러한 모든 결재문서들을 데이터베이스에 최근문서, 일반문서, 정형화된 문서로 구분되어 저장되도록 하여서 권한이 부여된 사용자가 필요시 찾고자하는 문서를 실시간으로 검색 될 수 있도록 시스템을 구축하였다.

균등한 웹 문서 샘플링을 이용한 웹 검색 서비스들의 커버리지 측정 (Estimating Coverage of the Web Search Services Using Near-Uniform Sampling of Web Documents)

  • 장성수;김광현;이준호
    • 정보처리학회논문지D
    • /
    • 제15D권3호
    • /
    • pp.305-312
    • /
    • 2008
  • 인터넷에는 유익한 정보들이 포함된 웹 문서들이 공개되고 있으며, 이러한 웹 문서들은 웹 검색 서비스를 통하여 접근할 수 있다. 따라서 웹 검색 서비스들은 보다 많은 웹 문서들을 수집하기 위하여 노력하고 있으나, 이들은 수집된 웹 문서들의 커버리지를 파악하는데 많은 어려움을 겪고 있다. 따라서 본 논문에서는 기존의 커버리지 측정 방법들을 분석하고, 효과적인 커버리지 측정 방법을 제안한다. 즉, 인터넷에서 웹 문서를 균등하게 샘플링하고, 이 웹 문서들이 웹 검색 서비스에 색인되어 있는지를 조사함으로써 웹 검색 서비스들의 절대 및 상대 커버리지를 측정한다. 그리고 본 논문에서는 제안한 방법으로 국내 웹 검색 서비스들의 커버리지를 측정하여 비교하였으며, 그 결과 구글, 네이버, 엠파스 순으로 절대 및 상대 커버리지가 높게 나타났다. 이러한 본 논문의 결과는 웹 검색 서비스들의 커버리지를 측정하는데 도움이 될 것으로 기대된다.

웹 문서로부터 논리적 구조 추출 (Extracting Logical Structure from Web Documents)

  • 이민형;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1354-1369
    • /
    • 2004
  • 본 논문에서는 웹 문서를 XML 문서로 변환하기 위한 논리적 구조분석 방법을 제안한다. 제안된 방법은 비주얼 그룹화, 요소 식별, 그리고 논리적 그룹화의 세 단계로 구성된다. 특히 정교한 수준의 논리적 구조분석을 지원하기 위하여 특정 주제에 속하는 문서 유형의 논리적 계층 구조를 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법은 비주얼 그룹화를 통해서 추출된 시각적 계층구조와 문서 유형에 대한 논리적 구조 정보를 기술한 문서 모델에 기반하기 때문에 보다 정교한 수준의 구조 분석을 지원한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출한 다수의 HTML 문서를 대상으로 실험한 결과, 기존 연구와 비교하여 논리적 구조분석을 성공적으로 수행하였다. 제안된 방법은 논리적 구조분석의 최종 결과로서 XML문서를 생성하기 때문에 문서의 재 사용성을 높인다.

  • PDF

웹 에이전트 사용자 특성모델 구축을 위한 비감독 문서 분류 (Unsupervised Document Clustering for Constructing User Profile of Web Agent)

  • 오재준;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.105-107
    • /
    • 1998
  • 본 연구는 웹 에이전트에 있어서 가장 핵심적인 부분이라 할 수 있는 사용자 특성모델 구축방법을 개선하는데 목적을 두고 있다. 사용자 특성모델을 귀납적 기계학습 방식으로 자동 추출하기 위해서는, 사용자가 관심을 가지는 분야별로 문서를 자동 분류하는 작업이 매우 중요하다. 지금까지의 방식은 사람이 관심부여에 따라 문서를 수동적으로 분류해 왔으나, 문서의 양이 기하급수적으로 증가할 경우 처리할 수 있는 문서의 양에는 한계가 있을 수밖에 없다. 또한 수작업 문서 분류 방식을 웹 에이전트에 그대로 적용하였을 경우 사용자가 일일이 문서를 분류해야한다는 번거로움으로 인해 웹 에이전트의 효용성이 반감될 것이다. 따라서 본 연구에서는 비감독 문서 분류 알고리즘과 그것을 바탕으로 얻어진 문서 분류 정보를 후처리 (Post-Processing)함으로써 보다 간결하고 정확한 문서 분류 결과를 얻을 수 있는 구체적인 방법을 제공하고자 한다.

  • PDF

웹 에이전트 사용자 특성모델 구축을 위한 비감독 문서 분류 (Unsupervised Document Clustering for Constructing User Profile of Web Agent)

  • 오재준;박영택
    • 지능정보연구
    • /
    • 제4권2호
    • /
    • pp.61-83
    • /
    • 1998
  • 본 연구는 웹 에이전트에 있어서 가장 핵심적인 부분이라 할 수 있는 사용자 특성모델 구축방법을 개선하는데 목적을 두고 있다. 사용자 특성모델을 귀납적 기계학습 방식으로 자동 추출하기 위해서는 사용자가 관심을 가지는 분야별로 문서를 자동 분류하는 작업이 매우 중요하다 지금까지의 방식은 사람이 관심여부에 따라 문서를 수동적으로 분류해 왔으나, 문서의 양이 기하급수적으로 증가할 경우 처리할 수 있는 문서의 양에는 한계가 있을 수밖에 없다. 또한 수작업 문서분류 방식을 웹 에이전트에 그대로 적용하였을 경우 사용자가 일일이 문서를 분류해야한다는 번거로움으로 인해 웹 에이전트의 효용성이 반감될 것이다. 따라서 본 연구에서는 비감독 문서분류 알고리즘과 그것을 바탕으로 얻어진 문서분류정보를 후처리(Post-Processing)함으로써 보다 간결하고 정확한 문서분류 결과를 얻을 수 있는 구체적인 방법을 제공하고자 한다.

  • PDF

비즈니스 웹 폼과 XML 메시지 작성을 위한 폼 생성기의 설계 및 구현 (Design and Implementation of Form Generator for Creating Web Form and XML Message On Business)

  • 조준구;김창수;정회경
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.313-315
    • /
    • 2001
  • 인터넷 기반의 B2B(Business To Business) 및 B2C(Business To Customer)의 거래 확대에 따른 비즈니스 상에 이용되어질 문서 양식도 웹(Web)화 되거나 전자화된 전용 양식 형태로 변환되어질 필요가 있다. 이러한 점은 기존의 비즈니스 상에서 이용되어진 종이 형태나 특정 포맷에 의존한 문서 양식이 제작 과정의 여러 단계와 그에 따른 고 비용의 문제를 안고 있으며, 거래 파트너간의 문서 교환을 통한 상호 운용성(Interoperability)을 확보 할 수 없는 문제점을 가지고 있기 때문이다. 이에 본 논문에서는, 인터넷 문서 표준인 XML(eXtensible Markup Language)과 그 표현을 위한 XSL(eXtensible Stylesheet Language) 문서를 이용하여 비즈니스 DTD(Document Type Definition) 문서를 기반을 한 XML 폼 생성기(Form Generator)를 개발하였으며, 그 결과인 폼 XML 문서를 XSL 문서를 이용하여 기존 웹 상에서 이용할 수 있는 HTML 형태의 웹 문서로 생성하고, 사용자 입력을 통해서 비즈니스 DTD 문서 구조에 유효한 비즈니스 XML 메시지를 작성할 수 있도록 설계 및 구현하였다.

ICT 교사를 위한 다이나믹 웹문서 랭킹시스템 (A dynamic web document ranking system for ICT teachers)

  • 이미선;전석주
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2007년도 하계학술대회
    • /
    • pp.322-327
    • /
    • 2007
  • 2005년 12월 개정된 정보통신기술교육 지침에 따르면 컴퓨터의 과학적인 요소를 '정보처리이해' 단계에서 도입하였다. 자료구조와 알고리즘, 프로그래밍의 기초를 교육하도록 개정하였는데 현장 교사들이 그 내용을 잘 이해하지 못하고 있어 교육하기에 많은 어려움이 있다. 본 연구는 '정보처리이해' 과정을 가르치는데 도움이 되는 구체적인 웹문서를 검색 수집 정리 분류하여 ICT교사들에게 제공한다. 또한 ICT교사들이 참조한 웹문서에 대해 활용도를 평가하고 높은 점수의 웹문서를 상위에 링크시키는 다이나믹한 랭킹 시스템에 관한 설계이다.

  • PDF

웹문서 재배치 에이전트 시스템 (A Web Page Reordering Agent System)

  • 조영임;강상길;김영국
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2007년도 춘계학술대회 학술발표 논문집 제17권 제1호
    • /
    • pp.91-94
    • /
    • 2007
  • 구글이나 야후와 같은 정보검색엔진은 사용자에게 편리성을 제공하나 사용자로 하여금 만족감을 제공하지는 못하고 있다. 이것은 사용자에 대한 검색목표가 사용자 프로파일마다 서로 다르기 때문이다. 따라서 검색엔진으로 검색된 결과를 사용자 프로파일에 따라서 재배치하는 것은 매우 필요하다. 이 논문에서는 키워드기반 검색엔진으로 검색된 결과를 사용자 프로파일에 따라 웹문서를 재배치하는 알고리즘을 제안한다. 각 키워드에 대한 가중치는 사용자가 웹문서에 대해서 수행한 행동 즉, 다운로드, 클릭, 아무행동 안함에 따라 차등 적용하여 업데이트하여 웹문서를 리스트하여 사용자에게 제공한다.

  • PDF