• 제목/요약/키워드: 웹문서

검색결과 1,602건 처리시간 0.029초

음란 사이트 탐지 시스템의 설계 및 구현 (The Design and Implementation of Lewdness Site Detection System)

  • 최상필;김병만;이숙희;김주연;김경호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.196-198
    • /
    • 2000
  • 본 논문에서는 음란사이트를 효과적으로 탐지하기 위하여 퍼지 추론을 이용한 방법을 제안한다. 사용자로부터 몇 개의 음란 사이트 URL을 질의로 입력받아, 해당 URL로부터 수집된 웹 문서들에서 웹 태그와 불용어를 제외한 모든 용어들을 추출한 후, 용어의 DF, TF, HI(Heuristic Information) 정보들을 퍼지 추론에 적용하여 사용자가 제시한 음란 사이트에서 용어의 중요도를 산정한다. 또한, 웹 로봇은 인터넷에서 웹 문서를 수집하고, 퍼지 추론에 의해 산정된 용어의 중요도를 이용하여 수집된 웹 문서가 음란 문서일 가능성을 판별한다.

  • PDF

Flash 웹서버에서 캐쉬된 문서의 우선 서비스 (Expedited Service of Cache Documents in Flash Web Server)

  • 염미령;노삼혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.364-366
    • /
    • 2001
  • 플래쉬 웹서버는 디스크 입출력 오버헤드를 줄이기 위해 웹 문서를 메인 메모리 캐슁하지만 동시에 들어오는 요청들에 대해 처리 순서는 고려하지 않는다. 웹서버에서 클라이어트가 요청하는 문서 정보를 미리 알 수 만 있다면, 동시에 들어오는 요청들의 가치에 따라 수행 순서를 바꿀 수 있다. 본 논문에서는 웹서버의 메인 메모리에 캐쉬 된 문서를 요구하는 요청들을 우선 수행시켜 디스크 입출력 오버해드를 줄이는 스케줄링을 수행함으로써 정적 웹 환경에서의 웹서버의 처리율을 향상시켰다.

웹에서 동물영역 관련문서 필터링 (A Web Document Filtering System for Animals)

  • 김상모;김원우;변영태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.57-59
    • /
    • 2000
  • 인터넷에 돌아다니는 정보의 양은 무한정에 가까워지고 있고 이용자는 필요한 정보들을 얻을 수 있게 되었으나 검색 가능한 정보의 양이 폭발적으로 증가함에 따라 이용자는 정보검색을 하는데 있어 어려움이 따랐고, 이는 원하는 정보만을 필터링하여 보여주는 정보검색방법이 필요하게 되었다. 본 연구에서는 웹 사용자들이 정보검색을 하는데 원하는 정보를 정확하게 찾아주기 위해 웹 문서에 대한 TAG 가중치와 관련용어 영역지식의 구축 및 웹 문서 평가작업을 통한 Term의 웹 문서 DF테이블의 구축을 이용한 필터링 방법을 제안하고 그 유효성을 확인하였다.

  • PDF

웹 문서의 단어정보와 링크정보 결합을 이용한 클러스터링 기법 (Clustering Method Using the Union Information of Term Frequency and Link in Hypertext)

  • 이원희;이교운;박흠;김영기;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-107
    • /
    • 2003
  • 최근의 웹 문서는 텍스트 위주의 구성이 아닌 이미지, 사운드, 동영상 등의 다양한 타입으로 구성되는 추세이다. 이에 따라 단순히 웹 문서 내의 단어 정보추출 만으로는 좋은 성능의 클러스터링을 기대하기 어렵다. 본 논문은 전통적인 문서 클러스터링 기법인 단어기반 클러스터링 기법의 취약점을 제시하고, 웹 문서간의 링크구조정보 중 동시인용 정보를 이용하여 웹 문서 클러스터링 성능향상의 가능성을 보이고자 한다. 실험에서는 네이버디렉토리 중 '자연과학' 범주에 포함된 문서를 대상으로 위의 두 가지 방식과 이 두 가지를 혼합한 단어-링크 혼합 클러스터링을 통해 기존의 방식보다 더 낳은 성능을 얻을 수 있었다.

  • PDF

웹 문서의 구조적 정보 활용 사례에 관한 고찰 (A Survey on Example using Structural Information of Web documents)

  • 김철수;김양범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.1011-1014
    • /
    • 2003
  • 브라우저를 통해서 보는 웹 문서는 보이는 문서 내용 이외에 많은 풍부한 정보들을 원시 문서에 포함하고 있다. 웹 문서 색인 및 분류 과정에서 이런 관련 정보를 효율적으로 사용한다면 색인어에 가중치를 부여하거나 문헌 분류과정에서 밀접하게 관련된 문헌들끼리 분류가 가능하다. 잘 색인된 색이어 집합 및 잘 분류된 문헌 집합은 검색자의 질의어에 대한 검색 견과의 문헌집합들에 대한 문헌 순위화를 효율적으로 수행하여 사용자로 하여금 검색 시간을 줄여줄 수 있다. 본 논문에서는 웹 문서를 대상으로 한 검색 시스템에서 검색 효율을 향상시키기 위하여 웹 문서의 구조적인 정보들을 이용한 방법들에 대하여 고찰해 본다. 색인 과정, 문헌 분류과정 순위화 과정에서 활용한 방법들에 대하여 중점적으로 살펴본다.

  • PDF

사용자 의도 정보를 사용한 웹문서 분류

  • 장영철
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2008년도 추계 공동 국제학술대회
    • /
    • pp.292-297
    • /
    • 2008
  • 복잡한 시맨틱을 포함한 웹 문서를 정확히 범주화하고 이 과정을 자동화하기 위해서는 인간의 지식체계를 수용할 수 있는 표준화, 지능화, 자동화된 문서표현 및 분류기술이 필요하다. 이를 위해 키워드 빈도수, 문서내 키워드들의 관련성, 시소러스의 활용, 확률기법 적용 등에 사용자의도(intention) 정보를 활용한 범주화와 조정 프로세스를 도입하였다. 웹 문서 분류과정에서 시소러스 등을 사용하는 지식베이스 문서분류와 비 감독 학습을 하는 사전 지식체계(a priori)가 없는 유사성 문서분류 방법에 의도정보를 사용할 수 있도록 기반체계를 설계하였고 다시 이 두 방법의 차이는 Hybrid조정프로세스에서 조정하였다. 본 연구에서 설계된 HDCI(Hybrid Document Classification with Intention) 모델은 위의 웹 문서 분류과정과 이를 제어 및 보조하는 사용자 의도 분석과정으로 구성되어 있다. 의도분석과정에 키워드와 함께 제공된 사용자 의도는 도메인 지식(domain Knowledge)을 이용하여 의도간 계층트리(intention hierarchy tree)를 구성하고 이는 문서 분류시 제약(constraint) 또는 가이드의 역할로 사용자 의도 프로파일(profile) 또는 문서 특성 대표 키워드를 추출하게 된다. HDCI는 문서간 유사성에 근거한 상향식(bottom-up)의 확률적인 접근에서 통제 및 안내의 역할을 수행하고 지식베이스(시소러스) 접근 방식에서 다양성에 한계가 있는 키워들 간 관계설정의 정확도를 높인다.

  • PDF

온톨로지 인스턴스 구축을 위한 주제 중심 웹문서 수집에 관한 연구 (A Study on Focused Crawling of Web Document for Building of Ontology Instances)

  • 장문수
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.86-93
    • /
    • 2008
  • 복잡한 의미관계를 정의하는 온톨로지를 구축하는 일은 매우 정밀하고 전문적인 작업이다. 잘 구축된 온톨로지를 응용 시스템에 활용하기 위해서는 온톨로지 클래스에 대한 많은 인스턴스 정보를 구축해야 한다. 본 논문은 온톨로지 인스턴스 정보 추출을 위하여 방대한 양의 웹 문서로부터 주어진 주제에 적합한 문서만을 추출하는 주제 중심 웹 문서 수집 알고리즘을 제안하고, 이 알고리즘을 바탕으로 문서 수집 시스템을 개발한다. 제안하는 문서 수집 알고리즘은 URL의 패턴을 이용하여 주제에 적합한 링크만을 추출함으로써 빠른 속도의 문서 수집을 가능하게 한다. 또한 링크 블록 텍스트에 대한 퍼지집합으로 표현된 주제 적합도는 문서의 주제 관련성을 지능적으로 판단하여 주제 중심 문서 수집의 정확도를 향상시킨다.

무선 단말기를 위한 웹 콘텐츠 적응의 시각적인 개선 (A Visual Enhancement of Web Content Adaptation for Mobile Devices)

  • 김원섭;채영준;김태용
    • 한국멀티미디어학회논문지
    • /
    • 제10권10호
    • /
    • pp.1229-1239
    • /
    • 2007
  • 기존의 무선 단말기를 위한 웹문서 변환 시스템은 필수적이지 않은 부분을 삭제하거나 레이아웃을 변환하는데 치중하여 웹문서 제작자의 그래픽 디자인에 대한 의도가 훼손된 결과물을 도출하였다. 현재 무선 단말기는 비약적인 성능 향상이 이루어졌지만 아직 이미지 정보를 그대로 처리하기에는 화면 크기가 너무 작고, 연산능력이 부족하다. 따라서 본 연구에서는 정보 손실을 최소화하고 웹문서 저작자의 시각적인 저작의도를 보존하기 위하여 일반적인 웹문서를 무선 단말기용 웹문서로 적응하는 방법을 제안한다. 또한 이미지의 경우 사이즈만 변경하는 기존의 변환 방법들과 비교해 중요 정보를 남겨두고 여백을 제거하여 서비스하는 변환 방법과 이미지 컴포넌트 배치에 대한 레이아웃 측면의 변환 방법을 제시한다. 실험에서는 기존의 방법들의 변환 정확성 및 사용 편의성 측면에서 비교하여 제안된 방법의 우월성을 나타내었다.

  • PDF

사용자 로그 분석과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템 (A Dynamic Recommendation System Using User Log Analysis and Document Similarity in Clusters)

  • 김진수;김태용;최준혁;임기욱;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.586-594
    • /
    • 2004
  • 웹 문서들은 빠른 생성과 소멸의 특징 때문에, 사용자는 찾고자하는 웹 문서를 신속하고 정확하게 추천해 줄 시스템을 요구하고 있다. 정제되지 않은 웹 데이타에는 사용자들의 축적된 경험들을 포함하는 유용한 정보들을 포함하고 있다. 현재, 이러한 유용한 정보를 마이닝 기법이나 통계학적 측정 방법 등을 가지고 정제하여 추천 시스템을 통해 사용자에게 제공하려는 노력이 시도되고 있다. 기존의 정보 필터링 방식은 사용자들의 프로파일을 반드시 이용해야 하는 문제점을 갖고 있으며, 협력적 필터링 방식은 First Rater 문제와 Sparsity 문제가 있다. 또한 사용자 브라우징 패턴을 이용하는 동적 추천 시스템은 연관성이 없는 웹 문서들을 결과로서 제공한다는 문제점이 있다. 본 논문에서는 웹 문서 형식에 따라 웹 문서 사이의 유사도를 이용하여 웹 문서를 분류하고, 웹 서버에 기록된 로그 파일을 이용하여 사용자 브라우징 순차 패턴 DB를 생성한다. 이렇게 생성된 정보들과 사용자들의 세션 정보를 이용하여, 사용자가 웹 문서에 접근했을 때 현재 웹 문서와 유사도가 높은 상위 N개의 연관 웹 문서 집합을 제공하고, 순차적인 특성을 갖는 웹 문서를 추천 문서로 제공하는 시스템을 제안한다.

URL 패턴 스크립트를 이용한 효율적인 웹문서 수집 방안 (A Method of Efficient Web Crawling Using URL Pattern Scripts)

  • 장문수;정준영
    • 한국지능시스템학회논문지
    • /
    • 제17권6호
    • /
    • pp.849-854
    • /
    • 2007
  • 수많은 웹문서 중에서 원하는 문서만을 수집하는 것은 쉽지 않다. 이것을 해결하는 한 방법은 원하는 분야의 정보를 많이 제공하는 사이트에서 원하는 부분만 골라서 수집하는 것이다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 데이터베이스와 같은 구조화된 자료를 정보로 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.