• 제목/요약/키워드: change of web pages

검색결과 25건 처리시간 0.011초

웹 문서 변화에 관한 실험적 연구 (An Empirical Study on Changes of Web Pages)

  • 김성진;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권2호
    • /
    • pp.151-160
    • /
    • 2005
  • 웹 문서들은 빈번하게 생성, 소멸, 변경을 반복하고 있으며, 웹 데이타베이스는 최신의 웹 상태를 반영하여야 한다. 웹 데이타베이스의 효과적인 갱신 전략 수립을 위하여 실제 웹의 변화 성향을 파악하는 일은 매우 중요하다. 웰의 변화를 관찰한 연구들이 다양하게 발표되고 있으나 기존의 연구들은 웹 문서의 내용 변경에 주된 초점이 맞추어 있고 웹 문서의 생성과 소멸에 대한 결과가 부족하였다. 본 논문에서는 쇌 문서의 변화를 표현할 수 있는 척도로서 URL의 '다운로드 성공률', '변경률', '나이 변이 계수'를 소개하고, 한국의 유명 사이트 집합과 임의(random) 사이트 집합에서 발견된 300만 개의 URL들이 2 일 주기로 100일 동안 관찰한다. 본 논문에서는 '다운로드 성공률'과 '변경률'의 분포를 통해 웰 문서의 다운로드 성공과 변경이 과거 기록과 밀접한 연관이 있음을 발견하였으며, 과거 기록을 이용하여 향후 웹 문서의 다운로드 성공과 변경을 예측할 수 있는 모델을 제안한다. 또한, '나이 변이 계수'를 통해 웹 문서들이 얼마나 비주기적으로 변경되는가를 보고한다.

웹 문서 변경 예측 (Estimation of Web Page Change Behavior)

  • 김성진
    • 인터넷정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.149-158
    • /
    • 2007
  • 본 논문은 웹 문서의 다운로드 가능 여부와 내용 변경 여부를 예측하는 도구를 기술한다. 웹 데이터베이스 관리자는 자신이 관리하는 웹 문서 집합을 최신 상태로 유지하려고 할 때, 예측 도구를 통하여 다운로드되지 않거나 변경되지 않았을 웹 문서에 대한 불필요한 요청을 감소시킬 수 있다. 본 논문에서는 웹 문서들의 과거 변경이 미래 변경과 매우 밀접한 관련이 있음을 가정한다. 본 논문에서는 약 300만개의 웹 문서들을 2일 주기로 100일 동안 관찰하여 변경 경향을 분석하고, 관찰된 문서들의 다운로드 가능 여부와 내용 변경 여부를 예측한다. 예측 결과는 실제의 변경 사실과 비교 평가되었다.

  • PDF

Classifying Malicious Web Pages by Using an Adaptive Support Vector Machine

  • Hwang, Young Sup;Kwon, Jin Baek;Moon, Jae Chan;Cho, Seong Je
    • Journal of Information Processing Systems
    • /
    • 제9권3호
    • /
    • pp.395-404
    • /
    • 2013
  • In order to classify a web page as being benign or malicious, we designed 14 basic and 16 extended features. The basic features that we implemented were selected to represent the essential characteristics of a web page. The system heuristically combines two basic features into one extended feature in order to effectively distinguish benign and malicious pages. The support vector machine can be trained to successfully classify pages by using these features. Because more and more malicious web pages are appearing, and they change so rapidly, classifiers that are trained by old data may misclassify some new pages. To overcome this problem, we selected an adaptive support vector machine (aSVM) as a classifier. The aSVM can learn training data and can quickly learn additional training data based on the support vectors it obtained during its previous learning session. Experimental results verified that the aSVM can classify malicious web pages adaptively.

메타 검색엔진을 위한 HTML 문서 변경 탐지기의 설계 및 구현 (Design and Implementation of an HTML Pages Modification Detector for Meta-search Engines)

  • 박상위;오정석;이상호
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.345-354
    • /
    • 2002
  • 검색엔진의 HTML문서는 수시로 변경되고 있으며, 이는 각 검색엔진의 결과 문서를 통합하여 사용자에게 제공하는 메타 검색엔진의 기능을 저하시키는 요인이 된다. 이에 대한 해결방법으로 본 논문에서는 HTML 문서의 변경을 탐지하는 HTML문서 변경 탐지기를 설계하고 구현한다. 문서 변경 탐지기는 문서 구조를 추출하기 위해 위치 정보 알고리즘과 수정된 Jaak Vilo 알고리즘을 사용하고, 그 결과로 패턴을 추출한다. 문서 변경 탐지기는 HTML문서에서 반복적으로 출현하는 구조를 표현하는 패턴을 사용한다. 또한, 문서 변경 탐지기의 정확성을 측정하기 위하여 문서 변경에 대한 전략을 세우고 이를 기반으로 실험을 수행한다.

시맨틱 웹을 이용한 웹 변경 탐지 시스템 (Web Change Detection System Using the Semantic Web)

  • 조부현;민영근;이복주
    • 정보처리학회논문지B
    • /
    • 제13B권1호
    • /
    • pp.21-26
    • /
    • 2006
  • 시맨틱 웹은 정보검색과 웹 기반 시스템 분야의 새로운 추세이다. 본 논문은 시맨틱 점과 온톨로지를 이용하여 점 문서의 변경을 자동으로 사용자에게 알려주는 웹 변경 탐지 시스템의 개발에 관한 것이다. 기존의 웹 변경 탐지 시스템은 구문(syntax) 변화 중심의 변경 탐지인 반면 본 시스템은 의미(semantic) 변화 중심의 변경 탐지에 목표를 둔다. 즉 의미에 변화가 있는 경우만 찾아 알려주어 사용자에게 유용한 정보를 제공한다. 또한 특정 도메인에 중심이 된 변경 사항을 가정하여 사용자가 목표 사이트를 일일이 지정하지 않아도 변경 탐지가 가능하게 하였다. 이를 위하여 특정 도메인을 가정한(컴퓨터 관련 인물 정보) 온톨로지를 구축하고 점 페이지를 이 온톨로지에 따라 변환한 다음 변경 전 페이지와 변경후 페이지를 비교하는 방법을 사용하였다. 실험 결과는 구문 중심의 변경 탐지에 비해 의미 중심의 변경 탐지가 더 유용함을 보인다.

단일 스캔을 통한 웹 방문 패턴의 탐색 기법 (An Efficient Approach for Single-Pass Mining of Web Traversal Sequences)

  • 김낙민;정병수;아메드 파한
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.221-227
    • /
    • 2010
  • 인터넷 사용의 급증과 더불어 보다 편리한 인터넷 서비스를 위한 여러 연구가 활발히 진행되어 왔다. 웹 로그 데이터로부터 빈번하게 발생되는 웹 페이지들의 방문 시퀀스를 탐색하는 기법 역시 효과적인 웹 사이트를 설계하기 위한 목적으로 많이 연구되어 왔다. 그러나 기존의 방법들은 모두 여러 번의 데이터베이스 스캔을 필요로 하는 방법으로 지속적으로 생성되는 웹 로그 데이터로부터 빠르게 실시간적으로 웹 페이지 방문 시퀀스를 탐색하기에는 많은 어려움이 있었다. 또한 점진적(incremental)이고 대화형식(interactive)의 탐색 기법 역시 지속적으로 생성되는 웹 로그 데이터를 처리하기 위하여 필요한 기능들이다. 본 논문에서는 지속적으로 생성되는 웹 로그 데이터로부터 단일 스캔을 통하여 빈번히 발생하는 웹 페이지 방문 시퀀스를 점진적이고 대화 형식적인 방법으로 탐색하는 방법을 제안한다. 제안하는 방법은 WTS(web traversal sequence)-트리 구조를 사용하며 다양한 실험을 통하여 기존의 방법들에 비해 성능적으로 우수하고 효과적인 방범임을 증명한다.

악성사이트 검출을 위한 안전진단 스케줄링 (Security Check Scheduling for Detecting Malicious Web Sites)

  • 최재영;김성기;민병준
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권9호
    • /
    • pp.405-412
    • /
    • 2013
  • 최근의 웹은 구현 방법과 이용 패턴이 변화되면서 서로 연결되고 융합되는 형태로 변화하였다. 서비스가 진화되고 사용자 경험이 향상되었으나 다양한 출처의 검증되지 않은 웹자원들이 서로 결합되어 보안 위협이 가중되었다. 이에 웹 확장의 역기능을 억제하고 안전한 웹서비스를 제공하기 위해 확장된 대상에 대한 안전성 진단이 필요하다. 본 논문에서는 웹사이트의 안전한 운영을 위해 안전진단을 외부 링크까지 확장하여, 진단 대상을 선별하고 지속적으로 진단하여 악성페이지를 탐지하고 웹사이트의 안전성을 확보하기 위한 스케줄링 방안을 제안한다. 진단 대상의 접속 인기도, 악성사이트 의심도, 검사 노후도 등의 특징을 추출하고 이를 통해 진단 순서를 도출하여 순서에 따라 웹페이지를 수집하여 진단한다. 실험을 통해 순차적으로 반복 진단하는 것보다 순위에 따라 진단 주기를 조정하는 것이 중요도에 따라 악성페이지 탐지에 효과적임을 확인하였다.

제조실행시스템의 기능 보완을 위한 웹 기반 공장 모니터링시스템의 설계 및 구현 (Design and Implementation of Web-based Factory Monitoring System for Complement MES)

  • 김윤기;강문설;김병기
    • 정보처리학회논문지D
    • /
    • 제9D권4호
    • /
    • pp.667-676
    • /
    • 2002
  • 인터넷으로 대표되는 디지털 환경은 생활 전반에 걸쳐 엄청난 변화를 주고 있으며 산업체의 비즈니스 방식과 업무 수행 방식을 빠른 속도로 바꾸어 놓고 있다. 전통 산업인 제조업체에도 인터넷과 웹 관련 기술, 초고속정보통신망을 활용하여 기존의 업무 프로세스를 개선하고 생산성 향상 및 관리 효율을 극대화하고자 하는 e-전환(e-Transformation)의 추진이 활발하게 전개되고 있다. 본 논문에서는 공장의 관리 효율 제고를 목적으로 국내외에 분산된 공장들의 현재 시점 가동 현황을 통합하여 언제 어디에서나 모니터링하기 위한 웹 기반 공장 모니터링시스템을 설계하고 구현하였다. 제안된 시스템은 웹 기반의 시스템 구조와 수행 기능, 그리고 관리 데이터를 표준화시키고, UML(Unified Modeling Language)을 이용하여 설계하였으며, ASP(Active Server Pages)를 활용하여 웹 기능을 구현하였다. 구현된 웹 기반 공장 모니터링 시스템은 K 주식회사 타이어사업부의 두개 공장(Kl, K2)을 대상으로 적용하고 있으며, 적용 결과는 전체 공장의 운영 상황을 종합적으로 파악하는데 매우 효율적인 것으로 평가되었다.

링크 분석을 통한 비동기 웹 페이지 크롤링 알고리즘 (Asynchronous Web Crawling Algorithm)

  • 원동현;박혁규;강윤정;이민혜
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.364-366
    • /
    • 2022
  • 웹은 처리 속도가 다른 다양한 정보들을 함께 제공하기 위해 비동기식 웹 기술을 이용한다. 비동기 방식에서는 작업 완료 전에도 다른 이벤트에 응답할 수 있다는 장점이 있으나 일반적인 크롤러는 웹페이지의 방문 시점 정보를 수집함으로 비동기 방식으로 제공되는 정보를 수집하는 데 어려움이 있다. 또한 비동기식 웹 페이지는 페이지 내용이 변경되어도 웹 주소가 변하지 않는 경우도 많아 크롤링하는 데 어려움이 있다. 본 논문에서는 웹의 링크를 분석하여 비동기 방식 페이지 이동을 고려한 웹 크롤링 알고리즘을 제안한다. 제안한 알고리즘으로 비동기 방식으로 정보를 제공하는 TTA의 정보통신용어사전 정보를 수집할 수 있었다.

  • PDF

웹 페이지에서 사용자 입력 값 변조 방지에 관한 연구 (A Study on Protecting for forgery modification of User-input on Webpage)

  • 유창훈;문종섭
    • 정보보호학회논문지
    • /
    • 제24권4호
    • /
    • pp.635-643
    • /
    • 2014
  • 인터넷을 통하여 제공되는 대부분의 웹 서비스들은 웹 브라우저를 통하여 사용자에게 제공된다. 웹 브라우저는 텍스트 형태의 웹 페이지를 서버로부터 수신하여 해석하고 사용자에게 보여준다. 웹 브라우저는 추가적으로 설치 할 수 있는 각종 기능들을 통하여 확장성을 제공한다. 하지만 추가로 설치 할 수 있는 기능들도 웹 페이지에 접근하여 내용을 위/변조 할 수 있다는 점에서 웹 브라우저를 통한 웹 서비스는 보안상 문제점을 내포할 수 있다. 웹 브라우저는 웹 페이지정보를 DOM구조의 형태로 메모리에 저장한다. 웹 페이지의 변조를 방지하기 위한 방법으로는 DOM구조의 특정 부분에 해쉬(hash)값을 적용하는 방법이 있다. 하지만 웹 페이지의 특성상 해쉬를 이용한 대응방안이 효과를 발휘할 수 없는 부분이 있다. 즉, 사용자가 직접 입력하는 부분은 정해진 입력 값이 아니기 때문에 미리 해쉬 값을 계산 해 놓을수도 없고 따라서 임의로 변조되는 것을 막을 수 없다. 본 논문에서는 웹페이지에 입력되는 사용자 입력 값의 위조나 변조를 방지 또는 탐지하는 방안을 제안한다. 제안 방법은 사용자가 키보드를 사용하여 입력하는 입력 값을 저장 해 놓았다가 웹 브라우저가 입력 값을 전송하는 순간 저장된 입력 값과 전송되는 값을 비교하여 변조 여부를 파악한다.