• 제목/요약/키워드: HTML 태그

검색결과 108건 처리시간 0.021초

HTML 태그 순서를 이용한 불법 사이트 탐지 자동화 기술 (An Automated Technique for Illegal Site Detection using the Sequence of HTML Tags)

  • 이기룡;이희조
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1173-1178
    • /
    • 2016
  • 2001년 비트토렌트 프로토콜이 설계된 후로 음악, 영화, 소프트웨어 등 모든 것을 다운로드할 수 있게 되었다. 이를 통해 저작권이 있는 파일이 무분별하게 공유가 되었고 저작권자들은 많은 피해를 입었다. 이 문제를 해결하기 위해 국가에서는 관련법을 제정하였고 ISP는 불법 사이트를 차단하였다. 이러한 노력들에도 불구하고 pirate bay와 같은 불법 사이트들은 도메인을 바꾸는 등 쉽게 사이트를 재오픈하고 있다. 이에 우리는 재오픈된 불법 사이트를 쉽게 탐지하는 기술을 제안한다. 이 자동화 기술은 구글 검색엔진을 이용하여 도메인을 수집하고, 최장공통부분수열(LCS) 알고리즘을 이용하여 기존 웹페이지 태그와 검색된 웹페이지 태그를 비교, 유사도를 측정한다. 실험을 위해 총 2,383개의 검색 결과를 구글 검색으로 얻었다. LCS 유사도 알고리즘을 적용하여 검사한 결과 44개의 해적 사이트를 탐지하였다. 또한 해외 불법 사이트에 적용한 결과 805개 검색 도메인에서 23개의 불법 사이트를 탐지하였다. 이를 통해 제안된 탐지 자동화 기술을 사용한다면 불법 사이트가 재 오픈을 하더라도 쉽게 탐지할 것으로 보인다.

디지털도서관 문서양식으로서의 XML과 HTML의 특성 및 검색 기능 비교 연구 (A Comparative Study of XML and HTML: Focusing on Their Characteristics and Retrieval Functions)

  • 김현희;장혜원
    • 정보관리학회지
    • /
    • 제16권2호
    • /
    • pp.105-134
    • /
    • 1999
  • 본 연구에서는 XML과 HTML의 이론적인 특성을 포괄적으로 비교하고 이러한 특성들이 실험 시스템에서 어떻게 적용되고 있는지를 검색기능, 검색 환경 및 이용자 만족도 측면에서 비교 분석하며, XML이 정보 검색에서 기존의 HTML 보다 더 유용한 것인지를 살펴보았다. 비교결과, XML은 복합 내용 및 구조검색이 가능한 점, 관련 자료들을 다중 링크를 사용해 접속할 수 있다는 점 그리고 데이터베이스로 구축할 경우 XML 문서는 태그를 이용해 자동적으로 변환할 수 있다는 등이 HTML 보다 더 우수한 것으로 나타났다. XML이 보다 활성화되기 위해서는 XML 문법을 완벽하게 지원하는 XML 관련 소프트웨어가 많이 개발되어져야 한다. 또한, XML이 주는 무제한적인 태그 작성의 자유가 자칫 동일한 문헌 형태를 너무 다양한 양식들로 표현하다 보면 혼란을 빚을 가능성도 매우 높아지고 있다. 따라서, 특정 문헌 형태에 대한 표준적인 DTD 설계가 절실히 요구되어진다.

  • PDF

WordNet과 HTML 태그를 활용한 특정영역 정보의 웹 문서 분류 (Web Document Clustering for Specific Subject Information Using WordNet and HTML Tags)

  • 조은휘;변영태
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.28-32
    • /
    • 2002
  • 웹 상의 많은 정보들 속에서 사용자가 원하는 정보를 찾아내는 일은 쉽지 않다. 사용자가 의도하는 양질의 정보 제공을 위해 특정 영역과 관련한 정보 제공 시스템이 .개발되고 있다. 이전 시스템은 특정 영역 관련 지식베이스를 토대로 하여 웹 문서를 수집해 놓고, 사용자에게 정보를 제공한다. 본 논문에서는 전문 사이트 내에 문서간의 유사성을 토대로 하여 동물 영역에 대한 효과적인 문서 클러스타링(clustering)에 관해 실험하였다. 기존의 방법에서는 문서의 분류나 질의어와 관련한 문서 선택이나 순위 결정이 주로 텀(term)을 바탕으로 하고 있다. 본 논문에서는 각 문서 내의 텀 뿐만 아니라 HTML 태그(tag), 지식베이스에 WordNet의 계층구조를 적용한 data를 활용하고, SVD(Singular Value Decomposition)를 사용하여 문서간의 관계를 밝혀내어 문서 분류 및 수집에 이용하였다. 특정 영역의 전문 문서를 많이 제공하는 사이트에 적용하여 좋은 결과를 볼 수 있었다.

  • PDF

기계학습과 규칙 기반 접근 방법을 결합한 의미 있는 표 구분과 헤드 영역 추출 (Extracting Web-Table Information Using Decision Tree and Rule Based Approach)

  • 정성원;박대원;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.5-11
    • /
    • 2004
  • 일반적으로 HTML문서는 크게 내용과 구조로 이루어져 있다. HTML은 일반 문서와 달리 태그라는 것으로 문서에 추가 정보를 주며, 문서의 내용을 더욱 명확하게 한다. 따라서 태그를 이용하면 일반 문서보다 정보를 쉽게 구별하고 추출할 수 있다. 이러한 여러 가지 태그들 중에서 본 연구는 표를 중점적으로 연구한다. 표는 행과 열을 이용하여 어떤 사실을 조직하여 전달하는 것으로, 다른 구조적 특성들 보다 정보를 조직하는데 매우 유용하며, 글로 기술할 많은 분량을 간단히 줄이는 역할을 한다. 이와 같은 표의 특성에 주목하여 표에서 정보를 추출하는 분야를 기존 연구자들은 Web Table Mining 명명하였다. 본 연구는 기존 연구자들이 간과한 표의 구조적인 특성을 이용하여 전체 인터넷 문서에 적용할 수 있는 방법과 함께, 표에서 의미 있는 정보 추출을 위한 단계적인 모형을 제시한다.

  • PDF

시소러스를 이용한 XML 태그 검색 시스템 (An XML Tag Search System By Using Thesaurus)

  • 양승원;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.145-147
    • /
    • 2000
  • 현재 웹 기술은 HTML에서 정보를 표현하는 외형과 내용을 분리하여 정보를 구조화할 수 있는 XML을 사용하고 있다. 구조적으로 구성된 XML은 새로운 정보 검색의 방법을 제시하였다. 즉, 태그를 이용한 정보검색으로 검색어에 의미를 부여함으로써 정보 검색자에게 좀더 효율적인 검색을 가능하게 하였다. 그러나 이러한 구조화 문서 검색 기법은 정확한 태그를 입력하였을 경우에만 결과를 얻을수 있는 단점을 지니고 있다. 따라서 본 논문에서는 XML문서의 태그 검색에 있어 정확한 태그 검색을 확장한 유사 태그 검색기법을 설계하고 구현하였다. 유사한 태그를 검색하기 위하여 시소러스를 구성하였으며, 작성된 시소러스를 이용하여 유사한 태그에 대한 검색을 수행하였다. 기존의 XML문서 검색 시스템은 정한 태그에 대한 검색만을 수행할 수 있는 반면, 본 시스템은 태그검색에 있어 시소러스를 활용함으로써 질의에 입력되어진 태그와 유사한 태그에 대한 검색 결과를 보여줌으로써 사용자에게 질의어 선정의 불편함을 감소시켰다.

  • PDF

영어 웹문서 기계번역을 위한 태그 관리기 (Tag Manager for Machine Translation of English Web Page)

  • 안동언;서진원;이영우;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.164-168
    • /
    • 1998
  • 영어 웹문서를 한국어로 기계번역을 하기 위해서는 웹문서에 있는 HTML 태그들을 처리하여야 한다. 본 논문에서는 웹문서의 태그들을 처리해 주는 태그 관리기를 제안한다. 태그 관리기는 영한기계번역의 대상이 되는 영어 웹문서에서 태그를 분리하고, 번역이 완료된 후에는 분리된 태그들을 올바른 위치에 복원시키는 기능을 갖는다. 태그 관리기는 태그들의 위치정보에 따른 태그들의 분류와 이를 분리하고 복원하는 기능을 가지고 태그의 내용에 따른 문장 분리기능도 가진다.

  • PDF

메타 검색엔진을 위한 페이지 변경 탐지기 설계 (Design of A Page Modification Detector for Meta-search Engines)

  • 박상위;오정석;이상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.205-207
    • /
    • 2001
  • 웹 상의 HTML 문서들은 수시로 변경되고 있으며, 정보를 검색하는 웹사이트 또한 예외는 아니다. 다수의 웹 검색엔진들의 결과를 통합하는 메타 검색엔진은 각 검색엔진의 정보 변경에 민감해야 된다. 본 논문은, 수시로 변경되는 검색엔진들의 HTML 문서 정보를 메타 검색 엔진에 반영하기 위해, 자동적으로 검색엔진들의 질의 형태 변경과 검색 엔진의 검색 결과 HTML 문서의 구조 변경 탐지는 질의 결과가 반복되는 HTML 태그(tags) 문서 구조를 패턴(pattern)으로 이용한다. 패턴 발견 알고리즘은 문자열에서 규칙적으로 발생하는 패턴을 찾아내는 Jaak Vilo 알고리즘을 기반으로 HTML 문서를 처리할 수 있도록 확장하였다. 발견된 HTML 문서 패턴과 기존의 검색 엔진 HTML 페이지의 구조적 패턴 정보를 비교하여 문서 구조 변경을 탐지한다.

  • PDF

PBL 기반 HTML 텍스트 에디터 구현 및 적용 (An Implementation and Application Of HTML Text Editor Using Problem-Based Learning)

  • 이은영;김갑수
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2007년도 동계학술대회
    • /
    • pp.197-202
    • /
    • 2007
  • 컴퓨터 관련 인프라가 양적으로 팽창하는 지식 정보화 사회에서 컴퓨터 교육은 기초 기본 교육과 더불어 필수적으로 이루어져야 한다. 본 논문에서는 학생들이 쉽게 그리고 많이 접하는 웹에 관한 내용을 지도함에 있어 단순히 인터넷 검색이 아니라 어떻게 웹 페이지가 만들어지는지에 초점을 두었다. 이를 위해 PBL기반 HTML 텍스트 에디터를 구현하고 이를 수업에 직접 적용하여 배운 내용에 관한 형성 평가와 HTML 수업에 대한 흥미나 관심도 등을 설문지를 통해 알아보았다. 실험 결과 실험 집단과 통제 집단 사이에서 에디터로 인한 형성평가 성취도에는 차이가 없었다. 설문지를 통해 조사한 정의적인 영역은 7문항 중 수업의 난이도를 질문한 문항과 앞으로 홈페이지를 만들 수 있는가를 질문한 문항에서만 유의미한 차이를 보였다. PBL 기반의 HTML 텍스트 에디터는 인지적 영역의 성취도에서는 큰 차이를 보이지 않지만 직접 HTML 태그를 치지 않는 에디터를 이용해도 HTML과 관련된 지식을 습득할 수 있음을 보여준다.

  • PDF

HTTP Outbound Traffic을 이용한 개선된 악성코드 탐지 기법 (An Improved Detecting Scheme of Malicious Codes using HTTP Outbound Traffic)

  • 최병하;조경산
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권9호
    • /
    • pp.47-54
    • /
    • 2009
  • 웹을 통해 유포되는 악성코드는 다양한 해킹 기법과 혼합되어 진화되고 있지만, 이의 탐지 기법은 해킹 기술의 발전과 신종 악성코드에 제대로 대응하지 못하고 있는 실정이다. 본 논문에서는 악성코드와 이의 유포 특성의 분석에 따라 탐지 시스템이 갖추어야 할 요구사항을 정의하고, 이를 기반으로 HTTP Outbound Traffic을 감시하여 악성코드의 유포를 실시간으로 탐지하는 개선된 탐지 기법을 제안한다. 제안 기법에서는 악성코드를 유포하는 것으로 입증된 HTML 태그와 자바스크립트 코드를 시그니쳐로 IDS에 설정한다. 실제 침입된 환경에서의 검증 분석을 통해 제안 기법이 기존 기법에 비해 요구 사항의 만족에 우수하고 악성코드에 대한 높은 탐지율을 보임을 제시한다.

이기종 DBMS간 데이터 교환과 복제를 위한 XML 웹 에이전트 설계 및 구현 (Design and Implementation of XML Web Agent for Data Exchange and Replication between Heterogeneous DBMSs)

  • 유신영;이춘근;임재홍
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.967-975
    • /
    • 2004
  • 오늘날 지식과 정보 교류의 기반이 인터넷으로 옮겨지면서 기업도 인터넷을 활용한 정보공유와 경제활동에 대한 요구가 증대되고 있다. 표현 위주의 하이퍼텍스트 마크업 언어(HTML : HyperText Markup Language)는 제한된 태그들을 사용하므로 문서를 구조화시키지 못하고 정보를 저장하거나 추출하는 방법이 비효율적이다. 반면에, 확장성 마크업 언어(XML : eXtensible Markup Language)는 사용자가 문서상에 사용될 태그를 정의할 수 있고 구조적인 데이터를 위해 만들어진 언어이므로 HTML에 비해 정보추출이 용이하다. 따라서 기업의 상업적인 데이터가 저장되어 있는 데이터베이스에서 필요한 데이터를 추출하여 웹에서 교환하기 위해서는 HTML보다는 XML이 더 적합하다. 본 논문에서는 이기종 데이터베이스 관리 시스템(DBMS : DataBase Management System)간의 데이터 관리와 XML 문서와 데이터베이스간의 정보 교환에 대하여 연구하고 XML을 매개물로 이용하여 이기종 DBMS간의 정보를 교환할 수 있는 웹 에이전트 시스템을 설계하고 구현하였다.

  • PDF