• 제목/요약/키워드: HTML tag

검색결과 65건 처리시간 0.028초

Tag2vec 기반의 지능형 불법 도박 사이트 탐지 모형 개발 (Development of an Intelligent Illegal Gambling Site Detection Model Based on Tag2Vec)

  • 송찬우;안현철
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.211-227
    • /
    • 2022
  • 오늘날 온라인 도박 사이트를 통한 불법 도박이 큰 사회문제가 되고 있다. 인터넷 기술의 발전과 스마트폰 보급으로 시공간의 제약이 사라지고 불법 온라인 도박을 누구나 쉽게 접근할 수 있게 되었기 때문이다. 이를 막기 위해 국내에서는 자체 모니터 요원의 탐지, '누리캅스'와 같은 제보 시스템 등을 활용해 불법 사이트를 탐지하고 있지만 이러한 수동적인 프로세스로는 인력부족 같은 한계로 모든 불법 사이트를 탐지하기 어려운 실정이다. 이에 여러 학자들이 인공지능 기반의 자동 불법 도박 사이트 탐지 기술을 연구해왔다. Xu et al. (2019)은 가짜 사이트들의 HTML Tag 구조에는 차별적인 특징이 있다는 점을 발견하였다. 이는 HTML Tag 구조가 불법 사이트를 탐지하는데 주요한 특징정보가 될 수 있음을 시사하지만, 불법 사이트 탐지 모델에 HTML Tag 구조를 반영하여 모형의 성능을 제고하고자 하는 연구는 지금까지 거의 시도되지 않았다. 이러한 배경에서 본 연구는 HTML Tag 구조를 특징화하여 모형의 성능을 향상시키고자 하였고, HTML Tag 구조를 적절하게 벡터화하기 위한 방법론으로 Doc2Vec을 변형한 Tag2Vec을 제안한다. Tag2Vec 기반 모델의 효과를 검증하기 위해 '더 치트'의 유해 사이트 목록과 Google 검색을 통한 정상 사이트 목록을 데이터 세트로 활용하여 실증분석을 수행하였다. 그 결과 비교 모델로 설정된 URL 기반 탐지 모델보다 본 연구에서 제안하는 Tag2Vec 기반 탐지 모델이 분류 정확도, Recall, F1_Score에서 모두 향상된 성능을 보임을 확인할 수 있었다. 이러한 본 연구의 제안모델은 향후 지능형 기술을 통해 우리 사회의 건강도를 제고하는데 효과적으로 활용될 수 있을 것으로 기대된다.

HTML 태그 깊이 임베딩: 웹 문서 기계 독해 성능 개선을 위한 BERT 모델의 입력 임베딩 기법 (HTML Tag Depth Embedding: An Input Embedding Method of the BERT Model for Improving Web Document Reading Comprehension Performance)

  • 목진왕;장현재;이현섭
    • 사물인터넷융복합논문지
    • /
    • 제8권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 최근 종단 장치(Edge Device)의 수가 증가함에 따라 빅데이터가 생성되었고 특히 정제되지 않은 HTML 문서가 증가하고 있다. 따라서 자연어 처리 모델을 이용해 HTML 문서 내에서 중요한 정보를 찾아내는 기계 독해(Machine Reading Comprehension) 기술이 중요해지고 있다. 본 논문에서는 기계 독해의 여러 연구에서 준수한 성능을 보이는 BERT(Bidirectional Encoder Representations from Transformers) 모델이 HTML 문서 구조의 깊이를 효과적으 로 학습할 수 있는 HTDE(HTML Tag Depth Embedding Method)를 제안하였다. HTDE는 BERT의 각 입력 토큰에 대하여 HTML 문서로부터 태그 스택을 생성하고 깊이 정보를 추출한다. 그리고 BERT의 입력 임베딩에 토큰의 깊이를 입력으로하는 HTML 임베딩을 더한다. 이 방법은 문서 구조를 토큰 단위로 표현하여 주변 토큰과의 관계를 식별할 수 있기 때문에 HTML 문서에 대한 BERT의 정확도를 향상시키는 효과가 있다. 마지막으로 실험을 통해 BERT의 기존 임베딩 기법에 비해 HTML 구조에 대한 모델 예측 정확도가 향상됨을 증명하였다.

WCTT: HTML 문서 정형화 기반 웹 크롤링 시스템 (WCTT: Web Crawling System based on HTML Document Formalization)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.495-502
    • /
    • 2022
  • 오늘날 웹상의 본문 수집에 주로 이용되는 웹 크롤러는 연구자가 직접 HTML 문서의 태그와 스타일을 분석한 후 수집 채널마다 다른 수집 로직을 구현해야 하므로 유지 관리 및 확장이 어렵다. 이러한 문제점을 해결하려면 웹 크롤러는 구조가 서로 다른 HTML 문서를 동일한 구조로 정형화하여 본문을 수집할 수 있어야 한다. 따라서 본 논문에서는 태그 경로 및 텍스트 출현 빈도를 기반으로 HTML 문서를 정형화하여 하나의 수집 로직으로 본문을 수집하는 웹크롤링 시스템인 WCTT(Web Crawling system based on Tag path and Text appearance frequency)를 설계 및 구현하였다. WCTT는 모든 수집 채널에서 동일한 로직으로 본문을 수집하므로 유지 관리 및 수집 채널의 확장이 용이하다. 또한, 키워드 네트워크 분석 등을 위해 불용어를 제거하고 명사만 추출하는 전처리 기능도 제공한다.

HTML 태그페턴을 이용한 웹정보추출시스템 (Web Information Extraction using HTML Tag Pattern)

  • 박병권
    • 한국정보시스템학회:학술대회논문집
    • /
    • 한국정보시스템학회 2005년도 춘계학술대회 발표 논문집
    • /
    • pp.79-92
    • /
    • 2005
  • To query the vast amount of web pages which are available i]l the Internet, it is necessary to extract the encoded information in the web pages for converting it into structured data (e.g. relational data for SQL) or semistructured data (e.g. XML data for XQuery), In this paper, we propose a new web information extraction system, PIES, to convert web information into XML documents. PIES is based on a user-specified target schema and HTML tag pattern descriptions. The web information is extracted by the pattern descriptions and validated by the target schema. We designed a new language to describe extraction rules, and a new regular expression to describe HTML tag patterns. We implemented PIES and applied it to the US patent web site to evaluate its correctness. It successfully extracted more than thousands of US patent data and converted them into XML documents.

  • PDF

이동단말을 위한 적응적 웹 문서 변환 (Adaptive Conversion of Web Content for Mobile Terminals)

  • 강성천;정광수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권6호
    • /
    • pp.635-642
    • /
    • 2000
  • 본 논문에서는 이동 단말에 적응적으로 웹 문서를 제공할 수 있는 효율적인 문서 변환 방법과 적응적 태그 단순화(tag reduction)를 수행하기 위한 RHTML(Reduced HTML)을 제안하였다. 제안한 적응적 문서 변환 방법은 마크업(markup) 오류 제거 과정을 통해 HTML(HyperText Markup Language) 문서를 XML(Extensible Markup Language)의 응용 문서로 변환한다. 이를 통해 웹 문서는 DOM(Document Object Model)을 사용하여 트리 구조로 손쉽게 다루어질 수 있게 되며, 따라서 이동 단말에서 마크업 오류를 수정하는 하드웨어의 부하를 제거할 수 있다. 또한 제안한 문서를 단순화하는 과정에서는 RHTML에 정의 된 3가지의 DTD(Document Type Definition)중 하나를 참고하여 이동 단말에 적응적으로 웹문서를 제공한다.

  • PDF

XML 기반의 이기종 DBMS간 데이터 복제 웹 에이전트 설계 및 구현 (Design and Implementation of Data Replication Web Agent between Heterogeneous DBMSs based on XML)

  • 유선영;임재홍
    • 한국항해항만학회지
    • /
    • 제26권4호
    • /
    • pp.427-433
    • /
    • 2002
  • 최근 인터넷에서 사용되고 있는 하이퍼텍스트 생성 언어(HTML : Hyper Text Markup Language)는 제한된 태그(Tag)들을 사용하기 때문에 문서를 구조화시키지 못해 정보 축적과 정의추출 방법이 비효율적이고 추출한 정보의 가공이 어렵다. 그러나 확장성 생성 언어 (XML ; eXtensible Markup Language)는 사용자가 문서상에 사용될 태그를 자유롭게 정의할 수 있고 다른 사람들도 그 태그를 사용할 수 있기 때문에 HTML에 비해 정보 축적과 정보추출 방법이 용이하다. 서로 다른 데이터베이스를 사용하고 있는 항만 관련 업체들간의 물류에 관한 정보를 공유하거나 교환하기 위해서는 HTML이 아닌 XML이 더 적합하다. 본 논문에서는 항만업체들의 요구를 수용하기 위해 XML을 이용하여 웹에서 이기종 데이터베이스 관리 시스템(DBMS ; Database Management System)간의 데이터 복제 및 정보를 교환할 수 있는 웹 에이전트 시스템을 설계하고 구현하였다.

인터넷 웹페이지의 음성합성을 위한 엔진 및 플러그-인 설계 및 구현 (Design and Implementation of a Speech Synthesis Engine and a Plug-in for Internet Web Page)

  • 이희만;김지영
    • 한국정보처리학회논문지
    • /
    • 제7권2호
    • /
    • pp.461-469
    • /
    • 2000
  • 본 논문은 인터넷 웹페이지의 텍스트 정보를 추출하여 이를 음성으로 합성하기 위한 음성합성 엔진 및 넷스케이프 플러그인의 설계 및 구현에 관한 것이다. 인터넷 웹페이지를 음성으로 합성하는 방법은 audio/x-esp MIME 타입을 임베딩한 웹페이지가 발견되면서 이에 상응하는 플러그-인이 작되며 해당 플러그인은 URL로 지정된 HTML 문서를 네트워크에서 가져와 컴맨더 모브젝트에 보내교, 컴맨더 오브젝트는 HTML 문서를 파싱하여 합성엔진 제어용 TAG를 추출한다. 제어용 TAG에는 음성합성 데이터베이스 변경 및 합성음의 길이 또는 피치조절 파라미터 등의 정보를 갖고 있어 동적으로 합성음을 제어할 수 있다. 또한 컴맨더 오브젝트는 HTML 문서 내부의 특정 태그로 지정된 문장을 추출하여 전처리 과정을 수행한 후 합성엔진을 위한 컴맨드 스트림을 발생한다. 음성합성엔진은 컴맨드 스트림을 훼치(Fetch)하여 명령어를 해석하고 해당 명령어를 상응하는 멤버함수를 실행하여 음성을 합성한다. 컴맨더 오브젝트와 음성합성엔진은 각각 독립적인 객체로 설계하여 이식성과 유연성을 높인다.

  • PDF

HTML은 이제 그만

  • 황희정
    • 디지털콘텐츠
    • /
    • 12호통권43호
    • /
    • pp.66-70
    • /
    • 1996
  • 이번호에는 지난달에 예고한 바와 같이 지금까지 해왔던 HTML Tag를 이용한 홈페이지 제작이 아니라 워드를 치는 것만으로도 홈페이지를 만들 수 있는 방법을 소개 하고자 한다. 이번호에는 MS Word와 Internet Assistant를 이용하는 방법을 소개하고 다음달에는 역시 MS의 제품중 하나로 다음버전의 Office package에 포함될 홈페이지 저작툴인 Frintpage를 이용한 방법을 소개하고자 한다.

  • PDF

이기종 DBMS간 데이터 교환과 복제를 위한 XML 웹 에이전트 설계 및 구현 (Design and Implementation of XML Web Agent for Data Exchange and Replication between Heterogeneous DBMSs)

  • 유신영;이춘근;임재홍
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.967-975
    • /
    • 2004
  • 오늘날 지식과 정보 교류의 기반이 인터넷으로 옮겨지면서 기업도 인터넷을 활용한 정보공유와 경제활동에 대한 요구가 증대되고 있다. 표현 위주의 하이퍼텍스트 마크업 언어(HTML : HyperText Markup Language)는 제한된 태그들을 사용하므로 문서를 구조화시키지 못하고 정보를 저장하거나 추출하는 방법이 비효율적이다. 반면에, 확장성 마크업 언어(XML : eXtensible Markup Language)는 사용자가 문서상에 사용될 태그를 정의할 수 있고 구조적인 데이터를 위해 만들어진 언어이므로 HTML에 비해 정보추출이 용이하다. 따라서 기업의 상업적인 데이터가 저장되어 있는 데이터베이스에서 필요한 데이터를 추출하여 웹에서 교환하기 위해서는 HTML보다는 XML이 더 적합하다. 본 논문에서는 이기종 데이터베이스 관리 시스템(DBMS : DataBase Management System)간의 데이터 관리와 XML 문서와 데이터베이스간의 정보 교환에 대하여 연구하고 XML을 매개물로 이용하여 이기종 DBMS간의 정보를 교환할 수 있는 웹 에이전트 시스템을 설계하고 구현하였다.

  • PDF

MP3 태그의 XML 확장을 이용한 동기화된 재생 시스템 (Synchronized MP3 Playing System Using XML Extension of MP3 Tag)

  • 곽미라;조동섭
    • 정보처리학회논문지B
    • /
    • 제9B권1호
    • /
    • pp.67-76
    • /
    • 2002
  • 고품질의 오디오 표준인 MP3포맷의 사용이 증가하면서, 오디오 데이터 외에 작곡가, 가사 등의 관련정보를 함께 저장하려는 요구가 나타났고 이를 만족하는 태깅 시스템들이 등장했다. 특히 ID3 vl 태그와 Lyrics3 v2 태그를 함께 사용하는 태깅 방법이 많이 사용되고 있다. 그러나 이 태그들은 MP3 파일 내에서 오디오 스트림의 뒷부분에 기록되므로, 이러한 태깅 방법이 적용된 MP3 파일이 스트리밍 방식으로 전달되는 경우 사용자는 전체 스트림이 로컬 시스템에 전송되기 전까지 태그 정보를 볼 수 없다. 또한 태그 정보들 중 오디오 스트림에 시간적으로 동기화된 정보들은 동기화의 기능을 잃는다. 본 논문에서는 원격지로부터 전달되는 MP3 파일의 재생시 태그 정보가 무시되는 문제를 해결하였다. XML을 사용하여 MP3 오디오 객체를 모델링하였고, 그 요소들의 시간관계성과 동기성을 HTML+TIME 방식으로 표현하는 XSL 문서를 설계하여 오디오 데이터가 시간성과 동기성을 가지고 웹 상에서 재생되도록 하였다.