• Title/Summary/Keyword: HTML tag

Search Result 65, Processing Time 0.032 seconds

A Design of HTML Tag Stack and HTML Embedding Method to Improve Web Document Question Answering Performance of BERT (BERT 의 웹 문서 질의 응답 성능 향상을 위한 HTML 태그 스택 및 HTML 임베딩 기법 설계)

  • Mok, Jin-Wang;Lee, Hyun-Seob
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.583-585
    • /
    • 2022
  • 최근 기술의 발전으로 인해 자연어 처리 모델의 성능이 증가하고 있다. 그에 따라 평문 지문이 아닌 KorQuAD 2.0 과 같은 웹 문서를 지문으로 하는 기계 독해 과제를 해결하려는 연구가 증가하고 있다. 최근 기계 독해 과제의 대부분의 모델은 트랜스포머를 기반으로 하는 추세를 보인다. 그 중 대표적인 모델인 BERT 는 문자열의 순서에 대한 정보를 임베딩 과정에서 전달받는다. 한편 웹 문서는 태그 구조가 존재하므로 문서를 이해하는데 위치 정보 외에도 태그 정보도 유용하게 사용될 수 있다. 그러나 BERT 의 기존 임베딩은 웹 문서의 태그 정보를 추가적으로 모델에 전달하지 않는다는 문제가 있었다. 본 논문에서는 BERT 에 웹 문서 태그 정보를 효과적으로 전달할 수 있는 HTML 임베딩 기법 및 이를 위한 전처리 기법으로 HTML 태그 스택을 소개한다. HTML 태그 스택은 HTML 태그의 정보들을 추출할 수 있고 HTML 임베딩 기법은 이 정보들을 BERT 의 임베딩 과정에 입력으로 추가함으로써 웹 문서 질의 응답 과제의 성능 향상을 기대할 수 있다.

Korean Web Content Extraction using Tag Rank Position and Gradient Boosting (태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출)

  • Mo, Jonghoon;Yu, Jae-Myung
    • Journal of KIISE
    • /
    • v.44 no.6
    • /
    • pp.581-586
    • /
    • 2017
  • For automatic web scraping, unnecessary components such as menus and advertisements need to be removed from web pages and main contents should be extracted automatically. A content block tends to be located in the middle of a web page. In particular, Korean web documents rarely include metadata and have a complex design; a suitable method of content extraction is therefore needed. Existing content extraction algorithms use the textual and structural features of content blocks because processing visual features requires heavy computation for rendering and image processing. In this paper, we propose a new content extraction method using the tag positions in HTML as a quasi-visual feature. In addition, we develop a tag rank position, a type of tag position not affected by text length, and show that gradient boosting with the tag rank position is a very accurate content extraction method. The result of this paper shows that the content extraction method can be used to collect high-quality text data automatically from various web pages.

HTML5_-based Mobile Web Capture Video Learning System (HTML5_기반 모바일 웹 캡쳐 동영상 학습 시스템)

  • Lee, Yean-Ran;Lim, Young-Hwan
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.2
    • /
    • pp.8-18
    • /
    • 2013
  • In this paper, we capture learning while taking a video, play time and time line of the video frame in the form of areas that require re-learning in HTML5 mobile web store. When you select an image frame can display a list of the frame to take advantage of HTML5 Video tag up to 9 capture and save the playing time at the position. Implemented in a manner that runs Effects as compared to learning to run the entire frame capture learning and re-learning frame partial immersion learners matchumhyeong storytelling can be implemented. Interval Iterative Learning in a random order, so learners can level alignment by iterative learning on academic performance can have a positive effect.

A Study on Trend and Application of Internet Scripting Language (인터넷 스크립팅 언어의 동향 및 응용에 관한 연구)

  • Lee, Jong-Seop;Choe, Yeong-Geun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.11S
    • /
    • pp.3209-3218
    • /
    • 1999
  • Currently in the Web(World Wide Web) environment, HTML(Hyper Text Markup Language) is used for information representation and exchange. But it is thought that HTML has some constraints in information representation of various kinds because of its limited tag set. And it is considered that combining the HTML, which is used for static information representation in Web environment, with Scripting language, which is usually used for multimedia information representation in a synchronized framework, can be very useful. Consequently we show the general trend of the Scripting language in Web environment and show the possibility of HTML and Scripting language amalgamation for Web service improvement.

  • PDF

B2B에서 주문처리를 위한 XML 활용 방안

  • 조찬영;서준용;김재균;장길상
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.310-313
    • /
    • 2001
  • B2B(business to business) using the WWW have been quickly increased by the advance of the internet. Up to the Present, HTML have been used as the technology for representation of the WWW documents. HTML have a good transplantation and convenience. But HTML have a lot of constraints in the processing of the trade information between enterprises, because HTML use the fixed tag. In recently, a great number of technology appear to improve this problem. XML is one of them. XML published by W3C in 1998 is a standard for representation and interchange of WWW documents. So XML can be applied to interchange of information between enterprises in internet-based B2B. In this paper, we proposed the method for the order processing using the XML, applied the proposed method to 'H' company which product a part of marine engine, and then we implemented the prototype system. we described the effect of application.

  • PDF

Web Document Clustering Using Statistical Techniques & Tag Information on the Specific-Domain Web site (전문 웹 사이트에서의 통계적 기법과 태그 정보를 이용한 문서 분류)

  • 조은휘;변영태
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.11a
    • /
    • pp.297-302
    • /
    • 2002
  • 특정 영역에 대해 사용자에게 관련 정보를 제공하는 서비스를 위해 정보 에이전트를 개발하고 있다. 이 시스템은 웹 상에서 문서를 수집해 오는데 특정 영역과 관련한 지식베이스를 토대로 하고 있는데, 이들 중 몇몇 전문 사이트 내의 정보가 많이 포함되어 있음을 볼 수 있다. 그러므로 전문 사이트 내의 관련 문서 수집은 중요한 의의가 있다. 본 논문에서는 이들 전문 사이트 내의 전문 문서 수집을 위해 문서간의 유사성을 토대로 클러스터링 한다. 즉, 문서내의 텀(term)과 HTML 태그(tag), 지식베이스의 WordNet 계층구조를 data로 하고 SVD(Singular Value Decomposition)을 사용하여 문서간의 관계를 밝혀내었다.

  • PDF

An Automated Technique for Illegal Site Detection using the Sequence of HTML Tags (HTML 태그 순서를 이용한 불법 사이트 탐지 자동화 기술)

  • Lee, Kiryong;Lee, Heejo
    • Journal of KIISE
    • /
    • v.43 no.10
    • /
    • pp.1173-1178
    • /
    • 2016
  • Since the introduction of BitTorrent protocol in 2001, everything can be downloaded through file sharing, including music, movies and software. As a result, the copyright holder suffers from illegal sharing of copyright content. In order to solve this problem, countries have enacted illegal share related law; and internet service providers block pirate sites. However, illegal sites such as pirate bay easily reopen the site by changing the domain name. Thus, we propose a technique to easily detect pirate sites that are reopened. This automated technique collects the domain names using the google search engine, and measures similarity using Longest Common Subsequence (LCS) algorithm by comparing the tag structure of the source web page and reopened web page. For evaluation, we colledted 2,383 domains from google search. Experimental results indicated detection of a total of 44 pirate sites for collected domains when applying LCS algorithm. In addition, this technique detected 23 pirate sites for 805 domains when applied to foreign pirate sites. This experiment facilitated easy detection of the reopened pirate sites using an automated detection system.

A Design and Implementation of Application based on HTML5 of N-Screen Service (N-Screen Service를 위한 HTML5 기반의 Application 설계 및 구현)

  • Kim, Jeong-Jae;Seo, Joo-Hyun;Choi, Hyun-Woo;Lee, Jun-Ho;Kim, Jun-su;Cho, Kuk-Hyun
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2012.10a
    • /
    • pp.671-674
    • /
    • 2012
  • Recently, depending on the development of smart devices, a variable services have been offered to meet user's convenience. Due to these advance, the needs of users are extremely being diversified and more specific. In that situation, the needs for the N-Screen system has been varied and gradually evolved. An existing N-Screen system that use the way of video streaming upload its multimedia contents to their own cloud server so that might take a long play-reaction time and the number of user is limited by the server's performance. Because of the web based protocol adopted by existing N-Screen system, there are many different problems like high delay, overhead and something caused by simplex data communications. Therefore, to solve the problems above, this study proposes an application based on HTML5. This application supports Video tag and Progressive download via HTML5 so that improves the play-reaction time for multimedia contents. This system can also get rid of the chronic problems such as an access limitation for lots of users as per video streaming encoding. Also, through web sockets, this study proposes a system that has lower delay than the existing system and communicates in full duplex to be able to link dynamically.

  • PDF

The Smart Learning System for English Language Using Hangeul (한글을 이용한 스마트 영어 학습 시스템)

  • Kwon, Seung-tag;Kim, Yong-seok
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.40 no.6
    • /
    • pp.1157-1163
    • /
    • 2015
  • In this paper, we developed a Web App that operates in a mobile device. Also, we designed and developed an electronic dictionary of English words and sentences are expressed by English pronunciation with hangeul. The database using English words, Hangeul code with pictures, vocabulary definitions, speech sound files, and many sentences are created in this system. We developed the English learning system using HTML5 and m-Bizmaker software tools.

Web Document Clustering for Specific Subject Information Using WordNet and HTML Tags (WordNet과 HTML 태그를 활용한 특정영역 정보의 웹 문서 분류)

  • 조은휘;변영태
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.28-32
    • /
    • 2002
  • 웹 상의 많은 정보들 속에서 사용자가 원하는 정보를 찾아내는 일은 쉽지 않다. 사용자가 의도하는 양질의 정보 제공을 위해 특정 영역과 관련한 정보 제공 시스템이 .개발되고 있다. 이전 시스템은 특정 영역 관련 지식베이스를 토대로 하여 웹 문서를 수집해 놓고, 사용자에게 정보를 제공한다. 본 논문에서는 전문 사이트 내에 문서간의 유사성을 토대로 하여 동물 영역에 대한 효과적인 문서 클러스타링(clustering)에 관해 실험하였다. 기존의 방법에서는 문서의 분류나 질의어와 관련한 문서 선택이나 순위 결정이 주로 텀(term)을 바탕으로 하고 있다. 본 논문에서는 각 문서 내의 텀 뿐만 아니라 HTML 태그(tag), 지식베이스에 WordNet의 계층구조를 적용한 data를 활용하고, SVD(Singular Value Decomposition)를 사용하여 문서간의 관계를 밝혀내어 문서 분류 및 수집에 이용하였다. 특정 영역의 전문 문서를 많이 제공하는 사이트에 적용하여 좋은 결과를 볼 수 있었다.

  • PDF