Search | Korea Science

A Design of HTML Tag Stack and HTML Embedding Method to Improve Web Document Question Answering Performance of BERT (BERT 의 웹 문서 질의 응답 성능 향상을 위한 HTML 태그 스택 및 HTML 임베딩 기법 설계)

Mok, Jin-Wang;Lee, Hyun-Seob
- Proceedings of the Korea Information Processing Society Conference
- /
- 2022.11a
- /
- pp.583-585
- /
- 2022
최근 기술의 발전으로 인해 자연어 처리 모델의 성능이 증가하고 있다. 그에 따라 평문 지문이 아닌 KorQuAD 2.0 과 같은 웹 문서를 지문으로 하는 기계 독해 과제를 해결하려는 연구가 증가하고 있다. 최근 기계 독해 과제의 대부분의 모델은 트랜스포머를 기반으로 하는 추세를 보인다. 그 중 대표적인 모델인 BERT 는 문자열의 순서에 대한 정보를 임베딩 과정에서 전달받는다. 한편 웹 문서는 태그 구조가 존재하므로 문서를 이해하는데 위치 정보 외에도 태그 정보도 유용하게 사용될 수 있다. 그러나 BERT 의 기존 임베딩은 웹 문서의 태그 정보를 추가적으로 모델에 전달하지 않는다는 문제가 있었다. 본 논문에서는 BERT 에 웹 문서 태그 정보를 효과적으로 전달할 수 있는 HTML 임베딩 기법 및 이를 위한 전처리 기법으로 HTML 태그 스택을 소개한다. HTML 태그 스택은 HTML 태그의 정보들을 추출할 수 있고 HTML 임베딩 기법은 이 정보들을 BERT 의 임베딩 과정에 입력으로 추가함으로써 웹 문서 질의 응답 과제의 성능 향상을 기대할 수 있다.
https://doi.org/10.3745/PKIPS.y2022m11a.583 인용 PDF

멀티미디어 데이터의 활용

Hwang, Hui-Jeong
- Digital Contents
- /
- no.11 s.42
- /
- pp.64-68
- /
- 1996
지난달까지 홈페이지 제작에 필요한 각종 HTML 태그들과 이들의 활용에 필요한 여러 가지 사항들을 살펴 보았다. 이번 달에는 딱딱한 HTML 태그에서 벗어나 좀더 재밌있고. 활용성이 강한 멀티미디어 데이터를 홈페이지에서 활용하는 방안에 대해 다루어 보겠다. 그리고 다음달에는 Microsoft Internet Assistant For Word를 이용 Word에서 만들어진 데이터를 HTML태그입력 없이 손쉽게 홈페이지를 만드는 방법을 소개하고자 한다.
PDF

Design and Implementation of Tag Converter for Transformation of Web Contents (웹 컨텐츠 변환을 위한 태그 변환기의 설계 및 구현)

Lee, Mi-Kyoung;Jang, Min-Su;Kim, Jae-Hong;Sohn, Ju-Chan
- Proceedings of the Korea Information Processing Society Conference
- /
- 2003.05b
- /
- pp.1297-1300
- /
- 2003
웹상의 컨텐츠에 인터넷 브라우저가 아닌 다양한 이기종의 클라이언트 장치가 접근하더라도, 그 장치에 필요한 형식의 컨텐츠를 실시간으로 변환해주는 문서 변환 시스템(Contents Adaptation & Transformation System)을 구현하였다. 본 논문에서 구현한 태그 변환기는 CATS 문서 변환 시스템에서 마크업 언어간의 태그 변환 기능을 수행한다. 태그 변환기는 변환 기능의 확장성 및 유연성을 확보하기 위해 태그간 변환 정보를 태그 변환기와 분리하여 관리하고 있다 원본 문서가 컨텍스트 정보와 함께 태그 변환기로 입력되면 태그 변환기는 설정파일을 참고하여 태그 변환용 XSL 문서들 중에서 변환에 사용할 XSL 문서를 결정하고 프로세서는 원본문서와 XSL 문서를 이용하여 새로운 문서를 생성하게 된다. 현재 태그 변환기는 HTML로 작성된 문서를 XHTMLBasic, WML, mHTML로 변환해주고 무선 컨텐츠간의 변환(mHTML- WML)도 지원해준다. 그리고 본 태그 변환기의 변환 규칙을 구현한 XSL문서는 유효하지 않은 형태의 HTML문서의 변환을 지원해주고 있다.
PDF

Detecting Tables in HTML Documents (HTML 문서의 테이블 식별)

김연석;이경호
- Proceedings of the Korean Information Science Society Conference
- /
- 2004.04b
- /
- pp.163-165
- /
- 2004
HTML의 ＜TABLE＞ 태그는 연관된 정보를 기술하기 위한 테이블은 물론이고 웹 문서의 레이아웃을 표현하기 위하여 사용된다 본 논문에서는 웹으로부터 유용한 정보를 추출하기 위한 목적의 일환으로 HTML 문서로부터 테이블을 식별하는 효율적인 방법을 제안한다. 제안된 방법은 전처리와 속성-값 연관관계에 추출의 두 단계로 구성된다. 전처리 단계에서는 진짜 테이블 또는 레이아웃용으로 사용된 ＜TABLE＞ 태그의 일반적인 특징을 반영한 규칙을 적용하여 진짜 또는 가짜로 명확히 식별이 가능한 ＜TABLE＞ 태그를 추출한다. 속성-값 연관관계 추출 단계에서는 테이블 영역을 속성 및 값 영역으로 구분한 후. 값 영역에 대하여 구문적 일관성 검사를 수행한다 또한 값 영역의 크기가 작아서 구문적 일관성 검사를 수행할 수 없는 경우, 속성-칸 영역의 의미적 일관성을 검사한다. 제안된 방법의 성능을 명가하기 위하여 1,393개의 HTML 문서로부터 추출한 11,477개의 ＜TABLE＞ 태그를 대상으로 실험한 결과. 평균적으로 97.54%의 정확률과 99.22%의 재현률을 보여 기존 연구보다 우수하였다.
PDF

The Soft Security Improvement of HTML5 With WEB Application (HTML5 로 구현한 웹 어플리케이션 보안 취약성 개선)

Kim, Kwang Su;Jang, Young Su;Choi, Jin Young
- Proceedings of the Korea Information Processing Society Conference
- /
- 2014.04a
- /
- pp.514-517
- /
- 2014
HTML5 는 웹 문서를 작성하기 위한 HTML(Hyper Text Markup Language)의 차세대 웹 표준 이다. HTML5 는 아직 개발 중에 있으며 2014 년 하반기에 최종표준이 발표 될 것으로 전망 된다. HTML5 는 이전 버전의 HTML 과 호환성을 유지하면서 개발자에게 동영상, 위치정보, 소켓통신 및 다양한 미디어 서비스 을 별도의 플러그인 없이 HTML5 의 확장된 표준 태그로 Dynamic 한 기능을 구현할 수 있게 한다. 그러나 HTML5 에 새롭게 추가된 일부 표준 태그 에서 웹 어플리케이션(Web application) 서비스의 데이터 보안 취약점이 발견되었다. 본 논문에서는 HTML5 로 웹 어플리케이션 소프트웨어 개발 과정에서 발견된 표준 태그 및 API 보안 취약점을 분석하고 공격대상이 되는 소스코드 의 취약점을 개선 하였다. 보안에 취약한 소스코드 취약점을 개선하여 외부 공격자의 위협으로 부터 보안 취약점을 예방 할 수 있는 대응방법을 제안한다.
https://doi.org/10.3745/PKIPS.y2014m04a.514 인용 PDF

FromTo-$Web/EK^{TM}$: English-to-Korean Machine Translation System for HTML Documents (에서로-웹/$EK^{TM}$: 영한 웹 문서 번역 시스템)

Sim, Chul-Min;Yuh, Sang-Wha;Jung, Han-Min;Kim, Tae-Wan;Park, Dong-In;Kwon, Hyuk-Chul
- Annual Conference on Human and Language Technology
- /
- 1997.10a
- /
- pp.277-282
- /
- 1997
최근 들어 웹 상의 문서를 번역해 주는 번역 시스템이 상용화되고 있다. 일반 문서와 달리 웹 문서는 HTML 태그를 포함하고 있어 번역 시스템에서 문장 단위로 분리하는데 어려움이 있다. 또한 그 대상 영역이 제한되지 않으므로 미등록어 및 구문 분석 실패에 대한 대처 기능이 필요하다. 따라서 웹 문서의 번역 품질이 일반 문서 번역에 비해 현저히 떨어지게 된다. 이 논문에서는 HTML 태그를 보유한 영어 웹 문서를 대상으로 하는 번역 시스템인 "에서로-웹/EK"에 대해 기술한다. 에서로-웹/EK는 HTML 문서의 특성을 고려하여 태그를 분리, 복원하는 태그 관리자를 별도로 가진다. 또한 태그를 유지하면서 영어에서 한국어로 변환되는 과정에서 발생하는 어휘 분리, 어휘 통합, 어순 변환 둥의 다양한 변환 현상을 처리한다. 이 시스템은 변환 방식에 기반한 번역 시스템으로서 영어 해석, 영한 변환, 한국어 생성의 단계를 거친다. 구현된 시스템은 Netscape와 DDE(Dynamic Data Exchange) 방식으로 연동하여 HTML 문서를 번역한다.
PDF

Learning Web-Document Characteristics Using Evolutionary Computation (진화연산을 이용한 웹 문서의 특성 학습)

Kim, Sun;Jang, Byung-Tak
- Proceedings of the Korean Institute of Intelligent Systems Conference
- /
- 2000.05a
- /
- pp.43-46
- /
- 2000
대용량의 문서를 대상으로 한 정보 검색은 인터넷과 WWW이 대중화되면서 웹 분서로 확장되었다. 기존의 문서는 주로 텍스트만으로 구성되는데 반해 웹 문서는 HTML을 기반으로 문서가 작성된다. HTML은 문서의 형태를 이루게 하는 여러 종류의 태그들로 구성되어 있고 문서 작성자는 이를 이용, 자기 의도를 홈페이지에 반영한다. 따라서 태그 정보의 학습은 검색 효율을 향상시키는데 도움을 줄 수 있다. 본 논문에서는 이러한 HTML의 태그 특성을 이용해 검색 효율을 향상하는 방법을 제시한다. 제시된 방법은 진화 알고리즘을 사용하여 질의와 검색결과를 담고 있는 데이터를 학습한다. 학습을 통해 얻어지는 결고는 각 태그에 대한 가중치 정보들이며, 이는 검색엔진의 문서 가중치 정보로 사용된다. TREC 데이터를 사용하여 실험 하였으며 태그 정보를 이용함에 따른 검색 성능 변화를 비교 분석하였다.
PDF

An Efficient Algorithm for Detecting Tables in HTML Documents (HTML 문서의 테이블 식별을 위한 효율적인 알고리즘)

Kim Yeon-Seok;Lee Kyong-Ho
- Journal of Korea Multimedia Society
- /
- v.7 no.10
- /
- pp.1339-1353
- /
- 2004
< TABLE > tags in HTML documents are widely used for formatting layout of Web documents as well as for describing genuine tables with relational information. As a prerequisite for information extraction from the Web, this paper presents an efficient method for sophisticated table detection. The proposed method consists of two phases: preprocessing and attribute-value relations extraction. For the preprocessing where genuine or ungenuine tables are filtered out, appropriate rules are devised based on a careful examination of general characteristics of < TABLE > tags. The remaining is detected at the attribute-value relations extraction phase. Specifically, a value area is extracted and checked out whether there is a syntactic coherency Futhermore, the method looks for a semantic coherency between an attribute area and a value area of a table that may be inappropriate for the syntactic coherency checkup. Experimental results with 11,477 < TABLE > tags from 1,393 HTML documents show at the method has performed better compared with previous works, resulting in a precision of 97.54% and a recall of 99.22% in average.
PDF

Genetic algorithm for personalized information filtering agent (개인화된 정보 필터링 에이전트를 위한 유전 알고리즘)

손윤희;박상호
- Proceedings of the Korea Multimedia Society Conference
- /
- 2001.11a
- /
- pp.423-428
- /
- 2001
유전 알고리즘을 이용한 정보 필터링 에이전트는 기존의 검색엔진에서 찾고자 하는 문서에 대해 검색된 문서의 유사도가 낮은 문제점을 해결한다. 본 논문에서는 HTML 태그의 중요도 가중치와 HTML 태그 안의 위치에 대한 가중치를 유전 알고리즘을 이용하여 학습한다. 여기서 학습된 가중치가 높은 태그와 태그 안의 위치 그리고 출현하는 빈도수에 대한 중요도 가중치를 다시 유전 알고리즘을 이용하여 학습하고 여기서 학습된 가중치로 검색된 문서를 필터링하여 정보 검색 성능을 향상시킬 수 있는 방법을 제안한다. 이 때 태그의 중요도 가중치 값을 학습하는 방법으로 하나의 태그를 유전자로 매핑하고 일련의 태그 집합을 염색체로 표현한 유전 알고리즘을 이용한다. 태그 안의 위치에 대한 중요도 가중치 값도 같은 방법을 이용한다. 여기서 나온 태그와 위치 그리고 빈도 수에 대한 중요도 가중치 값을 다시 유전자 알고리즘 이용하여 계산하다. 이 값으로 검색된 문서를 필터링하여 기존의 정보검색보다 검색자가 원하는 검색문서에 상당한 정확율을 제공하는 방법을 제안한다.
PDF

Logistic Regression Ensemble Method for Extracting Significant Information from Social Texts (소셜 텍스트의 주요 정보 추출을 위한 로지스틱 회귀 앙상블 기법)

Kim, So Hyeon;Kim, Han Joon
- KIPS Transactions on Software and Data Engineering
- /
- v.6 no.5
- /
- pp.279-284
- /
- 2017
Currenty, in the era of big data, text mining and opinion mining have been used in many domains, and one of their most important research issues is to extract significant information from social media. Thus in this paper, we propose a logistic regression ensemble method of finding the main body text from blog HTML. First, we extract structural features and text features from blog HTML tags. Then we construct a classification model with logistic regression and ensemble that can decide whether any given tags involve main body text or not. One of our important findings is that the main body text can be found through 'depth' features extracted from HTML tags. In our experiment using diverse topics of blog data collected from the web, our tag classification model achieved 99% in terms of accuracy, and it recalled 80.5% of documents that have tags involving the main body text.
https://doi.org/10.3745/KTSDE.2017.6.5.279 인용 PDF KSCI

Search Result 108, Processing Time 0.026 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)