• Title/Summary/Keyword: HTML 파싱

Search Result 19, Processing Time 0.156 seconds

An Extraction Method of Bibliographic Information from the US Patents: Using an HTML Parsing Technique (미국 특허 서지정보 추출 방법에 대한 연구: HTML 파싱 기법의 활용을 중심으로)

  • Han, Yoo-Jin;Oh, Seung-Woo
    • Journal of the Korean Society for information Management
    • /
    • v.27 no.2
    • /
    • pp.7-20
    • /
    • 2010
  • This study aims to provide a method of extracting the most recent information on US patent documents. An HTML paring technique that can directly connect to the US Patent and Trademark Office (USPTO) Web page is adopted. After obtaining a list of 50 documents through a keyword searching method, this study suggested an algorithm, using HTML parsing techniques, which can extract a patent number, an applicant, and the US patent class information. The study also revealed an algorithm by which we can extract both patents and subsequent patents using their closely connected relationship, that is a very distinctive characteristic of US patent documents. Although the proposed method has several limitations, it can supplement existing databases effectively in terms of timeliness and comprehensiveness.

Web Standard Extensible Technical for Rich Internet Application (리치 인터넷 어플리케이션 응용을 위한 웹 표준 확장 기술)

  • Kim, SangWoo;Kim, Woosaeng
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.833-836
    • /
    • 2010
  • RIA(Rich Internet Application)는 기존의 웹 애플리케이션 기술이 가진 평면적인 표현과 순차적인 프로세스를 다이나믹한 사용자 인터페이스와 데이터베이스의 연동을 통해 저렴한 비용으로 하나의 인터페이스에서 모든 프로세스가 처리 가능하도록 해주는 기술을 의미한다. 본 논문에서는 웹 표준(HTML/CSS)을 RIA로 확장한 문법을 해석 할 수 있는 RIA Generator를 제안한다. RIA Generator는 크게 두 부분으로 나뉘는데, 한 부분은 기존 HTML 및 CSS 소스와 확장된 RIA 문법을 파싱하는 부분이고, 나머지 한 부분은 파싱한 것을 의미에 따라 화면에 적절히 출력하는 부분이다.

Design and Implementation of an HTML Converter Supporting frame for the Wireless Internet (무선 인터넷을 위한 프레임 지원 HTML 변환기의 설계 및 구현)

  • 한진섭;차호정;박병준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04d
    • /
    • pp.499-501
    • /
    • 2003
  • 본 논문은 무선 인터넷 환경에서 사용자의 편의와 상호 운용성을 고려해서 유선상의 HTML 프레임 콘텐츠를 변환시키는 프레임 지원 HTML 변환기의 설계 및 구현에 대해 기술한다. 구현된 HTML 변환기는 일반 텍스트 콘텐츠의 경우, 일대일 태그 매핑을 통해 WML 콘텐츠로 변환이 된다. 프레임으로 구성된 콘텐츠는 프레임 콘텐츠 재구성 모듈에서 일련의 재구성 과정을 거친 후에 대부분의 프레임 콘텐츠가 여러 메뉴에 대해서 보여지는 타겟 프레임은 하나로 고정되어 있는 것을 고려해서 무선 단말기의 화면에 1행 2열의 테이블 형태의 WML 콘텐츠로 변환이 된다. 즉 좌측열에는 여러 메뉴 콘텐츠를 우측열에는 타겟 프레임에 보여지게 되는 콘텐츠를 위치 시킴으로해서 프레임 콘텐츠의 변환을 수행한다. 추가적으로 이미지 맵이 포함된 콘텐츠의 변환은 이미지 맵 관련 태그를 파싱한 후, 링크되어 있는 HTML 문서의 이름을 추출해서 WML 콘텐츠 데이터로 대체하고, 해당 콘텐츠로 링크시킴으로써 변환이 가능하게 한다.

  • PDF

Implementation and Performance Evaluation of JX-PullParser using JFlex and BYacc/J (JFlex와 BYacc/J를 이용한 JX-PullParSer의 구현 및 성능 평가)

  • 장주현;노희영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.862-864
    • /
    • 2004
  • 현재 XML은 HTML의 대체 마크업 언어로써 그 사용이 확대되어 지고, 또한 XML 데이터를 위한 파서 모델과 파서 구현방식에 대한 연구가 진행되고 있다. 그 연구의 결과로 벤치마킹에서 PULL모델이 빠른 파싱 속도를 나타내었고, 파서의 구현 방식에 있어서는 PULL 모델 파서인 piccolo에서 사용한 parser generator tool인 JFlex와 BYacc/J를 사용하는 방법이 기존 파서 구현 방식에서 사용하던 Hand-write 방식보다 파싱이 빠른결과 [1]를 내 놓았다. 또한 이 두 방법을 이용하여 기존의 파서 보다 파싱을 위한 시스템 설계를 제안하였다[2]. 본 논문에서는 JX-PullParser 시스템을 구현하였고, xml 파서 속도 비교 도구인 saxbench 속도 비교 도구를 사용하여 기존 파서보다 빠른 파싱 속도를 보이는 것을 입증하였다.

  • PDF

Design and Implementation of an HTML Converter Supporting Frame for the Wireless Internet (무선 인터넷을 위한 프레임 지원 HTML 변환기의 설계 및 구현)

  • Han, Jin-Seop;Park, Byung-Joon
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.42 no.6
    • /
    • pp.1-10
    • /
    • 2005
  • This paper describes the implementation of HTML converter for wireless internet access in wireless application protocol environment. The implemented HTML converter consists of the contents conversion module, the conversion rule set, the WML file generation module, and the frame contents reformatting module. Plain text contents are converted to WML contents through one by one mapping, referring to the converting rule set in the contents converting module. For frame contents, the first frameset sources are parsed and the request messages are reconstructed with all the file names, reconnecting to web server as much as the number of files to receive each documents and append to the first document. Finally, after the process of reformatting in the frame contents reformatting module, frame contents are converted to WML's table contents. For image map contents, the image map related tags are parsed and the names of html documents which are linked to any sites are extracted to be replaced with WML contents data and linked to those contents. The proposed conversion method for frame contents provides a better interface for the users convenience and interactions compared to the existing converters. Conversion of image maps in our converter is one of the features not currently supported by other converters.

Study on Multiple Connection Process in iOS Applications (iOS 애플리케이션에서의 다중연결 처리에 대한 연구)

  • Lee, Jung-Kuk;Kim, Jong-Dae;Park, Chan-Young;Song, Hae-Jung;Kim, Yu-Seop
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06d
    • /
    • pp.32-35
    • /
    • 2011
  • 스마트 폰 애플리케이션에서 웹 문서의 정보를 가져와 정보를 제공하려면, 웹 문서를 파싱하여 알맞게 가공하는 것이 필요하다. API를 공개해 주는 웹 문서라면 간단하게 가공하여 서비스를 제공할 수 있지만, 많은 웹 문서들은 API를 제공해 주지 않기 때문에 HTML을 자체적으로 파싱하는 것이 불가피하다. 스마트 폰은 그 특성상 디스플레이의 크기가 작기 때문에 하나의 뷰에서 여러 개의 웹 문서를 파싱하여 정보를 한꺼번에 제공해야 하는 다중 연결문제를 가지고 있다. 또한 동시에 스마트 폰은 처리속도가 늦기 때문에 비동기적으로 스레딩 처리를 하는 과정에서 다중 연결의 순차적 과정은 동기식으로 처리해야하는 문제가 발생한다. 본 연구에서는 이와 같은 문제에 대한 해결책을 제시한다.

Design and Implement of an XSLT Processor Using Object-Oriented Modeling Method (객체모델링 기법을 이용한 XSLT 처리기의 설계 및 구현)

  • In, Kyung-Sook;Ha, Yan;Lee, Kyung-Whan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.508-510
    • /
    • 2001
  • 본 XSLT 처리기는 객체모델링 기법인 UML을 기반으로 설계하였고 핵심적인 부분은 XSL 스타일 시트를 HTML 패스/스타일로부터 구성해 내는 것이다 즉 문서 작성자는 XML문서를 작성하고 파싱하여 패스 테이블을 형성하고 이 패스 테이블에 작성자는 HTML패스/스타일을 추가한다. 이를 통해 XSL의 복잡한 스타일에 대한 고려없이 문서구조와 정보에 집중하여 견고한 문서를 만들 수 있다. 즉 구조 문서인 XML과 콘텐츠 타인의 대중적인 문서형인 HTML을 이용함으로써 적은 비용으로 다양한 문서 스타일을 구성할 수 있게 하여 XML 기술을 쉽게 보급시키며 컴포넌트 제작을 통해 다른 산업영역 문서교환에서 활용할 수 있다.

  • PDF

Design and implementation of web-robot using XML (XML을 이용한 웹 문서 수집기 설계 및 구현)

  • Lee, Sae-Byuk;Lim, Heui-Seok
    • Proceedings of the KAIS Fall Conference
    • /
    • 2008.11a
    • /
    • pp.49-52
    • /
    • 2008
  • 웹2.0, RIA(Rich Internet Application)의 발전으로 웹 기반 서비스가 다양해지고 기존의 응용프로그램 역시 웹 기반 인터페이스로 제공되면서 사용자 또한 단순 사용자가 아닌 서비스를 제공하는 컨슈머(Consumer)의 형태가 되었다. 따라서 웹 문서는 더욱 방대해 지고 검색, 분류, 색인 등을 위해서 웹문서의 수집이 새로운 형태로 필요하게 되었다. 그러나 기존의 데이터베이스 사용 방법이나, 문서의 전문을 파일형식으로 저장하는 방법은 웹문서를 이용하여 다양한 컨텐츠를 제공하기에 적합하지 않다. 그러므로 본 연구는 웹 문서를 파싱(Parsing)하여 필요한 부분을 XML파일 형태로 저장하여, 재사용성을 높이는데 초점을 맞추어 HTML을 파싱하고 자동으로 임의의 파일을 수집하는 문서수집기를 구현하게 되었다.

  • PDF

Desing of XML Parser for Mobile device (모바일 장치를 위한 XML 파서의 설계)

  • 장주현;노희영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.826-828
    • /
    • 2004
  • XML은 기존의 HTML과 SGML의 단정을 보안한 마크업 언어로써, 큰 대역폭, 많은 메모리 양, 높은 CPU속도를 가지는 유선 환경에서부터 저 대역폭, 적은 메모리 양, 낮은 CPU속도를 가지는 모바일 장치까지 사용이 확대되어 지고 있다. 현재 모바일에서 사용되는 XML 파서중에서는 PULL 모델 기반 Kxml파서[1]만이 모바일 장치를 고려한 파서이다. 모바일 장치에서 XML의 많은 사용을 위해서는 저메모리를 사용하여 빠른 파서에 대한 연구가 필요하다. 본 논문에서는 piccolo 파서에서 사용한 Parser generator tool 인 JFlex를 사용하고, 파싱 모델 중 가장 빠르고 저 메모리를 사용하는 Pull 모델을 적용함으로써, 빠른 Token 추출과 이벤트 형 정의를 통해 좀더 빠른 XML 파서를 제안하고자 한다.

  • PDF

Design and Implementation of a Speech Synthesis Engine and a Plug-in for Internet Web Page (인터넷 웹페이지의 음성합성을 위한 엔진 및 플러그-인 설계 및 구현)

  • Lee, Hee-Man;Kim, Ji-Yeong
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.2
    • /
    • pp.461-469
    • /
    • 2000
  • In the paper, the design and the implementation of the netscape plug-in and the speech synthesis enginegenerating the speech sounds from the text information of the web pages are described. The steps of the generating speech sound from an web pages are the speech synthesis plug-in is activated when the netscape finds the audio/xesp MIME data type embedded in the browsed web page; the HTML file referenced in the EMBED MTML tag is down loaded from the referenced URL to send to the commander object located in the said plug-in; The speech synthesis engine control tags and the text characters are extracted from the down loaded HTML document by the commander object the synthesized speech sounds are generated by the speech synthesis engine. The speech synthesis engine interprets the command streams from the commander objects to call the member functions for the processing of the speech segment data in the data banks. The commander object and the speech synthesis engine are designed as an independent object to enhancethe flexitility and the portability.

  • PDF