• Title/Summary/Keyword: HTML parsing

Search Result 17, Processing Time 0.02 seconds

Design and implementation of web-robot using XML (XML을 이용한 웹 문서 수집기 설계 및 구현)

  • Lee, Sae-Byuk;Lim, Heui-Seok
    • Proceedings of the KAIS Fall Conference
    • /
    • 2008.11a
    • /
    • pp.49-52
    • /
    • 2008
  • 웹2.0, RIA(Rich Internet Application)의 발전으로 웹 기반 서비스가 다양해지고 기존의 응용프로그램 역시 웹 기반 인터페이스로 제공되면서 사용자 또한 단순 사용자가 아닌 서비스를 제공하는 컨슈머(Consumer)의 형태가 되었다. 따라서 웹 문서는 더욱 방대해 지고 검색, 분류, 색인 등을 위해서 웹문서의 수집이 새로운 형태로 필요하게 되었다. 그러나 기존의 데이터베이스 사용 방법이나, 문서의 전문을 파일형식으로 저장하는 방법은 웹문서를 이용하여 다양한 컨텐츠를 제공하기에 적합하지 않다. 그러므로 본 연구는 웹 문서를 파싱(Parsing)하여 필요한 부분을 XML파일 형태로 저장하여, 재사용성을 높이는데 초점을 맞추어 HTML을 파싱하고 자동으로 임의의 파일을 수집하는 문서수집기를 구현하게 되었다.

  • PDF

Suggestion of development for domestic game market through big data analysis of global game trend (글로벌 게임 트렌드의 빅데이터 분석을 통한 국내 게임 시장의 발전 방향성 제시)

  • Song, Junhyup;Lim, Minwoo;Kim, Hansoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.161-164
    • /
    • 2022
  • 게임 산업은 기술의 발전과 비대면 서비스 수요 증가로 해마다 발전하고 있다. 본 연구는 사용자들의 수요를 조사하기 위하여 대중성이 가장 높은 온라인 게임 플랫폼에서 이용 시간이 많은 게임 정보를 확인하였다. HTML 파싱(parsing) 라이브러리를 통해 해당 게임들의 리뷰를 크롤링하여 엑셀 파일로 데이터베이스화하였고, 자연어 처리 라이브러리를 활용하여 데이터를 정제하였다. 총 5개 장르에 대하여 분석한 결과 각 장르에 해당하는 대표적인 키워드를 확인할 수 있었다. 취득한 키워드는 범용 시각화 패키지를 활용하여 워드 클라우드 형태로 한눈에 알아볼 수 있도록 시각화하였다.

  • PDF

The Design and Implementation of connection system of Science and Technology Information using RSS (RSS를 이용한 과학기술정보 연계시스템 설계 및 구현)

  • Lee, Min-Ho;Park, Sang-Bae;Joo, Won-Kyun;Yang, Myung-Seok;Choi, Ki-Seok
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2006.11a
    • /
    • pp.551-554
    • /
    • 2006
  • Research Institutes of Government has produced various information about research, seminar, recent research trend, and so on. This information flows into project management organization and institute management organization. It is necessary to connect information systems of these organizations and institutes. The existing systems connect with self-defined protocol between the organizations and the institutes or HTML parsing method. but, these methods have many drawback for expanding and changing problem. This paper designs and implements science and technology information connection system using RSS.

  • PDF

Web Data Collection and Utilization using Content Syndication (콘텐츠 신디케이션을 이용한 웹 데이터 수집 및 활용)

  • Hwang, Sanghyun;Kim, Heewan
    • Journal of Service Research and Studies
    • /
    • v.5 no.2
    • /
    • pp.83-92
    • /
    • 2015
  • Many data on the web are present, put out by processing in the content in order to provide services by collecting the necessary data is not easy. One of the reasons is because there is no way to provide a standardized data. Therefore, it can be seen as a part or all of the contents of the site, the content distribution to be available for other services is very important. A syndication format that allows you to use a representative of some or all of the site's content for other services such as RSS and there are Atom, OPML-based XML. Throughout the links provided in this syndication format is called feed address. With a feed address to collect data faster than the conventional HTML parsing and data provider is the advantage of being able to easily provide the data to the outside. In this study, we feed the data obtained by collecting by implementing the web address based on the data acquisition system to propose a method for processing and utilizing the data as a background.

Development and Implementation of the XML Parser for integrated XML Webservice (XML웹서비스를 위한 XML Parser개발 및 구현)

  • Kwon, Doo-Wy;Do, Kyeong-Hoon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.72-75
    • /
    • 2009
  • XML과 웹서비스의 등장으로 전자문서 관리의 중요성이 대두되었고, 효율적인 관리를 위해 많은 기업들이 기술 개발을 해오고 있다. 그러나 웹언어나 프로토콜에 대한 공개 표준이 제정 되지 않아 기업들은 개별적으로 웹서비스를 구축하고 이는 인터넷 시장과 웹의 분열을 가져왔다. 이에 W3C에서는 웹 상호운용성을 목표로 XML표준안을 공표했다. MusicXML, MathML, CML(Chemistry Markup Language), WML(Wireless Markup Language)등은 모두 특정한 용도를 가지는 XML기반의 마크업 언어들이다. XML은 단지 웹 환경만을 위한 표준이 아니라 인터넷 전반에서 데이터를 생성, 저장, 변환하기 위한 보편적인 표준으로 자리 잡고 있다. 본 논문에서는 모바일환경과 웹 환경에서 동시 서비스가 가능한 XML 웹서비스를 구현하였다. XML 웹서비스는 인터넷 표준기술인 XML과 HTTP를 사용하는데, XML기반의 SOAP메시지를 파싱하기 위하여 WIPI와 HTML기반으로 설계, 개발하였다. 제안하는 XML Parser는 PULL모델을 변형한 이벤트 방식이다. 제안한 Parser는 모바일기기와 웹 환경에서 동시 사용가능한 인터넷 서점에 적용하였고, 제안하는 XML Parser와 기존의 Parser들과의 벤치마킹을 통해 속도비교를 함으로써 Parsing속도의 향상을 나타내었다.

  • PDF

The Integration System for International Procurement Information Processing (국제입찰정보 통합시스템의 설계 및 구현)

  • Yoon, Jong-Wan;Lee, Jong-Woo;Park, Chan-Young
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.8 no.1
    • /
    • pp.71-81
    • /
    • 2002
  • The lack of specialties of the existing commercial web search systems stems from the fact that they have no capabilities to extract and gather the meaningful information from each information domain they cover. We are sure, however, that the necessity for the information integration system, not just search system, will be likely to become larger in the future. In this paper, we propose a design and implementation of an information integration system called TIC(target information collector). TIC is able to extract meaningful information from a specific information area in the internet and integrate them for the commercial service. We also show the evaluation results of our implementation. For the experiments we applied our TIC to the international procurement information area. The international procurement information is publicly and freely announced by each government to the world. To automatically extract common properties from the related source sites, we adopt information pointing technique using inter-HTML tag pattern parsing. And through the information integration framework design, we can easily implement a site-specific information integration engine. By running our TIC for about 8 months, we find out it can remove considerable amount of the duplicated information, and as a result, we can obtain high quality international procurement information. The main contribution of this paper is to present a framework design and it's implementation for extracting the information of a specific area and then integrating them into a meaningful one.

IFC-based Data Structure Design for Web Visualization (IFC 기반 웹 가시화를 위한 데이터 구조 설계)

  • Lee, Daejin;Choi, Wonik
    • Journal of KIISE
    • /
    • v.44 no.3
    • /
    • pp.332-337
    • /
    • 2017
  • When using IFC data consisting of STEP schema based on the EXPRESS language, it is not easy for collaborating project stakeholders to share BIM modeling shape information. The IFC viewer application must be installed on the desktop PC to review the BIM modeling shape information defined within the IFC, because the IFC viewer application not only parse STEP structure information model but also process the 3D feature construction for a 3D visualization. Therefore, we propose a lightweight data structure design for web visualization by parsing IFC data and constructing 3D modeling data. Our experimental results show the weight reduction of IFC data is about 40% of original file size and the web visualization is able to see the same quality with all web browsers which support WebGL on PCs and smartphones. If applied research is conducted about the web visualization based on IFC data of the last construction phase, it could be utilized in various fields ranging from the facility maintenance to indoor location-based services.