DOI QR코드

DOI QR Code

한국 인터넷신문 HTML 규격 및 시맨틱스 수준 분석

HTML specification and semantics analysis of korean news sites

  • 이병학 (한경대학교 디자인학과)
  • 투고 : 2017.08.16
  • 심사 : 2017.08.31
  • 발행 : 2017.08.31

초록

오늘날 인터넷 신문들은 대중적인 디지털 콘텐츠로 자리잡고 있다. 인터넷 신문의 시각적 인터페이스는 대동소이하나 그 골조를 이루는 HTML의 수준 및 규격은 천차만별이다. HTML의 가장 기본적인 목적이 다른 컴퓨터도 이해할 수 있도록 문서를 의미론적으로 기술하는 것이기에 HTML5에서 문서의 시맨틱스(semantics)는 더욱 강조되고 있다. 본 연구에서는 글로벌 인터넷 신문 8개의 HTML을 대조군으로 삼아 한국의 110개 인터넷 신문을 분석하여 실질적으로 문서에 사용된 HTML 규격을 점검하고 그 시맨틱스의 수준을 진단하였다. 분석 결과 조사대상인 110개 한국의 인터넷신문 중 68%가 HTML4 규격에 해당하는 것으로 나타났으며, 110개 중 9%에 해당하는 10개의 웹사이트만이 대조군으로 조사한 글로벌 인터넷신문과 동일한 수준의 HTML5 규격으로 작성되었으며 적극적인 시맨틱스를 적용하고 있는 것으로 나타났다. 번역기술이 인공지능으로 인해 한층 개선되고 있는 이 시점에 한국 인터넷신문의 디지털 콘텐츠들이 세계와 소통하기 위해서는 더욱 더 적극적인 시맨틱스를 적용한 HTML 문서 작성 플랫폼으로의 규격 전환이 필요하다.

Visual interfaces of news sites look similar while their HTML have lots of different specifications and qualities. It's getting more and more significant to describe HTML semantically to make every computer able to understand contents to be shared as HTML5 specification refers. In this study, I have analysed HTML codes of 110 korean news sites in comparison to those of 8 global news sites. As results, 68% of news sites are still described in HTML4 specifications and only 10 out of 110 are in HTML5 specification and as high quality and strong semantics as global news sites. The result shows most korean news sites platforms had not been changed since they developed in mid-2000 and it's needed to be upgraded as language translation technologies are making it possible to share korean digital contents with the rest of world.

키워드

참고문헌

  1. W3C(World Wide Web Consortium). What is HTML? [internet]. Available: https://www.w3.org/TR/1999/REC-html401-19991224/intro/intro.html#h-2.2.
  2. Berners-Lee, Tim(2001, May). The Semantic Web. Scientific American.com, [internet]. Available: https://www.scientificamerican.com/article/the-semantic-web/.
  3. W3C. HTML 5 [internet]. Available: https://www.w3.org/TR/2014/REC-html5-20141028/.
  4. National Election Commission. The definition of internet journals [internet]. Available: http://www.nec.go.kr/portal/knowLaw/quanDetailView.do?contId=201202150112&contSid=0001&quanId=201203038058.
  5. Hyun-Gee Jeon and Chan KOH, "Text Extraction Algorithm using the HTML Logical Structure Analysis", The Journal of Digital Contents Society, Vol. 16, No. 3, pp. 445-455, June 2015. https://doi.org/10.9728/dcs.2015.16.3.445
  6. Jeff P., Dan R., "Extracting Article Text from the Web with Maximum Subsequence Segmentation," The 18th international conference on World wide web, pp.971-980, 2009.
  7. W3C. HTML 4 [internet]. Available: https://www.w3.org/TR/1999/REC-html401-19991224/intro/intro.html#h-2.3.2
  8. Joongang-Il-Bo. HTML source [internet]. Available: http://news.joins.com/article/21557874?cloc=joongang|home|newslist1
  9. Yonhap News. HTML source [internet]. Available: http://www.yonhapnews.co.kr/politics/2017/05/10/0501000000AKR20170510072400001.HTML?template=2085
  10. Daum News. HTML source [internet]. Available: http://v.media.daum.net/v/20170514094213264
  11. Berners-Lee, Tim. Hypertext Markup Language - 2.0 [internet]. Available: https://www.w3.org/MarkUp/html-spec/html-spec_toc.html
  12. Raggett, Dave. HTML 3.2 Reference Specification [internet]. Available: https://www.w3.org/TR/REC-html32-19970114
  13. New York Times. HTML source [internet]. Available: https://www.nytimes.com/2017/05/09/opinion/an-agenda-for-south-koreas-new-leader.html?action=click&pgtype=Homepage&clickSource=story-heading&module=opinion-c-col-right-region(R)ion=opinion-c-col-right-region&WT.nav=opinion-c-col-right-region&_r=0
  14. The Guardian. HTML source [internet]. Available: https://www.theguardian.com/world/2017/may/09/moon-jae-in-the-south-korean-pragmatist-who-would-be-presidentc
  15. Byoung Hak, Lee. Analysis of korean internet journalism HTML specification and quality of semantics research result [internet]. Available: https://docs.google.com/spreadsheets/d/1BE7ZMnzVoLkkDF82MrVOxqj7fbFiGTm2HeiUGgF8gOs/edit#gid=0