Abstract
It is possible to access web contents by mobile terminals and telephones due to the evolution of voice and VoiceXML technologies. Nevertheless, because these days most of all the web contents are constructed by HTML, it is impossible to access them by using the new technology. Therefore, to access the contents through voices requires the conversion of the web document from HTML to VoiceXML, but its manual conversion process should be involved additional time and expenditure. In this paper, we design and implement HTMLtoVoiceXML converter, suggest a system structure of it and propose a practical identification algorithm of meaningful fragmented group of contents to solve the problem. To test the performance and validity of the converter, we apply it to more than 400 web pages in Korean web sites, it works well except for web pages which involve invalid HTML codes.
음성 기술의 발달과 VoiceXML 1.0의 등장으로 인하여 표준화된 방식으로 이동 단말기와 전화를 통해 음성으로 웹 컨텐츠에 접근할 수 있게 되었다. 거의 모든 웹 컨텐츠들은 HTML로 작성되어 있으며, 기존의 HTML로 작성된 수많은 웹 컨텐츠에 음성으로 접근하기 위해서는 HTML 문서들을 VoiceXML 문서로 변환하여야 한다. 이를 수동으로 변환하기 위해서는 많은 시간과 비용이 필요하게 된다. 본 논문에서는 이 문제를 해결하기 위하여 HTML 문서를 VoiceXML 문서로 자동 변환하는 HTMLtoVoiceXML 변환기를 설계하고 구현하였으며, 그 구조를 제시하고 웹 페이지에서 중요한 내용을 포함한 조각을 지정하는 실용적인 알고리즘을 제안한다. 국내의 400여 개의 웹 페이지를 대상으로 개발된 변환기의 성능을 시험하였고, HTML문법을 정확히 지키지 않은 경우를 제외하고, 거의 모두가 VoiceXML 문서로 변화되어, 유효성과 실용성이 검증되었다.