Abstract
While on-line shopping is increasing, the "Consumer Protection Law in Electronic Commerce" obliges each internet shopping mall to provide its business information. Although most internet shopping malls provide their business information in the semi-structured format on the bottom of their homepages, the attributes and expression forms of business information are different each other. It makes consumers difficult to identify their business information and lowers public confidence. Hence this study proposes three approaches - HTML-based structure, XML-based structure, and XML data island-based structure - to structuralizing business information for correct expression. The experiment results showed that the business information extraction time by XML data island-based structure is independent of the size of the web document, while the time by HTML-based structure is dependent on the size. By comparing the business information extraction times, we show that XML data island-based structure is more efficient and effective than HTML-based structure.structure.
온라인 쇼핑이 증가하고 있는 가운데, 우리나라는 "전자상거래 등에서의 소비자보호에 관한 법률"로 사업자신원 정보의 기재를 의무화하고 있다. 인터넷쇼핑몰들은 대부분 홈페이지 하단에 반구조적인 형태로 사업자신원정보를 기재하고 있으나, 기재항목과 표현형식이 구조화되어 있지 않아 사업자의 신원파악이 어렵기 때문에 소비자의 신뢰도에 나뿐 영향을 미칠 수 있다. 이에 본 연구는 사업자신원정보를 정확하게 표현하는 세 가지 구조화 방안 -HTML기반 구조, XML기반 구조, XML data island기반 구조 - 을 제시하고 비교하였으며, HTML기반구조와 XML data island 기반구조의 추출성능을 실험으로 비교하였다. 60개의 인터넷쇼핑몰 표본에 대해 실험결과, XML data island 기반구조는 사업자신원정보 추출시간이 웹문서의 크기와는 관계가 없으나, HTML기반구조는 웹문서의 크기에 비례하였다. 또한, 평균 추출시간을 비교한 결과 XML data island 기반구조가 HTML기반구조보다 정보 추출면에서 더 효율적이며 효과적임을 검정하였다.적임을 검정하였다.