DOI QR코드

DOI QR Code

An Automatic Setting Method of Data Constraints for Cleansing Data Errors between Business Services

비즈니스 서비스간의 오류 정제를 위한 데이터 제약조건 자동 설정 기법

  • 이정원 (아주대학교 정보통신대학 전자공학부)
  • Published : 2009.03.31

Abstract

In this paper, we propose an automatic method for setting data constraints of a data cleansing service, which is for managing the quality of data exchanged between composite services based on SOA(Service-Oriented Architecture) and enables to minimize human intervention during the process. Because it is impossible to deal with all kinds of real-world data, we focus on business data (i.e. costumer order, order processing) which are frequently used in services such as CRM(Customer Relationship Management) and ERP(Enterprise Resource Planning). We first generate an extended-element vector by extending semantics of data exchanged between composite services and then build a rule-based system for setting data constraints automatically using the decision tree learning algorithm. We applied this rule-based system into the data cleansing service and showed the automation rate over 41% by learning data from multiple registered services in the field of business.

본 논문에서는 SOA(Service-Oriented Architecture)를 기반으로 서비스간에 상호 작용하는 데이터의 품질 관리를 위한 오류 정제 서비스를 대상으로 데이터 제약조건 설정 시 인간 개입을 최소화하기 위한 기법을 제안한다. 단, 실세계에서 통용되는 일반적인 데이터를 모두 다루는 것은 불가능하므로 비즈니스 도메인에서 자주 사용되는 CRM(Customer Relationship Management)과 ERP(Enterprise Resource Planning) 서비스와 같이 고객 주문 정보 및 처리에 관련된 데이터를 대상으로 한다. 이를 위해, 컴포지션 되는 서비스간의 상호 작용하는 데이터를 의미적으로 확장하여 확장-엘리먼트 벡터를 생성하고 이를 기반으로 의사결정 트리(decision tree) 학습 방법을 적용하여 제약조건 설정을 자동화하기 위한 규칙 기반 시스템을 구축한다. 이 시스템을 오류정제 서비스에 삽입한 결과, 비즈니스 분야의 공개된 서비스로부터 데이터 학습을 통해 제약조건 설정을 41% 넘게 자동화 할 수 있음을 보였다.

Keywords

References

  1. V. Kapoor, "Services and Automatic Computing: A Practical Approach for Designing Manageability," In Proceedings of the 2005 IEEE International Conference on Service Computing (SCC'05), Vol. 2, pp.41-48, July 2005.
  2. T. Erl, "Service-Oriented Architecture: Concepts, Technology, and Design," Prentice Hall, 2005.
  3. S. Choi, J. Her, and S. Kim, "QoS Metrics for Evaluating Services from the Perspective of Service Providers," In Proceedings of the IEEE International Conference on e-Business Engineering(ICEBE2007), pp.622-625, Oct. 2007.
  4. S. Kalasapur, M Kumar, and B. Shirazi, "Evaluating Service Oriented Architectures (SOA) in Pervasive Computing," In Proceedings of the Fourth Annual IEEE International Conference on Pervasive Computing and Communications (PERCOM'06), pp.276-285, Mar. 2006.
  5. J.W.Lee. E.Y.Moon, and B.J.Choi. "Data Cleansing for Service-Oriented Architecture." LNCS, Vol.3590, pp.87-97. 2005.8.
  6. 지은미, 이정원, 최병주, "SOA 기반 서비스 사이의 오류 데이터 정제 서비스 개발," 정보처리학회 논문지D, 제14권 7호, 829-840쪽, 2007년 12월.
  7. Theodore Johnson, and Tamraparni Dasu, "Data Quality and Data Cleaning," Tutorials of 10th SIGKDD, Aug. pp. 181-191, 2004.
  8. M. Hernandez and S. Stolfo, "Real-World Data is Dirty: Data Cleansing and The Merge/Purge Problem," Data Mining and Knowledge Discovery, Vol.2(1), pp.9-37. 1998. https://doi.org/10.1023/A:1009761603038
  9. M. Hernandez, R. Miller, and L. Hass, "Schema Mappings as Query Discovery," In Proceedings of Intl. Conf. VLDB, pp.77-89, 2000.
  10. Erhard Rahm, Hon Hai Do, "Data Cleaning: Problems and Current Approaches," IEEE Data Engineering Bulletin, Vol. 23(4), pp.3-13, 2000.
  11. S.S.Yau, and F. Karim, "Component Customization for Object-Oriented Distributed Real-Time Software Development," in Proceedings of the 2000 IEEE international Symposium on Object-Oriented Real-Time Distributed Computing(ISORC'OO). pp. 156-163, Mar. 2000.
  12. Fiorano's Prebuilt Service Guide, http://www.fiorano.com/downloads/fesb/ prebuiltservices.pdf, 2006.
  13. T. Mitchell, "Decision Tree Learning," in T. Mitchell, Machine Learning, The McGraw-Hill Companies, Inc., pp. 52-78, 1997.
  14. Rich Caruana, and Alexandra Niculescu-Mizil, "An Empirical Comparison of Supervised Learning Algorithms," In Proc. of the 23rd International Conference on Machine Learning, pp. 161-168, 2006.
  15. 김천식, 홍유식, "텍스트마이닝을 이용한 XML 문서분류 기술." 한국컴퓨터정보학회 논문지, 제11권 제2호, 15-23쪽, 2006년 5월
  16. 노창현, 조규철, 미용범, 이종식, "의사결정트리 기법을 이용한 그리드 자원선택 시스템," 한국컴퓨터정보학회 논문지, 제13권 제1호, 1-10쪽, 2008년 1월.
  17. JESS, http://herzberg.ca.sandia.gov/jess pp. 1266-1276. Nov. 2000.