DOI QR코드

DOI QR Code

Overseas Address Data Quality Verification Technique using Artificial Intelligence Reflecting the Characteristics of Administrative System

국가별 행정체계 특성을 반영한 인공지능 활용 해외 주소데이터 품질검증 기법

  • 김진실 (충북대학교 대학원 빅데이터학과) ;
  • 이경희 (충북대학교 경영정보학과) ;
  • 조완섭 (충북대학교 대학원 빅데이터학과)
  • Received : 2022.10.12
  • Accepted : 2022.12.14
  • Published : 2022.12.31

Abstract

In the global era, the importance of imported food safety management is increasing. Address information of overseas food companies is key information for imported food safety management, and must be verified for prompt response and follow-up management in the event of a food risk. However, because each country's address system is different, one verification system cannot verify the addresses of all countries. Also, the purpose of address verification may be different depending on the field used. In this paper, we deal with the problem of classifying a given overseas food business address into the administrative district level of the country. This is because, in the event of harm to imported food, it is necessary to find the administrative district level from the address of the relevant company, and based on this trace the food distribution route or take measures to ban imports. However, in some countries the administrative district level name is omitted from the address, and the same place name is used repeatedly in several administrative district levels, so it is not easy to accurately classify the administrative district level from the address. In this study we propose a deep learning-based administrative district level classification model suitable for this case, and verify the actual address data of overseas food companies. Specifically, a method of training using a label powerset in a multi-label classification model is used. To verify the proposed method, the accuracy was verified for the addresses of overseas manufacturing companies in Ecuador and Vietnam registered with the Ministry of Food and Drug Safety, and the accuracy was improved by 28.1% and 13%, respectively, compared to the existing classification model.

글로벌 시대에 들어서면서 수입식품 안전관리에 대한 중요성이 증가하고 있다. 해외 식품업체 주소정보는 수입식품 안전관리를 위한 핵심 정보로써 식품위해 발생시 신속한 대처와 사후관리를 위해 반드시 검증되어야 한다. 그러나 각국의 주소체계가 다른 관계로 하나의 검증시스템이 모든 국가의 주소를 검증할 수는 없다. 또한, 주소검증은 사용하는 분야에 따라 검정목적이 상이할 수 있다. 본 논문에서는 주어진 해외 식품업체 주소로부터 해당 국가의 행정구역 레벨로 분류하는 문제를 다룬다. 수입식품 안전관리를 정확하고 효율적으로 하기 위하여 수입식품제조업체 주소를 해당 국가의 행정구역 수준으로 정확하게 매칭하는 것이 필요하다. 수입식품이 생산·제조되는 위치와 식품제조에 영향을 줄 수 있는 환경정보, 재난재해 정보를 결합함으로써 선제적 수입식품 안전관리가 가능하다. 그러나, 일부 국가에서는 주소를 표기할 때 행정구역 레벨명을 생략하여 작성하고 있으며, 동일한 지명이 여러 행정구역 레벨에서 중복되는 경우가 있어 주소로부터 행정구역 레벨을 정확히 분류하는 일은 쉽지 않다. 본 연구에서는 이러한 경우에 적합한 딥러닝 기반 행정구역 레벨 분류 모델을 제안하고, 실제 해외 식품회사 주소 데이터에 대하여 검증한다. 구체적으로 다중 레이블 분류 모델에서 멱집합(Label Powerset)을 이용해 훈련하는 방식을 사용한다. 제안된 기법의 검증을 위해 식약처에 등록된 에콰도르 및 베트남에 있는 해외 제조업소 주소에 대하여 정확도를 검증하였으며, 기존의 분류 모델보다 정확도가 각각 28.1% 및 13% 정도 향상되었다.

Keywords

Acknowledgement

본 연구는 2022년도 식품의약품안전처의 연구 개발비 (21163MFDS517-1)로 수행되었으며 이에 감사드립니다.

References

  1. 식약처, https://www.mfds.go.kr/index.do 
  2. Soeng, Saravit, Jin-Hyun Bae, Kyung-Hee Lee, and Wan-Sup Cho, "Deep Learning Based Improvement in Overseas Manufacturer Address Quality Using Administrative District Data", Applied Sciences 12, no. 21: 11129, 2022, https://doi.org/10.3390/app122111129 
  3. 양광, 수입식품 안전을 위한 해외기업 정보검증 도구 설계 및 구현, 충북대학교 석사학위논문, 2022. 
  4. Peter Christen and Daniel Belacic, "Automated Probabilistic Address Standardisation and Verification", In Proc. 4th Australasian Data Mining Conference - AusDM05, 2005. 
  5. N. Abid, A. ul Hasan and F. Shafait, "DeepParse: A Trainable Postal Address Parser," 2018 Digital Image Computing: Techniques and Applications (DICTA), pp. 1-8, 2018, doi: 10.1109/DICTA.2018.8615844. 
  6. 민경현, 송재영, 유기윤, 김지영, "단어 임베딩과 어텐션 기반의 딥러닝 모델을 활용한 장소정보 탐지 기법". 대한공간정보학회지, 제27권, 5호, pp. 33-39, 2019. 
  7. Szymanski, P., & Kajdanowicz, T. "scikit-multilearn: A scikit-based Python environment for performing multi-label classification". Journal of Machine Learning Research, 20, pp.1-22, 2019. 
  8. Zhan g, M. L., Li, Y. K., Liu, X. Y., & Gen g, X. "Binary Relevance for Multi-Label Learning: An Overview". Frontiers of Computer Science, 12(2), 191-202, 2018.  https://doi.org/10.1007/s11704-017-7031-7
  9. Luaces, O., Diez, J., Barranquero, J., del Coz, J. J., & Bahamonde, A., "Binary relevance efficacy for multilabel classification". Progress in Artificial Intelligence, 1(4), 303-313. 2012.  https://doi.org/10.1007/s13748-012-0030-x
  10. Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. "Dropout: a simple way to prevent neural networks from overfitting". The journal of machine learning research, 15(1), pp. 1929-1958., 2014.