DOI QR코드

DOI QR Code

플랜트 설비 문서로부터 설비사양 추출 및 유사설비 사양 교차 검증 접근법

A Method for Extracting Equipment Specifications from Plant Documents and Cross-Validation Approach with Similar Equipment Specifications

  • 이재현 (대구대학교 기계자동차공학부) ;
  • 최승언 (한양대학교 인공지능융합학과) ;
  • 서효원 (한국과학기술원 산업및시스템공학과)
  • 투고 : 2024.03.20
  • 심사 : 2024.04.11
  • 발행 : 2024.04.30

초록

플랜트 엔지니어링 기업은 서로 다른 공종별 부서에서 플랜트 공정/설비/파이프/계장 등 각 관련 분야의 요구사항 문서를 작성하거나 참조하게 된다. 공정 관련 요구사항 문서는 공정에 대한 설명과 함께 이를 운영할 설비 또는 관련 시설의 요구사항들을 포함한다. 각 공종별 문서에 기술된 설비 또는 부품에 관련된 요구사항과 사양 정보는 문서의 작성자와 검토자들이 다르기 때문에 상호 간에 불일치가 발생할 가능성이 있다. 이 사항들에 대한 일치성을 확인하는 것은 전체 플랜트 설계 정보의 신뢰도를 높일 수 있다. 하지만, 문서의 양이 방대하고 서로 다른 문서들에 동일한 설비 부품에 대한 요구사항들이 일반 문장 형태로 흩어져 있기에 이를 사람이 추적하여 관리하는 것은 한계가 있다. 본 논문에서는 서로 다른 문서들 내에 기술된 요구사항 문장들을 분석하여 설비 또는 설비 부품과 관련된 요구사항 문장의 유사도를 계산하여 의미적으로 동일한 문장을 찾아내는 방법을 제안한다. 요구사항 문장의 유사도를 계산하기 위하여 의미적으로 요구사항의 중심이 되는 부품과 속성을 개체명 인식 방법을 활용하여 찾아내고, 찾아진 부품과 속성들의 유사도를 계산하여 두문장이 의미적으로 동일함을 판단하는 방법을 제안한다. 플랜트 현장에서 사용하는 문서의 문장들을 예제로 하여 제안하는 방법을 설명하고 실험 결과를 설명한다.

Plant engineering companies create or refer to requirements documents for each related field, such as plant process/equipment/piping/instrumentation, in different engineering departments. The process-related requirements document includes not only a description of the process but also the requirements of the equipment or related facilities that will operate it. Since the authors and reviewers of the requirements documents are different, there is a possibility that inconsistencies may occur between equipment or parts design specifications described in different requirement documents. Ensuring consistency in these matters can increase the reliability of the overall plant design information. However, the amount of documents and the scattered nature of requirements for a same equipment and parts across different documents make it challenging for engineers to trace and manage requirements. This paper proposes a method to analyze requirement sentences and calculate the similarity of requirement sentences in order to identify semantically identical sentences. To calculate the similarity of requirement sentences, we propose a named entity recognition method to identify compound words for the parts and properties that are semantically central to the requirements. A method to calculate the similarity of the identified compound words for parts and properties is also proposed. The proposed method is explained using sentences in practical documents, and experimental results are described.

키워드

과제정보

이 논문은 산업통상자원부 '소비재 제품 고객평가 데이터 AI 분석 및 제조 활용 서비스 개발' (Project No: 20009185), 국토 교통부 'AI기반 가스·오일 플랜트 운영·유지관리 핵심기술개발' (Project No: 21ATOG-C161933-01), 산업통상자원부 '화학플랜트 수직형 통합 스마트팩토리 패키지 개발' (Project No: 20009324) 프로젝트에 의해 지원되었음.

참고문헌

  1. Devlin, J., Chang, M. W., K., L. and Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Proceedings of 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics, May. 24.
  2. Kalyan, K. S. (2024). A Survey of GPT-3 Family Large Language Models including ChatGPT and GPT-4, Natural Language Processing Journal 6, 1-48. https://doi.org/10.1016/j.nlp.2023.100048
  3. Kim, J. S. (2023). A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text, Journal of Korea Society of Industrial Information Systems 28(5), 15-30. https://doi.org/10.29279/jitr.2023.28.4.15
  4. Kong, L., Schneider, N., Swayamdipta, S., Bhatia, A., Dyer, C. and Smith, N. A. (2014). A Dependency Parser for Tweets, 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar.
  5. Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P. and Soricut, R. (2020). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. International Conference on Learning Representations, https://doi.org/10.48550/arXiv.1909.11942.
  6. Le, Q. V. and Mikolov, T. (2014). Distributed Representations of Sentences and Documents. International Conference on Learning Representations, https://doi.org/10.48550/arXiv.1405.4053.
  7. Li, J., Sun, A., Han, J. and Li, C. (2020). A Survey on Deep Learning for Named Entity Recognition, IEEE Transactions on Knowledge and Data Engineering 34(1), 50-70. https://doi.org/10.1109/TKDE.2020.2981314
  8. Morwal, S., Jahan, N. and Chopra, D. (2012). Named Entity Recognition using Hidden Markov Model (HMM), International Journal on Natural Language Computing 1(4), 15-23. https://doi.org/10.5121/ijnlc.2012.1402
  9. Mikolov, T., Chen, K., Corrado, G. and Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. International Conference on Learning Representations, https://doi.org/10.48550/ arXiv.1301.3781.
  10. Python (2024). difflib - Helpers for Computing Deltas, https://docs.python.org/3/library/difflib.html (Accessed on March. 1, 2024)
  11. Telecommunications Technology Association (2024). Information and Communication Terminology http://terms.tta.or.kr (Accessed on Mar. 1., 2024)
  12. Woo, J. H., Jeong, M. K., Lee, J. H. and Suh, H. W. (2022). A Study of Customer Review Analysis for Product Development based on Korean Language Processing, Journal of Korea Society of Industrial Information Systems 27(1), 49-62.