DOI QR코드

DOI QR Code

Anaphora Resolution System for Natural Language Requirements Document in Korean based on Syntactic Structure

한국어 자연어 요구문서에서 구문 구조 기반의 조응어 처리 시스템

  • 박기선 (전북대학교 컴퓨터공학과) ;
  • 안동언 (전북대학교 IT정보공학부) ;
  • 이용석 (전북대학교 컴퓨터공학과)
  • Received : 2010.01.18
  • Accepted : 2010.03.10
  • Published : 2010.06.30

Abstract

When a system is developed, requirements document is generated by requirement analysts and then translated to formal specifications by specifiers. If a formal specification can be generated automatically from a natural language requirements document, system development cost and system fault from experts' misunderstanding will be decreased. A pronoun can be classified in personal and demonstrative pronoun. In the characteristics of requirements document, the personal pronouns are almost not occurred, so we focused on the decision of antecedent for a demonstrative pronoun. For the higher accuracy in analysis of requirements document automatically, finding antecedent of demonstrative pronoun is very important for elicitation of formal requirements automatically from natural language requirements document via natural language processing. The final goal of this research is to automatically generate formal specifications from natural language requirements document. For this, this paper, based on previous research [3], proposes an anaphora resolution system to decide antecedent of pronoun using natural language processing from natural language requirements document in Korean. This paper proposes heuristic rules for the system implementation. By experiments, we got 92.45%, 69.98% as recall and precision respectively with ten requirements documents.

시스템 개발에 있어서 요구문서(requirements document)를 생성하고 정형 명세를 작성하는 것은 요구 분석 전문가와 명세 전문가에 의해 수행되고 있다. 만약 요구문서 생성과 정형 명세 작성 과정을 자동화 한다면 시스템 개발 비용 및 기간을 단축할 수 있고, 또한 전문가 사이의 잘못된 이해로 인한 오류를 줄일 수 있다. 대명사는 인칭대명사와 지시대명사로 분류될 수 있다. 일반적으로 요구문서의 특성상 인칭대명사는 사용되지 않기 때문에 본 논문은 지시대명사의 지시어 결정에 초점을 두고 있다. 지시대명사를 포함하는 요구문서에서 자연어처리 기법을 통해 정형화된 요구사항을 자동으로 추출하기 위해서는 대명사의 지시어 결정이 매우 중요하다. 본 연구의 최종 목표는 자연어 처리 기법을 통하여 자연어 요구문서로부터 시스템 개발에 필요한 정형 명세를 자동으로 생성하는데 있다. 이를 위해 본 논문은 선행연구를 기반으로 한국어로 기술된 자연어 요구문서에서 대명사에 대한 지시어를 결정하는 조응어 해소(anaphora resolution) 시스템을 제안한다. 본 시스템의 개발을 위해 조응어 해소를 위한 경험 규칙을 정의하고, 이를 통해 10개의 요구문서에 대해 실험한 결과 평균 재현율 92.45%, 정확률 69.68%의 성능을 보였다.

Keywords

References

  1. 김상수, 김계성, 노태길, 이상조, "문서요약을 위한 조응 대용 해결," 2002년도 한국정보과학회 가을 학술발표 논문집, Vol.29. No.02, pp.679-681, 2002.
  2. 조은경, 서정연, "대화 시스템에서의 조응어 해석," 제16회 한 글 및 한국어 정보처리 학술대회 논문집, 제16권 제1호, pp.283-289, 2004.10.
  3. Ki-Seon Park, Keunyong Lee, Moon-Kun Lee, Dong-Un An, Yong-Seok Lee, "Antecedent Decision Rules for Anaphora Resolution of Natural Language Requirements Document in Korean," 12th International Conference on Human-Computer Interaction (HCI International 2007), pp.598-602, 2007.07.
  4. 박갑수, 조규빈, "고교 문법 자습서," 지학사, 1993.
  5. 강인혜, 양진석, "초보자를 위한 Esterel 프로그래밍," 홍릉과학출판사, 2005.
  6. 강승식, 윤보현, 우종우, "Coreference Resolution을 위한 3인 칭 대명사의 선행사 결정 규칙," 한국정보처리학회 논문지 B, Vol.11-B. No.02, pp.227-232, 2004.04. https://doi.org/10.3745/KIPSTB.2004.11B.2.227
  7. Antonio Ferrandez, Jesus Peral, "A computational approach to zero-pronouns in Spanish," In Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics (ACL2000), Hong-Kong, China, pp.166-172, October 2000. https://doi.org/10.3115/1075218.1075240
  8. 노지은, 나승훈, 이종혁, "중심화 이론을 이용한 텍스트 구조화," 한국정보과학회 논문지 B, Vol.34. No.06, pp.572-583, 2007. 06.
  9. 노지은, 이종혁, "구문 정보와 비용기반 중심화 이론에 기반한 자연스러운 지시어 생성," 정보과학회논문지 B, Vol.31. No.12, pp.1649-1659, 2004.12.
  10. 차건회, 송도규, 박재득, "한국어 대용과 생략 해결을 위한 센 터링 이론의 적용," 제9회 한글 및 한국어 정보처리 학술대회, 한국정보과학회 언어공학연구회, pp.347-352, 1997.10.
  11. 홍민표, "센터링 이론과 대화체에서의 논항 생략 현상," 인지과학 제11권 제1호, pp.9-24, 2000.03.
  12. 윤청, "성공적인 소프트웨어 개발 방법론," 생능출판사, 1999.
  13. Beum-Seuk Lee, Barrett R. Bryant, "Automated Conversion from Requirements Documentation to an Object-Oriented Formal Specification Language," Proceedings of the 2002 ACM symposium on Applied computing, Madrid, Spain, pp.932-936, 2002.03. https://doi.org/10.1145/508791.508972
  14. 이현영, 이용석, "내포문의 단문 분할을 이용한 한국어 구문 분석," 한국정보과학회 논문지 B, Vol.35. No.01, pp.50-58, 2008.01.