DOI QR코드

DOI QR Code

A Development of the Automatic Predicate-Argument Analyzer for Construction of Semantically Tagged Korean Corpus

한국어 의미 표지 부착 말뭉치 구축을 위한 자동 술어-논항 분석기 개발

  • 조정현 (한림대학교 컴퓨터공학과) ;
  • 정현기 (한림대학교 컴퓨터공학과) ;
  • 김유섭 (한림대학교 유비쿼터스컴퓨팅학과)
  • Received : 2011.05.19
  • Accepted : 2011.08.18
  • Published : 2012.02.29

Abstract

Semantic role labeling is the research area analyzing the semantic relationship between elements in a sentence and it is considered as one of the most important semantic analysis research areas in natural language processing, such as word sense disambiguation. However, due to the lack of the relative linguistic resources, Korean semantic role labeling research has not been sufficiently developed. We, in this paper, propose an automatic predicate-argument analyzer to begin constructing the Korean PropBank which has been widely utilized in the semantic role labeling. The analyzer has mainly two components: the semantic lexical dictionary and the automatic predicate-argument extractor. The dictionary has the case frame information of verbs and the extractor is a module to decide the semantic class of the argument for a specific predicate existing in the syntactically annotated corpus. The analyzer developed in this research will help the construction of Korean PropBank and will finally play a big role in Korean semantic role labeling.

의미 역 결정 (Semantic Role Labeling)은 문장의 각 요소들의 의미 관계를 파악하는 연구 분야로써 어휘 중의성 해소와 더불어 자연언어처리에서의 의미 분석에서 매우 중요한 위치를 차지하고 있다. 그러나 한국어의 경우에는 의미 역 결정에 필요한 언어 자원이 구축되지 못하여 연구의 진행이 매우 미진한 상황이다. 본 논문에서는 의미 역 결정에 필요한 언어 자원 중에서 가장 널리 사용되고 있는 PropBank의 한국어 버전의 구축을 위한 시작 단계로써 자동 술어-논항 분석기를 개발하였다. 자동 술어-논항 분석기는 크게 의미 어휘 사전과 자동 술어-논항 추출기로 구성된다. 의미 어휘 사전은 한국어 동사의 격틀 정보를 구축한 사전이며 자동 술어-논항 추출기는 구문 표지 부착된 말뭉치로부터 특정 술어와 관련있는 논항의 의미 부류를 결정하는 모듈이다. 본 논문에서 개발된 자동 술어-논항 분석기는 향후 한국어 PropBank의 구축을 용이하게 할 것이며, 궁극적으로는 한국어 의미 역 결정에 큰 역할을 할 것이다.

Keywords

References

  1. Jurafsky, D. and J.H. Martin, "Speech and Language Processing (2nd Edition)," Prentice Hall, 2008.
  2. 정성원, 권혁철, "자연언어처리를 위한 기계학습," 정보과학회지, 제25권 제3호, pp.57-63, 2007.
  3. 김병수, 이용순, 나승훈, 김병기, 이종혁, "부트스트래핑 알고리 즘을 이용한 한국어 격조사의 의미역 결정," 한국정보과학회 2006 한국컴퓨터종합학술대회 논문집(B), pp.4-6, 2006.
  4. 김병수, 이용훈, 이종혁, "비지도 학습을 기반으로 한 한국어 부사격의 의미역 결정," 정보과학회논문지:소프트웨어및응용, 제 34권 제2호, pp.112-122, 2007.
  5. Lim, J., Y. Whang, S. Park, and H. Rim, "Semantic Role Labeling using Maximum Entropy Model," Procs. of CoNLL-2004, 2004.
  6. Park, K., Y. Whang, and H. Rim, "Two-Phase Semantic Role Labeling based on Support Vector Machines," Procs. of CoNLL-2004, 2004.
  7. Palmer, M., P. Kingsbury, and D. Gildea, "The Proposition Bank: An Annotated Corpus of Semantic Roles," Computational Linguistics, 31(1), pp.71-106, 2005. https://doi.org/10.1162/0891201053630264
  8. Xue, N., and M. Palmer, "Automatic Semantic Role Labeling for Chinese Verbs," Procs. of International Joint Conference on Artificial Intelligence, 2005.
  9. Kingsbury, P., B. Snyder, N. Xue, and M. Palmer, "PropBank as a Bootstrap for Richer Annotation Schemes," Procs. of sixth Workshop on Interlinguas, Machine Translation Summit IX, 2003.
  10. Johansson, R., and P. Nugues, "Dependency-based Syntactic-Semantic Analysis with PropBank and NomBank," Procs. of CoNLL-2008, 2008.
  11. Giuglea, A., and A. Moschitti, "Knowledge Discovering using FrameNet, VerbNet and PropBank," Workshop on Ontology and Knowledge Discovery at ECML-04, 2004.
  12. Hovy, E., M. Marcus, M. Palmer, L. Ramshaw, and R. Weischedel, "OntoNotes: The 90% Solution," Procs of the Human Language Technology Conference of the NAACL, 2006.
  13. Giuglea, A., and A. Moschitti, "Semantic Role Labeling via FrameNet, VerbNet and PropBank," Annual Meeting of Association for Computational Linguistics, 2006.
  14. Xue, N., and M. Palmer, "Annotating the Propositions in the Penn Chinese Treebank," Procs. of the 2nd SIGHAN Workshop on Chinese Language Processing, 2003.
  15. Palmer, M., O. Babko-Malaya, A. Bies, M. Diab, M. Maanouri, A. Mansouri, and W. Zaghouani, "A Pilot Arabic Propbank," Procs. of the 6th International Language Resources and Evaluation (LREC'08), 2008.
  16. Agirre, E., I. Aldezabal, J. Etxeberria, and E. Pociello, "A Preliminary Study for Building the Basque PropBank," Procs. of the 5th International Language Resources and Evaluation (LREC'06), 2006.
  17. Palmer, M., J. Rosenzweig, and S. Cotton, "Automatic Predicate Argument Analysis of the Penn Treebank," Procs. of HLT 2001, First International Conference on Human Language Technology Research, 2001.
  18. 조정현, 정현기, 김유섭, "격틀 구조에 기반한 유사 동사 추출," 제21회 한글 및 한국어 정보처리 학술대회, 2009.
  19. Mustapha, N., M. Jalali, and M. Jalali, "Expectation Maximization Clustering Algorithm for User modeling in Web Usage Mining Systems," European Journal of Scientific Research, Vol.32, No.4, pp.467-476, 2009.
  20. Hartigan, J. A., "Clustering Algorithms," Wiley., 1975.
  21. Press, W. H., S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery, "Numerical Recipes 3rd Edition: The Art of Scientific Computing," Cambridge University Press, 2007.