21st Century Sejong Modern Korean Corpora: Results and Expectations

21세기 세종계획 현대국어 기초말뭉치: 성과와 전망

  • Kim, Hung-Gyu (Department of Korean Language and Literature, Korea University) ;
  • Kang, Beom-Mo (Department of Linguistics, Korea University) ;
  • Hong, Jungha (Center for Electronic Texts, Institute of Korean Culture, Korea University)
  • 김흥규 (고려대학교 국어국문학과) ;
  • 강범모 (고려대학교 언어학과) ;
  • 홍정하 (민족문화연구원 전자텍스트연구소)
  • Published : 2007.10.12

Abstract

현대국어 기초말뭉치는 방법론 및 표준화 연구, 그리고 소프트웨어 개발과 더불어 21세기 세종계획 국어기초자료 구축 사업의 일환으로 개발되었다. 현대국어 기초말뭉치 개발에서는 세종말뭉치 통합분 12,000만 어절을 후처리하고, 원시말뭉치 6,200만 어절, 형태분석 말뭉치 1,500만 어절, 형태의미분석 말뭉치 1,250만 어절, 구문분석 말뭉치 80만 어절을 신규 구축 완료하였으며, 이 중 일부 말뭉치에 대한 정제 작업이 2007년 말까지 완료될 예정이다. 방법론 및 표준화 연구에서는 말뭉치 구축 방법론과 분석표지 표준화, 말뭉치 활용 연구가 진행되었고, 이 밖에도 소프트웨어 개발 사업에서는 말뭉치 구축 및 활용에 필요한 도구를 개발하였다. 이 논문은 21세기 세종계획 국어기초자료 구축 사업의 연구 성과를 현대 국어 기초말뭉치를 중심으로 소개하고 향후 전망을 논의하는 것이 목적이다.

Keywords