Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)
- 2010.04a
- /
- Pages.1102-1105
- /
- 2010
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
Corpus Data Extracting Tool for Sejong Text Corpus
세종 문어체 말뭉치를 위한 말뭉치 데이터 추출 도구
- Park, Il-Nam (School of Computer Science, College of EECS, Kookmin University) ;
- Jang, Wu-Seok (School of Computer Science, College of EECS, Kookmin University) ;
- Kang, Seung-Shik (School of Computer Science, College of EECS, Kookmin University)
- Published : 2010.04.23
Abstract
본 논문에서는 세종 말뭉치 데이터를 활용할 때 한글코드의 변환 및 말뭉치에서 필요한 정보 추출 등 한국어 말뭉치에서 통계 정보를 추출하는데 사용되는 여러 가지 기능들을 한데 묶어, 말뭉치 작업의 사용자 편의성을 개선시키기 위한 도구를 설계, 구현하였다. 이 말뭉치 활용 도구는 세종 말뭉치의 원시, 형태, 형태의미, 구문 말뭉치들을 다양한 옵션에 따라 사용자가 원하는 데이터를 추출할 있을 뿐만 아니라 일반적인 한글 텍스트 파일에 공통적으로 사용되는 코드 변환, 파일 합병, 빈도 계산 등을 제공하기 때문에 말뭉치 작업을 하는 사용자들이 편리하게 사용할 수 있게 하였다.
Keywords