Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2003.10d
- /
- Pages.261-266
- /
- 2003
- /
- 2005-3053(pISSN)
Segmentation of Chinese Long Sentence Using Support Vector Machine
SVM 모델을 이용한 중국어 장문 분할
- Jin, Mei-Xun (Dept. of Graduate School for Information and Technology, POSTECH) ;
- Kim, Mi-Young (Div. of Electrical and Computer Engineering, POSTECH, Advanced Information Technology Research Center(AITrc)) ;
- Kim, Dong-Il (Div. of Electrical and Computer Engineering, POSTECH, Advanced Information Technology Research Center(AITrc)) ;
- Lee, Jong-Hyeok (Div. of Electrical and Computer Engineering, POSTECH, Advanced Information Technology Research Center(AITrc))
- 김미훈 (포항공대 정보통신대학원 전자컴퓨터공학부) ;
- 김미영 (포항공대 정보통신대학원 첨단기술연구 정보센터) ;
- 김동일 (포항공대 정보통신대학원 첨단기술연구 정보센터) ;
- 이종혁 (포항공대 정보통신대학원 첨단기술연구 정보센터)
- Published : 2003.10.10
Abstract
문장이 길면 구문분석의 정확률이 크게 낮아진다. 따라서 장문을 분할하여 분석하면 구문분석의 복잡도를 크게 줄일 수 있어 정확률 향상에 크게 기여할 수 있다. 특히, 중국어는 고립어로서, 교착어나 융합어와 비교할 때 자연어처리에 도움을 줄 수 있는 굴절이나 어미정보가 없어 구문분석에 어려움이 더욱 많다. 반면, 중국어 문자에서는 쉼표를 비교적 많이 사용하고 있고 또한 쉼표의 쓰임이 정확하므로 구문 분석에 도움을 줄 수 있다. 본 논문에서는 쉼표가 많이 쓰이고 있는 중국어 문장에서 해당 쉼표위치 문장 분할가능여부를 Support Vector Machine을 이용 판단하여 정확률 88.61%의 높은 분할 성능을 보였다.
Keywords