The Statistical Relationship between Types and Tokens

Yang, Kyung-Sook;Park, Byung-Sun;Lim, Jun-Ho;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
/
Pages.81-85
/
2003
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

코퍼스 규모에 따른 타입과 토큰의 상관성 연구

The Statistical Relationship between Types and Tokens

양경숙 (고려대학교 통계학과) ;
박병선 (고려대학교 국어국문학과) ;
임준호 (고려대학교 컴퓨터학과)

Yang, Kyung-Sook (Department of Statistics, Korea University) ;
Park, Byung-Sun (Department of Korean Lit. & Lan., Korea University) ;
Lim, Jun-Ho (Department of Computer Science Korea University)

발행 : 2003.10.10

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

이 논문의 목적은 코퍼스 크기에 따른 타입과 토큰간의 관계를 엄밀한 통계적 방법으로 그 특징을 밝히고자 하는 것이다. 지금까지 코퍼스를 구축하는 데 있어서, 자료의 다양성을 고려한 자료 균형성을 문제와 더불어 코퍼스 구축 규모의 문제는 매우 중요한 고려사항이었다. 이런 문제는 일찍이 영어 코퍼스를 중심으로 많은 연구가 진행된 바가 있지만 한국어를 대상으로 한 엄밀한 연구는 많이 이루어지지 않았다. 이 연구에서는 현재까지 구축한 현대 한국어 말뭉치 1억여 어절을 대상으로 말뭉치 크기 증가에 따른 타입과 토큰간의 통계적 관계를 3가지 모형에 대해 비교하였으며 최종적으로 ARIMA모형을 이용하여 그 함수적 관계를 밝혀보았다. 연구 결과에 따르면 한국어 자료는 약 1천만 어절의 토큰을 기준으로 타입의 변화가 다소 둔화되는 결과를 보인다. 연구에 의해 도출된 함수식을 이용하면 소규모의 자료를 이용하더라도, 대규모 자료에서의 타입수를 계산해 낼 수 있으므로, 더욱 다양하고 정확한 통계처리의 근거를 제시할 수 있게 된다.

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

코퍼스 규모에 따른 타입과 토큰의 상관성 연구

The Statistical Relationship between Types and Tokens

초록

키워드

자세히 찾기