DOI QR코드

DOI QR Code

Korean Document Classification Using Extended Vector Space Model

확장된 벡터 공간 모델을 이용한 한국어 문서 분류 방안

  • Received : 2010.11.18
  • Accepted : 2011.02.24
  • Published : 2011.04.30

Abstract

We propose a extended vector space model by using ambiguous words and disambiguous words to improve the result of a Korean document classification method. In this paper we study the precision enhancement of vector space model and we propose a new axis that represents a weight value. Conventional classification methods without the weight value had some problems in vector comparison. We define a word which has same axis of the weight value as ambiguous word after calculating a mutual information value between a term and its classification field. We define a word which is disambiguous with ambiguous meaning as disambiguous word. We decide the strengthness of a disambiguous word among several words which is occurring ambiguous word and a same document. Finally, we proposed a new classification method based on extension of vector dimension with ambiguous and disambiguous words.

본 논문에서는 한국어 문서의 분류 정밀도 향상을 위해 애매어와 해소어 정보를 이용한 확장된 벡터 공간 모델을 제안하였다. 벡터 공간 모델에 사용된 벡터는 같은 정도의 가중치를 갖는 축이 하나 더 존재하지만, 기존의 방법은 그 축에 아무런 처리가 이루어지지 않았기 때문에 벡터끼리의 비교를 할 때 문제가 발생한다. 같은 가중치를 갖는 축이 되는 단어를 애매어라 정의하고, 단어와 분야 사이의 상호정보량을 계산하여 애매어를 결정하였다. 애매어에 의해 애매성을 해소하는 단어를 해소어라 정의하고, 애매어와 동일한 문서에서 출현하는 단어 중에서 상호정보량을 계산하여 해소어의 세기를 결정하였다. 본 논문에서는 애매어와 해소어를 이용하여 벡터의 차원을 확장하여 문서 분류의 정밀도를 향상시키는 방법을 제안하였다.

Keywords

References

  1. 정경희, "의학 분야 웹 자료의 분류에 대한 개선 방안 연구", 정보관리학회지, 제21권, 제2호, pp.089-106, 2004. https://doi.org/10.3743/KOSIM.2004.21.2.089
  2. 윤성희, 백선욱, "단어 의미 정보를 활용하는 이용자 자연어질의 유형의 효율적 분류", 정보관리학회지, 제21권, 제4호, pp.251-263, 2004.
  3. 이원휘, "K-Means 알고리즘을 이용한 대용량 문서 클러스트링에서 개선된 초기 중심 선정 방법의 제안", 전북대학교 대학원 컴퓨터공학과 박사학위 논문, pp.1-101, 2010.
  4. 안동언 외, 최신 정보검색론, 교보문고, pp.1-514, 2010.
  5. 이상곤 외, "개념 기반 복합 키워드 추출 방법", 한국컴퓨터교육학회 논문지, 제6권, 제2호, pp.23-31, 2003.
  6. 이상곤, "한글 문서 분류용으로 이용할 복합어로 구성된 분야 연상어의 추출법," 정보과학회 논문지: 소프트웨어 및 응용, 제32권, 제7호, pp.636-649, 2005.
  7. 노대욱 외, "정보 검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발," 정보과학회논문지 : 소프트웨어 및 응용, 제34권, 제2호, pp.123-130, 2007.
  8. 양재군, 배재학, 이종혁, "온톨러지 재사용을 위한 범주 재분류", 정보처리학회논문지(B), 제12권, 제1호, pp.69-80, 2005. https://doi.org/10.3745/KIPSTB.2005.12B.1.069
  9. 이원휘 외, "유해어 필터링과 SVM을 이용한 유해 문서 분류 시스템," 정보처리학회논문지(B), 제16권, 제1호, pp.85-92, 2009. https://doi.org/10.3745/KIPSTB.2009.16-B.1.85
  10. 박흠, "확장된 Relief-F 알고리즘을 이용한 소규모 크기 문서의 자동 분류", 정보처리학회논문지(B), 제16권, 제3호, pp.233-238, 2009.
  11. 김판구 외, "상호 정보에 기반한 한국어 텍스트의 복합어 자동색인," 한국정보과학회 논문지, 제21권, 제7호, pp.1333-1340, 1994.
  12. 김명철 외, "시소러스와 상호 정보를 이용한 정보검색 모델", 한국정보과학회 학술발표 논문집, 제21권, 제1호, pp.837-840, 1994.
  13. 전미선 외, "상호 정보를 이용한 어의 모호성 해소에 관한 연구", 제6회 한글 및 한국어 정보처리 학술발표 논문집, pp.369-373, 1994.
  14. 강현규 외, "자연언어 정보검색에서 상호정보를 이용한 2단계 문서 순위 결정 방법", 한국정보과학회 논문지, 제23권, 제8호, pp.852-861, 1996.
  15. 강현수 외, "정보 검색에서 상호 정보를 이용한 용어 확장 및 한정 연구", 한국정보과학회 호남.제주지부 학술발표 논문집, 제10권, 제1호, pp.128-134, 1998.
  16. 이찬도 외, "고품질 바이그램을 이용한 문서 범주화 성능 향상," 정보처리학회 논문지 B, 제9-B권, 제4호, pp.415-420, 2002. https://doi.org/10.3745/KIPSTB.2002.9B.4.415
  17. 최준영 외, "효율적인 바이어그램을 이용한 자동 문서 범주화," 제 19회 한국정보처리학회 춘계 학술대회 논문집, 제10권, 제1호, pp.261-264, 2003.
  18. 박은석, 박현진, 이상곤, "동의어와 유의어 개념에 기반 한 키워드 추출기의 설계 및 구현", 컴퓨터종합학술대회 2007 논문집, 제34권, 제1(C)호, pp.163-166, 2007.
  19. 장정효, 손주성, 이상곤, 안 동 언, "연상 지식을 이용한 문서분류 엔진의 구현", 제25회 정보처리학회 춘계 학술발표대회논문집, 제13권, 제1호, pp.625-628, 2006.
  20. 장정효, 손주성, 김도연, 이상곤, 이원휘, 안동언, "검색과 분류가 동시에 가능한 JULSE 시스템의 설계 및 구현", 제24회 정보처리학회 추계 학술발표대회 논문집, 제12권, 제2호, pp. 673-676, 2005.
  21. 김혜경, 이상곤, "화제인식에 의한 단락별 계산방법의 설계", 컴퓨터종합학술대회 2005 논문집, 제32권, 제1(B)호, pp. 499-501, 2005.
  22. 임수정, 이원휘, 이상곤, "화제출현, 계속, 전환 처리를 이용한 한국어 문서의 단락분할", 제23회 정보처리학회 춘계 학술발표대회 논문집, 제12권, 제1호, pp.737-740, 2005.
  23. 이상곤, "분야연상어를 이용한 화제분야의 계산방법과 단락검색", 정보처리학회논문지(B), 제12권, 제1호, pp.57-68, 2005. https://doi.org/10.3745/KIPSTB.2005.12B.1.057
  24. 이원휘, 김도연, 이상곤, "그래픽컬한 분야인식기의 설계 및 구현", 정보과학회 가을 학술발표 논문집, 제31권, 제2호, pp. 769-771, 2004.
  25. 이원휘, 최현, 이상곤, "분야연상어 추출방법의 설계와 구현", 정보처리학회 2004년도 춘계 학술발표 논문집, 제11권, 제1호, pp.651-654, 2004.
  26. 최현, 황남선, 이상곤, "문서분류용 목적으로 이용할 효율적인 연상정보의 추출방법", 2004년 봄 정보과학회 학술발표 논문집(B), 제31권, 제1호, pp.892-894, 2004.
  27. 김양선, 이상곤, "단어개념에 기반 한 한국어 복합키워드의 추출", 제20회 한국정보처리학회 추계 학술발표 논문집, 제10권, 제2호, pp.477-480, 2003.
  28. 이상곤, 이완권, "분야연상어의 수집과 추출 알고리즘", 정보처리학회 논문지(B), 제10권, 제3호, pp.347-358, 2003. https://doi.org/10.3745/KIPSTB.2003.10B.3.347
  29. 홍성옥, 이상곤, "연상정보를 이용한 단락분할 방법", 2003년도 정보처리학회 춘계 학술발표 논문집(상), 제10권, 제1호, pp. 497-500, 2003.
  30. 이상곤, "분야연상어를 이용한 화제의 계속성과 전환성을 추적하는 단락분할방법", 정보처리학회 논문지(B), 제10권, 제1호, pp.57-66, 2003.