DOI QR코드

DOI QR Code

Collection and Extraction Algorithm of Field-Associated Terms

분야연상어의 수집과 추출 알고리즘

  • 이상곤 (전주대학교 정보기술컴퓨터공학부) ;
  • 이완권 (전주대학교 정보기술컴퓨터공학부)
  • Published : 2003.06.01

Abstract

VSField-associated term is a single or compound word whose terms occur in any document, and which makes it possible to recognize a field of text by using common knowledge of human. For example, human recognizes the field of document such as or , a field name of text, when she encounters a word 'Pitcher' or 'election', respectively We Proposes an efficient construction method of field-associated terms (FTs) for specializing field to decide a field of text. We could fix document classification scheme from well-classified document database or corpus. Considering focus field we discuss levels and stability ranks of field-associated terms. To construct a balanced FT collection, we construct a single FTs. From the collections we could automatically construct FT's levels, and stability ranks. We propose a new extraction algorithms of FT's for document classification by using FT's concentration rate, its occurrence frequencies.

인간은 문서전체를 읽지 않고 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서전체를 대상으로 하지 않고 부분텍스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집한다. 본 논문은 수집문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시점을 고려하여 분야연상어의 수준과 안정성 랭크에 대하여 논의한다. 학습데이터에서 분야연상어 후보의 각 수준을 자동으로 결정하고, 컴퓨터가 제시하는 분야연상어의 수준, 안정성 랭크, 집중률, 빈도정보를 이용하여 단일 분야연상어를 수집하는 방법을 제안한다.

Keywords

References

  1. M. J. Blosseville et al., 'Automatic Document Classification : Natural Languge Processing, Statistical Analysis, and Expert SystemTechniques Used Together,' Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'92), pp.51-58, 1992 https://doi.org/10.1145/133160.133175
  2. Nobert Fuhr, 'Models for Retrieval with Probabilistic Indexing,' Information Processing & Management, Vol.25, No.1, pp.55-72, 1989 https://doi.org/10.1016/0306-4573(89)90091-5
  3. Fumiyo Fukumoto et al., 'Automatic Clustering of Articles Using Dictionary Definition,' Transactions of Information Processing Society of Japan, Vol.37, No.10, pp.1789-1799, 1996(in japanese)
  4. Masami Hara et al., 'Keyword Extraction Using a Text Format and World Importance in a Specific Field,' Transactions of Information Processing Society of Japan, Vol.38, No.2, pp.299-309, 1997(in japanese)
  5. Yoshitaka Hayashi et al., 'Efficient Method for Extracting Keywords of Compound Words Using Pattern Matching Machines,' Transactions of Information Processing Society of Japan, Vol.38, No.4, pp.815-825, 1997(in Japanese)
  6. Naoyuki Nomura, 'ConceptBase-A NL-based IT Solution Core,' Proceedings of the 1999, the 18th International Conference on Computer Processing of Oriental Language(ICCPOL '99), pp.235, 1999
  7. Salton, G., 'Automatic Text Processing : The Transformation, Analysis and Retrival of Information by Computer,' Addison-Wesley Publishing Company, 1989
  8. Salton, G. and McGill, M. J., 'Introduction of Modern Information Retrieval,' McGraw-Hill Book Company, 1983
  9. Tokunaga, T. and Iwayama, M., 'Text Categorization based on Weighted Inverse Document Frequency,' Natural Language Processing, Vol.100, No.5, 1994
  10. Mochizuki, H., Makoto, I. and Okumura, M. 'Passage-Level Document Retrieval Using Lexical Chains. Journal of Natural Language Processing,' Vol.6, No.3, pp.101-126, 1999(in Japanese) https://doi.org/10.5715/jnlp.6.3_101
  11. 남영신, 우리말 분류 사전, 성안당, 2001
  12. 이상곤, '분야연상어를 이용한 화제의 계속성과 전환성을 추적하는 단락분할 방법', 정보처리학회논문지B, 제10권 제1호, pp.57-66, 2003 https://doi.org/10.3745/KIPSTB.2003.10B.1.057

Cited by

  1. Korean Document Classification Using Extended Vector Space Model vol.18B, pp.2, 2011, https://doi.org/10.3745/KIPSTB.2011.18B.2.093