DOI QR코드

DOI QR Code

Decision Method of Importance of E-Mail based on User Profiles

사용자 프로파일에 기반한 전자 메일의 중요도 결정

  • Published : 2008.10.31

Abstract

Although modern day people gather many data from the network, the users want only the information needed. Using this technology, the users can extract on the data that satisfy the query. As the previous studies use the single data in the document, frequency of the data for example, it cannot be considered as the effective data clustering method. What is needed is the effective clustering technology that can process the electronic network documents such as the e-mail or XML that contain the tags of various formats. This paper describes the study of extracting the information from the user query based on the multi-attributes. It proposes a method of extracting the data such as the sender, text type, time limit syntax in the text, and title from the e-mail and using such data for filtering. It also describes the experiment to verify that the multi-attribute based clustering method is more accurate than the existing clustering methods using only the word frequency.

개인 통신 방법의 수단으로 전자 메일이 널리 사용되고 있으나, 업무에 직접 관련이 없는 쓸모없는 상업용 메일도 대량으로 유포되고 있다. 본 연구에서는 사용자가 작성한 프로파일을 이용하여 메일을 자동으로 그룹핑(grouping) 하는 방법을 제안하고자 한다. 기존의 연구 방법은 단어의 빈도수만을 이용하는 단일 속성을 이용하므로 높은 정확률을 얻을 수 없었다. 그러나 본 논문에서 제안하는 방법은 기존 사용자의 폴더에 수신된 메일의 분류 체계에서 추출된 사용자 프로파일을 이용하여 그룹핑 되는 메일의 정확률을 높이고자 한다. 본 논문에서 적극적으로 이용하는 정보는 다중 속성(송신처, 문서의 주제, 문서의 유형 정보, 시간제한 표현의 어구 등) 값이다. 사용자의 프로파일을 이용함으로써 새로 도착한 메일이 사용자에게 중요한가 혹은 중요하지 않은가의 자동 판단이 가능하도록 시스템을 설계하였다. 학습 데이터를 네 가지 형태로 나누어 실험한 결과 Rocchio와 Widrow-Hoff의 상관계수가 각각 0.40과 0.43인 것 보다 본 논문의 방법이 0.52로 보다 높은 상관계수를 나타내 빈도수만을 이용하는 기존의 연구보다 정확한 방법임을 알 수 있었다.

Keywords

References

  1. Buckley C. Salton G. and Allan J., “The Effect of Adding Relevance Information in a Relevance Feedback Environment,” Proceeding of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.292-298, 1994
  2. Lewis D. D., Schapire R. E., Allan J. P. and Papka R., “Training Algorithms for Linear Text Classifiers,” Proceeding of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.298-307, 1996 https://doi.org/10.1145/243199.243277
  3. Rocchio, J. J., “Relevance Feedback in Information Retrieval,” The SMART Retrieval System - Experiments in Automatic Document Processing, Salton, G. (Ed.), Prentice Hall, pp.313-323, 1971
  4. 이지행, 조성배, “전자 우편 문서의 자동 분류를 위한 다중분류기 결합”, 정보과학회논문지: 소프트웨어 및 응용, 제29권, 제3호, pp.192-201, 2002
  5. 강영순, 이용배, 김태현, 조숙현, 맹성현, “전자 우편 문서의 효율적인 분류를 위한 전처리”, 한국정보과학회 학술발표 논문집(II), 제29권, 제1호, pp.493-495, 2002
  6. 안희국, 노희영, “동적 시소러스와 GA를 이용한 개별화된 E-Mail 분류 시스템(PECS)”, 한국정보과학회 학술발표 논문집(II), 제29권, 제1호, pp.472-474, 2002
  7. 최승혁, 김용성, 김영천, “지능형 E-mail 문서 관리기 시스템 설계”, 한국정보과학회 학술발표 논문집(II), 제29권, 제2호, pp.307-309, 2002
  8. 박시일, 김두현, 김용성, “지능형 E-mail 지식 관리 시스템 설계”, 한국정보과학회 학술발표 논문집(II), 제29권, 제2호, pp.310-312, 2002
  9. 안희국, 노희영, “유전자 알고리즘을 이용한 전자메일분류 시스템의 사용자 선호도 추출 모델링”, 한국정보과학회 학술발표 논문집(II), 제29권, 제2호, pp.673-675, 2002
  10. 류제, 윤성희, 한광록, “특정 속성과 Co-training을 이용한 전자 메일 분류”, 한국정보과학회 봄 학술발표 논문집(B), 제30권, 제1호, pp.549-554, 2003
  11. 현영순, 정옥란, 조동섭, “E-Mail 시스템의 첨부 파일 자동분류 에이전트 설계”, 제19회 한국 정보처리학회 춘계 학술대회 논문집, 제10권, 제1호, pp.1067-1070, 2003
  12. 권용진, 안준선 역, “정보검색 알고리즘”, 도서출판 미래컴, pp.80-86, 2003
  13. 안찬민, 박선, 김태순, 최범기, 이주홍, “문서 요약 및 동적 분류 체계를 사용한 E-mail 분류의 재구성”, 제21회 정보처리학회 춘계 학술발표 대회 논문집, 제11권, 제1호, pp.511-514, 2004
  14. 변영철, 홍영보, “신경망을 이용한 사용자 질의 전자 메일 분류”, 멀티미디어학회논문지, 제7권, 제3호, pp.438-449, 2004
  15. 김보미, 이상열, 이상곤, “이메일 문서의 속성값에 기반한 필터링 시스템의 설계 및 구현”, 한국 컴퓨터 종합 학술대회 2005 논문집, 제32권, 제1(B)호, pp.142-144, 2005
  16. 장정효, 이상열, 이상곤, 조현준, “한국어 문서의 유형 정보를 이용한 EMFA의 구현”, 한국 컴퓨터 종합 학술대회(KCC) 논문집, 제33권, 제1호(B), pp.28-30, 2006