• 제목/요약/키워드: Dynamic Category Hierarchy

검색결과 12건 처리시간 0.036초

E-mail Classification and Category Re-organization using Dynamic Category Hierarchy and PCA

  • Park, Sun;Kim, Chul-Won;An, Dong-Un
    • Journal of information and communication convergence engineering
    • /
    • 제7권3호
    • /
    • pp.351-355
    • /
    • 2009
  • The amount of incoming e-mails is increasing rapidly due to the wide usage of Internet. We often group e-mails into categories for maintaining e-mail efficiently. However reading the email messages and classifying them is still tedious task. Moreover, the number of e-mails and manual classifying is increasing everyday. So, automatic e-mail classification is important techniques. In this paper, we propose a multi-way e-mail classification method that uses PCA for automatic category generation and dynamic category hierarchy for re-organizing e-mail categories. It classifies a huge amount of receiving e-mail messages automatically, efficiently, and accurately.

비음수 행렬 분해와 동적 분류 체계를 사용한 자동 이메일 다원 분류 (Automatic Email Multi-category Classification Using Dynamic Category Hierarchy and Non-negative Matrix Factorization)

  • 박선;안동언
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권5호
    • /
    • pp.378-385
    • /
    • 2010
  • 이메일 사용의 증가로 수신 메일을 효율적이면서 정확하게 분류할 필요성이 점차 늘고 있다. 현재의 이메일 분류는 SVM, 베이지안 분류자, 규칙 기반 분류자 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 그러나 이러한 지도 학습 방법들은 적합한 이메일을 인식하기 위하여서 사용자가 규칙이나 색인어 목록을 작성해야 한다. 비지도 학습 방법으로 군집을 이용한 다원 분류 방법은 메일의 분류 주제를 설정해주어야 한다. 본 논문에서는 비음수 행렬 분해(NMF, Non-negative Matrix Factorization)를 기반으로 한 자동 분류 주제 생성 방법과, 동적 분류 체계(DCH, Dynamic Category Hierarchy) 방법을 이용한 분류 주제 내에 이메일을 재구성하는 방법을 결합한 새로운 이메일 다원 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 다원 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 사용자가 분류 결과를 만족하지 못하면 분류 주제 내의 이메일을 동적으로 재구성하여 분류의 정확률을 높인다.

PCA와 동적 분류체계를 사용한 자동 이메일 계층 분류 (Automatic e-mail Hierarchy Classification using Dynamic Category Hierarchy and Principal Component Analysis)

  • 박선
    • 한국항행학회논문지
    • /
    • 제13권3호
    • /
    • pp.419-425
    • /
    • 2009
  • 인터넷 사용의 보편화로 인해 이메일의 양이 급속히 증가하고 있다. 이에 따라서 수신된 메일을 효율적이고 정확하게 분류할 필요성이 점차 증가하고 있다. 현재의 이메일 분류 기술들은 베이지안, 규칙 기반 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 이메일의 다원분류 방법중 군집(clustering)을 이용한 분류 방법은 분류의 정확도가 떨어지고 분류 레이블이 없는 단점이 있으며, 분류(classification)를 이용한 방법은 미리 분류 레이블을 사용자가 지정해야 하며 학습시켜야 하는 단점을 갖는다. 본 논문에서는 PCA (Principal Component Analysis)를 기반으로 한 자동 카테고리 생성 방법과 동적 분류 체계 방법을 결합한 새로운 자동 이메일 계층 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 메일을 동적으로 재분류 하여 분류 정확률을 높일 수 있다.

  • PDF

주성분 분석과 동적 분류체계를 사용한 자동 이메일 분류 (Automatic e-mail classification using Dynamic Category Hierarchy and Principal Component Analysis)

  • 박선;김철원;이양원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.576-579
    • /
    • 2009
  • 인터넷 사용의 보편화로 이메일의 양이 급속히 증가하고 있다. 따라서 수신 메일을 효율적이면서 정확하게 분류할 필요성이 점차 증가하고 있다. 현재의 이메일 분류는 베이지안, 규칙 기반 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 클러스터링을 이용한 다원 분류 방법은 분류의 정확도가 떨어지는 단점이 있다. 본 논문에서는 주성분 분석(PCA, Principal Component Analysis)을 기반으로 한 자동 카테고리 생성 방법과 동적 분류 체계 방법을 결합한 새로운 자동 이메일 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 메일을 동적으로 재분류 하여 분류 정확률을 높일 수 있다.

  • PDF

자동 카테고리 생성과 동적 분류 체계를 사용한 이메일 분류 (Classification of e-mail Using Dynamic Category Hierarchy and Automatic category generation)

  • 안찬민;박상호;이주홍;최범기;박선
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.79-89
    • /
    • 2004
  • 이메일 사용이 보편화됨에 따라 점차 수신되는 메일의 량이 증가하고 있다. 이러한 메일 량의 증가는 사용자로 하여금 이메일을 좀더 효율적으로 분류할 수 있는 방법을 필요하게 한다. 그러나 현재의 이메일 분류는 규칙기반, 베이시안, SVM등을 이용하여 스팸메일을 필터링 하는 이원분류가 주로 연구되고 있다. 이외에도 다원분류에 대한 연구로는 클러스터링을 이용한 방법이 있으나, 이는 단순히 유사도에 의해 메일을 그룹화 하는 수준이다. 본 논문에서는 벡터모델의 유사도를 기반으로 한 자동 카테고리 생성 방법과 동적분류체계 방법을 결합하여 새로운 이메일 자동 분류 방법을 제안했다. 본 논문에서 제안한 방법은 이메일을 자동으로 다원분류하며 대량의 메일도 효율적으로 관리할 수 있다. 또한 메일을 동적으로 재분류 할 수 있게 함으로써 정확율을 높였다.

  • PDF

동적분류에 의한 주제별 웹 검색엔진의 설계 및 구현 (Design and Implementation of Web Directory Engine Using Dynamic Category Hierarchy)

  • 최범기;박선;박태수;송재원;이주홍
    • 인터넷정보학회논문지
    • /
    • 제7권2호
    • /
    • pp.71-80
    • /
    • 2006
  • 웹 검색엔진의 검색방법에는 키워드검색방법과 주제별검색방법이 있다. 키워드검색은 재현율(recoil)이 높지만 검색결과가 너무 많이 나오기 때문에 원하는 검색결과를 찾는 것이 어렵다. 주제별검색 역시 찾는 문서의 해당 주제가 모호하거나 주제를 정확하게 알지 못하면 문서를 찾지 못하는 경우가 있다. 즉, 검색결과의 정확율(precision)는 높으나 재현율이 떨어진다. 본 논문은 주제별검색의 문제점을 해결하기 위해서 주제와 키워드간의 관계를 퍼지논리로 정량적으로 계산하고, 이를 바탕으로 주제간의 함의(implication)관계를 유도하여 동적인 분류체계를 구성하는 새로운 웹 검색엔진을 설계하고 구현하였다. 구현된 검색엔진은 분류간의 함의관계를 유사한 하위주제로서 간주함으로써 주제별검색 결과의 재현율을 높일 수 있다.

  • PDF

비음수 행렬 분해와 동적 분류체계를 사용한 이메일 분류 (Email Classification using Dynamic Category Hierarchy and Non-negative Matrix Factorization)

  • 박선;안동언
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-39
    • /
    • 2009
  • 이메일의 사용증가로 수신 메일을 효율적이면서 정확하게 분류할 필요성이 점차 증가하고 있다. 현재의 이메일 분류는 베이지안, 규칙 기반 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 클러스터링을 이용한 다원 분류 방법은 분류의 정확도가 떨어지는 단점이 있다. 본 논문에서는 비음수 행렬 분해(NMF, Non-negative Matrix Factrazation)를 기반으로 한 자동 분류 주제 생성 방법과 동적 분류 체계(DCH, Dynamic Category Hierachy) 방법을 결합한 새로운 이메일 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 분류 결과 사용자의 요구사항을 만족하지 못하면 메일을 동적으로 재분류 하여 분류 정확률을 높일 수 있다.

  • PDF

문서요약 및 동적 분류체계를 사용한 E-mail 분류의 재구성 (Reconstruction of E-mail Category Using Dynamic Category Hierarchy and Document Summarization)

  • 안찬민;박선;김태순;최범기;이주홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.511-514
    • /
    • 2004
  • 현재의 이메일 분류는 규칙기반, 베이시안, SVM 등을 이용하여 스팸메일을 필터링 하는 이원분류가 주로 연구되어지고 있고, 이외에도 다원분류에 대한 연구로는 클러스터링을 이용한 방법이 있다. 그러나 클러스터링에 의한 방법은 단순히 유사도에 의해 메일을 묶는 수준에 그치고 있다. 본 논문에서는 자동 문서요약 방법과 동적분류체계 방법을 결합하여 새로운 이메일 자동 다원분류 방법을 제안했다. 본 논문에서 제안한 방법은 이메일을 자동으로 분류하며 분류한 결과를 검색할 때 사용자의 요구사항을 만족하지 못하면 재분류하여 분류 빛 검색의 정확성을 높였다.

  • PDF

분류 주제 자동 생성 및 동적분류체계 방법을 이용한 이메일 분류 (E-mail Classification Using Dynamic Category Hierarchy and Automatic Generation of Category Label)

  • 안찬민;박선;박상호;최범기;이주홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.439-441
    • /
    • 2004
  • 이메일 사용이 보편화됨에 따라 점차 수신되는 메일의 량이 증가하고 있다. 이러한 메일 량의 증가는 사용자로 하여금 이메일을 좀더 효율적으로 분류할 수 있는 방법을 필요하게 한다. 그러나 현재의 이메일 분류는 규칙기반, 베이시안, SVM 등을 이용하여 스팸메일을 필터링 하는 이원분류가 주로 연구되고 있다. 이외에도 다원분류에 대한 연구로는 클러스터링을 이용한 방법이 있으나, 이는 단순히 유사도에 의해 메일을 묶는 수준에 그치고 있다. 본 논문에서는 벡터모델의 유사도를 기반으로 한 분류 주제 자동 생성 알고리즘과 동적분류체계 방법을 결합하여 새로운 이메일 자동 다원분류 방법을 제안했다. 본 논문에서 제안한 방법은 이메일을 자동으로 분류하여, 분류된 결과를 색인검색과 디렉토리 검색 방법을 지원하며 대량의 메일도 효율적으로 관리할 수 있다. 또한 메시지를 동적으로 재분류 할 수 있게 함으로써 디렉토리 검색시 재현율을 높였다.

  • PDF

동적분류체계를 사용한 웹 검색엔진의 설계 및 구현 (Design and Implementation of Web Search Engine Using Dynamic Category Hierarchy)

  • 박선;최범기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.747-750
    • /
    • 2003
  • 분류검색 방법은 색인검색 방법과 함께 중요한 요소로서 웹 검색 엔진에서 지원되고 있다. 색인검색 방법에서는 검색결과의 재현율이 높지만 검색결과가 너무 많이 나오기 때문에 원하는 검색결과를 찾아내는 것이 어렵다는 단점이 있다. 또한 능숙한 컴퓨터 사용자는 색인검색을 자주 사용하지만, 컴퓨터에 익숙하지 않은 대부분의 사람들은 분류검색 방법을 사용한다. 이러한 이유 때문에 검색엔진에서 분류검색 방법이 반드시 필요하다. 그러나 분류검색 방법은 찾고자 하는 문서의 해당분류가 애매모호하거나 명확하게 알지 못할 때에는 문서를 찾지 못하는 경우가 빈번히 발생한다. 즉, 검색결과의 정확도는 높으나 재현율이 떨어지는 단점이 있다. 본 논문은 이러한 분류검색에 대한 문제점을 해결하기 위해서 분류와 검색어간의 관계를 퍼지논리를 이용하여 정량적으로 계산하고 이를 바탕으로 분류간의 함의관계를 유도함으로써 동적인 분류체계를 구성하는 새로운 웹 검색엔진을 설계하고 구현하였다. 구현된 검색엔진은 분류간의 함의관계를 유사한 하위분류로서 간주함으로써 분류검색 결과의 재현율을 높일 수 있다.

  • PDF