• 제목/요약/키워드: Document Clustering

검색결과 224건 처리시간 0.029초

웹 에이전트 사용자 특성모델 구축을 위한 비감독 문서 분류 (Unsupervised Document Clustering for Constructing User Profile of Web Agent)

  • 오재준;박영택
    • 지능정보연구
    • /
    • 제4권2호
    • /
    • pp.61-83
    • /
    • 1998
  • 본 연구는 웹 에이전트에 있어서 가장 핵심적인 부분이라 할 수 있는 사용자 특성모델 구축방법을 개선하는데 목적을 두고 있다. 사용자 특성모델을 귀납적 기계학습 방식으로 자동 추출하기 위해서는 사용자가 관심을 가지는 분야별로 문서를 자동 분류하는 작업이 매우 중요하다 지금까지의 방식은 사람이 관심여부에 따라 문서를 수동적으로 분류해 왔으나, 문서의 양이 기하급수적으로 증가할 경우 처리할 수 있는 문서의 양에는 한계가 있을 수밖에 없다. 또한 수작업 문서분류 방식을 웹 에이전트에 그대로 적용하였을 경우 사용자가 일일이 문서를 분류해야한다는 번거로움으로 인해 웹 에이전트의 효용성이 반감될 것이다. 따라서 본 연구에서는 비감독 문서분류 알고리즘과 그것을 바탕으로 얻어진 문서분류정보를 후처리(Post-Processing)함으로써 보다 간결하고 정확한 문서분류 결과를 얻을 수 있는 구체적인 방법을 제공하고자 한다.

  • PDF

규칙기반 단어 클러스터링에 의한 문서 분류의 성능 향상 (Performance Improvement of Document Classification by Rule-based Word Clustering)

  • 현우석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.196-198
    • /
    • 2006
  • 분류되지 않은 문서의 문서 분류는 현재까지 아주 중요한 문제로 대두되고 있다. 컴퓨터를 이용한 문서 검색 엔진인 Citeseer에서는 문서 인덱싱을 하기 위해서 자동문서 분류 방법을 사용하고 있다. 문서 분류는 원본 문서의 단어들을 제1의 속성 표현으로 사용한다. 그러나 이와 같은 표현은 고차원과 속성 부족을 초래하게 된다. 단어 클러스터링은 속성 차원과 속성 부족을 감소시키기 위한 효율적인 방법이며 문서 분류 성능을 향상시켜 준다. 본 연구에서는 클러스터 속성 표현을 위한 도메인 규칙기반 단어 클러스터링 방법을 사용한다. 클러스터는 다양한 도메인 데이터베이스들과 단어 철자 속성들로부터 생성되는데, 이와 같은 클러스터 속성 표현은 중요한 차원 감소뿐만 아니라 문서 헤더 라인의 평균 분류 성능에서 향상을 보여 주었고, 원본 문서 단어 기반 속성 표현과 비교해 보았을 때 도서목록 항목 추출의 정확도를 향상시켰다.

  • PDF

XML 문서 클러스터링을 위한 경로 유사도의 계산 (Path Similarity Calculation for Clustering of XML Documents)

  • 이범석;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.325-328
    • /
    • 2006
  • 최근 DTD (Document Type Descriptor)를 포함하고 있지 않은 XML 문서의 사용이 증가하고 있다. 따라서 서로 다른 구조를 갖는 많은 양의 XML 문서를 관계형 DBMS에 저장하거나, 인덱스를 이용하여 매핑하는 등 보다 효율적으로 관리하기 위한 다양한 인덱싱 기법에 대한 연구가 진행되고 있다. 이러한 연구들 중 경로 비트맵 인덱싱 기법은 경로 구성 유사도를 기반으로 3차원 비트맵 클러스터를 생성하고, 클러스터 단위의 검색을 수행함으로서 빠른 검색 속도를 보여주었다. 그러나 이 기법은 비교하려는 두 경로 중 항상 짧은 경로가 기준 경로가 되는 한계점과, 같은 노드 구성을 가지는 두 경로에서도 노드의 위치에 따라 그 유사도가 크게 변하는 등의 여러 문제점을 가지고 있었다. 이러한 문제점을 해결하고, 정확한 클러스터링을 수행하기 위해서는 합리적인 경로 유사도 계산식이 필요하게 되었다. 본 논문에서는 기존 방법의 문제점을 해결하고, 보다 정확한 클러스터링을 수행할 수 있는 새로운 경로 유사도 계산식을 제안한다.

  • PDF

웹 에이전트를 위한 통합방식 문서 클러스터링 (A Hybrid Document Clustering for a Web Agent)

  • 양찬범;이성열;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권5호
    • /
    • pp.422-430
    • /
    • 2001
  • 웹 에이전트는 사용자가 웹을 브라우징하는 행위를 모니터하여 사용자의 관심 정보를 학습하고 사용자가 필요로 하는 웹 상의 정보를 자동 제공하는 지능형 시스템이다. 웹 에이전트가 사용자의 선호도를 학습하기 위해서는 귀납적 기계학습을 수행하는데, 이때 학습의 효율을 높이기 위해서는 사용자가 관심있어하는 문서들을 유사한 문서들로 클러스터링하여 학습 시스템에 제공하여야 한다. 본 논문에서는 웹 에이전트의 학습 시스템에 입력되는 학습대상 문서들을 보다 정확하고 효율적으로 클러스터링하여 제공하기 위해서 Top-down 방식과 Bottom-up 방식을 통합 적용한 통합방식 문서 클러스터링과 초기 클러스터 생성을 위한 평가함수를 제시한다. Top-down 방식으로는 개념적 클러스터링 알고리즘인 COBWEB을 적용하고, Bottom-up 방식으로는 교차기반(Intersection-based) 클러스터링 방식인 Etzioni의 클러스터링 알고리즘을 적용하였다.

  • PDF

Table based Matching Algorithm for Soft Categorization of News Articles in Reuter 21578

  • Jo, Tae-Ho
    • 한국멀티미디어학회논문지
    • /
    • 제11권6호
    • /
    • pp.875-882
    • /
    • 2008
  • This research proposes an alternative approach to machine learning based ones for text categorization. For using machine learning based approaches for any task of text mining, documents should be encoded into numerical vectors; it causes two problems: huge dimensionality and sparse distribution. Although there are various tasks of text mining such as text categorization, text clustering, and text summarization, the scope of this research is restricted to text categorization. The idea of this research is to avoid the two problems by encoding a document or documents into a table, instead of numerical vectors. Therefore, the goal of this research is to improve the performance of text categorization by proposing approaches, which are free from the two problems.

  • PDF

가중치를 이용한 효과적인 항공 단문 군집 방법 (DOCST: Document frequency Oriented Clustering for Short Texts)

  • 김주영;이지민;안순홍;이훈석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.331-334
    • /
    • 2018
  • 비정형 데이터의 대표적인 형태 중 하나인 텍스트 데이터 기계학습은 다양한 산업군에서 활용되고 있다. NOTAM 은 하루에 수 천개씩 생성되는 항공전문으로써 현재는 사람의 수작업으로 분석하고 있다. 기계학습을 통해 업무 효율성을 기대할 수 있는 반면, 축약어가 혼재된 단문이라는 데이터의 특성상 일반적인 분석에 어려움이 있다. 본 연구에서는, 데이터의 크기가 크지 않고, 축약어가 혼재되어 있으며, 문장의 길이가 매우 짧은 문서들을 군집화하는 방법을 제안한다. 주제를 기준으로 문서를 분류하는 LDA 와, 단어를 k 차원의 벡터공간에 표현하는 Word2Vec 를 활용하여 잡음이 포함된 단문 데이터에서도 효율적으로 문서를 군집화 할 수 있다.

의미 특징과 퍼지를 이용한 문서군집 (Document Clustering using Semantic Features and Fuzzy)

  • 박선;김철원;안동언
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.293-295
    • /
    • 2010
  • 본 논문은 문서의 의미특징과 퍼지를 이용한 새로운 문서군집 방법을 제안한다. 제안된 방법은 비음수 행렬 분해된 의미특징을 이용하여 군집 레이블과 군집의 대표 용어들을 선택함으로서 문서군집의 내부구조를 더 잘 표현할 수 있으며, 퍼지를 이용한 군집은 문서군집에 유사하지 않은 문서를 더 잘 구분함으로써 문서군집의 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법 (Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity)

  • 박선;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1538-1541
    • /
    • 2011
  • 본 논문은 군집 주제의 유의어와 유사도를 이용하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 비음수행렬분해의 의미특징을 이용하여 군집 주제(topic)의 용어들을 선택함으로서 문서 군집 집합의 내부구조를 잘 표현할 수 있으며, 군집 주제의 용어들에 워드넷의 유의어를 사용하여서 확장함으로써 문서를 용어집합(bag-of-words)으로 표현하는 문제를 해결할 수 있다. 또한 확장된 군집 주제의 용어와 문서집합에 코사인 유사도를 이용하여서 군집의 주제에 적합한 문서를 잘 군집하여서 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

비음수 행렬 인수분해와 NMF 군집방법을 이용한 다중문서요약 (Multi-document Summarization using Non-negative Matrix Factorization and NMF Clustering Method)

  • 박선;이주홍;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.427-430
    • /
    • 2008
  • 본 논문은 비음수 행렬 인수분해(NMF, non-negative matrix factorization)와 NMF 군집방법을 이용하여 다중문서를 요약하는 새로운 방법을 제안하였다. 본 논문에서 NMF에 의해 계산된 의미 특징(semantic feature)은 문서의 고유 구조(inherent structure)를 반영하여 문장을 추출함으로써 요약의 질을 높일 수 있고, 의미 변수(semantic variable)를 이용한 문장의 군집은 문장 간의 유사성과 다양성 고려하여서 쉽게 과잉정보를 제거하여 문장을 요약할 수 있는 장점을 갖는다.

유사어 벡터 확장을 통한 XML태그의 유사성 검사 (Similarity checking between XML tags through expanding synonym vector)

  • 이정원;이혜수;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권9호
    • /
    • pp.676-683
    • /
    • 2002
  • XML(extensible Markup Language)문서가 웹 문서의 표준으로 자리 매김 할 수 있는 가장 큰 성공요인은 사용자가 문서 타입을 기술할 수 있는 유연성(flexibility)이다. 그러나 XML의 유연성으로 야기되는 문제점은 동일한 의미를 표현하기 위해 XML문서 작성자마다 서로 다른 태그명과 구조를 사용한다는 점이다. 즉 서로 다른 태그 집합, 요소(element), 속성(attribute)에 대한 서로 다른 이름 또는 다른 문서 구조로 인해 다른 태그로 표현된 문서는 서로 다른 부류의 문서로 간주되기 쉽다. 따라서 본 논문은 XML태그에 내재된 의미 정보(semantic information)와 구조 정보(structured information)를 추출하여 의미적으로 최대한 유사한 동의어로 확장하고, XML문서의 확장된 태그간의 의미적 유사도를 비교 분석할 수 있는 개념 기반의 태그 패턴 매처(Tag Pattern Matcher)를 설계 구현하였다. 두 XML문서의 태그간의 의미적 유사도에 가중치를 부여하여 기존의 비구조적인(semi-structured) 문서를 위한 벡터 스페이스 모델(vector space model)을 확장함으로써 두 XML문서가 유사한지를 파악할 수 있다.