• 제목/요약/키워드: 문서 집단화

검색결과 6건 처리시간 0.02초

주제어 기반 문서 클러스터링 알고리즘 (Keyword-based Document C lustering Algorithm)

  • 장성호;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.469-471
    • /
    • 2002
  • 높은 연관성을 갖는 문서들을 서로 집단화시키는 문서 클러스터링은 문서와 문서간의 연관성을 확인할 수 있는 문서의 주제어 추출이 중요한 문제이며 일반적인 정보검색 시스템에서 사용하는 출현빈도에 의한 주제어 추출은 성능 향상에 한계가 있다. 또한, 문서 클러스터링은 문서를 집단화시키기 위해 문서간 연관성을 확인하기 위해 유사도 계산에 따른 시간과 공간을 많이 소비하는 문제를 가지고 있다. 본 논문에서는 주제어 추출 기법을 적용하여 주제어 연관성에 의해 문서들을 집단화시키는 새로운 방법의 문서 클러스터링 알고리즘을 제안한다.

  • PDF

Stiefel 다양체에서 곱셈의 업데이트를 이용한 비음수 행렬의 직교 분해 (Orthogonal Nonnegative Matrix Factorization: Multiplicative Updates on Stiefel Manifolds)

  • 유지호;최승진
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권5호
    • /
    • pp.347-352
    • /
    • 2009
  • 주어진 비음수 데이터를 두 개의 비음수 행렬의 곱의 형태로 표현하는 비음수 행렬 분해(Nonnegative Matrix Factorization)는 비음수 데이터의 다변량 분석에서 폭넓게 사용되고 있는 방법이다. 비음수 행렬 분해는 집단화(Clustering), 특히 문서의 집단화에서 유용하게 쓰일 수 있다. 본 논문에서는 주어진 문서들로부터 구성된 단어-문서 행렬을 두 개의 비음수 행렬의 곱으로 분해할 때, 그 중 하나의 행렬에 직교 제한을 주는 비음수 행렬의 직교 분해(Orthogonal Nonnegative Matrix Factorization) 방법을 다룬다. 현존하는 비음수 행렬의 직교 분해 방법은 직교 제한과 관련된 항을 더해주는 방식을 사용하지만, 여기서는 Stiefel 다양체 위에서의 실제 기울기를 직접 구하여 곱셈의 업데이트 알고리즘을 유도하였다. 다양한 문서 데이터에 대한 실험을 통해 새롭게 유도된 비음수 행렬의 직교 분해 방법이 기존의 비음수 행렬 분해나 기존의 비음수 행렬의 직교 분해보다 문서 집단화에서 우수한 성능을 나타냄을 보였다.

동시링크를 이용한 웹 문서 클러스터링 실험 (Clustering of Web Document Exploiting with the Co-link in Hypertext)

  • 김영기;이원희;권혁철
    • 한국도서관정보학회지
    • /
    • 제34권2호
    • /
    • pp.233-253
    • /
    • 2003
  • 인간은 지식의 조직을 통해 세계를 이해한다. 정보검색분야에서 연구되고 있는 정보의 조직화에는 분류와 클러스터링이라는 두 가지 유형이 있다. 분류는 미리 정의된 범주에 각 항목을 배정하는 행위인 반면, 클러스터링은 유사하거나 관련된 항목을 집단화함으로써 정보를 조직한다. 인터넷 정보자원의 조직은 웹 문서에 출현하는 단어들에서 키워드를 추출하여 역파일을 작성함으로써 검색에 활용하는 것이 일반적인 방법이다. 그러나 키워드의 출현 위치나 단어빈도를 통한 문서유사도 기법은 사용된 언어가 다르거나 대부분이 앵커텍스트만으로 구성되어 있는 대문페이지처럼 적용하기 어려운 경우가 많다. 이 연구는 계량정보학적 분석 기법 중에서 동시인용 기법을 웹 문서의 하이퍼링크에 적용하여, 웹 문서의 클러스터링 가능성을 실험한다.

  • PDF

디지털도서관 구축과정에서 TREC 텍스트 문서의 시각적 표현에 관한 연구 (A Study on the Visual Representation of TREC Text Documents in the Construction of Digital Library)

  • 정기태;박일종
    • 정보관리학회지
    • /
    • 제21권3호
    • /
    • pp.1-14
    • /
    • 2004
  • 이용자들은 유사문서를 검색할 때, 각 가지 문서의 시각적표현을 통하여 도움을 얻게 되며, 모든 정보검색에 관한 연구는 이용자들의 다양한 요구를 충족시키기 위한 여러 가지의 해결책을 제시하고 있다. 제안되어진 해결책은 알파벳 순서로 만들어 진 파피루스 문서로부터 카드목록, 마이크로 필름을 이용한 저장, 컴퓨터 디스크를 이용한 파일 보관 등에 이르기까지 다양한 방법들을 들 수 있을 것이다. 또한 대부분의 정보검색 시스템들은 Document SUITogate( 문헌을 대체할 수 있는 것들 ), 즉 요약문, 목차, 초록, 리뷰한 내용, 기계가독형목록 (MARC) 기록물 등과 같은 서지자료들을 전체논문을 대체하여 이용하게 된다. 본 논문에서는 또 다른 형태의 Document Surrogate 로서 용어 리스트의 집단화 방법을 이용해서 찾아보았다. 이 Document Surrogate 들은 Multidimensional Scaling (MDS) 을 이용해서 2 차원 그래프 위에 좌표로써 표현되어지고 있다. 사용된 2차원의 그래프 위에서 좌표간의 거리는 문헌들의 유사성을 나타낸다고 해석할 수 있으며 거리가 가까우면 가까울수록 두 문서는 더욱 유사한내용을 포함하고 있다고 해석할 수 있는 것으로 밝혀졌다.

XML 기반 중재 시스템을 위한 검색 및 질의 사용자 인터페이스 (Browsing and Querying User Interface for XML-based Mediation System)

  • 하얀;김용성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.69-71
    • /
    • 1999
  • 최근에 인터넷상의 방대한 정보가 존재함에 따라 이들 정보들을 통합 관리할 필요성이 증대하고 있다. 본 논문은 인터넷 상의 방대한 정보 중에 사용자에게 필요한 정보를 발견하여 모아주는 XML 기반 중재 시스템의 중요한 요소인 질의 및 검색 사용자 인터페이스를 제안하고자 한다. 본 논문에서 제안하는 질의 및 검색 인터페이스는 UML 클래스 다이어그램을 이용하므로써 XML 문서의 엘리먼트들 간의 집단화 관계 등 객체지향적인 특성을 그대로 반영할 수 있으며, 객체지향 데이터베이스 상의 저장된 문서와 쉽게 연계될 수 있도록 한다.

  • PDF

텍스트 마이닝을 이용한 상황 정보 분석 및 예측 프로세스에 관한 연구 (A novel on Context Information Analysis and Prediction Process using Text Mining)

  • 정세훈;강주희;김종찬;심춘보
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1039-1040
    • /
    • 2015
  • 최근 IoT 및 인공지능 기술을 활용한 상황 정보 예측 서비스가 각광을 받고 있다. 본 논문에서는 특정 메타 데이터(Meta Data)로부터 입력되는 정보를 기반으로 상황 정보 분석 및 예측하는 프로세스를 제안한다. 주성분 분석 및 데이터의 집단화(Corpus), 문서 매트릭스(Document Matrix), 단어 빈도수(Frequency)에 따른 데이터 전처리 과정을 통해 상황정보 데이터를 확보한다. 또한 연관 규칙분석을 통해 분류된 데이터의 연관성을 분석하여 예측 데이터의 연관성을 확보한다. 제안하는 상황정보 분석 및 예측 모델은 R을 적용하여 설계한다.

  • PDF