• Title/Summary/Keyword: 클러스터 간 유사도

Search Result 106, Processing Time 0.029 seconds

A Study on Cluster Topic Selection in Hierarchical Clustering (계층적 클러스터링에서 분류 대표어 선정에 관한 연구)

  • Yi, Sang-Seon;Lee, Shin-Won;An, Dong-Un;Chung, Sung-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.669-672
    • /
    • 2004
  • 정보의 양이 많아지면서 정보 검색 시스템에 검색 결과를 자동으로 구조화하는 계층적 클러스터링을 적용하는 시도가 늘고 있다. 계층적 클러스터링은 문서 간의 유사도를 통해 클러스터를 계층 구조로 만들어 검색 성능을 높이고 결과를 사용자에게 이해하기 쉽게 보여준다. 계층 구조는 검색 결과를 요약하는 것이기 때문에 클러스터의 내용을 효과적으로 함축할 수 있는 대표어의 선정이 중요하다. 각 클러스터의 대표어를 선정하기 위해 대표어에 명사인 단어만 추출하고 상위 클러스터 대표어에 사용된 단어는 하위 클러스터에 사용하지 않는 방법을 적용하여 대표어의 질을 높였다.

  • PDF

An Efficient Large Graph Clustering Technique based on Min-Hash (Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법)

  • Lee, Seok-Joo;Min, Jun-Ki
    • Journal of KIISE
    • /
    • v.43 no.3
    • /
    • pp.380-388
    • /
    • 2016
  • Graph clustering is widely used to analyze a graph and identify the properties of a graph by generating clusters consisting of similar vertices. Recently, large graph data is generated in diverse applications such as Social Network Services (SNS), the World Wide Web (WWW), and telephone networks. Therefore, the importance of graph clustering algorithms that process large graph data efficiently becomes increased. In this paper, we propose an effective clustering algorithm which generates clusters for large graph data efficiently. Our proposed algorithm effectively estimates similarities between clusters in graph data using Min-Hash and constructs clusters according to the computed similarities. In our experiment with real-world data sets, we demonstrate the efficiency of our proposed algorithm by comparing with existing algorithms.

Dynamic Resource Reallocation using User Connection Pattern per Timeslot (시구간별 사용자 접속 패턴을 이용한 동적 자원 재분배)

  • 이진성;최창열;박기진;김성수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04d
    • /
    • pp.572-574
    • /
    • 2003
  • 웹 서버 클러스터의 성능 개선을 위한 연구가 다양한 분야에서 이루어졌지만 로그 파일 분석과 같은 방식으로 접속 빈도를 통한 실시간 동적 자원 재분배에 관한 연구에만 대부분 초점을 맞추었다. 본 논문에서는 시구간별 접속 패턴 분석 결과를 기반으로 패턴을 예측하여 자원을 동적으로 재분배하는 메커니즘을 제안한다. 제안한 메커니즘은 불필요한 자원 낭비를 감소시켜 효율적인 자원 재분배를 통해 클러스터의 성능을 향상시킨다. 또한 시구간별 접속 패턴의 유사성을 증명한다.

  • PDF

Fuzzy Clustering of Fuzzy Data using a Dissimilarity Measure (비유사도 척도를 이용한 퍼지 데이터에 대한 퍼지 클러스터링)

  • Lee, Geon-Myeong
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.9
    • /
    • pp.1114-1124
    • /
    • 1999
  • 클러스터링은 동일한 클러스터에 속하는 데이타들 간에는 유사도가 크도록 하고 다른 클러스터에 속하는 데이타들 간에는 유사도가 작도록 주어진 데이타를 몇 개의 클러스터로 묶는 것이다. 어떤 대상을 기술하는 데이타는 수치 속성뿐만 아니라 정성적인 비수치 속성을 갖게 되고, 이들 속성값은 관측 오류, 불확실성, 주관적인 판정 등으로 인해서 정확한 값으로 주어지지 않고 애매한 값으로 주어지는 경우가 많다. 본 논문에서는 애매한 값을 퍼지값으로 표현하는 수치 속성과 비수치 속성을 포함한 데이타에 대한 비유사도 척도를 제안하고, 이 척도를 이용하여 퍼지값을 포함한 데이타에 대하여 퍼지 클러스터링하는 방법을 소개한 다음, 이를 이용한 실험 결과를 보인다. Abstract The objective of clustering is to group a set of data into some number of clusters in a way to minimize the similarity between data belonging to different clusters and to maximize the similarity between data belonging to the same cluster. Many data for real world objects consist of numeric attributes and non-numeric attributes whose values are fuzzily described due to observation error, uncertainty, subjective judgement, and so on. This paper proposes a dissimilarity measure applicable to such data and then introduces a fuzzy clustering method for such data using the proposed dissimilarity measure. It also presents some experiment results to show the applicability of the proposed clustering method and dissimilarity measure.

Sentence Interaction-based Document Similarity Models for News Clustering (뉴스 클러스터링을 위한 문장 간 상호 작용 기반 문서 쌍 유사도 측정 모델들)

  • Choi, Seonghwan;Son, Donghyun;Lee, Hochang
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.401-407
    • /
    • 2020
  • 뉴스 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 전통적인 단어 기반 접근 방법인 TF-IDF 벡터 유사도는 문서 간의 의미적인 유사도를 반영하지 못하고, 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 이 논문에서 우리는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위하여 문서 쌍에서 생성되는 다수의 문장 표현들 간의 유사도 정보를 종합하여 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안하였다. 이 접근 방법들은 하나의 벡터로 전체 문서 표현을 압축하는 HAN (hierarchical attention network)와 같은 접근 방법에 비해 두 문서에서 나타나는 문장들 간의 직접적인 유사도를 통해서 전체 문서 쌍의 유사도를 추정한다. 그리고 기존 접근 방법들인 SVM과 HAN과 제안하는 네 가지 유사도 모델을 통해서 두 문서 쌍 간의 유사도 측정 실험을 하였고, 두 가지 접근 방법에서 기존 접근 방법들보다 높은 성능이 나타나는 것을 확인할 수 있었고, 그래프 기반 접근 방법과 유사한 성능을 보이지만 더 효율적으로 문서 유사도를 측정하는 것을 확인하였다.

  • PDF

The Effectiveness of Hierarchic Clustering on Query Results in OPAC (OPAC에서 탐색결과의 클러스터링에 관한 연구)

  • Ro, Jung-Soon
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.38 no.1
    • /
    • pp.35-50
    • /
    • 2004
  • This study evaluated the applicability of the static hierarchic clustering model to clustering query results in OPAC. Two clustering methods(Between Average Linkage(BAL) and Complete Linkage(CL)) and two similarity coefficients(Dice and Jaccard) were tested on the query results retrieved from 16 title-based keyword searchings. The precision of optimal dusters was improved more than 100% compared with title-word searching. There was no difference between similarity coefficients but clustering methods in optimal cluster effectiveness. CL method is better in precision ratio but BAL is better in recall ratio at the optimal top-level and bottom-level clusters. However the differences are not significant except higher recall ratio of BAL at the top-level duster. Small number of clusters and long chain of hierarchy for optimal cluster resulted from BAL could not be desirable and efficient.

Determination of Usenet News Groups by Fuzzy Inference and Neural Network (퍼지추론과 신경망을 사용한 유즈넷 뉴스그룹 결정)

  • 김종완;김희재;김병만
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.04a
    • /
    • pp.401-404
    • /
    • 2004
  • 본 연구에서는 다양한 뉴스그룹들 중에서 사용자의 취향과 유사한 뉴스그룹들을 코호넨 신경망을 이용하여 추천해주는 방법을 제시한다. 신경망을 학습시키기 위한 뉴스 문서의 키워드들을 선택하기 위해 여러 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 대표 용어들을 선택한다. 하지만 신경망의 학습패턴을 관찰해 보면, 맡은 부분이 비어있는 희소성 문제를 발견할 수 있다. 이에 본 연구에서는 통계적인 결정계수를 도입하여 불필요한 차원을 제거한 후 신경망을 학습시키는 새로운 방법을 제안한다. 제안된 방법은 모든 차원을 활용할 때 보다 클러스터내 거리와 클러스터간 거리의 척도를 이용한 클러스터 중첩도 면에서 우수한 분류 성능을 보여줌을 확인하였다.

  • PDF

Aggregation Techniques for Alert Data of Intrusion Detection System using Data Mining (데이터마이닝을 이용한 침입 탐지 시스템의 경보데이터 축약기법)

  • Hu, Moon-Heang
    • Proceedings of the KAIS Fall Conference
    • /
    • 2009.05a
    • /
    • pp.764-767
    • /
    • 2009
  • 이 논문에서는 데이터마이닝의 클러스터링을 이용한 경보 데이터 축약기법을 제안한다. 제안된 클러스터링 기반 경보데이터 축약기법은 데이터간의 유사성을 이용한 경보 데이터의 그룹화를 통해 생성된 모델을 이용하여 새로운 경보 데이터에 대한 분류를 자동화할 수 있다. 이것은 과거에 탐지된 공격의 형태뿐만 아니라 새로운 혹은 변형된 경보의 분류나 분석에도 이용할 수 있다. 또한 생성된 클러스터의 생성 원인의 분석을 이용한 클러스터 간의 시퀀스의 추출을 통해 사용자가 공격의 순차적인 구조나 그 이면에 감추어진 전략을 이해하는데 도움을 주며, 현재의 경보 이후에 발생 가능한 경보들을 예측할 수 있다.

  • PDF

Similar Trajectory Clustering on Road Networks (도로 네트워크에서의 유사 궤적 클러스터링)

  • Baek, Ji-Haeng;Won, Jung-Im;Kim, Sang-Wook
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.256-260
    • /
    • 2006
  • 본 논문에서는 도로 네트워크내의 이동 객체들을 대상으로 하는 효과적인 유사 궤적 검색 및 클러스터링 기법에 대하여 논한다. 이동 객체들 간의 유사도 측정을 위한 기존의 기법들은 대부분 유클리디안 공간 상의 궤적들을 대상으로 한다. 그러나 실제 응용에서 대부분의 이동 객체들은 도로 네트워크 공간 상에 존재하므로, 이러한 실제 상황을 반영하는 유사도 측정 방식이 요구된다. 본 논문에서는 각 이동 객체가 시간에 따라 지나간 도로 세그먼트들의 리스트를 궤적이라 정의하고, 이렇게 정의된 궤적들을 대상으로 하는 새로운 유사도 측정 함수를 제안한다. 제안된 유사도 측정 함수는 궤적을 이루는 도로 세그먼트의 길이와 식별자 정보를 이용한다. 제안된 유사도 측정 함수에 의하여 측정된 각 궤적 쌍 간의 유사도를 기반으로 전체 궤적들을 FastMap을 이용하여 k차원 공간상의 점들로 사상하고, 이들을 k-medoids 방식을 이용하여 클러스터링 한다. 구성된 클러스터와 연관된 사용자 정보, 도로 정보 등을 함께 사용자에게 제공하는 활용 예를 제시함으로써 제안된 기법이 실제 응용에 유용하게 사용될 수 있음을 보인다.

  • PDF

Incremental Clustering of XML Documents based on Similar Structures (유사 구조 기반 XML 문서의 점진적 클러스터링)

  • Hwang Jeong Hee;Ryu Keun Ho
    • Journal of KIISE:Databases
    • /
    • v.31 no.6
    • /
    • pp.699-709
    • /
    • 2004
  • XML is increasingly important in data exchange and information management. Starting point for retrieving the structure and integrating the documents efficiently is clustering the documents that have similar structure. The reason is that we can retrieve the documents more flexible and faster than the method treating the whole documents that have different structure. Therefore, in this paper, we propose the similar structure-based incremental clustering method useful for retrieving the structure of XML documents and integrating them. As a novel method, we use a clustering algorithm for transactional data that facilitates the large number of data, which is quite different from the existing methods that measure the similarity between documents, using vector. We first extract the representative structures of XML documents using sequential pattern algorithm, and then we perform the similar structure based document clustering, assuming that the document as a transaction, the representative structure of the document as the items of the transaction. In addition, we define the cluster cohesion and inter-cluster similarity, and analyze the efficiency of the Proposed method through comparing with the existing method by experiments.