• 제목/요약/키워드: Graph-based clustering

검색결과 91건 처리시간 0.023초

효율적인 개념 클러스터링 기법 (An Efficient Conceptual Clustering Scheme)

  • 양기철
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권4호
    • /
    • pp.349-354
    • /
    • 2020
  • 본 논문에서는 개체를 자유롭게 설명하고 효율적으로 클러스터링을 수행 할 수 있는 개념 그래프 기반의 새로운 클러스터링 체계 Clustering scheme Based on Conceptual graphs(CBC)를 제안한다. 개념적 클러스터링은 기계 학습 기술 중 하나이다. 개념 클러스터링에서 개체 간의 유사성은 개체의 의미나 환경을 고려하지 않고 유사성을 결정하는 일반적인 클러스터링 체계와 달리 개념 구성원의 자격에 따라 결정된다. 이 논문에서는 다양한 개체를 개념 그래프로 자유롭게 설명하여 효율적인 개념 클러스터링을 수행 할 수 있는 새로운 개념 클러스터링 체계인 CBC를 소개한다.

클러스터링을 이용한 경험적 태스크 할당 기법 (A Heuristic Task Allocation Scheme Based on Clustering)

  • 김석일;전중남;김관유
    • 한국정보처리학회논문지
    • /
    • 제6권10호
    • /
    • pp.2659-2669
    • /
    • 1999
  • This paper a heuristic, clustering based task allocation scheme applicable to non-directed task graph on a distributed system. This scheme firstly builds a task-machine graph, and then applies a clustering process where in a pair of tasks that are connected to the highest cost edge is merged into a big one or a task is allocated to a machine. During the process, the proposed scheme figure out a machine onto which the task allocation may cause deduction of large communication overhead that has incurred between the task and tasks that are already allocated to the machine while the computation costs is slightly increased in the machine. Simulation for the various task graphs shows that the scheduling using the proposed scheme result far better than ones by using the traditional schemes. A comparison with optimal task scheduling also promises that our scheme derives optimal results more occasionally than the traditional schemes do.

  • PDF

Gated Multi-channel Network Embedding for Large-scale Mobile App Clustering

  • Yeo-Chan Yoon;Soo Kyun Kim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권6호
    • /
    • pp.1620-1634
    • /
    • 2023
  • This paper studies the task of embedding nodes with multiple graphs representing multiple information channels, which is useful in a large volume of network clustering tasks. By learning a node using multiple graphs, various characteristics of the node can be represented and embedded stably. Existing studies using multi-channel networks have been conducted by integrating heterogeneous graphs or limiting common nodes appearing in multiple graphs to have similar embeddings. Although these methods effectively represent nodes, it also has limitations by assuming that all networks provide the same amount of information. This paper proposes a method to overcome these limitations; The proposed method gives different weights according to the source graph when embedding nodes; the characteristics of the graph with more important information can be reflected more in the node. To this end, a novel method incorporating a multi-channel gate layer is proposed to weigh more important channels and ignore unnecessary data to embed a node with multiple graphs. Empirical experiments demonstrate the effectiveness of the proposed multi-channel-based embedding methods.

GCNXSS: An Attack Detection Approach for Cross-Site Scripting Based on Graph Convolutional Networks

  • Pan, Hongyu;Fang, Yong;Huang, Cheng;Guo, Wenbo;Wan, Xuelin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권12호
    • /
    • pp.4008-4023
    • /
    • 2022
  • Since machine learning was introduced into cross-site scripting (XSS) attack detection, many researchers have conducted related studies and achieved significant results, such as saving time and labor costs by not maintaining a rule database, which is required by traditional XSS attack detection methods. However, this topic came across some problems, such as poor generalization ability, significant false negative rate (FNR) and false positive rate (FPR). Moreover, the automatic clustering property of graph convolutional networks (GCN) has attracted the attention of researchers. In the field of natural language process (NLP), the results of graph embedding based on GCN are automatically clustered in space without any training, which means that text data can be classified just by the embedding process based on GCN. Previously, other methods required training with the help of labeled data after embedding to complete data classification. With the help of the GCN auto-clustering feature and labeled data, this research proposes an approach to detect XSS attacks (called GCNXSS) to mine the dependencies between the units that constitute an XSS payload. First, GCNXSS transforms a URL into a word homogeneous graph based on word co-occurrence relationships. Then, GCNXSS inputs the graph into the GCN model for graph embedding and gets the classification results. Experimental results show that GCNXSS achieved successful results with accuracy, precision, recall, F1-score, FNR, FPR, and predicted time scores of 99.97%, 99.75%, 99.97%, 99.86%, 0.03%, 0.03%, and 0.0461ms. Compared with existing methods, GCNXSS has a lower FNR and FPR with stronger generalization ability.

Clustering Strategy Based on Graph Method and Power Control for Frequency Resource Management in Femtocell and Macrocell Overlaid System

  • Li, Hongjia;Xu, Xiaodong;Hu, Dan;Tao, Xiaofeng;Zhang, Ping;Ci, Song;Tang, Hui
    • Journal of Communications and Networks
    • /
    • 제13권6호
    • /
    • pp.664-677
    • /
    • 2011
  • In order to control interference and improve spectrum efficiency in the femtocell and macrocell overlaid system (FMOS), we propose a joint frequency bandwidth dynamic division, clustering and power control algorithm (JFCPA) for orthogonal-frequency-division-multiple access-based downlink FMOS. The overall system bandwidth is divided into three bands, and the macro-cellular coverage is divided into two areas according to the intensity of the interference from the macro base station to the femtocells, which are dynamically determined by using the JFCPA. A cluster is taken as the unit for frequency reuse among femtocells. We map the problem of clustering to the MAX k-CUT problem with the aim of eliminating the inter-femtocell collision interference, which is solved by a graph-based heuristic algorithm. Frequency bandwidth sharing or splitting between the femtocell tier and the macrocell tier is determined by a step-migration-algorithm-based power control. Simulations conducted to demonstrate the effectiveness of our proposed algorithm showed the frequency-reuse probability of the FMOS reuse band above 97.6% and at least 70% of the frequency bandwidth available for the macrocell tier, which means that the co-tier and the cross-tier interference were effectively controlled. Thus, high spectrum efficiency was achieved. The simulation results also clarified that the planning of frequency resource allocation in FMOS should take into account both the spatial density of femtocells and the interference suffered by them. Statistical results from our simulations also provide guidelines for actual FMOS planning.

CLUSTERING DNA MICROARRAY DATA BY STOCHASTIC ALGORITHM

  • Shon, Ho-Sun;Kim, Sun-Shin;Wang, Ling;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2007년도 Proceedings of ISRS 2007
    • /
    • pp.438-441
    • /
    • 2007
  • Recently, due to molecular biology and engineering technology, DNA microarray makes people watch thousands of genes and the state of variation from the tissue samples of living body. With DNA Microarray, it is possible to construct a genetic group that has similar expression patterns and grasp the progress and variation of gene. This paper practices Cluster Analysis which purposes the discovery of biological subgroup or class by using gene expression information. Hence, the purpose of this paper is to predict a new class which is unknown, open leukaemia data are used for the experiment, and MCL (Markov CLustering) algorithm is applied as an analysis method. The MCL algorithm is based on probability and graph flow theory. MCL simulates random walks on a graph using Markov matrices to determine the transition probabilities among nodes of the graph. If you look at closely to the method, first, MCL algorithm should be applied after getting the distance by using Euclidean distance, then inflation and diagonal factors which are tuning modulus should be tuned, and finally the threshold using the average of each column should be gotten to distinguish one class from another class. Our method has improved the accuracy through using the threshold, namely the average of each column. Our experimental result shows about 70% of accuracy in average compared to the class that is known before. Also, for the comparison evaluation to other algorithm, the proposed method compared to and analyzed SOM (Self-Organizing Map) clustering algorithm which is divided into neural network and hierarchical clustering. The method shows the better result when compared to hierarchical clustering. In further study, it should be studied whether there will be a similar result when the parameter of inflation gotten from our experiment is applied to other gene expression data. We are also trying to make a systematic method to improve the accuracy by regulating the factors mentioned above.

  • PDF

Improving Accuracy of Chapter-level Lecture Video Recommendation System using Keyword Cluster-based Graph Neural Networks

  • Purevsuren Chimeddorj;Doohyun Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권7호
    • /
    • pp.89-98
    • /
    • 2024
  • 본 논문은 챕터 수준의 강의 동영상 추천 시스템에 있어서 추천의 정확도와 처리속도 간의 균형문제, 즉, 추천 정확도를 향상시키려면 처리 속도가 저하되고, 반대로 처리 속도를 높일 경우 정확도가 감소하는 문제에 대하여 연구한다. 본 논문에서는 이의 해결을 위하여 TF-IDF, K-Means++ Clustering, Graph Neural Network(GNN) 등 다양한 기법을 복합적으로 활용하는 방법을 제안한다. 즉, 챕터들의 유사성을 바탕으로 클러스터를 사전에 구성함으로써 검색 시의 계산량을 줄여 속도를 향상시키면서도, 클러스터를 노드로 하는 그래프에 대하여 GNN을 적용함으로써 추천의 정확도를 향상시키는 방법을 제안한다. 실험 결과 GNN을 사용한 경우 추천의 정확도가 MRR 지표에서 약 19.7% 증가하였으며, 유사도 기반의 정밀도에 있어서 약 27.7% 증가하는 결과를 확인할 수 있었다. 이를 통해 학습자의 질의에 보다 적합한 동영상 챕터를 추천하는 학습시스템 구축에 기여할 것으로 기대한다.

굴곡 기반 형태 그래프를 이용한 모양 검색 (Shape Retrieval using Curvature-based Morphological Graphs)

  • 방난효;엄기현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권5호
    • /
    • pp.498-508
    • /
    • 2005
  • 모양 데이타는 이미지가 나타내는 의미를 가장 잘 반영하는 데이타로서 이미지 검색에 중요한 정보로 사용된다 특히 구조적으로 표현된 모양 특징은 모양이 갖는 기초적 특성과 그들간의 관계 정보를 잘 나타내므로 폭넓게 연구되고 있다. 그러나 대개의 구조적 모양 특징들은 그래프나 트리와 같은 구조로 표현되므로 모양 데이타 검색에서 효율적인 검색 시간을 보장할 수 없는 문제를 지니고 있다. 이러한 문제를 해결하기 위하여 본 논문에서는 모양의 윤곽선 정보를 기반으로한 굴곡 기반 형태 그래프를 생성하고 이를 일반화한 구조로부터 모양을 클러스터링할 수 있는 키를 설계한다. 제안한 굴곡 기반 형태 그래프는 모양이 가지고 있는 윤곽선 특성과 영역의 형태적 특성을 모두 가지고 있다. 모양 검색은 단계적으로 이루어진다. 클러스터링을 통해 검색 공간을 축소하고 외부 굴곡 특징을 이용한 굴곡의 패턴 매칭을 통해 종합적인 유사도가 결정된다. 다양한 실험을 통해 굴곡 기반 형태 그래프와 클러스터링을 통해 검색 공간과 비용이 줄어드는 것을 보여준다.

이미지 데이터베이스에서 매개변수를 필요로 하지 않는 클러스터링 및 아웃라이어 검출 방법 (A Parameter-Free Approach for Clustering and Outlier Detection in Image Databases)

  • 오현교;윤석호;김상욱
    • 전자공학회논문지CI
    • /
    • 제47권1호
    • /
    • pp.80-91
    • /
    • 2010
  • 이미지 데이터가 증가함에 따라 효율적인 검색을 위해서 이미지 데이터를 구조화해야 할 필요성이 증가하고 있다. 이미지 데이터를 구조화하기 위한 대표적인 방법으로는 클러스터링이 있다. 그러나 기존 클러스터링 방법들은 클러스터링을 수행하기 전에 매개변수로서 클러스터의 개수를 사용자로부터 제공 받아야 되는 어려움이 있다. 본 논문에서는 클러스터의 개수를 사용자에게 제공 받지 않고 이미지 데이터를 클러스터링 하는 방안에 대해서 논의 한다. 제안하는 방안은 객체들 간의 상호 연관관계를 이용하여 매개변수 없이 데이터의 감추어진 구조나 패턴을 찾아내는 방법인 Cross-Association을 기반으로 한다. 이미지 데이터 클러스터링에 Cross-Association을 적용하기 위해서는 먼저 이미지 데이터를 그래프로 변환해야 한다. 그런 후에 생성된 그래프를 Cross-Association에 적용시키고 그 결과를 클러스터링 관점에서 해석한다. 본 논문에서는 또한 Cross-Association을 기반으로 계층적 클러스터링 하는 방법과 아웃라이어 검출 방법을 제안한다. 실험을 통해서 제안하는 방법의 우수성을 규명하고 이미지 데이터를 클러스터링 하는데 적절한 k-최근접 이웃검색에서의 k값과 더 나은 그래프 생성 방법이 무엇인지를 제시한다.

완전그래프를 이용한 문서요약 연구 (Document Summarization Method using Complete Graph)

  • 유준현;박순철
    • 한국산업정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.26-31
    • /
    • 2005
  • 본 논문에서는 웹 검색엔진에서 일반적으로 사용하는 문서요약에 대한 연구로써 문서 내에 있는 문장들의 꼭짓점을 연결하는 완전그래프기법을 도입하여 요약내용을 좀 더 간결하고 함축하게 하는 통계요약기법을 제안했다. 이 요약기술을 지금까지 통계 문서요약기술에서 우수하다고 판단된 클러스터링 기법과 MMR 기법 등과 비교하였다. 특히, 요약 성능을 평가하기 위하여 인위적으로 요약된 요약문을 기준으로 한 각 요약기법들의 FScore값들과 비교하였다. 이 기술들 중에서 완전그래프기법이 약 $30\%$정도 성능향상을 보였다.

  • PDF