• Title/Summary/Keyword: K-Means 클러스터링

Search Result 368, Processing Time 0.034 seconds

Cross-Domain Recommendation based on K-Means Clustering and Transformer (K-means 클러스터링과 트랜스포머 기반의 교차 도메인 추천)

  • Tae-Hoon Kim;Young-Gon Kim;Jeong-Min Park
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.23 no.5
    • /
    • pp.1-8
    • /
    • 2023
  • Cross-domain recommendation is a method that shares related user information data and item data in different domains. It is mainly used in online shopping malls with many users or multimedia service contents, such as YouTube or Netflix. Through K-means clustering, embeddings are created by performing clustering based on user data and ratings. After learning the result through a transformer network, user satisfaction is predicted. Then, items suitable for the user are recommended using a transformer-based recommendation model. Through this study, it was shown through experiments that recommendations can predict cold-start problems at a lesser time cost and increase user satisfaction.

Fast Search Algorithm for Determining the Optimal Number of Clusters using Cluster Validity Index (클러스터 타당성 평가기준을 이용한 최적의 클러스터 수 결정을 위한 고속 탐색 알고리즘)

  • Lee, Sang-Wook
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.9
    • /
    • pp.80-89
    • /
    • 2009
  • A fast and efficient search algorithm to determine an optimal number of clusters in clustering algorithms is presented. The method is based on cluster validity index which is a measure for clustering optimality. As the clustering procedure progresses and reaches an optimal cluster configuration, the cluster validity index is expected to be minimized or maximized. In this Paper, a fast non-exhaustive search method for finding the optimal number of clusters is designed and shown to work well in clustering. The proposed algorithm is implemented with the k-mean++ algorithm as underlying clustering techniques using CB and PBM as a cluster validity index. Experimental results show that the proposed method provides the computation time efficiency without loss of accuracy on several artificial and real-life data sets.

Variable Clustering Management for Multiple Streaming of Distributed Mobile Service (분산 모바일 서비스의 다중 스트리밍을 위한 가변 클러스터링 관리)

  • Jeong, Taeg-Won;Lee, Chong-Deuk
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.19 no.4
    • /
    • pp.485-492
    • /
    • 2009
  • In the mobile service environment, patterns generated by temporal synchronization are streamed with different instance values. This paper proposed a variable clustering management method, which manages multiple data streaming dynamically, to support flexible clustering. The method manages synchronization effectively and differently with conventional streaming methods in data streaming environment and manages clustering streaming after the structural presentation level and the fitness presentation level. In the structural presentation level, the stream structure is presented using level matching and accumulation matching, and clustering management is carried out by the management of dynamic segment and static segment. The performance of the proposed method is tested by using k-means method, C/S server method, CDN method, and simulation. The test results showed that the proposed method has better performance than the other methods.

Segmentation of Color Image by Subtractive and Gravity Fuzzy C-means Clustering (차감 및 중력 fuzzy C-means 클러스터링을 이용한 칼라 영상 분할에 관한 연구)

  • Jin, Young-Goun;Kim, Tae-Gyun
    • Journal of IKEEE
    • /
    • v.1 no.1 s.1
    • /
    • pp.93-100
    • /
    • 1997
  • In general, fuzzy C-means clustering method was used on the segmentation of true color image. However, this method requires number of clusters as an input. In this study, we suggest new method that uses subtractive and gravity fuzzy C-means clustering. We get number of clusters and initial cluster centers by applying subtractive clustering on color image. After coarse segmentation of the image, we apply gravity fuzzy C-means for optimizing segmentation of the image. We show efficiency of the proposed algorithm by qualitative evaluation.

  • PDF

Clustering with Adaptive weighting of Context-aware Linear regression (상황인식기반 선형회귀의 적응적 가중치를 적용한 클러스터링)

  • Lee, Kang-whan
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.271-273
    • /
    • 2021
  • 본 논문은 이동노드의 클러스터링내에서 보다 효율적인클러스터링을 제공하고 유지하기위한 딥러닝의 선형회귀적 적응적 보정가중치에 따른 군집적 알고리즘을 제안한다. 대부분의 클러스터링 군집데이터를 처리함에 있어 상호관계에 따른 분류체계가 제공된다. 이러한 경우 이웃한 이동노드중 목적노드와는 연결가능성이 가장높은 이동노드를 클러스터내에서 중계노드로 선택해야 한다. 본 연구에서는 이러한 상황정보를 이해하고 동적이동노드간 속도와 방향속성정보간의 상관관계의 친밀도를 고려한 자율학습기반의 회귀적 모델에서 적응적 가중치에 따른 분류를 제시한다. 본 논문에서는 이러한 상황정보를 이해하고 클러스터링을 유지할 수 있는 자율학습기반의 적응적 가중치에 따른 딥러닝 모델을 제시 한다.

  • PDF

A Design of Fuzzy Classifier with Hierarchical Structure (계층적 구조를 가진 퍼지 패턴 분류기 설계)

  • Ahn, Tae-Chon;Roh, Seok-Beom;Kim, Yong Soo
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.24 no.4
    • /
    • pp.355-359
    • /
    • 2014
  • In this paper, we proposed the new fuzzy pattern classifier which combines several fuzzy models with simple consequent parts hierarchically. The basic component of the proposed fuzzy pattern classifier with hierarchical structure is a fuzzy model with simple consequent part so that the complexity of the proposed fuzzy pattern classifier is not high. In order to analyze and divide the input space, we use Fuzzy C-Means clustering algorithm. In addition, we exploit Conditional Fuzzy C-Means clustering algorithm to analyze the sub space which is divided by Fuzzy C-Means clustering algorithm. At each clustered region, we apply a fuzzy model with simple consequent part and build the fuzzy pattern classifier with hierarchical structure. Because of the hierarchical structure of the proposed pattern classifier, the data distribution of the input space can be analyzed in the macroscopic point of view and the microscopic point of view. Finally, in order to evaluate the classification ability of the proposed pattern classifier, the machine learning data sets are used.

Analysis of spatial mixing characteristics of water quality at the confluence using artificial intelligence (인공지능을 활용한 합류부에서 수질의 공간혼합 특성 분석)

  • Lee, Seo Gyeong;Kim, Dongsu;Kim, Kyungdong;Kim, Young Do;Lyu, Siwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.482-482
    • /
    • 2022
  • 하천의 합류부에서는 수질이 다른 유체가 혼합하여 합류 전과 다른 특성을 보인다. 하천의 합류부에서 수질을 효율적으로 관리하기 위해서는 수질의 공간적인 혼합 특성을 규명하는 것이 중요하다. 합류부에서 수질의 공간적인 혼합 특성을 분석하기 위해 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기 조직화 지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하였다. 세 가지 기법을 비교하여 어떤 알고리즘이 합류부의 수질 변화 특성을 더 뚜렷하게 나타내는지 분석하였다. 수질 변화 비교 인자들은 pH, chlorophyll, DO, Turbidity 등이 있고, 수질 인자들은 YSI를 활용해 측정하였다. 자료의 측정 지역은 낙동강과 황강이 합류하는 지역이며, 보트에 YSI 장비를 부착하고 횡단하여 측정하였다. 측정한 데이터를 R 프로그램을 통해 세 가지 기법을 적용시켜 수질 변화 비교를 분석한다. 토폴로지 데이터 분석(topological data analysis, TDA)은 거대하고 복잡한 데이터로부터 유의미한 정보를 추출하는 데 사용하고, 자기조직화지도(Self-Organizing Map, SOM) 기법은 차원 축소와 군집화를 동시에 수행한다. k-평균 알고리즘(K-means clustering algorithm) 기법은 주어진 데이터를 k개의 클러스터로 묶는 머신러닝 비지도학습에 속하는 알고리즘이다. 세 가지 방법들의 주목적은 클러스터링이다. 클러스터 분석(Cluster analysis)이란 주어진 데이터들의 특성을 고려해 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 데이터 마이닝의 한 방법이다. 군집화 방법들인 TDA, SOM, K-means를 이용해 합류 지역의 수질 특성들을 클러스터링하여 수질 패턴들을 분석해 하천 수질 오염을 방지할 수 있을 것이다. 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기조직화지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하여 합류부에서의 수질 특성을 비교하며 어떤 기법이 합류의 특성을 더욱 뚜렷하게 나타내는지 규명했다. 합류의 특성을 군집화 방법을 이용해 알게 된다면, 합류부의 수질 변화 패턴을 다른 합류 지역에서도 적용할 수 있을 것으로 기대된다.

  • PDF

Design of Growing Rule-based Fuzzy Classifier (규칙 성장 기반 퍼지 분류기의 설계)

  • Kim, Wook-Dong;Oh, Sung-Kwun;Kim, Hyun-Ki
    • Proceedings of the KIEE Conference
    • /
    • 2015.07a
    • /
    • pp.1375-1376
    • /
    • 2015
  • 본 논문은 퍼지 클러스터링을 이용한 규칙 성장 기반 퍼지 분류기의 설계에 대해서 소개한다. 본 논문의 목적은 퍼지 클러스터링을 통해 형성된 증가된 퍼지 규칙을 이용한 새로운 설계 방법론을 개발하는 것이다. 제안된 분류기는 네개의 기능적인 부분으로 구성된다. 퍼지 규칙의 전반부는 퍼지 클러스터링 알고리즘을 이용해 구성된 멤버쉽 함수를 나타낸다. 후반부는 지역 모델을 구성한다. 지역 모델의 파라미터는 가중 최소 자승법에 의해 추정된다. 추론부에서는, 각 퍼지 규칙의 에러 측정후, 가장 높은 에러를 갖는 하나의 퍼지 규칙이 선택된다. 규칙성장 부분에서는, 네트워크의 강화를 위해 규칙의 성장 과정이 이루어지며, 선택된 규칙은 제안된 분류기에서 더 나은 성능을 위해 두 개 또는 세 개의 세분화된 퍼지 규칙으로 나누어진다. 이러한 새로운 규칙은 context 기반 Fuzzy C-Means 클러스터링에 의해서 형성된다. 제안된 규칙 기반 분류기의 효용성을 토론하며, 머신 러닝 데이터를 이용하여 실험을 수행하였다.

  • PDF

A Comparative Study on the Agglomerative and Divisive Methods for Hierarchical Document Clustering (계층적 문서 클러스터링을 위한 응집식 기법과 분할식 기법의 비교 연구)

  • Lee, Jae-Yun;Jeong, Jin-Ah
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2005.08a
    • /
    • pp.65-70
    • /
    • 2005
  • 계층적 문서 클러스터링에 있어서 실험집단에 따라 응집식 기법과 분할식 기법의 성능이 다르며, 이를 좌우하는 요소는 분류의 깊이, 즉 분류수준이라고 가정하였다. 조금만 나누면 되는 대분류인 경우는 상대적으로 분할식 기법이 유리하고, 조금만 합치면 되는 소분류인 경우에는 응집식 기법이 유리할 것이라고 판단했기 때문이다. 그에 따라 분할식 클러스터링 기법인 양분(Bisecting) K-means기법과 응집식 기법인 완전연결, 평균연결, WARD기법의 성능을 실험집단이 대분류인 경우와 소분류인 경우의 유사계수를 적용하여 각 기법별 성능을 비교하여 실험집단의 특성에 따른 적합 클러스터링 기법을 찾고자 하였다. 실험결과 응집식 기법과 분할식 기법의 성능 우열에 영향을 미치는 것은 분류수준보다는 변이계수로 측정된 상대적인 군집의 크기 편차인 것으로 나타났다.

  • PDF

Performance Analysis of User Clustering Algorithms against User Density and Maximum Number of Relays for D2D Advertisement Dissemination (최대 전송횟수 제한 및 사용자 밀집도 변화에 따른 사용자 클러스터링 알고리즘 별 D2D 광고 확산 성능 분석)

  • Han, Seho;Kim, Junseon;Lee, Howon
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.20 no.4
    • /
    • pp.721-727
    • /
    • 2016
  • In this paper, in order to resolve the problem of reduction for D2D (device to device) advertisement dissemination efficiency of conventional dissemination algorithms, we here propose several clustering algorithms (modified single linkage algorithm (MSL), K-means algorithm, and expectation maximization algorithm with Gaussian mixture model (EM)) based advertisement dissemination algorithms to improve advertisement dissemination efficiency in D2D communication networks. Target areas are clustered in several target groups by the proposed clustering algorithms. Then, D2D advertisements are consecutively distributed by using a routing algorithm based on the geographical distribution of the target areas and a relay selection algorithm based on the distance between D2D sender and D2D receiver. Via intensive MATLAB simulations, we analyze the performance excellency of the proposed algorithms with respect to maximum number of relay transmissions and D2D user density ratio in a target area and a non-target area.