• Title/Summary/Keyword: K-means 클러스터링

Search Result 368, Processing Time 0.032 seconds

A method for learning users' preference on fuzzy values using neural networks and k-means clustering (신경망과 k-means 클러스터링을 이용한 사용자의 퍼지값 선호도 학습 방법)

  • Yoon, Tae-Bok;Na, Hyun-Jong;Park, Doo-Kyung;Lee, Jee-Hyong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.16 no.6
    • /
    • pp.716-720
    • /
    • 2006
  • Fuzzy sets are good for abstracting and unifying information using natural language like terms. However, fuzzy sets embody vagueness and users may have different attitude to the vagueness, each user may choose difference one as the best among several fuzzy values. In this paper, we develop a method teaming a user's, preference on fuzzy values and select one which fits to his preference. Users' preferences are modeled with artificial neural networks. We gather learning data from users by asking to choose the best from two fuzzy values in several representative cases of comparing two fuzzy sets. In order to establish tile representative comparing cases, we enumerate more than 600 cases and cluster them into several groups. Neural networks ate trained with the users' answer and the given two fuzzy values in each case. Experiments show that the proposed method produces outputs closet to users' preference than other methods.

A Study on Customer rating using RFM and K-Means (RFM 기법과 K-Means 알고리즘을 이용한 고객 분류)

  • Ji, Hyunjung;Shin, Gyeongil;Shin, Dongil;Shin, Dongkyoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.803-806
    • /
    • 2017
  • 고객의 행동을 분석하기 위한 RFM(Recency, Frequency, Monetary)은 마케팅 분양에서 널리 쓰이고 있는 시작분석기법이다. 최근 축적되는 데이터가 많아지면서 이를 활용하기 위해 기계학습에 대한 관심이 증가하였다. 따라서 RFM 기법과 다양한 알고리즘을 결합하여 데이터를 분석하고자 하는 시도가 이루어지고 있다. 본 논문에서는 RFM 기법과 대표적인 클러스터링 알고리즘인 k-means를 통하여 고객을 등급화 하는 방법에 대해 실험하였다. 기존의 실험에서는 k값을 8 혹은 9로 지정하는 사례가 많았다. 그러나 본 실험에서는 내부평가방법을 통해 데이터 셋에 대한 최적의 k값을 구해보았고, 실험 결과 사용한 4개의 데이터 셋에서 3이라는 동일한 결과가 나왔다.

Clustering Network Traffic Data Based on FGM for Intrusion Detection (침입 탐지를 위한 FCM 기반의 네트웍 트래픽 데이터 클러스터링)

  • Kwak, Mi-Ra;Cho, Dong-Sub
    • Proceedings of the KIEE Conference
    • /
    • 2003.07d
    • /
    • pp.2528-2530
    • /
    • 2003
  • 여러 종류의 트래픽을 포함하는 네트웍 트래픽 데이터에서 각 종의 트래픽을 분류할 수 있는 능력은 네트웍 침입 탐지를 가능하게 하는 기본이다. 본 연구에서는 서비스 거부 공격과 사전 조사 행위 트래픽을 다른 트래픽으로부터 구분해 낼 수 있는 특징을 파악하고, 그것이 효과적인지 퍼지 c-means 기법으로 사용하여 실험 하였다.

  • PDF

Extraction and Analysis of Hypertension Blood flow of Brachial Artery from Color Doppler Ultrasonography by Using Possibilistic C_Means and Fuzzy C_ Means (PCM와 FCM 방법을 이용한 색조 도플러 초음파 영상에서 상완 동맥의 고혈압 혈류 추출 및 분석)

  • Park, Jae-Woo;Shim, Sung-Bo;Oh, Heung-Min;Kim, Kwang Beak
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.01a
    • /
    • pp.47-50
    • /
    • 2018
  • 본 논문에서는 초음파 영상에서 환자 정보를 제거하여 ROI 영역을 추출하고, 추출된 ROI 영역에서 최대 명암도를 임계치로 설정한 이진화 기법을 적용하여 ROI 영역을 이진화 한다. 이진화된 ROI 영역에서 4 방향 윤곽선 추적 기법을 적용하여 상완동맥 혈류 영역이 존재하는 사다리꼴 형태의 영역을 추출한다. 추출된 사다리꼴 형태의 영역에서 상완동맥 혈류영역을 정확히 추출하기 위하여 제안된 무게 중심법을 이용하여 추출된 후보 영역을 양자화 한다. 무게 중심법은 추출된 사다리꼴 영역에서 FCM 기반 무게중심법과 PCM 기반 무게중심법을 각각 계산한 후, 두 중심 간의 차이가 존재 할 경우에는 두 중심의 평균값을 새로운 무게 중심으로 설정하여 각 픽셀들을 클러스터링하여 상완 동맥 영역을 추출한다. 추출된 상완 동맥 영역에는 고혈압 영역인 빨강색 영역과 저혈압이나 혈류가 역류하는 영역인 파란색 영역이 존재한다. 추출된 상완 동맥 영역에서 고혈압 영역만을 추출하기 위해 빨강색 영역을 제외한 그 외의 영역은 제거한다. 전문의가 제공한 상완동맥 혈류 초음파 영상을 대상으로 TPR(True Positive Rate) 검사을 분석한 결과, 제안된 방법이 기존의 방법 보다 TPR 값이 높게 나타나는 것을 확인하였다.

  • PDF

Combined Artificial Bee Colony for Data Clustering (융합 인공벌군집 데이터 클러스터링 방법)

  • Kang, Bum-Su;Kim, Sung-Soo
    • Journal of Korean Society of Industrial and Systems Engineering
    • /
    • v.40 no.4
    • /
    • pp.203-210
    • /
    • 2017
  • Data clustering is one of the most difficult and challenging problems and can be formally considered as a particular kind of NP-hard grouping problems. The K-means algorithm is one of the most popular and widely used clustering method because it is easy to implement and very efficient. However, it has high possibility to trap in local optimum and high variation of solutions with different initials for the large data set. Therefore, we need study efficient computational intelligence method to find the global optimal solution in data clustering problem within limited computational time. The objective of this paper is to propose a combined artificial bee colony (CABC) with K-means for initialization and finalization to find optimal solution that is effective on data clustering optimization problem. The artificial bee colony (ABC) is an algorithm motivated by the intelligent behavior exhibited by honeybees when searching for food. The performance of ABC is better than or similar to other population-based algorithms with the added advantage of employing fewer control parameters. Our proposed CABC method is able to provide near optimal solution within reasonable time to balance the converged and diversified searches. In this paper, the experiment and analysis of clustering problems demonstrate that CABC is a competitive approach comparing to previous partitioning approaches in satisfactory results with respect to solution quality. We validate the performance of CABC using Iris, Wine, Glass, Vowel, and Cloud UCI machine learning repository datasets comparing to previous studies by experiment and analysis. Our proposed KABCK (K-means+ABC+K-means) is better than ABCK (ABC+K-means), KABC (K-means+ABC), ABC, and K-means in our simulations.

Group Search Optimization Data Clustering Using Silhouette (실루엣을 적용한 그룹탐색 최적화 데이터클러스터링)

  • Kim, Sung-Soo;Baek, Jun-Young;Kang, Bum-Soo
    • Journal of the Korean Operations Research and Management Science Society
    • /
    • v.42 no.3
    • /
    • pp.25-34
    • /
    • 2017
  • K-means is a popular and efficient data clustering method that only uses intra-cluster distance to establish a valid index with a previously fixed number of clusters. K-means is useless without a suitable number of clusters for unsupervised data. This paper aimsto propose the Group Search Optimization (GSO) using Silhouette to find the optimal data clustering solution with a number of clusters for unsupervised data. Silhouette can be used as valid index to decide the number of clusters and optimal solution by simultaneously considering intra- and inter-cluster distances. The performance of GSO using Silhouette is validated through several experiment and analysis of data sets.

Reconstruction of Categories on the National Petition Site Using K-Means clustering and Topic Modeling (K-means 클러스터링과 토픽 모델링을 기반으로 한 국민청원 사이트의 카테고리 재구성)

  • Woo, Yun Hui;Kim, Hyon Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.302-305
    • /
    • 2019
  • 국민 청원 사이트가 뛰어난 접근성과 신속성으로 인하여 국민들로부터 많은 관심을 받고 있다. 현재 국민청원 사이트의 카테고리 분류는 '미래', '성장동력' 등을 포함한 16개의 카테고리 및 기타로 구성되어 있으나 그 기준이 모호하여 많은 청원글들이 기타 카테고리로 분류되고 있는 상황이다. 이는 청원글의 내용을 명확히 반영하지 않고 미리 정의된 카테고리 구조를 사용하고 있는데서 기인한다고 할 수 있다. 본 논문에서는 보다 구체적으로 정의된 카테고리를 정의하고자 추천 순으로 1,500개의 청원글을 수집하였고, 수집된 청원글의 내용을 바탕으로 카테고리 구조를 추출하였다. 먼저, k-평균 알고리즘을 적용하여 청원글을 군집하여 대분류를 정의하였고, 보다 구체적인 세부 분류를 정의하기 위하여 토픽모델링을 실시하였다. 본 논문에서 제시하는 계층적 카테고리 구조는 청원글의 내용을 바탕으로 대분류와 세부분류로 구성된 것이므로 새로운 청원글을 등록하거나 분류하는 데 적절한 것으로 보인다.

Velocities Analysis of Hypertension Blood Flow of Brachial Artery on Color Doppler Ultrasonography using IHb Color Information (IHb 색상 정보를 이용한 색조 도플러 초음파 영상에서 상완 동맥의 고혈압 혈류 속도 분석)

  • Oh, Heung-Min;Shim, Sung-Bo;Kim, Kwang Beak
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2018.05a
    • /
    • pp.366-368
    • /
    • 2018
  • 본 논문에서는 이러한 문제점을 개선하기 위해 상완 동맥 영역에 대한 RGB 채널을 HSV 채널로 변환한다. 변환된 HSV 채널에 대해 고혈압 영역의 특징을 강조하게 하기 위해 밝기 값을 나타내는 V값을 조절한다. 조절된 HSV 채널을 다시 RGB 채널로 변환한 후, Fuzzy C_Means 기반 무게중심과 Possibilistc C_Means 기반 무게 중심을 기반으로 새로운 무게 중심을 구하여 픽셀들을 클러스터링하여 상완동맥 영역의 고혈압 영역을 추출한다. 추출된 상완 동맥의 고혈압 영역에 대해 헤모글로빈 색소 정보를 나타내는 IHb 값을 이용하여 상완 동맥의 고혈압 영역에서 유사한 헤모글로빈 색소 정보를 가지는 영역을 분할한다. 분할된 영역들을 혈류의 속도를 나타내는 색상표와 대조하여 고혈압의 진행에 대해 분석하는 방법을 제안한다. 제안된 방법을 색조 도플러 초음파 영상을 대상으로 실험한 결과, 제안된 방법이 고혈압의 진행에 대한 분석 결과와 색조 도플러 초음파 영상 장비에 나타난 고혈압 진행 결과와 거의 일치하는 것을 확인할 수 있었다.

  • PDF

Clustering-based Hierarchical Scene Structure Construction for Movie Videos (영화 비디오를 위한 클러스터링 기반의 계층적 장면 구조 구축)

  • Choi, Ick-Won;Byun, Hye-Ran
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.5
    • /
    • pp.529-542
    • /
    • 2000
  • Recent years, the use of multimedia information is rapidly increasing, and the video media is the most rising one than any others, and this field Integrates all the media into a single data stream. Though the availability of digital video is raised largely, it is very difficult for users to make the effective video access, due to its length and unstructured video format. Thus, the minimal interaction of users and the explicit definition of video structure is a key requirement in the lately developing image and video management systems. This paper defines the terms and hierarchical video structure, and presents the system, which construct the clustering-based video hierarchy, which facilitate users by browsing the summary and do a random access to the video content. Instead of using a single feature and domain-specific thresholds, we use multiple features that have complementary relationship for each other and clustering-based methods that use normalization so as to interact with users minimally. The stage of shot boundary detection extracts multiple features, performs the adaptive filtering process for each features to enhance the performance by eliminating the false factors, and does k-means clustering with two classes. The shot list of a result after the proposed procedure is represented as the video hierarchy by the intelligent unsupervised clustering technique. We experimented the static and the dynamic movie videos that represent characteristics of various video types. In the result of shot boundary detection, we had almost more than 95% good performance, and had also rood result in the video hierarchy.

  • PDF

The Identification of Multi-Fuzzy Model by means of HCM and Genetic Algorithms (클러스터링 기법과 유전자 알고리즘에 의한 다중 퍼지 모델으 동정)

  • Park, Byoun-Jun;Lee, Su-Gu;Oh, Sung-Kwun;Kim, Hyun-Ki
    • Proceedings of the KIEE Conference
    • /
    • 2000.07d
    • /
    • pp.3007-3009
    • /
    • 2000
  • In this paper, we design a Multi-Fuzzy model by means of clustering method and genetic algorithms for a nonlinear system. In order to determine structure of the proposed Multi-Fuzzy model. HCM clustering method is used. The parameters of membership function of the Multi-Fuzzy are identified by genetic algorithms. We use simplified inference and linear inference as inference method of the proposed Multi-Fuzzy model and the standard least square method for estimating consequence parameters of the Multi-Fuzzy. Finally, we use some of numerical data to evaluate the proposed Multi-Fuzzy model and discuss about the usefulness.

  • PDF