• Title/Summary/Keyword: k-means 군집 알고리즘

Search Result 191, Processing Time 0.031 seconds

Development of IoT Service Classification Method based on Service Operation Characteristic (세부 동작 기반 사물인터넷 서비스 분류 기법 개발)

  • Jo, Jeong hoon;Lee, HwaMin;Lee, Dae won
    • Journal of Internet Computing and Services
    • /
    • v.19 no.2
    • /
    • pp.17-26
    • /
    • 2018
  • Recently, through the emergence and convergence of Internet services, the unified Internet of thing(IoT) service platform have been researched. Currently, the IoT service is constructed as an independent system according to the purpose of the service provider, so information exchange and module reuse are impossible among similar services. In this paper, we propose a operation based service classification algorithm for various services in order to provide an environment of unfied Internet platform. In implementation, we classify and cluster more than 100 commercial IoT services. Based on this, we evaluated the performance of the proposed algorithm compared with the K-means algorithm. In order to prevent a single clustering due to the lack of sample groups, we re-cluster them using K-means algorithm. In future study, we will expand existing service sample groups and use the currently implemented classification system on Apache Spark for faster and more massive data processing.

The Analysis of Optimal Cluster Number of Precipitation Region with Dunn Index (Dunn 지수를 이용한 최적 강수지역 군집수 분석)

  • Um, Myoung-Jin;Jeong, Chang-Sam;Nam, Woo-Sung;Jung, Young-Hun;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.87-91
    • /
    • 2011
  • 강수는 지역에 따라 발생양상이 매우 다른 자연현상 중 하나이다. 이러한 강수를 효과적으로 분석하여 확률강수량을 산정하기위해서 수문학에서는 다양한 방법이 시도되어 왔다. 우리나라에서는 지점빈도해석을 통한 확률강수량을 주로 사용해왔으나 최근 들어 Hosking and Wallis(1997)가 제안한 지역빈도해석을 활용을 적극 도모 하고 있는 중이다. 이러한 지역빈도해석 기법은 지점빈도해석 기법에 비하여 한정된 강수자료를 활용하는 측면 등 여러 가지 장점을 가진 확률 강수량 산정방법이다. 그러나 이 기법을 적용하여 확률강수량을 산정하기 위해서는 강수의 지역구분을 먼저 수행하여야 한다. 강수지역의 구분을 위해서는 여러 가지 기법이 존재하나 최근에는 Cluster 기법 중 K-means 방법이나 Fuzzy c-means 방법 등을 주로 적용하여 지역구분을 수행하고 있다. 그러나 K-means 방법이나 Fuzzy c-means 방법 등은 산정 방법내에서 최적 군집수를 결정할 수 있는 알고리즘이 없기 때문에 임의적으로 최적 군집수를 결정하여야 한다. 본 연구에서는 이러한 단점을 극복하기 위하여 Cluster 평가지수 중 하나인 Dunn 지수를 이용하여 최적 군집수를 제시하고자 한다. 본 연구에서 강수지역을 구분하기 위하여 적용한 인자는 월 평균 강수량, 연 평균 강수량, 월 최대 강수량, 경도, 위도, 고도 등이며, 이를 K-means, PAM 및 친근도 전파 기법을 통하여 강수지역을 구분하였다. 적정 군집수를 임의적으로 증가시켜 가면서 Dunn 지수를 산정하였다. 산정된 결과를 통하여 최적 군집수를 결정하였다.

  • PDF

Selection of Optimal Variables for Clustering of Seoul using Genetic Algorithm (유전자 알고리즘을 이용한 서울시 군집화 최적 변수 선정)

  • Kim, Hyung Jin;Jung, Jae Hoon;Lee, Jung Bin;Kim, Sang Min;Heo, Joon
    • Journal of Korean Society for Geospatial Information Science
    • /
    • v.22 no.4
    • /
    • pp.175-181
    • /
    • 2014
  • Korean government proposed a new initiative 'government 3.0' with which the administration will open its dataset to the public before requests. City of Seoul is the front runner in disclosure of government data. If we know what kind of attributes are governing factors for any given segmentation, these outcomes can be applied to real world problems of marketing and business strategy, and administrative decision makings. However, with respect to city of Seoul, selection of optimal variables from the open dataset up to several thousands of attributes would require a humongous amount of computation time because it might require a combinatorial optimization while maximizing dissimilarity measures between clusters. In this study, we acquired 718 attribute dataset from Statistics Korea and conducted an analysis to select the most suitable variables, which differentiate Gangnam from other districts, using the Genetic algorithm and Dunn's index. Also, we utilized the Microsoft Azure cloud computing system to speed up the process time. As the result, the optimal 28 variables were finally selected, and the validation result showed that those 28 variables effectively group the Gangnam from other districts using the Ward's minimum variance and K-means algorithm.

Cluster Analysis of Snowfall Observatory Using K-means Algorithm (K-평균 알고리즘을 이용한 적설관측소 군집분석)

  • Lee, Munseok;Chung, Gunhui
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.412-412
    • /
    • 2018
  • 최근 지구온난화의 영향으로 겨울철 한파를 야기하는 일이 잦아지고 있다. 우리나라에도 그 영향으로 매년 겨울 한파가 지속되고 있다. 그러므로 겨울철 적설량을 기록하고 갑작스러운 재난에 대비하는 것은 지구온난화의 또 다른 숙제가 되었다. 우리나라는 전통적으로 폭설 피해가 크지 않았기 때문에 적설관측소의 수가 강우관측소에 비해 현저히 적다. 그리하여 추가적인 적설관측소의 설치가 필요하다고 판단되지만, 이에 앞서 우리나라의 현재 적설관측소의 분포현황을 분석하였다. 1월, 2월, 12월의 최대 최심신적설량과 관측소 고도자료를 K-평균 알고리즘의 4개의 변수로 사용하였으며, 전국에서 총 94개의 적설관측소를 자료보유기간으로 분류하여 군집분석을 수행하였다. 군집분석 결과 서해안지역, 태백 소백산맥을 따라 존재하는 내륙산악지역, 경상도와 남해안 그리고 제주도지역, 울릉도와 대관령으로 군집이 형성되었다. 또한, 제주도의 적설관측소가 해안가 위주로 설치되어있어, 비교적 눈이 많이 오는 한라산 산간지역에 추가적인 적설관측소 설치가 고려되어야 할 것이다.

  • PDF

A study on image segmentation for depth map generation (깊이정보 생성을 위한 영상 분할에 관한 연구)

  • Lim, Jae Sung
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.18 no.10
    • /
    • pp.707-716
    • /
    • 2017
  • The advances in image display devices necessitate display images suitable for the user's purpose. The display devices should be able to provide object-based image information when a depthmap is required. In this paper, we represent the algorithm using a histogram-based image segmentation method for depthmap generation. In the conventional K-means clustering algorithm, the number of centroids is parameterized, so existing K-means algorithms cannot adaptively determine the number of clusters. Further, the problem of K-means algorithm tends to sink into the local minima, which causes over-segmentation. On the other hand, the proposed algorithm is adaptively able to select centroids and can stand on the basis of the histogram-based algorithm considering the amount of computational complexity. It is designed to show object-based results by preventing the existing algorithm from falling into the local minimum point. Finally, we remove the over-segmentation components through connected-component labeling algorithm. The results of proposed algorithm show object-based results and better segmentation results of 0.017 and 0.051, compared to the benchmark method in terms of Probabilistic Rand Index(PRI) and Segmentation Covering(SC), respectively.

Cluster-based keyword Ranking Technique (클러스터 기반 키워드 랭킹 기법)

  • Yoo, Han-mook;Kim, Han-joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.529-532
    • /
    • 2016
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 ClusterTextRank 기법을 제안한다. 제안 기법은 k-means 군집화 알고리즘을 이용하여 문서들을 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최소신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 13% 가량 개선됨을 보인다.

Lip Detection Algorithm Using Color Clustering (색상 군집화를 이용한 입술탐지 알고리즘)

  • Jeong, Jongmyeon;Choi, Jiyun;Seo, Ji Hyuk;Lee, Se Jun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2012.07a
    • /
    • pp.277-278
    • /
    • 2012
  • 본 논문에서는 색상 군집화를 이용한 입술탐지 알고리즘을 제안한다. 이를 위해 이미 많이 알려져 있는 AdaBoost를 이용한 얼굴탐지를 수행한다. 탐지된 얼굴영역에 Lab 컬러시스템을 적용 시킨 후 입술픽셀의 특징에 따른 색상 마커를 사용하여 피부영역을 추출한다. 추출된 피부영역에 대하여 K-means 색상 군집화를 통해 입술영역을 추출한다. 그리고 실험을 통해 입술탐지 결과를 확인하였다.

  • PDF

A Study on Effective Selection of University Lecture Evaluation (대학 강의평가에서 문항 추출에 관한 연구)

  • Hwang Se-Myung;Kim In-Taek
    • Journal of Engineering Education Research
    • /
    • v.8 no.1
    • /
    • pp.31-45
    • /
    • 2005
  • In this paper, selecting survey items was performed using three clustering methods: factor analysis, fuzzy c-Means algorithm and cluster analysis. The methods were used to extract key items from various questionnaires. The key item represents several similar questionnaires that form a cluster. Test survey was made of 120 items obtained from several surveys and it was answered by 646 students from 4 universities. Each item contains 6 choices. Applying the clustering method chose 25 items which is reduced from the original 120 items. The results yielded by three methods are very similar.

Design and Implementation of Distributed In-Memory DBMS-based Parallel K-Means as In-database Analytics Function (분산 인 메모리 DBMS 기반 병렬 K-Means의 In-database 분석 함수로의 설계와 구현)

  • Kou, Heymo;Nam, Changmin;Lee, Woohyun;Lee, Yongjae;Kim, HyoungJoo
    • KIISE Transactions on Computing Practices
    • /
    • v.24 no.3
    • /
    • pp.105-112
    • /
    • 2018
  • As data size increase, a single database is not enough to serve current volume of tasks. Since data is partitioned and stored into multiple databases, analysis should also support parallelism in order to increase efficiency. However, traditional analysis requires data to be transferred out of database into nodes where analytic service is performed and user is required to know both database and analytic framework. In this paper, we propose an efficient way to perform K-means clustering algorithm inside the distributed column-based database and relational database. We also suggest an efficient way to optimize K-means algorithm within relational database.

Wavelet을 이용한 K-means clustering algorithm의 초기화

  • Kim Guk-Hwan;Jang U-Jin;Lee Jun-Seok
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2006.05a
    • /
    • pp.305-312
    • /
    • 2006
  • K-means clustering algorithm 에서 주로 이루어지는 랜덤 초기화 (random initialization) 방법은 전역 최적화된 해(global minimum)를 찾아내기에 문제점을 지니고 있다. 즉, 여러 횟수의 알고리듬 반복(iteration)을 실행하더라도 전역 최적화된 해를 찾아내기가 매우 힘들며 주어진 자료의 크기(data size)가 큰 경우에 있어서 이는 거의 불가능하다. 본 논문은 이러한 문제점들을 극복하기 위한 방안으로, wavelet을 이용하여 최적의 초기 군집 중심점(initial clustering center)들을 선택하는 방법을 제시한다. 즉, 웨이블릿을 이용한 효과적인 초기화 (initialization)를 통해서 작은 알고리듬 반복 횟수만으로도 전역 최적화에 도달하는 초기화 방법을 기술한다. 이런 초기화 방법이 군집 알고리즘에 사용될 경우, 온라인상에서 실시간 이루어지는 군집 분석에 큰 도움이 된 수 있다.

  • PDF