• 제목/요약/키워드: Unsupervised Clustering

검색결과 224건 처리시간 0.025초

공간지역확장과 계층집단연결 기법을 이용한 무감독 영상분류 (Unsupervised Image Classification Using Spatial Region Growing Segmentation and Hierarchical Clustering)

  • 이상훈
    • 대한원격탐사학회지
    • /
    • 제17권1호
    • /
    • pp.57-69
    • /
    • 2001
  • 본 연구는 무감독 영상분류를 위하여 공간지역 확장을 통하여 영상을 분할한 후 분할된 집단을 한정된 수의 클래스로 분류하는 다중단계 기법을 제안하고 있다. 제안된 알고리듬은 무감독 분석을 위하여 작은 집단들을 단계적으로 큰 집단들로 합병해 가는 계층집단연결 기법에 기반을 두고 있다. 다중단계 기법의 영상분할 단계는 공간적으로 근접하고 있는 이웃지역간의 결합을 통하여 최종적으로 전체영상 공간내의 모든 집단에 대해서 서로 이웃하고 있는 집단들의 물리적 특성이 서로 다르도록 영상을 분할하는 과정이고, 영상분류 단계는 결합 지역의 공간적 제약 없이 영상 분할 단계에서 분할된 지역을 상대적으로 적은 수의 클래스로 분류하는 과정이다. 제안 된 알고리듬에서 사용하고 있는 계층집단연결 기법의 계산/기억 상의 복잡성을 완화시키기 위해 상호최근사 이웃쌍과 다중창 작업을 사용하고 있다. 모의 자료를 사용하여 제단 된 알고리듬 대한 평가와 효율성을 검증하였고 경기도 용인.능평지역의 LANDSAT ETM+ 자료에 적용한 결과를 예시하고 있다.

Unsupervised Outpatients Clustering: A Case Study in Avissawella Base Hospital, Sri Lanka

  • Hoang, Huu-Trung;Pham, Quoc-Viet;Kim, Jung Eon;Kim, Hoon;Park, Junseok;Hwang, Won-Joo
    • 한국멀티미디어학회논문지
    • /
    • 제22권4호
    • /
    • pp.480-490
    • /
    • 2019
  • Nowadays, Electronic Medical Record (EMR) has just implemented at few hospitals for Outpatient Department (OPD). OPD is the diversified data, it includes demographic and diseases of patient, so it need to be clustered in order to explore the hidden rules and the relationship of data types of patient's information. In this paper, we propose a novel approach for unsupervised clustering of patient's demographic and diseases in OPD. Firstly, we collect data from a hospital at OPD. Then, we preprocess and transform data by using powerful techniques such as standardization, label encoder, and categorical encoder. After obtaining transformed data, we use some strong experiments, techniques, and evaluation to select the best number of clusters and best clustering algorithm. In addition, we use some tests and measurements to analyze and evaluate cluster tendency, models, and algorithms. Finally, we obtain the results to analyze and discover new knowledge, meanings, and rules. Clusters that are found out in this research provide knowledge to medical managers and doctors. From these information, they can improve the patient management methods, patient arrangement methods, and doctor's ability. In addition, it is a reference for medical data scientist to mine OPD dataset.

자기 조직화 신경망을 이용한 클러스터링 알고리듬 (A Clustering Algorithm using Self-Organizing Feature Maps)

  • 이종섭;강맹규
    • 대한산업공학회지
    • /
    • 제31권3호
    • /
    • pp.257-264
    • /
    • 2005
  • This paper suggests a heuristic algorithm for the clustering problem. Clustering involves grouping similar objects into a cluster. Clustering is used in a wide variety of fields including data mining, marketing, and biology. Until now there are a lot of approaches using Self-Organizing Feature Maps(SOFMs). But they have problems with a small output-layer nodes and initial weight. For example, one of them is a one-dimension map of k output-layer nodes, if they want to make k clusters. This approach has problems to classify elaboratively. This paper suggests one-dimensional output-layer nodes in SOFMs. The number of output-layer nodes is more than those of clusters intended to find and the order of output-layer nodes is ascending in the sum of the output-layer node's weight. We can find input data in SOFMs output node and classify input data in output nodes using Euclidean distance. We use the well known IRIS data as an experimental data. Unsupervised clustering of IRIS data typically results in 15 - 17 clustering error. However, the proposed algorithm has only six clustering errors.

실루엣을 적용한 그룹탐색 최적화 데이터클러스터링 (Group Search Optimization Data Clustering Using Silhouette)

  • 김성수;백준영;강범수
    • 한국경영과학회지
    • /
    • 제42권3호
    • /
    • pp.25-34
    • /
    • 2017
  • K-means is a popular and efficient data clustering method that only uses intra-cluster distance to establish a valid index with a previously fixed number of clusters. K-means is useless without a suitable number of clusters for unsupervised data. This paper aimsto propose the Group Search Optimization (GSO) using Silhouette to find the optimal data clustering solution with a number of clusters for unsupervised data. Silhouette can be used as valid index to decide the number of clusters and optimal solution by simultaneously considering intra- and inter-cluster distances. The performance of GSO using Silhouette is validated through several experiment and analysis of data sets.

비교사 블록-기반 군집에 의한 다중 텍스쳐 영상 인식 (Multiple Texture Image Recognition with Unsupervised Block-based Clustering)

  • 이우범;김욱현
    • 정보처리학회논문지B
    • /
    • 제9B권3호
    • /
    • pp.327-336
    • /
    • 2002
  • 텍스쳐 분석은 표면, 물체, 모양, 깊이 인식 등의 많은 영상 이해 분야에서 활용되는 가장 중요한 인식 기술 중의 하나이다. 그러나 기존의 방법들은 다중 텍스쳐 영상에 내재된 텍스쳐 성분의 인식 정보를 활용할 수 없는 분할만을 목적으로 하고 있으며, 내재된 텍스쳐 인식을 기반으로 하는 비교사적인 방법에 관한 연구는 거의 이루어지고 있지 않은 실정이다. 따라서 본 논문에서는 텍스쳐 성분을 방향장(orientation-field) 특징 정보인 방향각과 방향강도로 정의하고 블록-기반 자기조직화 신경회로망에 의해서 비교사적으로 영상 내에 존재하는 텍스쳐 영역을 군화(clustering) 및 통합(merging) 처리에 의해서 식별한다. 또한 제안된 알고리즘의 성능 평가를 위해서는 다양한 형태의 다중 텍스쳐 영상을 생성하여 블록 기반의 불림(dilation) 및 윤곽 검출 과정을 통해서 영상에 내재하는 텍스쳐 영역을 분할함으로써 그 유효성을 보인다.

Exponential Probability Clustering

  • Yuxi, Hou;Park, Cheol-Hoon
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.671-672
    • /
    • 2008
  • K-means is a popular one in clustering algorithms, and it minimizes the mutual euclidean distance among the sample points. But K-means has some demerits, such as depending on initial condition, unsupervised learning and local optimum. However mahalanobis distancecan deal this case well. In this paper, the author proposed a new clustering algorithm, named exponential probability clustering, which applied Mahalanobis distance into K-means clustering. This new clustering does possess not only the probability interpretation, but also clustering merits. Finally, the simulation results also demonstrate its good performance compared to K-means algorithm.

  • PDF

대표적인 클러스터링 알고리즘을 사용한 비감독형 결함 예측 모델 (Unsupervised Learning Model for Fault Prediction Using Representative Clustering Algorithms)

  • 홍의석;박미경
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.57-64
    • /
    • 2014
  • 입력 모듈의 결함경향성을 결정하는 결함 예측 모델 연구들은 대부분 훈련 데이터 집합을 사용하는 감독형 모델에 관련된 것들이었다. 하지만 과거 데이터 집합이 없거나 데이터 집합이 있더라도 현재 프로젝트와 성격이 다른 경우는 비감독형 모델이 필요하며, 이들에 관한 연구들은 모델 구축의 어려움 때문에 극소수 존재한다. 본 논문에서는 기존 비감독형 모델 연구들에서 사용하지 않은 대표적인 클러스터링 알고리즘인 EM, DBSCAN을 사용한 비감독형 모델들을 제작하여, 기존 연구들에서 사용한 K-means 모델과 성능을 비교하였다. 그 결과 오류율 면에서 EM이 K-means보다 약간 나은 성능을 보였으며, DBSCAN은 두 모델에 떨어지는 성능을 보였다.

Development of an unsupervised learning-based ESG evaluation process for Korean public institutions without label annotation

  • Do Hyeok Yoo;SuJin Bak
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권5호
    • /
    • pp.155-164
    • /
    • 2024
  • 본 연구는 ESG 등급이 제공되지 않는 국내 공공기관의 ESG 등급을 추정하는 비지도 학습 기반 군집모형을 제안한다. 이를 위해, 스펙트럼 군집과 k-means 군집에서 최적의 클러스터 수를 비교했고, 그 결과의 신뢰성을 보장하기 위해 성능지표인 Davies-Bouldin Index (DBI)를 계산했다. 결과적으로, 스펙트럼 군집과 k-means 군집에서 각각 0.734 및 1.715의 DBI 값을 산출했는데, 이는 값이 작을수록 우수한 성능을 의미하므로 스펙트럼 군집의 우수성을 확인하였다. 게다가, T-검정 및 ANOVA를 이용하여 ESG 비재무 데이터 간 통계적으로 유의미한 차이를 밝혀내고, 상관계수를 이용하여 ESG 항목 간 상관관계를 확인했다. 본 연구는 이러한 결과를 바탕으로 기존 ESG 등급 없이 공공기관별 ESG 성과 순위를 추정할 가능성을 제시한다. 이는 최적의 클러스터 수를 계산한 다음, 각 클러스터 내 ESG 데이터의 평균 총합을 결정함으로써 달성된다. 따라서, 제안된 모델은 다양한 국내 공공기관의 ESG 등급을 평가하는 근거로 활용될 수 있고, 국내 지속가능경영 실천과 성과관리에 유용할 것으로 기대된다.

비지도 학습 기법을 사용한 RF 위협의 분포 분석 (Analysis on the Distribution of RF Threats Using Unsupervised Learning Techniques)

  • 김철표;노상욱;박소령
    • 한국군사과학기술학회지
    • /
    • 제19권3호
    • /
    • pp.346-355
    • /
    • 2016
  • In this paper, we propose a method to analyze the clusters of RF threats emitting electrical signals based on collected signal variables in integrated electronic warfare environments. We first analyze the signal variables collected by an electronic warfare receiver, and construct a model based on variables showing the properties of threats. To visualize the distribution of RF threats and reversely identify them, we use k-means clustering algorithm and self-organizing map (SOM) algorithm, which are belonging to unsupervised learning techniques. Through the resulting model compiled by k-means clustering and SOM algorithms, the RF threats can be classified into one of the distribution of RF threats. In an experiment, we measure the accuracy of classification results using the algorithms, and verify the resulting model that could be used to visually recognize the distribution of RF threats.

역인덱스 기반 상향식 군집화 기법을 이용한 대규모 학술 핵심어 분석 (Analysis of Massive Scholarly Keywords using Inverted-Index based Bottom-up Clustering)

  • 오흥선;정유철
    • 한국산학기술학회논문지
    • /
    • 제19권11호
    • /
    • pp.758-764
    • /
    • 2018
  • 특허(patent), 학술 논문(scholarly paper)과 연구 보고서(research report)와 같은 디지털 문서(digital document)에는 주제(topic)를 요약하는 저자 키워드(author keyword)가 있다. 서로 다른 문서가 동일한 키워드를 공유하고 있다면 두 문서가 동일한 주제의 내용을 기술하고 있을 가능성이 매우 높다. 문서 군집화(document clustering)는 비슷한 주제를 가지는 문서들을 비지도 학습 방법(unsupervised learning)을 이용하여 같은 군집으로 그룹(group)화 하는 것이다. 문서 군집화는 다양한 분석에 이용되지만 대용량의 문서 데이터에 적용하기 위해서는 많은 계산량이 필요함으로 쉽지 않다. 이러한 경우, 문서의 내용을 이용하는 것보다 문서의 키워드를 이용하여 군집화하면 더욱 효율적으로 대용량의 데이터를 연결할 수 있다. 기존의 상향식 군집화 방법(bottom-up hierarchical clustering)은 대용량의 키워드 군집화(keyword clustering)를 수행하는데 있어서 많은 시간이 필요하다는 문제점이 있다. 본 논문에서는 정보검색(information retrieval)에서 널리 사용되는 역인덱스(inverted-index) 구조를 상향식 군집화에 적용한 효율적인 군집화 방법을 제안하고, 제안 방법을 대용량의 키워드 데이터에 적용하였으며, 그 결과를 분석하였다.