• 제목/요약/키워드: optimal number of clusters

검색결과 79건 처리시간 0.033초

종양 이질성을 검정을 위한 통계적 방법론 연구 (Statistical methods for testing tumor heterogeneity)

  • 이동녘;임창원
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.331-348
    • /
    • 2019
  • 전이성 종양의 성장패턴 차이와 변화율에 따른 종양 이질성(tumor heterogeneity)을 파악하는 것은 종양세포의 약물에 대한 민감성을 파악하고 적절한 치료법을 찾아내기 위해 중요하다. 일반적으로 N개의 표본의 집단이 구분된다면 t-test 혹은 ANOVA 분석을 통해 집단별 평균의 차이에 대한 검정이 가능하다. 그러나 본 논문에서 다루는 데이터와 같이 집단이 구분되지 않는 경우 이러한 방법들은 사용될 수 없다. 표본들 사이의 이질성을 검정하기 위한 통계적 방법들이 연구되어 왔다. 최소 조합 t-검정 방법은 그 중 하나이다. 본 논문에서는 상이한 비율로 데이터를 양분하는 조합도 고려하는 최대 조합 t-검정 방법을 제안한다. 한편, 표본의 이질성을 검정하는 것이 군집분석에서 최적의 군집의 개수가 2개 이상인지를 검정하는 것과 같음에 착안하여 새로운 방법을 제안한다. 최대 조합 t-검정과 gap통계량을 이용하면 이전에 제안된 방법보다 개선된 제1종의 오류를 범할 확률과 검정력을 갖는다는 것을 모의실험을 통해 확인하였고 실제 자료 분석을 통해 결과를 도출하였다.

Security Clustering Algorithm Based on Integrated Trust Value for Unmanned Aerial Vehicles Network

  • Zhou, Jingxian;Wang, Zengqi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권4호
    • /
    • pp.1773-1795
    • /
    • 2020
  • Unmanned aerial vehicles (UAVs) network are a very vibrant research area nowadays. They have many military and civil applications. Limited bandwidth, the high mobility and secure communication of micro UAVs represent their three main problems. In this paper, we try to address these problems by means of secure clustering, and a security clustering algorithm based on integrated trust value for UAVs network is proposed. First, an improved the k-means++ algorithm is presented to determine the optimal number of clusters by the network bandwidth parameter, which ensures the optimal use of network bandwidth. Second, we considered variables representing the link expiration time to improve node clustering, and used the integrated trust value to rapidly detect malicious nodes and establish a head list. Node clustering reduce impact of high mobility and head list enhance the security of clustering algorithm. Finally, combined the remaining energy ratio, relative mobility, and the relative degrees of the nodes to select the best cluster head. The results of a simulation showed that the proposed clustering algorithm incurred a smaller computational load and higher network security.

이중 K-평균 군집화 (Double K-Means Clustering)

  • 허명회
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.343-352
    • /
    • 2000
  • K-평균 군집화(K-means clustering)는 비계층적 군집화 방법이 하나로서 큰 자료에서 개체 군집화에 효율적인 것으로 알려져 있다. 그러나 종종 비교적 균일한 대군집의 일부를 소군집에 떼어주는 오류를 범하기도 한다. 이 연구에서는 그러한 현상을 정확히 인지하고 이에 대한 대책으로서 ‘이중 K-평균 군집화(double K-means clustering)’방법을 제시한다. 또한 실증적 사례에 새 방법론을 적용해보고 토의한다.

  • PDF

Hybrid Self Organizing Map using Monte Carlo Computing

  • 전성해;박민재;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 춘계학술대회 학술발표 논문집 제16권 제1호
    • /
    • pp.381-384
    • /
    • 2006
  • Self Organizing Map(SOM) is a powerful neural network model for unsupervised loaming. In many clustering works with exploratory data analysis, it has been popularly used. But it has a weakness which is the poorly theoretical base. A lot more researches for settling the problem have been published. Also, our paper proposes a method to overcome the drawback of SOM. As compared with the presented researches, our method has a different approach to solve the problem. So, a hybrid SOM is proposed in this paper. Using Monte Carlo computing, a hybrid SOM improves the performance of clustering. We verify the improved performance of a hybrid SOM according to the experimental results using UCI machine loaming repository. In addition to, the number of clusters is determined by our hybrid SOM.

  • PDF

퍼지 클러스터 타당성 척도를 이용한 최적 클러스터 수의 선택방법 (A Selection Method of an Optimal Number of Clusters Using a Fuzzy Cluster Validity Measure)

  • 이현숙;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1996년도 추계학술대회 학술발표 논문집
    • /
    • pp.133-136
    • /
    • 1996
  • 클러스터의 타당성 정도를 계산하기 위한 측정자로서, 퍼지 분할된 데이터의 서로 다른 클래스 사이의 분리성과 한 클래스안에서의 밀접성의 비율, G를 정의하였다. 본 논문에서는 이렇게 정의된 G로부터, 각 클러스터가 가지는 데이터 수의 차이점을 고려하여 하나의 데이터 집합에 대하여 서로 다른 분할들을 비교할 수 있도록 하기 위하여, IG를 재정의하였다. 기존의 클러스터 타당성 전략은 클러스터 수의 함수로서, 주어진 척도의 값을 계산하여 기록한 후 그 값의 변화가 가장 큰 경우를 최적의 클러스터의 수로서 선택하였다. 이때 그 값의 변화를 고려하기 위한 주관적인 해석이 필요하게 된다. 본 논문에서는 주관적인 해석 없이 IG를 이용하여 최적의 클러스터 수를 결정하기 위한 방법을 제안하고자 한다. 제안된 방법은 널리 알려진 Iris data와 서로 다른 클러스터 인구수를 가지는 가상의 데이터 집합에 적용하여 그 타당성을 보인다.

  • PDF

유효성 기반 군집화 알고리즘 (Validation-based Clustering Algorithm)

  • 김민호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.19-21
    • /
    • 2003
  • 본 논문에서는 군집화의 가장 중요한 2가지 문제에 대한 새로운 해결책을 제시한다. 첫 번째 문제는 두 객체가 하나의 군집내에 포함될 수 있는지를 결정하는 유사 결정으로써, 이를 해결하기 위해 군집 유효화 지수에 기반한 유사 결정 기법을 제안한다. 이 기법은 정성적인 인지 과정을 정량적인 비교 결정 과정으로 바꾼다 이 기법은 본 논문에서 제안한 랜덤 군집화와 전체 군집화의 두 부분으로 구성된 유효성 기반 군집화 알고리즘의 핵심을 이루며. 기존의 않은 군집화 알고리즘에서 요구되는 복잡한 파라미터를 결정할 필요가 없어지도록 한다. 두 번째 문제는 최적 군집 수 (optimal number of clusters)를 찾는 것으로써, 이것 또한 앞에서 제안한 기법에 의해서 전체 군집화에서 찾을 수 있다. 마지막으로 제안한 기법과 군집화 알고리즘의 효용성 및 효율성을 보여주는 실험 결과가 제시된다.

  • PDF

Improving CMD Areal Density Analysis: Algorithms and Strategies

  • Wilson, R.E.
    • Journal of Astronomy and Space Sciences
    • /
    • 제31권2호
    • /
    • pp.121-130
    • /
    • 2014
  • Essential ideas, successes, and difficulties of Areal Density Analysis (ADA) for color-magnitude diagrams (CMD's) of resolved stellar populations are examined, with explanation of various algorithms and strategies for optimal performance. A CMD-generation program computes theoretical datasets with simulated observational error and a solution program inverts the problem by the method of Differential Corrections (DC) so as to compute parameter values from observed magnitudes and colors, with standard error estimates and correlation coefficients. ADA promises not only impersonal results, but also significant saving of labor, especially where a given dataset is analyzed with several evolution models. Observational errors and multiple star systems, along with various single star characteristics and phenomena, are modeled directly via the Functional Statistics Algorithm (FSA). Unlike Monte Carlo, FSA is not dependent on a random number generator. Discussions include difficulties and overall requirements, such as need for fast evolutionary computation and realization of goals within machine memory limits. Degradation of results due to influence of pixelization on derivatives, Initial Mass Function (IMF) quantization, IMF steepness, low Areal Densities ($\mathcal{A}$), and large variation in $\mathcal{A}$ are reduced or eliminated through a variety of schemes that are explained sufficiently for general application. The Levenberg-Marquardt and MMS algorithms for improvement of solution convergence are contained within the DC program. An example of convergence, which typically is very good, is shown in tabular form. A number of theoretical and practical solution issues are discussed, as are prospects for further development.

클러스터링 기반의 최적 차량 운행 계획 수립을 위한 비교연구 (Comparative Analysis for Clustering Based Optimal Vehicle Routes Planning)

  • 김재원;신광섭
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.155-180
    • /
    • 2020
  • 화물의 수배송을 위한 차량의 배차 및 최적 경로 설계는 물류 서비스의 효율성 향상을 위한 가장 핵심적인 역할을 담당한다. 이 문제는 차량의 대수, 차량별 적재 용량, 차량의 총 이동거리와 같이 다양한 비용 요소를 동시에 고려해야 하기 때문이다. 최근 비용 최소화 및 운영 효율성 향상을 위해 TMS를 도입하는 사례가 증가하고 있으나, 현장에서 필요한 모든 요소를 고려하지 못한다는 한계가 존재한다. 이를 해결하기 위해 현장 전문가가 TMS의 결과를 경험과 직관에 기반하여 수정하는 과정이 필요하다. 본 연구에서는 지금까지 총 비용의 최소화에 집중하고 있는 기존 연구들과 달리 서비스에 투입되는 자원 활용의 효율성과 형평성을 동시에 높일 수 있는 방법을 제안한다. 이를 위해 Cluster-First Route-Second (CFRS)기법을 활용한다. 고객의 위치를 기준으로 네 가지 클러스터링 알고리즘(K-Means, K-Medoids, DBSCAN, Model-based)과 Fisher & Jaikumar 알고리즘을 적용하여 고객들을 군집화하였다. 이 후, 군집별 최적의 차량 경로 계획을 수립하였다. 수치 실험을 통해 본 연구에서 제안하는 CFRS 기법을 적용한 방안이 상대적으로 차량의 전체 이동거리와 평균 이동거리 및 이동시간이 더 절감될 수 있다는 사실을 확인하였다. 또한, 차량별 방문하는 고객의 수에 대한 편차가 더 낮다는 사실로부터 기본적인 차량 경로 배정 유형에 비해 본 연구에서 제안하는 방안이 상대적으로 형평성 있게 업무가 할당되었음을 확인할 수 있었다.

클러스터링 알고리즘의 후처리 방안과 분할된 영역들의 분류에 대한 연구 (A Study of Post-processing Methods of Clustering Algorithm and Classification of the Segmented Regions)

  • 오준택;김보람;김욱현
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.7-16
    • /
    • 2009
  • 클러스터링 알고리즘은 영역들간의 공간정보를 고려하지 않고 사전에 정의된 수만큼의 군집들로 분할하기 때문에 영상의 과분할을 유발하며, 이에 실제적인 응용분야에 적용하기에는 어려움이 존재한다. 본 논문에서는 클러스터링 알고리즘에 의해 획득한 군집들을 대상으로 보다 나은 분할결과를 획득하기 위한 후처리 방안으로, 비동질적인 군집의 재분류와 베이시안 알고리즘에 의한 유사영역의 합병알고리즘을 제안한다. 먼저, 클러스터링 알고리즘에 의해 분할된 영상의 군집들에 대해서 가장 비동질적인 군집을 선택하여 이를 나머지 군집들 중 하나로 재분류하며, 최소평균내부거리값에 의해 결정된 군집수만큼 반복적으로 수행된다. 그리고 여전히 존재하는 유사한 인접영역들을 제거하기 위해서 영역간의 Kullbeck-Leibler 거리값을 기반으로 베이시안 알고리즘을 이용한 영역 합병을 수행한다. 마지막으로, 제안한 방법의 유효함을 검증하기 위한 목적으로, 분할된 영역들의 우세컬러와 텍스처 정보를 기반으로 하는 SVM(support vector machine) 기반 영역분류시스템을 설계한다. 실험결과, 제안한 방법은 다양한 실험영상들에 대해서 단계별 더 나은 성능을 보였으며, 분할된 영역들의 분류에서도 효과적인 결과를 보여 제안방법의 유효함을 확인하였다.

텐서보팅과 마르코프 랜덤 필드를 이용한 자연 영상의 텍스트 이진화 (Natural Scene Text Binarization using Tensor Voting and Markov Random Field)

  • 최현수;이귀상
    • 스마트미디어저널
    • /
    • 제4권4호
    • /
    • pp.18-23
    • /
    • 2015
  • 본 논문에서는 텐서보팅을 이용하여 기존 마르코프 랜덤 필드 메소드 안의 가우시안 혼합 모델 함수의 성능을 향상시킬 수 있는 적합한 클러스터 개수 검출 방법을 제시한다. 제안하는 방법의 핵심 포인트는 텐서보팅의 인풋 데이터 토큰의 연속성인 saliency map을 통한 중심점 개수의 추출이다. 우리는 가장 먼저 주어진 자연 영상에서 전경 및 배경 후보 영역을 분리한다. 다음으로, 분리된 각 후보 영역에 대하여 텐서보팅을 적용하여 적절한 클러스터 개수를 추출한다. 우리는 검출된 클러스터 개수를 이용하여 정확한 가우시안 혼합 모델 모델링을 수행할 수 있다. 그리고 이를 적용한 마르코프 랜덤 필드의 unary term과 pairwise term을 계산하여 자연 영상의 텍스트 이진화 결과를 반환한다. 실험 결과, 제안된 방법이 최적의 클러스터 개수를 반환하고, 향상된 텍스트 이진화 결과를 반환함을 확인하였다.