• 제목/요약/키워드: determining the number of clusters

검색결과 26건 처리시간 0.028초

시계열데이터의 모델기반 클러스터 결정 (Determining on Model-based Clusters of Time Series Data)

  • 전진호;이계성
    • 한국콘텐츠학회논문지
    • /
    • 제7권6호
    • /
    • pp.22-30
    • /
    • 2007
  • 대부분의 실세계의 시스템들, 즉 경제, 주식시장, 의료분야 등의 많은 시스템들은 동적이며 복잡한 현상을 갖는다. 이러한 특징들의 시스템을 이해하는 전형적인 방법은 시스템행위에 대한 모델을 세우고 분석하는 것이다. 본 연구에서는 실세계의 동적 시스템에서 발생되는 시계열데이터들에 대하여 최적의 클러스터를 형성하기 위한 방법을 연구한다. 먼저 클러스터 수를 결정하는 기준으로 베이지안정보기준(BIC : Bayesian Information Criterion)근사법의 활용도를 검증하고 데이터 크기와 베이지안정보기준값의 상관관계를 파악함으로 탐색 효율을 높이는 방안을 제안하며 클러스터링 과정으로 모델기반과 유사기반의 방법론을 비교 확인하여 본다. 실제의 시계열데이터(주가)에 대해 실험을 시행하였고 베이지안정보기준 근사 측도는 데이터의 크기에 따라 파티션의 사이즈를 정확히 추정하는 것을 확인하였으며 또한 유사기반의 방식보다 모델기반의 방법론이 클러스터링에서 더 나은 결과를 갖는 것을 확인하였다.

데이터 클러스터링에서 클러스터 수 결정방안 (A Method for Determining the Number of Clusters in Data Clustering)

  • 이병수;홍지원;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1268-1269
    • /
    • 2011
  • 데이터마이닝 분야에서는 주어진 공간상에 분포되어있는 데이터들을 분석위해 다양한 클러스터링 알고리즘이 존재한다. 그러나 대부분의 클러스터링 알고리즘에서는 클러스터 전체 개수를 미리 요구한다. 이 때문에 클러스터링 알고리즘에서 클러스터 전체개수를 미리 알아내는 것은 매우 중요하다. 본 논문에서는 데이터에 분포하는 클러스터들의 개수를 데이터의 그래프 모델을 이용한 분석으로 찾아내는 방법을 제안한다.

데이터 분포에 기반한 유사 군집 선택법 (Neighborhood Selection with Intrinsic Partitions)

  • 김계현;최승진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.428-432
    • /
    • 2007
  • We present a novel method for determining k nearest neighbors, which accurately recognizes the underlying clusters in a data set. To this end, we introduce the "tiling neighborhood" which is constructed by tiling a number of small local circles rather than a single circle, as existing neighborhood schemes do. Then we formulate the problem of determining the tiling neighborhood as a minimax optimization, leading to an efficient message passing algorithm. For several real data sets, our method outperformed the k-nearest neighbor method. The results suggest that our method can be an alternative to existing for general classification tasks, especially for data sets which have many missing values.

  • PDF

스펙트럴 클러스터링 - 요약 및 최근 연구동향 (Spectral clustering: summary and recent research issues)

  • 정상훈;배수현;김충락
    • 응용통계연구
    • /
    • 제33권2호
    • /
    • pp.115-122
    • /
    • 2020
  • K-평균 클러스터링은 매우 널리 사용되고 있으나 유사도가 구면체 또는 타원체로 정의되어 각 클러스터가 볼록 집합 형태인 자료에는 좋은 결과를 주지만 그렇지 않은 경우에는 매우 형편 없는 결과를 나타낸다. 스펙트럴 클러스터링은 K-평균 클러스터링의 단점을 잘 보완해 줄 뿐아니라 여러 형태의 자료나 고차원 자료 등에 대해서도 좋은 결과를 나타내서 최근 인공 신경망 모형에 많이 이용되고 있다. 하지만, 개선되어야 할 단점도 여전히 많다. 본 논문에서는 스펙트럴 클러스터링에 대해 알기 쉽게 소개하고, 클러스터 갯수의 추정, 척도모수의 추정, 고차원 자료의 차원 축소 등 스펙트럴 클러스터링에 대한 최근의 연구 동향을 소개한다.

커피전문점 방문동기유형에 따른 시장세분화 (Market Segmentation Based on Types of Motivations to Visit Coffee Shops)

  • 이용숙;김은정;박흥진
    • 한국프랜차이즈경영연구
    • /
    • 제7권1호
    • /
    • pp.21-29
    • /
    • 2016
  • Purpose - The primary purpose of this study is to employ effective marketing methods using market segmentation of coffee shops by determining how motivations to visit coffee shops have different impacts on demographic profile of visitors and characteristics of coffee shop visits, so as to draw out a better understanding of customers of coffee market. Research design, data, and methodology - Data were collected using surveys of self-administered questionnaires toward coffee shop users in Daejeon, Korea. A number of samples used in data analysis were 253 excluding unusable responses. The data were analyzed through frequency, reliability, and factor analysis using SPSS 20.0. Factor analysis was conducted through the principal component analysis and varimax rotation method to derive factors of one or more eigen values. In addition, the cluster analysis, multivariate ANOVA, and cross-tab analysis were used for the market segmentation based on the types of motivation for coffee shop visits. The process of the cluster analysis is as follows. Four clusters were derived through hierarchical clustering, and k-means cluster analysis was then carried out using mean value of the four clusters as the initial seed value. Result - The factor analysis delineated four dimensions of motivation to visit coffee shops: ostentation motivation, hedonic motivation, esthetic motivation, utility motivation. The cluster analysis yielded four clusters: utility and esthetic seekers, hedonic seekers, utility seekers, ostentation seekers. In order to further specify the profile of four clusters, each cluster was cross tabulated with socio-demographics and characteristics of coffee shop visits. Four clusters are significantly different from each other by four types of motivations for coffee shop visits. Conclusions - This study has empirically examined the difference in demographic profile of visitors and characteristics of coffee shop visits by motivation to visit coffee shops. There are significant differences according to age, education background, marital status, occupation and monthly income. In addition, coffee shops use pattern characterization in frequency of visits to coffee shops, relationships with companion, purpose of visit, information sources, brand type, average expense per visit, important elements of selection attribute were significantly different depending on motivations for coffee shop visits.

Development of an unsupervised learning-based ESG evaluation process for Korean public institutions without label annotation

  • Do Hyeok Yoo;SuJin Bak
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권5호
    • /
    • pp.155-164
    • /
    • 2024
  • 본 연구는 ESG 등급이 제공되지 않는 국내 공공기관의 ESG 등급을 추정하는 비지도 학습 기반 군집모형을 제안한다. 이를 위해, 스펙트럼 군집과 k-means 군집에서 최적의 클러스터 수를 비교했고, 그 결과의 신뢰성을 보장하기 위해 성능지표인 Davies-Bouldin Index (DBI)를 계산했다. 결과적으로, 스펙트럼 군집과 k-means 군집에서 각각 0.734 및 1.715의 DBI 값을 산출했는데, 이는 값이 작을수록 우수한 성능을 의미하므로 스펙트럼 군집의 우수성을 확인하였다. 게다가, T-검정 및 ANOVA를 이용하여 ESG 비재무 데이터 간 통계적으로 유의미한 차이를 밝혀내고, 상관계수를 이용하여 ESG 항목 간 상관관계를 확인했다. 본 연구는 이러한 결과를 바탕으로 기존 ESG 등급 없이 공공기관별 ESG 성과 순위를 추정할 가능성을 제시한다. 이는 최적의 클러스터 수를 계산한 다음, 각 클러스터 내 ESG 데이터의 평균 총합을 결정함으로써 달성된다. 따라서, 제안된 모델은 다양한 국내 공공기관의 ESG 등급을 평가하는 근거로 활용될 수 있고, 국내 지속가능경영 실천과 성과관리에 유용할 것으로 기대된다.

종양 이질성을 검정을 위한 통계적 방법론 연구 (Statistical methods for testing tumor heterogeneity)

  • 이동녘;임창원
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.331-348
    • /
    • 2019
  • 전이성 종양의 성장패턴 차이와 변화율에 따른 종양 이질성(tumor heterogeneity)을 파악하는 것은 종양세포의 약물에 대한 민감성을 파악하고 적절한 치료법을 찾아내기 위해 중요하다. 일반적으로 N개의 표본의 집단이 구분된다면 t-test 혹은 ANOVA 분석을 통해 집단별 평균의 차이에 대한 검정이 가능하다. 그러나 본 논문에서 다루는 데이터와 같이 집단이 구분되지 않는 경우 이러한 방법들은 사용될 수 없다. 표본들 사이의 이질성을 검정하기 위한 통계적 방법들이 연구되어 왔다. 최소 조합 t-검정 방법은 그 중 하나이다. 본 논문에서는 상이한 비율로 데이터를 양분하는 조합도 고려하는 최대 조합 t-검정 방법을 제안한다. 한편, 표본의 이질성을 검정하는 것이 군집분석에서 최적의 군집의 개수가 2개 이상인지를 검정하는 것과 같음에 착안하여 새로운 방법을 제안한다. 최대 조합 t-검정과 gap통계량을 이용하면 이전에 제안된 방법보다 개선된 제1종의 오류를 범할 확률과 검정력을 갖는다는 것을 모의실험을 통해 확인하였고 실제 자료 분석을 통해 결과를 도출하였다.

Surface Extraction from Point-Sampled Data through Region Growing

  • Vieira, Miguel;Shimada, Kenji
    • International Journal of CAD/CAM
    • /
    • 제5권1호
    • /
    • pp.19-27
    • /
    • 2005
  • As three-dimensional range scanners make large point clouds a more common initial representation of real world objects, a need arises for algorithms that can efficiently process point sets. In this paper, we present a method for extracting smooth surfaces from dense point clouds. Given an unorganized set of points in space as input, our algorithm first uses principal component analysis to estimate the surface variation at each point. After defining conditions for determining the geometric compatibility of a point and a surface, we examine the points in order of increasing surface variation to find points whose neighborhoods can be closely approximated by a single surface. These neighborhoods become seed regions for region growing. The region growing step clusters points that are geometrically compatible with the approximating surface and refines the surface as the region grows to obtain the best approximation of the largest number of points. When no more points can be added to a region, the algorithm stores the extracted surface. Our algorithm works quickly with little user interaction and requires a fraction of the memory needed for a standard mesh data structure. To demonstrate its usefulness, we show results on large point clouds acquired from real-world objects.

면적 제약 조건을 고려한 NTC 매니코어 설계 방법론 (Area-constrained NTC Manycore Architecture Design Methodology)

  • 장진규;한태희
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.866-869
    • /
    • 2015
  • 시스템-온-칩(system-on-chip, SoC)내에 집적되는 소자의 수가 기하급수적으로 증가함에 따라 에너지 효율을 높이기 위한 전압 스케일링은 필수적인 요소가 되었다. 문턱전압 근처 동작(near-threshold voltage computing, NTC)은 칩 에너지 효율을 10배 가까이 향상시킬 수 있는 기술로서 전통적인 초 문턱전압 동작(super-threshold voltage computing, STC)의 한계를 극복할 수 있을 것으로 기대되고 있다. 저성능 매니코어(manycore) 시스템으로 동작하는 NTC는 에너지 효율을 극대화할 수 있지만 성능 유지를 위한 코어 수의 증가는 상당한 면적 증가를 수반한다. 본 논문에서는 성능, 전력 및 면적 간의 trade-off를 고려하여 면적 제약조건 하에서 NTC 코어 수 및 캐시 및 클러스터 크기 결정 알고리즘을 통해 요구 성능을 만족시키면서 전력 소모를 최적화하는 방법을 제안한다. 실험을 통해 면적 제약조건 속에서 기존의 STC 코어에서의 성능을 유지한 채 전력소모를 약 16.5% 감소시킬 수 있음을 보여준다.

  • PDF

시뮬레이션을 이용한 대규모 스마트 TV 서비스 제공을 위한 사용자 그룹핑 알고리즘 성능 분석 (Simulation Analysis of User Grouping Algorithms for Massive Smart TV Services)

  • 전철;이관섭;주우석;정태경;한승철
    • 한국시뮬레이션학회논문지
    • /
    • 제20권1호
    • /
    • pp.61-67
    • /
    • 2011
  • 스마트 TV 시스템은 차세대 핵심 네트워크 서비스 중의 하나로서 통신과 미디어 산업에 급격한 변화를 가져올 것이다. 하지만, 스마트 TV 시스템은 동시접속자가 증가하면 서비스 품질이 급격하게 저하되는 문제가 발생하고 있다. 콘텐츠를 수많은 사용자에게 동시에 전송하는 것은 서버와 네트워크에 큰 부담으로 작용하기 때문이다. 서버의 수용능력의 한계는 서버 클러스터를 구성함으로써 어느 정도 해결할 수 있지만 네트워크의 수용능력의 한계는 부하와 혼잡의 발생 위치를 파악하고 추가적인 자원을 설치하여 해결하는데 어려움이 있다. 이를 해결하기 위해 현재까지 많은 기법들이 제안되었지만 기존의 연구들의 성능분석은 대부분 왕복시간(round-trip time), 다운로드 시간, 패킷 손실 비율과 같은 사용자 중심의 성능척도에만 초점이 맞춰져 있고 스마트 TV 서비스 품질에 중요한 영향을 미치는 동시접속과 전체 네트워크의 부하와 혼잡을 무시하는 경향이 있다. 본 논문에서는 실제 인터넷 테스트베드인 PlanetLab을 이용하여 스마트 TV 서비스 폼질에 중요한 영향을 미치는 사용자 그룹핑 알고리즘을 네트워크의 혼잡도와 부하중심으로 성능분석을 한다.