• 제목/요약/키워드: symbolic histogram-valued data

검색결과 4건 처리시간 0.021초

Symbolic Cluster Analysis for Distribution Valued Dissimilarity

  • Matsui, Yusuke;Minami, Hiroyuki;Misuta, Masahiro
    • Communications for Statistical Applications and Methods
    • /
    • 제21권3호
    • /
    • pp.225-234
    • /
    • 2014
  • We propose a novel hierarchical clustering for distribution valued dissimilarities. Analysis of large and complex data has attracted significant interest. Symbolic Data Analysis (SDA) was proposed by Diday in 1980's, which provides a new framework for statistical analysis. In SDA, we analyze an object with internal variation, including an interval, a histogram and a distribution, called a symbolic object. In the study, we focus on a cluster analysis for distribution valued dissimilarities, one of the symbolic objects. A hierarchical clustering has two steps in general: find out step and update step. In the find out step, we find the nearest pair of clusters. We extend it for distribution valued dissimilarities, introducing a measure on their order relations. In the update step, dissimilarities between clusters are redefined by mixture of distributions with a mixing ratio. We show an actual example of the proposed method and a simulation study.

서울 아파트 매매가 자료의 심볼릭 데이터를 이용한 군집분석 (Cluster analysis for Seoul apartment price using symbolic data)

  • 김재직
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권6호
    • /
    • pp.1239-1247
    • /
    • 2015
  • 이 논문에서는 아파트 매매가 활발히 일어나는 서울시내 64개 행정동들에 대해 아파트 전용면적별 실거래 매매가를 기준으로 군집분석을 실시하였다. 군집분석에 있어서 각 행정동의 실거래가에 대한 정보를 최대한 이용하기 위해 실거래가의 평균 뿐만 아니라 그 분포까지 고려할 수 있도록 전통적인 형태의 데이터를 히스토그램 형태의 데이터로 변환하여 분석을 하였다. 히스토그램 데이터는 심볼릭 데이터의 한 종류이고, 심볼릭 데이터는 기본적으로 구간, 목록, 히스토그램, 분포, 모형 등과 같이 데이터 자체가 내부적인 변동을 갖는 모든 형태의 데이터를 포함한다. 이러한 각 행정동들의 내부적인 매매가의 변동을 고려한 군집분석의 결과 강남구, 서초구, 송파구와 그에 인접한 행정동들이 상대적으로 다른 지역보다 매매가도 높았고 실거래가의 분포도 훨씬 더 넓은 것으로 조사되었다. 전반적으로 도심에 대한 접근성이 좋고 교육환경이 우수한 지역과 강북의 뉴타운 지역이 상대적으로 주변지역보다 더 높고 넓은 매매가 분포를 보이는 것으로 분석되었다.

혼합형태 심볼릭 데이터의 군집분석방법 (A Divisive Clustering for Mixed Feature-Type Symbolic Data)

  • 김재직
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1147-1161
    • /
    • 2015
  • 오늘날 데이터는 p-차원의 공간에서 점들로써 표현되는 전통적인 형태를 벗어나 시그널(signal), 함수, 이미지(image), 모양(shape) 등과 같은 다양한 형태의 자료들이 데이터로써 고려되고 분석되고있다. 그러한 종류의 새로운 종류의 데이터 중 하나로 심볼릭 데이터(symbolic data)를 고려할 수 있다. 심볼릭 데이터는 구간(interval), 히스토그램(histogram), 목록(list), 통계표, 분포, 또는 모형 등과 같은 다양한 형태들을 가질 수 있다. 지금까지의 연구가 주로 심볼릭 데이터의 각각의 형태별 자료를 고려했다면, 본 연구에서는 이를 확장하여 수집된 히스토그램과 멀티모달의 혼합된 형태로 이루어진 자료에 대한 계층 분할적 군집분석방법을 소개하고 이를 업종별 산업재해자료의 분석을 위해 이용한다.

Double monothetic clustering for histogram-valued data

  • Kim, Jaejik;Billard, L.
    • Communications for Statistical Applications and Methods
    • /
    • 제25권3호
    • /
    • pp.263-274
    • /
    • 2018
  • One of the common issues in large dataset analyses is to detect and construct homogeneous groups of objects in those datasets. This is typically done by some form of clustering technique. In this study, we present a divisive hierarchical clustering method for two monothetic characteristics of histogram data. Unlike classical data points, a histogram has internal variation of itself as well as location information. However, to find the optimal bipartition, existing divisive monothetic clustering methods for histogram data consider only location information as a monothetic characteristic and they cannot distinguish histograms with the same location but different internal variations. Thus, a divisive clustering method considering both location and internal variation of histograms is proposed in this study. The method has an advantage in interpreting clustering outcomes by providing binary questions for each split. The proposed clustering method is verified through a simulation study and applied to a large U.S. house property value dataset.