• 제목/요약/키워드: Two-step Clustering

검색결과 85건 처리시간 0.023초

Symbolic Cluster Analysis for Distribution Valued Dissimilarity

  • Matsui, Yusuke;Minami, Hiroyuki;Misuta, Masahiro
    • Communications for Statistical Applications and Methods
    • /
    • 제21권3호
    • /
    • pp.225-234
    • /
    • 2014
  • We propose a novel hierarchical clustering for distribution valued dissimilarities. Analysis of large and complex data has attracted significant interest. Symbolic Data Analysis (SDA) was proposed by Diday in 1980's, which provides a new framework for statistical analysis. In SDA, we analyze an object with internal variation, including an interval, a histogram and a distribution, called a symbolic object. In the study, we focus on a cluster analysis for distribution valued dissimilarities, one of the symbolic objects. A hierarchical clustering has two steps in general: find out step and update step. In the find out step, we find the nearest pair of clusters. We extend it for distribution valued dissimilarities, introducing a measure on their order relations. In the update step, dissimilarities between clusters are redefined by mixture of distributions with a mixing ratio. We show an actual example of the proposed method and a simulation study.

추천시스템의 성능 향상을 위한 시간스키마 적용 2단계 클러스터링 기법 (Two-step Clustering Method Using Time Schema for Performance Improvement in Recommender Systems)

  • 부종수;홍종규;박원익;김룡;김영국
    • 한국전자거래학회지
    • /
    • 제10권2호
    • /
    • pp.109-132
    • /
    • 2005
  • 디지털 TV 채널 및 인터넷 상에서의 멀티미디어 컨텐츠의 홍수로 인해 사용자는 종종 자신이 선호하는 컨텐츠를 찾는데 어려움을 갖고 있으며, 또한 컨텐츠를 찾기 위해 많은 시간을 들이고 있다. 심지어 컨텐츠를 검색하는 동안 원하는 정보를 잃어버리는 경우도 있다. 고객들이 선호하는 컨텐츠를 추천하는 기존 시스템들이 가지는 문제점으로 사용자 수가 증가함에 따라 추천시간이 증가하는 확장성 문제와 새로운 고객의 경우 상품에 대한 선호도 정보가 부족할 경우 추천 정확도가 저하되는 희박성 문제가 있다. 본 논문에서는 이러한 문제점들을 해결하기 위해 협력적 필터링 방식에 기반한 2단계 클러스터링 기법을 제안한다. 1단계에서는 고객의 성과 나이와 같은 기본적인 사용자 정보만을 사용하여 추천하고, 2단계에서는 사용자의 동적인 성향 변화를 반영하기 위해 시간스키마를 적용하여 추천한다. 이렇게 추천된 결과의 피드백을 이용함으로써 계산시간의 단축과 예측정확도를 높일 수 있다.

  • PDF

합성곱 오토인코더 기반의 응집형 계층적 군집 분석 (Agglomerative Hierarchical Clustering Analysis with Deep Convolutional Autoencoders)

  • 박노진;고한석
    • 한국멀티미디어학회논문지
    • /
    • 제23권1호
    • /
    • pp.1-7
    • /
    • 2020
  • Clustering methods essentially take a two-step approach; extracting feature vectors for dimensionality reduction and then employing clustering algorithm on the extracted feature vectors. However, for clustering images, the traditional clustering methods such as stacked auto-encoder based k-means are not effective since they tend to ignore the local information. In this paper, we propose a method first to effectively reduce data dimensionality using convolutional auto-encoder to capture and reflect the local information and then to accurately cluster similar data samples by using a hierarchical clustering approach. The experimental results confirm that the clustering results are improved by using the proposed model in terms of clustering accuracy and normalized mutual information.

Metastasis Related Gene Exploration Using TwoStep Clustering for Medulloblastoma Microarray Data

  • Ban, Sung-Su;Park, Hee-Chang
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2005년도 추계학술대회
    • /
    • pp.153-159
    • /
    • 2005
  • Microarray gene expression technology has applications that could refine diagnosis and therapeutic monitoring as well as improve disease prevention through risk assessment and early detection. Especially, microarray expression data can provide important information regarding specific genes related with metastasis through an appropriate analysis. Various methods for clustering analysis microarray data have been introduced so far. We used twostep clustering fot ascertain metastasis related gene through t-test. Through t-test between two groups for two publicly available medulloblastoma microarray data sets, we intended to find significant gene for metastasis. The paper describes the process in detail showing how the process is applied to clustering analysis and t-test for microarray datasets and how the metastasis-associated genes are explorated.

  • PDF

미디어 레퍼토리를 이용한 스마트폰 애플리케이션 이용 패턴 유형 분석 (Mobile App Analytics using Media Repertoire Approach)

  • 권성은;장서인;황보현우
    • 한국전자거래학회지
    • /
    • 제26권4호
    • /
    • pp.133-154
    • /
    • 2021
  • 현대인에게 가장 보편적이고 융합적인 미디어인 스마트 폰은 애플리케이션이라는 비히클을 갖는 뉴미디어이다. 이 연구는 미디어 사용자들은 어떻게 레퍼토리를 구성하여 미디어를 이용하고 있는지를 파악하고자 2019년 11월, 4주 동안의 개인별 모바일 이용행동 로그 데이터를 이용하여 모바일 애플리케이션 카테고리별 미디어 이용량을 중심으로 군집 분석을 실시하고, 최종적으로 8개의 모바일 미디어 레퍼토리 유형별 집단을 분류하였다. 8개의 각 미디어 레퍼토리 그룹은 애플리케이션 카테고리별 절대적 이용량과 타 그룹 대비 상대적 이용량에서 차이를 보였으며, 데모그라픽적 분포에서도 집단간 차이를 보였다. 이 연구는 모바일 미디어 레퍼토리를 규명해 냈다는 학문적 기여뿐만 아니라 기존의 k-means clustering에 의존적이었던 군집 분석을 SOM(Sefl-Organized Map)을 이용하여 프로토벡터를 추출하고 이 프로토벡터를 이용하여 k-means clustering을 실시하는 이단계 접근법(two-step approach)을 시도함으로써, 기존 k-means clustering이 갖고 있는 '이상치(outlier)'나 '결측치'에 민감했던 한계점을 극복하고 더 나은 성능의 분석 결과를 도출하고 있음을 보여준다는 점에서 방법론적으로도 의미를 갖는다. 또한 모바일 미디어 이용 행동의 유형 분류 연구는 전자거래 서비스를 이용하는 고객을 유형분류하고, 각 고객 유형에 맞는 고객 관리 서비스를 집행해야 하는 실무진이 고객 행동 로그 데이터를 기반으로 고객의 구조를 파악하고 각 고객 집단에 적합한 서비스 또는 마케팅 의사결정을 차별적으로 집행해야 하는 전자거래 커뮤니티에 실무적 가이드를 제공한다는 점에서도 의미를 갖고 있다.

Unification of neural network with a hierarchical pattern recognition

  • Park, Chang-Mock;Wang, Gi-Nam
    • 대한인간공학회:학술대회논문집
    • /
    • 대한인간공학회 1996년도 추계학술대회논문집
    • /
    • pp.197-205
    • /
    • 1996
  • Unification of neural network with a hierarchical pattern recognition is presented for recognizing large set of objects. A two-step identification procedure is developed for pattern recognition: coarse and fine identification. The coarse identification is designed for finding a class of object while the fine identification procedure is to identify a specific object. During the training phase a course neural network is trained for clustering larger set of reference objects into a number of groups. For training a fine neural network, expert neural network is also trained to identify a specific object within a group. The presented idea can be interpreted as two step identification. Experimental results are given to verify the proposed methodology.

  • PDF

A Stigmergy-and-Neighborhood Based Ant Algorithm for Clustering Data

  • Lee, Hee-Sang;Shim, Gyu-Seok
    • Management Science and Financial Engineering
    • /
    • 제15권1호
    • /
    • pp.81-96
    • /
    • 2009
  • Data mining, specially clustering is one of exciting research areas for ant based algorithms. Ant clustering algorithm, however, has many difficulties for resolving practical situations in clustering. We propose a new grid-based ant colony algorithm for clustering of data. The previous ant based clustering algorithms usually tried to find the clusters during picking up or dropping down process of the items of ants using some stigmergy information. In our ant clustering algorithm we try to make the ants reflect neighborhood information within the storage nests. We use two ant classes, search ants and labor ants. In the initial step of the proposed algorithm, the search ants try to guide the characteristics of the storage nests. Then the labor ants try to classify the items using the guide in-formation that has set by the search ants and the stigmergy information that has set by other labor ants. In this procedure the clustering decision of ants is quickly guided and keeping out of from the stagnated process. We experimented and compared our algorithm with other known algorithms for the known and statistically-made data. From these experiments we prove that the suggested ant mining algorithm found the clusters quickly and effectively comparing with a known ant clustering algorithm.

FCM 군집화 알고리즘에 의한 얼굴의 특징점에서 Gabor 웨이브렛을 이용한 복원 (Reconstruction from Feature Points of Face through Fuzzy C-Means Clustering Algorithm with Gabor Wavelets)

  • 신영숙;이수용;이일병;정찬섭
    • 인지과학
    • /
    • 제11권2호
    • /
    • pp.53-58
    • /
    • 2000
  • 본 논문은 FCM 군집화 알고리즘을 사용하여 표정영상에서 특징점들을 추출한 후 추출된 특징점으로부터 Gabor 웨이브렛들을 이용하여 표정영상의 국소영역을 복원한다. 얼굴의 특징점 추출은 두단계로 이루어진다. 1단계는 이차원 Gabor 웨이브렛 계수 히스토그램의 평균값을 적용하여 얼굴의 주요 요소성분들의 경계선을 추출한 후, 2단계에서는 추출된 경계선 정보로부터 FCM 군집화 알고리즘을 사용하여 얼굴의 주요 요소성분들의 최종적인 특징점들을 추출한다. 본 연구에서는 FCM 군집화 알고리즘을 이용하여 추출된 적은 수의 특징점들 만으로도 표정영상의 주요 요소들을 복원할 수 있음을 제시한다. 이것은 인간의 얼굴 표정인식 뿐만아니라 물체인식에도 적용되어질 수 있다.

  • PDF

Genomic Tree of Gene Contents Based on Functional Groups of KEGG Orthology

  • Kim Jin-Sik;Lee Sang-Yup
    • Journal of Microbiology and Biotechnology
    • /
    • 제16권5호
    • /
    • pp.748-756
    • /
    • 2006
  • We propose a genome-scale clustering approach to identify whole genome relationships using the functional groups given by the Kyoto Encyclopedia of Genes and Genomes Orthology (KO) database. The metabolic capabilities of each organism were defined by the number of genes in each functional category. The archaeal, bacterial, and eukaryotic genomes were compared by simultaneously applying a two-step clustering method, comprised of a self-organizing tree algorithm followed by unsupervised hierarchical clustering. The clustering results were consistent with various phenotypic characteristics of the organisms analyzed and, additionally, showed a different aspect of the relationship between genomes that have previously been established through rRNA-based comparisons. The proposed approach to collect and cluster the metabolic functional capabilities of organisms should make it a useful tool in predicting relationships among organisms.

약물부작용감시시스템에서 재현성 평가를 통한 마이닝 모델 개발 (Development of Mining model through reproducibility assessment in Adverse drug event surveillance system)

  • 이영호;윤영미;이병문;황희정;강운구
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.183-192
    • /
    • 2009
  • 약물부작용감시시스템 (Adverse drug event surveillance system)은 약물부작용신호를 이용하여 약물의 부작용 여부를 식별하는 시스템이다. 기존의 자발적 보고나 차트리뷰 보다 효율성이 뛰어난 시스템으로 분류할 수 있다. 본 논문에서는 약물부작용감시시스템을 구현하기 위하여 임상데이터마트(GDM)를 구축하였다. 특히, 데이터 품질관리 기법을 적용하여 구축된 CDM에 지식 탐사 기법 중 비교사학습 기법으로 적용하여 모델의 재현성을 평가하여 최적의 약물부작용 군집화 개수(n=4)를 도출하였다. 군집화 개수(n=4)를 이용하여 약물부작용 판별을 위한 K-means, Kohonen, two-step clustering model 알고리즘에 적용하여 분석함으로써 K-means 알고리즘이 가장 우수한 군집 효과를 나타냄을 확인하였다.