• Title/Summary/Keyword: 점진적 클러스터링

Search Result 30, Processing Time 0.054 seconds

Extended High Dimensional Clustering using Iterative Two Dimensional Projection Filtering (반복적 2차원 프로젝션 필터링을 이용한 확장 고차원 클러스터링)

  • Lee, Hye-Myeong;Park, Yeong-Bae
    • The KIPS Transactions:PartD
    • /
    • v.8D no.5
    • /
    • pp.573-580
    • /
    • 2001
  • The large amounts of high dimensional data contains a significant amount of noises by it own sparsity, which adds difficulties in high dimensional clustering. The CLIP is developed as a clustering algorithm to support characteristics of the high dimensional data. The CLIP is based on the incremental one dimensional projection on each axis and find product sets of the dimensional clusters. These product sets contain not only all high dimensional clusters but also they may contain noises. In this paper, we propose extended CLIP algorithm which refines the product sets that contain cluster. We remove high dimensional noises by applying two dimensional projections iteratively on the already found product sets by CLIP. To evaluate the performance of extended algorithm, we demonstrate its effectiveness through a series of experiments on synthetic data sets.

  • PDF

Design and implementation of web document clustering system using on incremental algorithm (점진적 알고리즘을 이용한 웹 문서 클러스터링 시스템의 설계 및 구현)

  • 황태호;손기락
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.207-209
    • /
    • 1999
  • 클러스터 분석은 관측의 대상이 되는 집합에 맞는 분류 구조를 생성하는데 이용되는 통계학적인 기술이다. 정보검색 응용에서 전형적으로 발견되는 높은 차원을 가진 많은 데이터 집합을 클러스터하기 위하여, 많은 공간과 시간이 필요하다. SLINK 알고리즘은 O(n2)의 시간과 O(n)의 공간의 성능을 갖으며 점진성을 반영할 수 있는 알고리즘이다. SLINK알고리즘을 이용하여 검색 엔진의 검색결과에 온라인으로 클러스터 분류를 수행하는 시스템을 구현하였다. 구현된 시스템은 상대적으로 높은 정확도와 각 클러스터를 저장하고 표현하는데 있어서의 장점을 제공하며, 상대적으로 느린 수행 속도는 온라인으로 문서들이 다운로드 되는 속도가 느리므로 문제가 되지 않음을 알 수 있었다.

  • PDF

An Unsupervised Clustering Technique of XML Documents based on Function Transform and FFT (함수 변환과 FFT에 기반한 조정자가 없는 XML 문서 클러스터링 기법)

  • Lee, Ho-Suk
    • The KIPS Transactions:PartD
    • /
    • v.14D no.2
    • /
    • pp.169-180
    • /
    • 2007
  • This paper discusses a new unsupervised XML document clustering technique based on the function transform and FFT(Fast Fourier Transform). An XML document is transformed into a discrete function based on the hierarchical nesting structure of the elements. The discrete function is, then, transformed into vectors using FFT. The vectors of two documents are compared using a weighted Euclidean distance metric. If the comparison is lower than the pre specified threshold, the two documents are considered similar in the structure and are grouped into the same cluster. XML clustering can be useful for the storage and searching of XML documents. The experiments were conducted with 800 synthetic documents and also with 520 real documents. The experiments showed that the function transform and FFT are effective for the incremental and unsupervised clustering of XML documents similar in structure.

A Comparison and Analysis on High-Dimensional Clustering Techniques for Data Mining (데이터 마이닝을 위한 고차원 클러스터링 기법에 관한 비교 분석 연구)

  • 김홍일;이혜명
    • Journal of the Korea Computer Industry Society
    • /
    • v.4 no.12
    • /
    • pp.887-900
    • /
    • 2003
  • Many applications require the clustering of large amounts of high dimensional data. Most automated clustering techniques have been developed but they do not work effectively and/or efficiently on high dimensional (numerical) data, which is due to the so-called “curse of dimensionality”. Moreover, the high dimensional data often contain a significant amount of noise, which causes additional ineffectiveness of algorithms. Therefore, it is necessary to look over the structure and various characteristics of high dimensional data and to develop algorithm that support clustering adapted to applications of the high dimensional database. In this paper, we investigate and classify the existing high dimensional clustering methods by analyzing the strength and weakness of each method for specific applications and comparing them. Especially, in terms of efficiency and effectiveness, we compare the traditional algorithms with CLIP which are developed by us. This study will contribute to develop more advanced algorithms than the current algorithms.

  • PDF

Design of Incremental Model by Linear Regression and Local RBFNs (선형회귀와 국부적인 RBFN에 의한 점진적인 모델의 설계)

  • Lee, Myung-Won;Kwak, Keun-Chang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.471-473
    • /
    • 2010
  • 본 논문은 선형회귀(LR: Linear Regression)와 국부적인 방사기저함수 네트워크(RBFN: Radial Basis Function Networks)를 결합한 점진적인 모델(incremental model)의 설계와 관련되어진다. 전형적인 RBFN에 의한 모델링과는 달리, 제안된 방법의 근본적인 원리는 두 단계에 의해 고려되어진다. 첫째, 전체 모델의 설계과정에서 전역적인 모델로써 선형회귀에 의해 데이터의 선형부분을 구축한다. 다음으로, 모델링 오차는 오차가 존재하는 국부적인 공간에서 RBFN에 의해 보상되어진다. 여기서, 오차의 분포로부터 RBFN을 설계하기 위해 컨텍스트 기반 퍼지 클러스터링(CFC: Context-based Fuzzy Clustering)를 통해 정보입자의 형태로 구축되어진다. 실험은 자동차 mpg 연료소비량 예측과 부동산 가격예측문제를 통해 제안된 방법의 우수성을 증명한다.

Heuristic Method for Computing Progressive Mesh Representation between Two Polygonal Models (두 다면체 모델 사이의 점진적 표현을 계산하는 휴리스틱 방법)

  • Yoon, Won-Young;Choi, Jung-Ju;Lee, In-Kwon
    • Journal of the Korea Computer Graphics Society
    • /
    • v.9 no.4
    • /
    • pp.25-30
    • /
    • 2003
  • 본 논문에서는 서로 다른 개수의 정점을 가지는 두 다면체 사이의 점진적 다면체 모델 표현(Progressive Mesh Representation)을 계산하는 휴리스틱 방법을 제시한다. 정점의 개수가 각각 n, k개 인 두 다면체 모델 $M^n$, $M^k$ (n > k)에 대하여 $M^n$에서 서로 다른 k개의 정점을 선택한다. 선택된 k개의 정점을 기준으로 $M^n$의 모든 정점에 대한 클러스터링을 수행하여 k개의 정점군(Vertex Set)을 생성한다. $M^n$을 간략화하여 k개의 정점만을 가지는 모델 $M^{k'}$의 위상정보(Topology)를 $M^k$와 동일하게 유지하기 위하여 $M^n$ 정점군들의 위상정보를 수정한다. 수정 생성된 정점군 내에서 선분병합(Edge Collapse)을 수행하면, 위상정보를 유지하면서 $M^n$에서 $M^k$로 변화하는 점진적 다면체 모델 표현을 얻을 수 있다. $M^{k'}$$M^k$의 정점간의 기하학적 위치차이를 선형보간하여 선분병합이 일어날때 마다 반영하면 $M^n$에서 $M^k$로 기하정보를 부드럽게 유지하면서 변화하는 점진적 다면체 모델 표현을 얻을 수 있다. 본 논문의 연구결과는 기존의 DLoD(Discrete Level of Detail)를 지원하는 게임을 CLoD(Continuous Level of Detail)를 지원하는 게임으로 확장하는 등의 다양한 컴퓨터 그래픽스 응용문제에 사용할 수 있다.

  • PDF

SOM Clustering Method based on RFM Analysis for Predicting Customer Purchase Pattern in u-Commerce (RFM 분석 기반 고객 구매 패턴을 예측을 위한 SOM 클러스터링 방법)

  • Cho, Young Sung;Moon, Song Chul;Ryu, Keun Ho
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2013.07a
    • /
    • pp.185-187
    • /
    • 2013
  • 유비쿼터스 컴퓨팅이 생활의 일부가 되어가면서 정보의 양도 급속도로 늘어나고 있으며, 이로 인해 많은 데이터 속에서 정보를 찾아내는 기술이 부각되고 있다. 고객 기반의 협력적 필터링을 이용한 고객 선호도 예측 방법에서는 아이템에 대한 사용자의 선호도를 기반으로 이웃 선정 방법을 사용하므로 아이템에 대한 내용을 반영하지 못할 뿐만 아니라 희박성 문제를 해결하지 못하고 있다. 그리고 비슷한 선호도를 가진 일부 아이템의 정보를 바탕으로 하기 때문에 아이템의 속성은 무시하는 경향이 있다. 본 논문에서는 유비쿼터스 상거래에서 RFM(Recency, Frequency, Monetary) 분석 기반의 SOM을 이용한 군집방법을 제안한다. 제안 방법은 고객의 구매 데이터 기반의 유사한 속성의 데이터끼리의 클러스터링을 통해 보다 빠른 시간 내에 고객 성향에 맞는 추천이 가능한 구매 패턴 추출이 가능하다.

  • PDF

Resource Clustering Simulator for Desktop Virtualization Based on Intra Cloud (인트라 클라우드 기반 데스크탑 가상화를 위한 리소스 클러스터링 시뮬레이터)

  • Kim, Hyun-Woo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.1
    • /
    • pp.45-50
    • /
    • 2019
  • With the gradual advancement of IT, passive work processes are automated and the overall quality of life has greatly improved. This is made possible by the formation of an organic topology between a wide variety of real-life smart devices. To serve these diverse smart devices, businesses or users are using the cloud. The services in the cloud are divided into Infrastructure as a Service (IaaS), Platform as a Service (PaaS) and Software as a Service (SaaS). SaaS runs on PaaS, and PaaS runs on IaaS. Since IaaS is the basis of all services, an algorithm is required to operate virtualization resources efficiently. Among them, desktop resource virtualization is used for resource high availability of unused state time of existing desktop PC. Clustering of hierarchical structures is important for high availability of these resources. In addition, it is very important to select a suitable algorithm because many clustering algorithms are mainly used depending on the distribution ratio and environment of the desktop PC. If various attempts are made to find an algorithm suitable for desktop resource virtualization in an operating environment, a great deal of power, time, and manpower will be incurred. Therefore, this paper proposes a resource clustering simulator for cluster selection of desktop virtualization. This provides a clustering simulation to properly select clustering algorithms and apply elements in different environments of desktop PCs.

Rule extraction from trained neural network using NofM algorithm with improved clustering step (개선된 군집화 단계의 NofM 알고리즘을 이용한 훈련된 신경망으로부터의 규칙추출)

  • Lee, Han-Yul;Ra, Jong-Hei;Kim, Moon-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.581-584
    • /
    • 2001
  • 신경망이 만들어내는 출력에 대한 정보는 수치적으로 분산되어 신경망에 저장되므로, 인간이 직접 해석하기가 힘들다. 본 논문에서는 LRE(link rule extraction)기법인 NofM 알고리즘의 6단계 중에서 초기 단계인 가중치 군집화 단계를 개선하여 추출되는 규칙들의 전제부에 들어가는 규칙 조건들의 수를 조절함으로써, 추출된 규칙이 입력 특성에 대한 정보를 과잉 일반화하거나, 과잉 구체화하는 것을 피할 수 있음을 실험을 통해 보였다. 일반적으로 NofM 알고리즘에서 가중치들을 군집화한 때는 Join 알고리즘을 사용하는데, 본 논문에서는 Join 알고리즘의 Join condition을 0.05부터 0.25까지 0.05씩 점진적으로 확대하여 클러스터링을 하여줌으로써 신경망의 출력에 중요한 역할을 하는 가중치들을 효과적으로 군집화함을 보였다.

  • PDF

The Shot Change Detection Using a Hybrid Clustering (하이브리드 클러스터링을 이용한 샷 전환 검출)

  • Lee, Ji-Hyun;Kang, Oh-Hyung;Na, Do-Won;Lee, Yang-Won
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.2
    • /
    • pp.635-638
    • /
    • 2005
  • The purpose of video segmentation is to segment video sequence into shots where each shot represents a sequence of frames having the same contents, and then select key frames from each shot for indexing. There are two types of shot changes, abrupt and gradual. The major problem of shot change detection lies on the difficulty of specifying the correct threshold, which determines the performance of shot change detection. As to the clustering approach, the right number of clusters is hard to be found. Different clustering may lead to completely different results. In this thesis, we propose a video segmentation method using a color-X$^2$ intensity histogram-based fuzzy c-means clustering algorithm.

  • PDF