• Title/Summary/Keyword: 군집 수 결정

Search Result 365, Processing Time 0.031 seconds

A Natural Clustering of Instances Based On Universial Gravity (만유인력에 기반한 자연적 개체 군집화)

  • 김은주;고재필;변혜란;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.3-5
    • /
    • 2000
  • 현존하는 다양한 군집화 알고리즘들이 개체들을 군집화하기 위하여 사용하는 기준들은 일반적으로 인위적으로 설정된 것들이다. 이러한 기준들은 개체들 자체로부터 나오는 자연스러운 기준이라기 보다는 군집을 위하여 임의로 선정된 것이므로 군집화의 기본 목적인 개체들을 자연스러운 그룹들로 분할하고자 하는데 있어 한계를 갖게 된다. 본 논문에서는 이러한 점에 주목하여 현존하는 자연계의 군집 법칙으로 대표되는 만유인력의 법칙을 사용한 개체 군집화 알고리즘을 제안함으로써 기본적인 목적에 충실한 군집화를 실현하고자 한다. 이 방법은 기존의 방법론들에서 찾아볼 수 없었던 자연 법칙에 근거한 새로운 군집화 시도일 뿐만 아니라, 초기조건에 관계없이 안정적인 성능을 보이고 또한 군집의 수가 자연 법칙에 따라 자동으로 결정되는 특성을 지니고 있어 다양한 실질적인 응용 분야에서 효과적으로 사용될 수 있는 새로운 군집화 도구가 될 수 있을 것으로 보인다.

  • PDF

Determining the number of Clusters in On-Line Document Clustering Algorithm (온라인 문서 군집화에서 군집 수 결정 방법)

  • Jee, Tae-Chang;Lee, Hyun-Jin;Lee, Yill-Byung
    • The KIPS Transactions:PartB
    • /
    • v.14B no.7
    • /
    • pp.513-522
    • /
    • 2007
  • Clustering is to divide given data and automatically find out the hidden meanings in the data. It analyzes data, which are difficult for people to check in detail, and then, makes several clusters consisting of data with similar characteristics. On-Line Document Clustering System, which makes a group of similar documents by use of results of the search engine, is aimed to increase the convenience of information retrieval area. Document clustering is automatically done without human interference, and the number of clusters, which affect the result of clustering, should be decided automatically too. Also, the one of the characteristics of an on-line system is guarantying fast response time. This paper proposed a method of determining the number of clusters automatically by geometrical information. The proposed method composed of two stages. In the first stage, centers of clusters are projected on the low-dimensional plane, and in the second stage, clusters are combined by use of distance of centers of clusters in the low-dimensional plane. As a result of experimenting this method with real data, it was found that clustering performance became better and the response time is suitable to on-line circumstance.

Entropy-based Clustering Validation Technique for Categorical Data Sets (범주형 데이터 집합에 대한 엔트로피 기반 군집 유효화 기술)

  • Park Namhyun;Ahn Chang Wook;Ramakrishna R.S.
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.477-480
    • /
    • 2004
  • 본 논문에서는 고차원의 특성을 가진 범주형 데이터 집합의 군집 유효화 기술에 대하여 알아본다. 먼저, 범주형 데이터 집합에 대하여 한 군집의 센트로이드를 정의함에 따라 일반적인 군집화 방법에서 사용되는 쌍 유사성 측정을 가능하게 한다. 다음으로, 범주형 데이터 집합에 대한 증분 군집 알고리즘을 통하여 도출된 결과에 대해 최적 군집 수의 결정하기 위하여 엔트로피 기반 군집 유효화 지수를 사용한다. 이를 통하여 일반적인 군집 알고리즘에서 최적 결과를 얻기 위해 필요한 문턱값 결정 문제를 손쉽게 해결한다. 마지막으로, 위의 개념들을 여러 데이터 집합에 대해 실험한다.

  • PDF

데이터 마이닝에서의 군집분석 알고리즘 비교 연구

  • Lee, Yeong-Seop;An, Mi-Yeong
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2003.05a
    • /
    • pp.19-25
    • /
    • 2003
  • 데이터베이스에 내재된 패턴이나 관계를 묘사한 것만으로도 의사결정에 필요한 정보를 제공할 수 있는데 이 데이터들의 변수들을 비슷한 특징을 가지는 소그룹으로 나누어 패턴을 찾는 것을 군집분석이라 한다. 이러한 군집 분석에는 분리군집방법과 계층적군집방법이 있는데, 재할당이 가능한 분리군집방법의 여러 알고리즘에 대해 비교해보자. 분리군집알고리즘에는 중심을 평균으로 하는 k-평균 알고리즘과, 중심을 메도이드로하는 PAM, CLARA, CLARANS 알고리즘이 있다. 이러한 알고리즘에 대한 이론과, 장단점을 설명하고, 분산과 중심들간의 평균 거리로 비교해 본다.

  • PDF

A Study of Criterion for Efficient Clustering Estimation of Temporal Data (Temporal 데이터의 효율적 군집 추정을 위한 기준 연구)

  • Jeon, Jin-Ho;Kim, Min-Soo
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.11 no.5
    • /
    • pp.139-144
    • /
    • 2011
  • Most real world system such as world economy, management, medical and engineering applications contain a series of complex phenomena. One of common methods to understand these system is to build a model and analyze the behavior of the system. As a first step, Determining the best clusters on data. As a second step, Determining the model of the cluster. In this paper, we investigated heuristic search methods for efficient clustering. It is also confirmed that the Bayesian Information Criterion more reliable than Cheeseman-Stutz ones.

Numerical Study on Feeding Efficiency in Sand Dollar Aggregation (연잎성게의 군집 형태에 따른 포식 효율의 수치적 연구)

  • O, Gwang-Seok;Kim, Jong-Am
    • Proceeding of EDISON Challenge
    • /
    • 2013.04a
    • /
    • pp.310-315
    • /
    • 2013
  • 연잎성게가 몸체의 방향을 유입류에 평행하게 맞추어 포식하는 이유에 대해서는 크게 유체역학적인 설명과 생태학적인 설명이 양립하고 있다. O'Neill과 Nakamura와 같은 연구자들에 의해 연잎성게의 이러한 행태를 유체역학의 관점에서 설명할 수 있지만, 정작 셋 이상의 연잎성게 군집의 포식 효율에 대해서는 개체 수에 기반을 둔 생태학적 관점에 의존하고 있다. 따라서 본 연구에서는 연잎성게 군집 내에서의 개체들의 배열을 모델링하고, 다양한 군집 배열에서 개체들의 포식 효율을 EDISON_전산열유체 시스템을 활용해 분석하였다. 특히 포식 효율을 결정하는 과정에서 얇은 익형 이론을 이용함으로써 포식효율을 결정하는 유체역학적 특성이 양력계수임을 확인하였다.

  • PDF

Capacity determination of rainwater detention tanks using particle swarm optimization (입자 군집 최적화 기법을 이용한 빗물 저류지 용량 결정)

  • Jeong, Taekmun;Jin, Youngkyu;Kang, Taeuk;Lee, Sangho
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.353-353
    • /
    • 2020
  • 기후변화에 적응하기 위해 많은 나라들이 수자원 관리 전략을 마련하고 있으며, 대체 수자원 활성화 방안에 관심을 기울이고 있다. 본 연구에서는 대체 수자원 활성화 방안 중 빗물 저류지의 용량 결정 방법을 제시하고자 한다. 빗물 저류지의 용량을 결정하기 위해 메타 휴리스틱 방법 중 하나인 입자 군집 최적화(particle swarm optimization; PSO)를 선정하였다. 이는 기존 실제 설계에 사용되고 있는 시행착오법보다 시간을 단축시킬 수 있다. 최적화 모형은 python의 pyswarm package를 이용해 구성하였다. 모형의 입력자료는 저류지 유입량과 목표 공급량, 목표 보장률이고, 목적함수는 빗물 저류지 용량의 최소화이다. 제약조건은 모의된 보장률이 목표 보장률 이상을 달성하는 것이다. 여기서, 보장률은 전체 모의 기간 중 목표 공급량을 공급한 기간의 비율이다. 제시한 방법론의 적용성을 검토하기 위해 실제 저류지가 설계된 인천의 청라지구 1공구를 선정하여 적용하였다. 최적화 모형의 입력 유입량은 SWMM으로 산정된 1995년부터 2004년까지의 유출량이며, 목표 공급량은 실제 설계에 활용된 용수 목적별 요구 수량이다. 여기서 용수 목적별 요구 수량은 대상지역의 노면 청소수, 화장실 세정수, 호수 유지수 등이다. 산정 결과 계산 시간은 약 30초 소요되며, 목표 보장률을 만족하는 저류지 용량이 결정되었다. 본 연구에 제시한 방법은 제약조건이 추가되어도 기존 시행착오법에 비해 간편함을 확인하였다.

  • PDF

군집방법의 역사와 응용사례에 관한 고찰

  • 이승우
    • Journal for History of Mathematics
    • /
    • v.10 no.2
    • /
    • pp.48-52
    • /
    • 1997
  • 통계학이란 미래에 대한 예측을 하고 이에 대비하여 합리적인 의사결정을 내리는데 도움을 받을 수 있는 학문이다. 최근 다변량 통계분석은 관찰이나 실험의 대상이 되는 하나 이상의 변수들을 동시에 분석할 수 있는 매우 실제성이 높은 분석방법으로 통계학, 경영학, 사회학, 심리학, 생물학 등 여러 전공 분야에서 복잡하고 다양한 자료 분석에 폭넓게 활용되고 있다. 이 논문에서는 다변량 분석 방법 중 컴퓨터와 통계 분석 소프트웨어의 발전으로 인하여 최근에 활발히 연구되고 있는 군집방법의 역사와 여러 연구분야의 실제자료분석에 응용할 수 있도록 군집분석을 6가지로 나누어서 분류하였고 그 방법론을 제시하였다.

  • PDF

A Fusion of the Period Characterized and Hierarchical Bayesian Techniques for Efficient Cluster Analysis of Time Series Data (시계열자료의 효율적 군집분석을 위한 구간특징화와 계층적 베이지안 기법의 융합)

  • Jung, Young-Ae;Jeon, Jin-Ho
    • Journal of Digital Convergence
    • /
    • v.13 no.7
    • /
    • pp.169-175
    • /
    • 2015
  • An effective way to understand the dynamic and time series that follows the passage of time, as valuation is to establish a model to analyze the phenomena of the system. Model of the decision process is efficient clustering information of the total mass of the time series data of the relevant population been collected in a particular number of sub-groups than to look at all a time to an understand of the overall data through each community-specific model determination. In this study, a sub-grouping of the group and the first of the two process model of each cluster by determining, in the following in sub-population characterized by a fusion with heuristic Bayesian clustering techniques proposed a process which can reduce calculation time and cost was confirmed by experiments using actual effectiveness valuation.

A Study of Similar Blog Recommendation System Using Termite Colony Algorithm (흰개미 군집 알고리즘을 이용한 유사 블로그 추천 시스템에 관한 연구)

  • Jeong, Gi Sung;Jo, I-Seok;Lee, Malrey
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.13 no.1
    • /
    • pp.83-88
    • /
    • 2013
  • This paper proposes a recommending system of the similar blogs gathered with similarities between blogs according to the similarity, dividing words, for each frequency, that individual blogs have. It improved the algorithm of k-means, using the model of the habits of white ants for better performance of clustering, and showed better performance of clustering as a result of evaluating and comparing with the existing algorithm of k-means as the improved algorithm. The recommending system of similar blog was designed and embodied, using the improved algorithm. TCA can reduce clustering time and the number of moving time for clustering compare with K-means algorithm.