• Title/Summary/Keyword: 유사군집

Search Result 1,055, Processing Time 0.031 seconds

Clustering Validity Assessment Using Relative Criteria for finding Optimal Clusters (최적의 군집을 찾기 위한 상대적 군집 평가 방법)

  • 김영옥;이수원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.334-336
    • /
    • 2002
  • 군집 분석은 데이터의 속성을 분석하여 서로 유사한 패턴을 가진 데이터를 묶는 방법이다. 군집 분석은 많은 응용 분야에서 쓰이고 있으나, 수행된 군집 분석 결과가 과연 정확한 결과이고 의미 있는 결과인지를 평가하는데 어려움이 있다. 본 논문에서는 군집이 형성된 데이터를 분석하여 군집 분석 결과를 평가하는 상대적 군집 평가 방법을 제안한다. 본 논문에서는 상대적 군집 평가 방법의 인덱스를 정의하고 형성된 군집 분석 결과에 적용해 최적의 군집, 의미 있는 군집을 찾을 수 있음을 보인다. 또한 실험을 통해 제안한 인덱스의 적합성을 보이며, 제안한 인덱스가 기존의 인덱스에 비해 최적의 군집, 의미 있는 군집을더 잘 찾을 수 있음을 보인다.

  • PDF

Fuzzy Clustering Model using Principal Components Analysis and Naive Bayesian Classifier (주성분 분석과 나이브 베이지안 분류기를 이용한 퍼지 군집화 모형)

  • Jun, Sung-Hae
    • The KIPS Transactions:PartB
    • /
    • v.11B no.4
    • /
    • pp.485-490
    • /
    • 2004
  • In data representation, the clustering performs a grouping process which combines given data into some similar clusters. The various similarity measures have been used in many researches. But, the validity of clustering results is subjective and ambiguous, because of difficulty and shortage about objective criterion of clustering. The fuzzy clustering provides a good method for subjective clustering problems. It performs clustering through the similarity matrix which has fuzzy membership value for assigning each object. In this paper, for objective fuzzy clustering, the clustering algorithm which joins principal components analysis as a dimension reduction model with bayesian learning as a statistical learning theory. For performance evaluation of proposed algorithm, Iris and Glass identification data from UCI Machine Learning repository are used. The experimental results shows a happy outcome of proposed model.

Word Spotting Algorithms Using SIFT in Document Images (SIFT를 이용한 문서 영상에서의 단어 검색 알고리즘)

  • Lee, Duk-Ryong;Jeon, Hyo-Jong;Oh, Il-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.488-490
    • /
    • 2011
  • 본 논문에서는 문서 영상에서 글자 분할 및 인식이 필요 없는 단어 검색 알고리즘을 제안한다. 글자 분할을 하지 않고 검색하기 위해 영상 검색에 사용되는 SIFT특징을 이용하였다. 제안하는 알고리즘은 사용자가 입력한 질의어를 질의 영상으로 변환하고, 질의 영상에서 SIFT특징을 추출한다. 추출된 특징은 문서영상에서 추출한 특징과 매칭을 통해 매칭점 쌍을 생성한다. 생성된 매칭점 쌍들을 군집화 조건에 따라 군집화 한다. 군집화는 질의 영상과 지리적 분포가 유사하게 군집화 되도록 설계되었다. 생성된 군집은 군집에 포함된 특징점의 개수가 많을수록 질의 영상과 유사하다. 따라서 N개 이상의 원소를 가지는 군집을 결과로 출력한다. 실험한 결과 제안하는 알고리즘의 가능성을 확인할 수 있었다.

A Study on Fitness Function of Clustering Algorithm based on Genetic Algorithm (유전자 알고리즘을 이용한 군집화 기법의 적합도 함수에 관한 연구)

  • 이수정;권혜련;김은주;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.310-312
    • /
    • 2001
  • 최근 관심의 대상이 되고 있는 CRM, eCRM에는 데이터 마이닝 기법이 핵심 기술로 이용되고 있다. 이러한 데이터 마이닝 기법가운데 가장 널리 사용되고 있는 군집화는, 데이터 집합을 유사한 데이터의 군집들로 분할하여 데이터 속에 존재하는 의미 있는 정보를 얻는 것이다. 그런데 기존의 군집화 알고리즘은 사전에 군집의 개수를 미리 결정해줘야 하고 잡음에 민감하여 지역적 최적해(local minima)에 수렴할 수 있다는 문제점을 가지고 있다. 이러한 문제점의 개선을 위해, 본 논문에서는 유사도 개념을 적합도 함수로 사용하는 유전자 알고리즘을 적용한 군집화 기법을 제안하다. 특히 적합도 하수에 사용된 군집의 대표값 개념은 요약 정보만을 이용하여 계산속도가 향상되기 때문에 대용량 데이터를 다루는 마이닝에 적합할 것을 기대된다.

  • PDF

Diversity of Arbuscular Mycorrhizal Fungi in Rhizospheres of Camellia japonica and Neighboring Plants Inhabiting Wando of Korea (전남 완도에 서식하는 동백나무와 그 주변 식물의 근권에 분포하는 수지상균근균의 다양성)

  • Lee, Eun-Hwa;Ka, Kang-Hyeon;Eom, Ahn-Heum
    • The Korean Journal of Mycology
    • /
    • v.42 no.1
    • /
    • pp.34-39
    • /
    • 2014
  • In this study, the community structures of arbuscular mycorrhizal fungi (AMF) in rhizospheres of Camellia japonica and neighboring woody plants in Wando, Korea were investigated. Rhizospheres of C. japonica and other woody plants were dominated by the same species, Acaulospora mellea, but Shannon's index, species richness and total spore numbers of the AMF communities were higher in non-C. japonica than in neighboring plants. Regardless of host plant species, the frequency of A. mellea was significantly high comparing with other AMF species. The community similarity of AMF within C. japonica was significantly higher than between C. japonica and neighboring plants or neighboring plants (p<0.005). Results showed that AM fungal communities in rhizospheres of C. japonica have unique community structure and are different from that of neighboring host plants, suggesting that community structure of AMF could be influenced by host plant species.

Social Network Analysis using Common Neighborhood Subgraph Density (공통 이웃 그래프 밀도를 사용한 소셜 네트워크 분석)

  • Kang, Yoon-Seop;Choi, Seung-Jin
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.4
    • /
    • pp.432-436
    • /
    • 2010
  • Finding communities from network data including social networks can be done by clustering the nodes of the network as densely interconnected groups, where keeping interconnection between groups sparse. To exploit a clustering algorithm for community detection task, we need a well-defined similarity measure between network nodes. In this paper, we propose a new similarity measure named "Common Neighborhood Sub-graph density" and combine the similarity with affinity propagation, which is a recently devised clustering algorithm.

A Method Finding Representative Questionare for Mutual Information and Entropy (상호정보와 엔트로피를 활용한 대표문항 선택방법)

  • Choi, Byong-Su;Kim, Hyun-Ji
    • Communications for Statistical Applications and Methods
    • /
    • v.17 no.4
    • /
    • pp.591-598
    • /
    • 2010
  • A questionnaire may consist of duplicated or similar items. This study finds the duplicated or similar items by using the MDS and the cluster analysis of response patterns. By identifying the characteristics of the cluster, those items are combined into a representative item. The similarity of items is measured by the mutual information.

Motif-Based Protein Clustering (Motif 기반의 단백질 군집화)

  • Jin, Hoon;Kim, Hyun-Sik; Kim, In-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.235-237
    • /
    • 2002
  • motif란 기능적으로 유사한 단백질 군의 아마노산 서열들에 공통적으로 나타나는 일정한 패턴이나 부분서열을 말한다. 본 논문에서는 motif들로 각 단백질의 특성을 표현한 다음, 이것을 기초로 유사성을 비교하여 단백질들을 기능적으로 유사한 여러개의 계층적 군으로 나누는 군집화 방법을 소개하였다. 영역 특성상 확장성과 계층성을 가지는 신경망 GHSOM을 군집화 알고리즘으로 사용하였고, 실제 307 개의 단백질들에 대한 군집화 실험을 통해 그 효과를 확인해보았다.

  • PDF

Clustering System Model of Intormation Retrieval using NFC Tag Information (NFC 태그 정보를 이용한 검색 정보의 군집 시스템 모델)

  • Park, Sun;Kim, HyeongGyun;Sim, Su-Jeong
    • Smart Media Journal
    • /
    • v.2 no.3
    • /
    • pp.17-22
    • /
    • 2013
  • The growth of the propagated NFC provides the various services with respect to internet applications, which it can be predicted from the simple internet services to the privated services. This paper proposes the clustering of information retrieval system model using NFC tag of access information for utilizing the similar information of the tag. The proposed model can search the similar information of the tag using the access information of NFC tag. In addition, it can cluster the similar retrieval information into topic cluster for utilizaing users.

  • PDF

Application of Cluster Analysis using Mutual Information (상호정보량 기법을 이용한 군집분석의 적용성 연구)

  • Jung, Young-Hun;Kim, Wan-Su;Jeong, Chang-Sam;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.414-414
    • /
    • 2011
  • 우리나라 뿐만 아니라 전 세계적으로 기후변화로 인한 집중호우, 폭설 등이 빈번하게 일어나고 있으며 수공구조물 설계에 필요한 확률강우량도 증가하고 있다. 확률강우량을 산정하는 빈도해석의 경우 지점빈도해석의 문제점을 보완한 지역빈도해석에 대한 연구가 꾸준히 진행되고 있다. 지역빈도해석을 적용하기 위해서는 수문학적 동질성을 가지는 지역 구분이 무엇보다 중요하다. 군집 분석은 개체들이 지니고 있는 다양한 속성의 유사성을 동질적인 집단으로 군집화하는 방법을 말한다. 군집분석의 기본원리는 분석하고자 하는 여러 특성등을 유사성(similaruty) 거리(distance)로 환산하고 거리가 상대적으로 가까운 개체들을 동질적으로 군집화하는 것이다. 군집분석을 적용하기 위해서는 기상학적 인자와 지형학적 인자를 이용하여 군집분석을 실시한다. 군집분석을 실시할 때 가장 중요한 것은 입력변수의 선택으로 입력 변수의 적절한 선택이 결과값에 큰 영향을 준다. 상호정보량(Mutual Information, MI) 기법은 두 무작위 변수간의 관련성을 측정하는 방법이며 (Cover and Tomas, 2006), 두 변수간의 독립성 구조에 관한 가정이 없고 데이터 변형이나 잡음(noise)에 대한 영향이 적어 다른 기법보다 신뢰도가 높다고 알려져 있다(Peng et al., 2005). 본 연구에서는 상호정보량 기법을 이용하여 군집된 지점들의 종속성과 독립성의 관계를 정량적으로 산정하여 비교하고자 한다.

  • PDF