• Title/Summary/Keyword: 클러스터 간 유사도

Search Result 106, Processing Time 0.025 seconds

A Novel Linkage Metric for Overlap Allowed Hierarchical Clustering (중복을 허용하는 계층적 클러스터링 기법에서 클러스터 간 유사도 평가)

  • Jeon, Joon-Woo;Song, Kwang-Ho;Kim, Yoo-Sung
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.157-161
    • /
    • 2016
  • 본 논문에서는 클러스터 간의 중복을 허용한 계층적 클러스터링(hierarchical clustering) 기법에 적합한 클러스터 간 유사도 평가방법(linkage metric)을 제안하였다. 클러스터 간 유사도 평가방법은 계층적 클러스터링에서 클러스터를 통합하거나 분해하는데 쓰이며 사용된 방법에 따라 클러스터링의 결과가 다르게 형성된다. 기존의 클러스터 간 유사도 평가방법인 single linkage, complete linkage, average linkage 중 single linkage와 complete linkage는 클러스터 간 중복이 허용된 환경에서 정확도가 낮은 문제점이 있고, average linkage는 정확도가 두 방법에 비해 높지만 계산 시간 소요가 크다는 단점이 있다. 따라서 본 논문에서는 기존의 average linkage를 개선하여 중복된 데이터에 의한 필요 계산량을 크게 줄임으로써 시간적 성능이 우수한 클러스터 간 유사도 평가방법을 제안하였다. 또한, 제안된 방법을 기존 방법들과 비교실험하여 중복을 허용하는 계층적 클러스터링 환경에서 정확도는 비슷하거나 더 높고, average linkage에 비해 계산량이 감소됨을 확인하였다.

  • PDF

A Novel Linkage Metric for Overlap Allowed Hierarchical Clustering (중복을 허용하는 계층적 클러스터링 기법에서 클러스터 간 유사도 평가)

  • Jeon, Joon-Woo;Song, Kwang-Ho;Kim, Yoo-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.157-161
    • /
    • 2016
  • 본 논문에서는 클러스터 간의 중복을 허용한 계층적 클러스터링(hierarchical clustering) 기법에 적합한 클러스터 간 유사도 평가방법(linkage metric)을 제안하였다. 클러스터 간 유사도 평가방법은 계층적 클러스터링에서 클러스터를 통합하거나 분해하는데 쓰이며 사용된 방법에 따라 클러스터링의 결과가 다르게 형성된다. 기존의 클러스터 간 유사도 평가방법인 single linkage, complete linkage, average linkage 중 single linkage와 complete linkage는 클러스터 간 중복이 허용된 환경에서 정확도가 낮은 문제점이 있고, average linkage는 정확도가 두 방법에 비해 높지만 계산 시간 소요가 크다는 단점이 있다. 따라서 본 논문에서는 기존의 average linkage를 개선하여 중복된 데이터에 의한 필요 계산량을 크게 줄임으로써 시간적 성능이 우수한 클러스터 간 유사도 평가방법을 제안하였다. 또한, 제안된 방법을 기존 방법들과 비교 실험하여 중복을 허용하는 계층적 클러스터링 환경에서 정확도는 비슷하거나 더 높고, average linkage에 비해 계산량이 감소됨을 확인하였다.

  • PDF

Association-rule based ensemble clustering for adopting a prior knowledge (사전정보 활용을 위한 관련 규칙 기반의 Ensemble 클러스터링)

  • Go, Song;Kim, Dae-Won
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.67-70
    • /
    • 2007
  • 본 논문은 클러스터링 문제에서 사전 정보에 대한 활용의 효율을 개선시킬 수 있는 방법을 제안한다. 클러스터링에서 사전 정보의 존재 시 이의 활용은 성능을 개선시킬 수 있는 계기가 될 수 있으므로 그의 활용 폭을 늘리기 위한 방법으로 다양한 사용 방법의 적용인 semi-supervised 클러스터링 앙상블을 제안한다. 사전 정보의 활용 방법의 방안으로써 association-rule의 개념을 접목하였다. 클러스터 수를 다르게 적용하더라도 패턴간의 유사도가 높으면 같은 그룹에 속할 확률은 높아진다. 다양한 초기화에 따른 클러스터의 동작은 사전 정보의 활용을 다양화 시키게 되며, 사전 정보에 충족하는 각각의 클러스터 결과를 제시한다. 결과를 총 취합하여 association-matrix를 형성하면 패턴간의 유사도를 얻을 수 있으며 결국 association-matrix를 통해 클러스터링 할 수 있는 방법을 제시한다.

  • PDF

Hierarchic Document Clustering in OPAC (OPAC에서 자동분류 열람을 위한 계층 클러스터링 연구)

  • 노정순
    • Journal of the Korean Society for information Management
    • /
    • v.21 no.1
    • /
    • pp.93-117
    • /
    • 2004
  • This study is to develop a hierarchic clustering model fur document classification and browsing in OPAC systems. Two automatic indexing techniques (with and without controlled terms), two term weighting methods (based on term frequency and binary weight), five similarity coefficients (Dice, Jaccard, Pearson, Cosine, and Squared Euclidean). and three hierarchic clustering algorithms (Between Average Linkage, Within Average Linkage, and Complete Linkage method) were tested on the document collection of 175 books and theses on library and information science. The best document clusters resulted from the Between Average Linkage or Complete Linkage method with Jaccard or Dice coefficient on the automatic indexing with controlled terms in binary vector. The clusters from Between Average Linkage with Jaccard has more likely decimal classification structure.

A Study on Region matching method for Region-based Image Retrieval (영역 기반 이미지 검색을 위한 영역 매칭 방법에 관한 연구)

  • 추연웅;최기호
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.155-158
    • /
    • 2002
  • 본 논문은 영역기반의 영상 검색을 위해 향상된 영역 매칭 알고리즘을 구현하고자 한다. 최근의 Mpeg-7표준은 객체 기반의 영상처리를 특징으로 하고 있으며, 객체 기반의 영상 처리방법들에서 가장 대표적인 방법인 영역기반 검색 방법은 영역 분할과 특징 추출, 그리고 영역매칭을 통한 유사도 측정에 따른 검색으로 나뉘어 진다. 본 논문에서는 영상을 분할한 후 분할된 영역들에 대한 특징을 추출 하고, 추출된 특징들을 다차원 특징 공간에서의 클러스터로 구성한다. 그리고 구성된 클러스터들을 인접한 중심을 가진 특징 그룹화 하여 특징 그룹 중심간의 거리차를 이용하여 질의 이미지와 검색 이미지의 유사도를 측정하는 영역 매칭 방법을 제안한다.

  • PDF

An Efficient Parallel Information Retrieval System using Document Clustering (문서 클러스터링에 의한 효율적인 병렬 정보검색 시스템)

  • Gang, Yu-Gyeong;Ryu, Gwang-Ryeol;Jeong, Sang-Hwa
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.2
    • /
    • pp.157-167
    • /
    • 2001
  • 본 논문은 고품질의 정보를 신속하게 제공할 수 있으면서 가격대 성능비가 우수한 병렬 정보 검색 시스템을 제시하고 있다. 본 검색 시스템은 문서 라이브러리를 여러 개의 클러스터로 세분화하고 검색 시 클러스터 단위로 프로세서에 할당함으로써 작업 단위를 적절한 규모로 하였을 뿐만 아니라, 문서의 점수 계산 시 프로세서 간 통신이 전혀 필요치 않게 하였다. 검색은 1차로 클러스터 레벨에서 관련 클러스터들을 찾는 것으로 시작하여 2차로 관련 클러스터 내에서 실제 문서를 찾는 방식으로 이루어진다. 이러한 계층적인 검색 구조로 인하여 1차 검색 후 여과가 가능하므로 전체적인 검색의 부하를 줄일 수 있다. 또한 문서의 클러스터가 가능한 한 유사한 문서군이 되도록 함으로써 불필요한 클러스터가 검색될 가능성을 최소화하여 성능을 높였다. 본 검색 시스템은 분산메모리 MIMD 구조의 다중 트랜스퓨터 시스템에서 구현되었으며, 실험 결과 무작위적으로 클러스터링한 경우에 비해 유사 문서군으로 클러스터링한 접근 방법이 우수함을 확인하였다.

  • PDF

Fuzzy Clustering for Fuzzy Data1 (퍼지값을 갖는 데이터에 대한 퍼지 클러스터링)

  • 이건명
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.27-29
    • /
    • 1998
  • 클러스터링은 데이터의 특성 추출, 데이터의 압축 등을 목적으로 동일 클러스터에 속하는 데이터간에는 유사성이 크도록 하면서 다른 클러스터에 속하는 데이터간에는 유사성이 작도록 데이터를 군집화하는 것이다. 일상에서 발생하는 많은 데이터에는 관측 오류, 불확실성, 주관적인 판정 등으로 인해서 데이터의 속성값이 정확한 값으로 주어지지 않은 경우가 있다. 본 논문에서는 분명한 값뿐만 아니라 퍼지값도 포함한 데이터들에 대해서 퍼지 클러스터링하는 방법을 제안한다.

  • PDF

A Study of Efficient Set Detour Routing using Context-Aware Matrix (MANET에서 상황인식 매트릭스를 이용한 효율적인 우회경로설정에 관한 연구)

  • Oh, Dong-keun;Oh, Young-jun;Lee, Kang-whan
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2013.10a
    • /
    • pp.517-518
    • /
    • 2013
  • 모바일 에드 혹 네트워크(Mobile Ad hoc Network)는 이동성을 가진 노드로 구성된 네트워크로서, 통신기반 시설의 지원이 없어도 스스로 통신망을 구축하여 통신한다. 하지만 노드의 이동성으로 인한 토폴로지의 변화가 빈번하여, 라우팅 경로 재설정으로 인한 오버헤드가 생성된다. 오버헤드 생성을 줄이기 위하여 클러스터링을 이용한 연구가 진행되어 왔다. 클러스터가 형성된 MANET에서 클러스터 헤드 노드가 이동함에 따라 클러스터 영역을 벗어나게 되었을 경우, 클러스터 그룹에 속하는 멤버 노드들은 패킷을 보내지 못하며, 클러스터 헤드노드를 선출하지 못하여 사용할 수 없는 노드가 된다. 본 논문에서는 클러스터 헤드 노드가 클러스터 영역을 벗어날 경우, 클러스터 멤버노드의 상황인자 속성 벡터 정보가 유사한 클러스터 헤드노드를 이웃한 주변 클러스터 헤드로부터 검색 및 선택하여, 우회경로를 제공하는 알고리즘을 제안한다. 제안된 알고리즘에서 각 노드는 상황정보 매트릭스를 가지고 있어, 전송 커버리지 영역이 2홉 이내 반경에 있는 노드의 벡터 정보를 저장하게 된다. 클러스터 헤드 노드와의 연결이 끊어 졌을 경우, 클러스터 멤버 노드는 상황정보 매트릭스를 이용하여, 벡터정보가 유사한 클러스터 헤드 노드를 선택하여, 노드 간의 연결성 및 패킷의 전달성이 향상 된다.

  • PDF

Faults Current Discrimination Using FCM (FCM을 이용한 고장전류의 판별에 관한 연구)

  • Jeong, Jong-Won;Ji, Suk-Joon;Lee, Joon-Tark;Kim, Kwang-Back
    • Proceedings of the KIPE Conference
    • /
    • 2007.07a
    • /
    • pp.458-460
    • /
    • 2007
  • RBF 네트워크의 중간층은 클러스터링 하는 층으로 주어진 자료 집합을 유사한 클러스터들로 분류하는 것이다. 여기서 유사하다는 것은 입력 데이터들에 대한 특징 벡터 공간사이에서 한 클러스터내의 벡터들 간에 거리를 측정하여 정해진 반경 내에 존재하면 같은 클러스터로 분류하고 정해진 반경 내에 존재하지 않으면 다른 클러스터로 분류한다. 그러나 정해진 반경 내에서 클러스터링 하는 것은 잘못된 클러스터를 선택하는 단점을 가지게 된다. 그러므로 중간층을 결정하는 것은 RBF 네트워크의 전반적인 효율성에 큰 영향을 준다. 따라서 본 논문에서는 효율적으로 중간층을 결정하기 위한 방법으로 퍼지 C-Means 클러스터링 알고리즘을 이용하고자 하였다. 그리하여 본 논문에서는 고장 전류의 특성을 해석하여 그 원인을 판단, 분류하기 위하여 전력계통의 고장 기록 장치로부터 얻어지는 선로의 전류 데이터를 FCM을 이용 분류하여 다양한 고장 모드를 판별할 수 있었다.

  • PDF

Fuzzy RBF Network using FCM (FCM을 이용한 퍼지 RBF 네트워크)

  • 김재용;이상수;이준행;김광백
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2004.05b
    • /
    • pp.158-161
    • /
    • 2004
  • RBF 네트워크의 중간층은 클러스터링하는 층이다. 즉, 이 충의 목적은 주어진 자료 집합을 유사한 클러스터들(homogenous cluster)로 분류하는 것이다. 여기서 유사하다는 것은 입력 데이터들에 대한 특징 벡터 공간사이에서 한 클러스터내의 벡터들 간에 거리를 측정하여 정해진 반경 내에 존재하면 같은 클러스터로 분류하고 정해진 반경 내에 존재하지 않으면 다른 클러스터로 분류한다. 그러나 정해진 반경 내에서 클러스터링하는 것은 잘못된 클러스터를 선택하는 단점을 가지게 된다. 그러므로 중간층을 결정하는 .것은 RBF 네트워크의 전반적인 효율성에 큰 영향을 준다. 따라서 본 논문에서는 효율적으로 중간층을 결정하기 위한 방법으로 퍼지 C-Means 클러스터링 알고리즘을 적용한 퍼지 RBF 네트워크를 제안한다. 제안된 퍼지 RBF 네트워크의 학습은 크게 두 단계로 구분된다. 첫 번째 단계는 입력층과 중간층 사이에 퍼지 C-Means 알고리즘이 수행되고, 두 번째 단계는 중간층과 출력층 사이에 지도학습이 수행된다. 제안된 방법의 학습 성능을 평가하기 위하여 실제 주민등록증에서 추출한 숫자패턴에 적용한 결과, 기존의 RBF네트워크 보다 학습 성능이 개선된 것을 확인하였다.

  • PDF