• 제목/요약/키워드: 클러스터링 알고리즘

검색결과 985건 처리시간 0.032초

고정 그리드 파일의 객체 및 셀 클러스터링 알고리즘 (Object and Cell Clustering Algorithms of the Fixed Grid File)

  • 조대수;유진영;홍봉희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권1호
    • /
    • pp.69-85
    • /
    • 2001
  • 공간 데이터베이스에서 효율적으로 공간 질의를 처리하기 위해서는 클러스터링을 통해서 이스크 접근 비용을 줄이는 것이 필요하다. 이 논문은 공간 지역성에 기반을 둔 여러 가지 클러스터링 알고리즘을 제안하고 실험을 통해 제안한 클러스터링 알고리즘의 성능을 평가하였다. 이 논문에서 제안하는 클러스터링 알고리즘은 객체 클러스터링 알고리즘과 셀 클러스터링 알고리즘으로 나뉜다. 객체 클러스터링 알고리즘은 정규 준할 공간 색인 구조에서 영역 분할 선과 겹치는 객체들의 저장 위치를 결정하는데 사용된다. 셀 클러스터링 알고리즘은 클러스터를 만들기 위해 정규 분할된 영역들을 그룹화하는데 사용된다. 실험결과 객체 클러스터링 알고리즘에서는 객체간의 거리를 이용한 경우에 대체로 좋은 성능을 보였지만, 버퍼 크기가 커지거나 데이터가 희박한 영역의 질의에 있어서는 알고리즘 별로 성능의 차이는 거의 없었다. 셀 클러스터링 알고리즘에 대한 실험에서는 이 논문에서 제안한 클러스터링 알고리즘은 N-순서화 기법에 의한 클러스터링 알고리즘에 비해 우수한 성능을 보였다. 특히 중복 참조도를 이용한 경우와 셀의 무게 중심간 거리를 이용한 방법이 가장 우수하였다.

  • PDF

후처리 웹 문서 클러스터링 알고리즘 (A Post Web Document Clustering Algorithm)

  • 임영희
    • 정보처리학회논문지B
    • /
    • 제9B권1호
    • /
    • pp.7-16
    • /
    • 2002
  • 웹 검색 엔진의 검색 결과를 클러스터링하는 후처리 클러스터링 알고리즘은 그 특성상 일반적인 클러스터링 알고리즘과는 다른 요구조건을 갖는다. 본 논문에서는 이러한 후처리 클러스터링 알고리즘의 요구조건들을 최대한 만족하는 새로운 클러스터링 알고리즘을 제안하고자 한다. 제안된 Concept ART는 문서 클러스터링에 있어 여러 가지 장점을 갖는 개념 벡터와 실시간 클러스터링 알고리즘으로 알려진 Fuzzy ART를 결합한 형태로써, 후처리 클러스터링뿐 아니라 범용의 클러스터링 알고리즘으로도 응용이 가능하다.

웹마이닝을 위한 퍼지 클러스터링 알고리즘 (Fuzzy Clustering Algorithm for Web-mining)

  • 임영희;송지영;박대희
    • 한국지능시스템학회논문지
    • /
    • 제12권3호
    • /
    • pp.219-227
    • /
    • 2002
  • 웹 검색 엔진의 검색 결과를 클러스터링하는 후처리 클러스터링 알고리즘은 그 특성상 일반적인 클러스터링 알고리즘과는 다른 요구조건을 갖는다. 본 논문에서는 이러한 후처리 클러스터링 알고리즘의 요구조건들을 최대한 만족하는 새로운 클러스터링 알고리즘을 제안하고자 한다. 제안된 Fuzzy Concept ART는 무서 클러스터링에 있어 여러 가지 장점을 갖는 개념 벡터와 실시간 클러스터링 알고리즘으로 알려진 Fuzzy ART를 퍼지이론에 기반하여 결합한 형태로써, 후처리 클러스터링뿐 아니라 범용의 클러스터링 알고리즘으로도 응용이 가능하다.

Gath-Geva 알고리즘을 이용한 유전자 발현 데이터의 분석 (Analysis of Gene Expression Data Using Gath-Geva Algorithm)

  • 박한샘;유시호;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.253-255
    • /
    • 2004
  • 다량의 유전자 발현 정보를 담고 있는 DNA 마이크로어레이 기술의 발달로 인해 대량의 생물정보를 한번의 실험을 통해 분석할 수 있게 되었다. 유전자 발현 데이터를 분석하는 방법 중 하나인 클러스터링은 비슷한 기능을 가진 유전자들을 그룹별로 묶어서 그룹 레의 유전자들의 기능을 밝히거나 미지의 유전자를 분석하는데 이용되고 있다 본 논문에서는 유전자 발현 데이터를 클러스터링 하여 그로부터 유전 정보를 찾아내기 위한 방법으로 GG (Gath-Geva) 알고리즘을 제시한다. 퍼지 클러스터링 알고리즘중 하나인 GG 알고리즘은 대표적인 퍼지 클러스터링 방법인 퍼지 c-means 와 GK (Gustafson-Kessel) 알고리즘을 개선한 것으로. 차원이 크고 분포가 애매하여 클러스터링이 어려운 유전자 발현 데이터의 클러스터링에 적합한 알고리즘이다. 혈청(Serum) 유전자 데이터와 효모(Yeast) 세포주기 데이터를 CG 알고리즘 이용해 클러스터링 해 보고, 그 결과를 퍼지 c-means 알고리즘, GK알고리즘과 비교해 본 결과, GG 알고리즘이 유전자 발현 데이터의 클러스터링에 더 적합함을 확인하였다.

  • PDF

클러스터 측정과 유전자 알고리즘을 이용한 문서 클러스터링 (Document Clustering using Generic Algorithm and Cluster Measurement)

  • 최임천;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.490-493
    • /
    • 2010
  • 본 논문에서는 클러스터 측정(Cluster Measurement)과 유전자 알고리즘을 이용한 문서 클러스링 알고리즘을 제안한다. 유전자 알고리즘의 요소를 클러스터링에 대입하고 클러스터 측정을 적합도 함수에 대입하여 문서 클러스터링을 구현하였다. 성능 평가를 위하여 한국일보-20000/한국일보-40075 문서범주화 실험문서집합의 데이터 셋을 이용하였다. 클러스터링 성능 평가 결과 AS Index가 DB Index, RS Index 보다 좋은 성능을 보여준다. 또한 제안한 알고리즘이 K-means 클러스터링 알고리즘에 비교해 안정적으로 좋은 성능을 보여준다.

다목적 유전자 알고리즘을 이용한문서 클러스터링 (The Document Clustering using Multi-Objective Genetic Algorithms)

  • 이정송;박순철
    • 한국산업정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.57-64
    • /
    • 2012
  • 본 논문에서는 텍스트 마이닝 분야에서 중요한 부분을 차지하고 있는 문서 클러스터링을 위하여 다목적 유전자 알고리즘을 제안한다. 문서 클러스터링에 있어 중요한 요소 중 하나는 유사한 문서를 그룹화 하는 클러스터링 알고리즘이다. 지금까지 문서 클러스터링에는 k-means 클러스터링, 유전자 알고리즘 등을 사용한 연구가 많이 진행되고 있다. 하지만 k-means 클러스터링은 초기 클러스터 중심에 따라 성능 차이가 크며 유전자 알고리즘은 목적함수에 따라 지역 최적해에 쉽게 빠지는 단점을 갖고 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 다목적 유전자 알고리즘을 문서 클러스터링에 적용해 보고, 기존의 알고리즘과 정확성을 비교 및 분석한다. 성능 시험을 통해 k-means 클러스터링(약 20%)과 기존의 유전자 알고리즘(약 17%)을 비교할 때 본 논문에서 제안한 다목적 유전자 알고리즘의 성능이 월등하게 향상됨을 보인다.

문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링 (K-means Clustering Method according to Documentation Numbers)

  • 조시성;안동언;정성종;이신원
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1557-1560
    • /
    • 2003
  • 본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다. 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)을 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

  • PDF

유전자 알고리즘을 이용한 문서 클러스터링 연구 (A Study on Clustering using Genetic Algorithm)

  • 쏭웨이;최임천;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.325-326
    • /
    • 2009
  • 본 논문에서는 효율적인 인공지능 알고리즘인 유전자 알고리즘(GA)을 이용한 문서 클러스터링 시스템을 제안한다. 일반적으로 클러스터링 알고리즘에 가장 많이 사용되는 K-Means는 임의로 결정되는 초기 센트로이드 벡터에 따라 그 성능이 많이 달라지는 것을 볼 수 있다. 이에 본 논문에서는 유전자 알고리즘을 이용하여 안정적이면서도 높은 성능을 보여주는 클러스터링 알고리즘을 개발하였다. 제안한 클러스터링 알고리즘의 성능 평가를 위하여 HANTEC 2.0과 문서 범주화 집단 데이터 셋을 사용하였다. 제안된 방법은 효율적이고 빠른 K-Means를 이용한 클러스터링 알고리즘에 비하여 훨씬 뛰어난 성능을 보였다.

대용량 네트워크 압축 기반 클러스터링 알고리즘 개발 (Development of Clustering Algorithm based on Massive Network Compression)

  • 서동민;유석종;이민호
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2016년도 춘계 종합학술대회 논문집
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF

클러스터 타당성 평가기준을 이용한 최적의 클러스터 수 결정을 위한 고속 탐색 알고리즘 (Fast Search Algorithm for Determining the Optimal Number of Clusters using Cluster Validity Index)

  • 이상욱
    • 한국콘텐츠학회논문지
    • /
    • 제9권9호
    • /
    • pp.80-89
    • /
    • 2009
  • 클러스터링 알고리즘에서 최적의 클러스터 수를 결정하기 위한 효율적인 고속 탐색 알고리즘을 소개한다. 제안하는 방법은 클러스터링 적합도의 척도로 사용되는 클러스터 타당성 평가기준을 토대로 한다. 데이터 집합에 클러스터링 프로세스를 진행하여 최적의 클러스터 형상에 도달하게 되면 클러스터 타당성 평가기준은 최대 혹은 최소값을 가질 것으로 기대한다. 본 논문에서는 최적의 클러스터 개수를 찾기 위한 고속의 비소모적 탐색 방법을 설계하고 실제 클러스터링과 접목한다. 제안하는 알고리즘은 k-means++ 클러스터링 알고리즘에 적용하였고, 클러스터 타당성 평가기준으로써 CB 및 PBM 타당성 평가기준 방법을 사용하였다. 몇몇의 가상 데이터 집합과 실제 데이터 집합에 실험한 결과, 제안하는 방법은 정확도의 손실 없이 계산 효율을 획기적으로 증가시킴을 보여주었다.