• 제목/요약/키워드: 데이터 클러스터링

검색결과 1,054건 처리시간 0.03초

고차원 데이터에서 점진적 프로젝션을 이용한 클러스터링 (A Clustering using Incremental Projection for High Dimensional Data)

  • 이혜명;박영배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.189-191
    • /
    • 2000
  • 데이터 마이닝의 방법론 중 클러스터링은 데이터베이스 객체들의 에트리뷰트 값에 근거하여 유사한 그룹으로 식별하는 기술적인 작업이다. 그러나 대부분 알고리즘들은 데이터의 차원이 증가할수록 형성된 전체 데이터 공간은 매우 방대하므로 의미있는 클러스터의 탐색이 더욱 어렵다. 따라서 효과적인 클러스터링을 위해서는 클러스터가 포함될 데이터 공간의 예측이 필요하다. 본 논문에서는 고차원 데이터에서 각 차원에 대한 점진적 프로젝션을 이용한 클러스터링 방법을 제안한다. 제안한 방법에서는 클러스터가 포함될 가능성이 있는 데이터공간의 후보영역을 결정하여, 이 영역에서 점들의 평균값을 중심으로 클러스터를 탐색한다.

  • PDF

Hopfield 네트워크를 이용한 데이터 클러스터링 (Data Clustering Using Hopfield Network)

  • 윤면희;정균락
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.329-331
    • /
    • 2000
  • 데이터 클러스터링은 서로 유사한 성질을 갖는 데이터들은 동일한 클러스터에 분류하고, 이질적인 데이터는 다른 클러스터에 분류하여, 클러스터 내의 유사성은 최대로 하고 클러스터와 클러스터사이의 유사성을 최소로 하는 것을 말한다. 데이터 클러스터링은 데이터 마이닝, 기계 학습, 패턴 인식, 통계 분야 등에 다양하게 활용되고 있다. Hopfield 네트워크는 조합적 최적화 문제를 해결하는데 사용되어 좋은 결과를 나타내고 있다. 본 논문에서는 Hopfield 네트워크를 사용하여 데이터 클러스터링 문제를 해결하는 알고리즘을 연구하였고, 실험을 통해 기존의 방법과 비교하였다.

  • PDF

센서 네트워크 클러스터링 기법의 에너지 효율적인 다중 데이터 지원 방법 연구 (A Study of an Energy Efficient Method of Clustering Scheme for Supporting Multiple Data in Sensor Networks)

  • 최동민;정일용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.101-103
    • /
    • 2012
  • 센서 네트워크 클러스터링 기법은 네트워크의 수명연장에 효율적인 방법이다. 이에 많은 연구에서 효율적인 클러스터링 기법을 제안해 왔으며 지금도 진행 중에 있다. 그러나 기존에 제시된 연구 결과는 센서 노드가 수집하는 데이터가 단일 데이터가 아닌 다중 데이터일 경우, 즉 센서 노드에 여러 개의 센서가 장착되어 있을 경우 데이터 수집 및 전송에 있어 단일 데이터에 비해 비효율적으로 동작 할 수 있다. 이에 본 논문은 다중 센서로부터 수집되는 데이터의 효율적인 전송을 지원하는 클러스터링 기법 개발을 위해 고려해야 할 사항에 대해 연구하였다. 연구 결과, 우리는 센서가 수집하는 데이터의 관심도, 데이터 변화량, 데이터의 내부적인 처리방법, 센서 노드의 배치 밀도 및 데이터 수집 장치의 감지범위가 다중 데이터 센서 네트워크의 클러스터링 기법 설계에 고려되어야 함을 보였다.

지역별 미세먼지 발생 데이터 클러스터링 메소드 설계 및 구현 (Designing and Implementing Clustering Method of Particulate Matter Data by Region)

  • 문주환;윤홍식
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2016년 정기학술대회
    • /
    • pp.424-425
    • /
    • 2016
  • 본 연구는 우리나라의 지역별 미세먼지 발생 데이터에 대한 수집과 그에 대한 분석, 처리 방법에 대한 연구로 수집된 미세먼지 데이터에 대한 클러스터링 메소드를 설계하고 구현하는 것을 목표로한다. 본 연구에서는 기상청 산하의 30여개의 관측소에서 측정된 미세먼지 데이터를 기반으로 클러스터링 작업에 대한 전처리를 실시한다. 이러한 전 처리에는 각 관측소의 미세먼지 데이터의 시계열 그래프의 유사도를 비교하기 위하여 Dynamic Time Warping알고리즘을 활용하였으며 이를 통해 산출되는 DTW값을 통하여 유사도가 높은 미세먼지 측정 지역별 클러스터링을 수행해 클러스터링 군별 미세먼지 발생 원인에 대한 분석과 대비, 피해저감 방안등의 대책 마련을 위한 자료로서 활용됨을 목적으로 한다.

  • PDF

점진적 개념학습의 클러스터 응집도 개선 (The Study on Improvement of Cohesion of Clustering in Incremental Concept Learning)

  • 백혜정;박영택
    • 정보처리학회논문지B
    • /
    • 제10B권3호
    • /
    • pp.297-304
    • /
    • 2003
  • 요즘, 인터넷 등장 이후 폭발적으로 증대되는 웹 정보를 효율적으로 사용하기 위한 시스템들이 요구되고 있다. 이러한 요구를 해결하기 위해 개발된 시스템들은 서비스 정보의 질을 향상시키기 위하여 클러스터링 기법을 이용하고 있다. 클러스터링은 무질서한 데이터들의 상호 연관관계를 정의하고 이를 통하여 보다 체계적으로 데이터를 군집화하는 것이다. 클러스터링을 이용한 시스템은 비슷한 내용을 묶어 사용자에게 제공함으로, 사용자는 보다 효율적으로 정보를 파악할 수 있다. 그래서 이전 연구에서 대량의 데이터를 효율적으로 클러스터링 하기 위하여 통합 클러스터링 방식을 제안하였다. 이 방식은 COBWEB 알고리즘을 이용하여 초기 클러스터를 생성한 후 Etzioni 알고리즘을 이용하여 클러스터링을 생성하는 방식이다. 본 논문은 이러한 기존의 통합 클러스터링 방식의 정확성과 효율성을 높이기 위하여, 다음 두 가지 방식을 제안한다. 첫째, 클러스터할 데이터의 속성의 가중치클 고려한 클러스터링 방식을 제안한다. 둘째, 기존의 클러스터링 방식의 효율성을 지원하기 위하여, 초기 클러스터를 생성하는 평가 함수를 재정의한다. 본 논문에서 제안하는 클러스터링 방식은 방대한 양의 데이터를 효율적으로 처리 할 수 있으며 데이터의 입력 순서의 의존도를 줄여, 데이터를 효과적으로 클러스터, 양질의 사용자 프로파일 구축에 도움을 주게 된다.

그리드 셀 기반 공간 클러스터링 방법 (Grid Cell Based Spatial Clustering Method)

  • 이동규;정정수;문상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.10-12
    • /
    • 2001
  • 대용량의 공간 데이터베이스로부터 임시적이고 유용한 지식을 자동적으로 추출하는 공간데이터 마이닝은 데이터양의 급격히 증가하면서 필요성이 더욱 증대되고 있다. 공간데이타 마이닝에서 데이터를 분석하여 유사한 그룹으로 분류하는 것은 중요한 분야이며, 이를 위해서는 공간 클러스터링 과정이 먼저 수행되어야 한다. 이러한 공간 클러스터링에서 가장 중요한 점은 클러스터링에 드는 비용의 감소와 점 공간객체에 한정된 클러스터링이 아닌 선 및 다각형 객체들의 클러스터링도 가능해야 한다. 본 본문은 이를 위하여 공간지역성을 보장하는 대표적인 공간분할 방법인 그리드 셀을 이용한다. 기존의 클러스터링에서 사용되는 객체들 간의 거리 계산을 인접한 그리드 셀들 간의 관계 연산으로 대체시키는 것이 핵심아이디어이다. 이 방법은 기존 클러스터링에서 객체들 간의 거리 계산으로 인한 비용을 현저하게 줄일 수 있고, 선 및 다각형 객체들의 클러스터링도 가능하게 하는 장점이 있다.

  • PDF

고차원 색인을 위한 효과적 클러스터링 기법 (Effective Clustering Method for High-Dimensional Indexes)

  • 신봉근;곽태영;최승락;이윤준;김명호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.247-249
    • /
    • 1998
  • 최근 들어 내용기반의 이미지 검색을 지원하기 위한 방법으로, 특징 벡터를 이용한 유사 질의 연구가 활발히 진행되고 있다. 이러한 유사 질의를 효율적으로 지원하기 위해서는 고차원 공간상에 존재하는 점 데이터나 공간 데이터를 효과적으로 색인할 수 있는 색인 기법이 필요하다. 하지만 R*-트리를 바탕으로 하는 기존의 방법들은 고차원 데이터에 대해서 차원의 증가함에 따라 검색 시간이 급격하게 증가하는 문제점을 안고 있다. 이러한 문제는 데이터의 클러스터링에 기반을 둔 기존의 방법들이 차원이 증가함에 따라 데이터를 제대로 클러스터링하지 못하기 때문에 발생하며, 따라서 이를 해결하기 위해서는 효과적인 클러스터링 기법이 필요하다. 본 논문에서는 하나의 최소 한계 영역(minimum bounding region)에 속하는 개체들의 응집 정도와 최소 한계 영역들간의 결합 정도를 고려하여 효과적으로 클러스터링하는 방안을 제안한다. 또한 이러한 클러스터링 기법을 수용하기 위한 색인 기법을 간략히 제시한다

데이터마이닝을 위한 셀-기반 클러스터링 방법의 성능비교 (Performance Comparison of Cell-based Clustering Method for Data Mining Applications)

  • 진두석;장재우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.124-126
    • /
    • 2001
  • 최근 데이터마이닝 응용분야에서 대용량의 고차원 데이터가 증가하고 있기 때문에 이를 효율적으로 처리할 수 있는 방법이 요구된다. 이를 위해 CLIQUE 방법과 셀-기반 클러스터링 방법을 선택하기 위해, 셀-기반 클러스터링 방법을 CLIQUE 방법 및 CLIQUE 방법에 근사정보(Approximation)를 결합한 방법과 성능 비교를 수행한다. 성능비교 결과, 셀-기반 클러스터링 방법이 데이터 클러스터링 및 데이터 검색시간에서 가장 우수한 성능을 보이며, 정확율은 CLIQUE 방법에 비해 다소 뒤떨어지거나 전체적인 효율성에서 매우 우수한 성능을 보인다.

  • PDF

Seed를 이용한 마이크로어레이 데이터 클러스터링과 유전자 온틀로지를 이용한 클러스터의 해석

  • 강은미;신미영;정호열;박선희;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.244-246
    • /
    • 2004
  • 마이크로어레이 칩 실험을 통하여 대량으로 생산되는 유전자 발현 데이터는 여러 가지 클러스터링 방법을 적용하여 분석할 수 있으며, 생성된 클러스터들 또한 여러 가지 방법으로 해석 할 수 있다. 본 논문에서는 기존의 클러스터링 방법들을 응용한 seed클러스터링 방법을 제안하고 생물학적 온톨로지인 Gene Ontology를 기반으로 클러스터를 해석한다. 본 논문에서는 효과적인 유전자 발현 데이터 클러스터링 방법과 생물학적 지식을 바탕으로 클러스터를 해석, 평가하는 방법을 보여 준다.

  • PDF

데이터 클러스터링에서 클러스터 수 결정방안 (A Method for Determining the Number of Clusters in Data Clustering)

  • 이병수;홍지원;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1268-1269
    • /
    • 2011
  • 데이터마이닝 분야에서는 주어진 공간상에 분포되어있는 데이터들을 분석위해 다양한 클러스터링 알고리즘이 존재한다. 그러나 대부분의 클러스터링 알고리즘에서는 클러스터 전체 개수를 미리 요구한다. 이 때문에 클러스터링 알고리즘에서 클러스터 전체개수를 미리 알아내는 것은 매우 중요하다. 본 논문에서는 데이터에 분포하는 클러스터들의 개수를 데이터의 그래프 모델을 이용한 분석으로 찾아내는 방법을 제안한다.