• 제목/요약/키워드: K-medoids

검색결과 22건 처리시간 0.02초

대용량의 고차원 데이터 공간에서 프로젝션 필터링 기반의 부분차원 클러스터링 기법 (Partial Dimensional Clustering based on Projection Filtering in High Dimensional Data Space)

  • 이혜명;정종진
    • 한국전자거래학회지
    • /
    • 제8권4호
    • /
    • pp.69-88
    • /
    • 2003
  • 현재 알려진 대부분의 클러스터링 알고리즘들은 고차원 공간에서 데이터가 갖는 고유의 희소성 및 잡음으로 인하여 성능이 급격히 저하되는 경향이 있다. 이에 따라 최근에 클러스터 형성에 연관성이 있는 차원만을 선택하고, 연관성이 적은 차원들을 제거함으로써 클러스터링의 성능을 높일 수 있는 부분차원 클러스터링 기법이 연구되고 있다. 그러나 현재 연구된 부분차원 클러스터링 기법은 그리드 기반 방법으로서 차원의 증가에 따라 그리드 셀의 수가 방대해짐으로써 공간 및 시간적 인 효율성 이 저하된다. 또한, 대부분의 알고리즘들은 데이터 집합에서 대표객체를 찾아 클러스터 형성에 관계 있는 차원만을 조사하기 때문에 대량의 고차원 공간 데이터에 대해서는 최상의 대표객체를 선택하는데 어려움이 많다는 문제점이 있다. 본 논문에서는 입력 차원의 순서와 무관하게 동일한 클러스터를 탐사할 수 있는 효율적인 부분차원 클러스터링 알고리즘인 CLIP을 제안한다. CLIP은 클러스터 형성에 밀접하게 연관된 임의의 차원에서 클러스터를 탐사한 후에, 그에 종속적인 다음 차원에 대해서 점진적인 프로젝션을 이용하여 클러스터를 탐사하는 기법이다. 점진적 프로젝션 기법은 제안된 알고리즘의 핵심 기법으로서 방대한 양의 탐색공간과 클러스터링을 식별하는 계산시간을 크게 줄인다. 이에 따라 CLIP 알고리즘을 평가하기 위해 합성 데이타를 이용한 실험을 통하여 알고리즘의 정확성 및 효율성, 알고리즘 결과의 동등성에 대한 실험 및 비교 분석 결과를 제시한다.

  • PDF

다계층 이원 네트워크를 활용한 사용자 관점의 이슈 클러스터링 (User-Perspective Issue Clustering Using Multi-Layered Two-Mode Network Analysis)

  • 김지은;김남규;조윤호
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.93-107
    • /
    • 2014
  • 대부분의 인터넷 쇼핑몰은 자사 고객의 관심 분야를 파악하고 이를 상품 추천에 효과적으로 활용하기 위해 많은 노력을 기울이고 있다. 하지만 고객이 회원 가입 시 직접 입력한 개인 정보는 신뢰하기가 어렵고, 고객의 구매 패턴을 통해 파악한 관심 분야 정보는 자사 사이트 내에 진입한 이후에만 보인 한정된 패턴이라는 측면에서 해당 고객의 다양한 관심분야를 제대로 나타낸다고 보기 어렵다. 이러한 한계를 극복하기 위해 본 연구에서는 고객의 평소 인터넷 사용 기록을 통해 최근 방문 사이트들의 주제를 분석함으로써, 고객의 실제 관심 분야를 파악할 수 있는 방안을 제시하였다. 또한 토픽 분석을 통해 각 사이트의 주제를 도출하고 도출된 주제를 다시 동시 방문자 관점에서 군집화 함으로써, 고객 관점에서 의미가 있는 상위 수준의 새로운 테마를 발굴하기 위한 방법론을 제안하였다. 연구의 특징은 유사주제 중심의 군집화라는 기존 연구와는 달리 사용자 관점의 관심주제 중심 군집화라 할 수 있다. 향후 사용자 중심의 카테고리 설계를 비롯한 새로운 관점의 고객군 정의 등 보다 높은 차원의 마케팅 전략 수립에 활용이 가능할 것으로 기대된다. 사용자 관점의 이슈 군집화 과정은 크롤링, 토픽 분석, 액세스 패턴 분석, 네트워크 병합, 네트워크 변환 및 군집화와 같은 여섯 가지 주요단계로 구성되어있다. 이를 위해 텍스트 마이닝과 소셜 네트워크 분석 기법을 활용한 비정형 텍스트를 기반으로한 빅데이터의 활용 방법을 모색하였다. 제안 방법론의 실무 적용 가능성을 평가하기 위해, 국내 최대 포털 뉴스 사이트의 방문자 2,177명의 1년간 방문 기록과 뉴스기사 대한 분석을 수행하고 그 결과를 요약하여 제시하였다.