• 제목/요약/키워드: 점진적 클러스터링

검색결과 30건 처리시간 0.029초

반복적 2차원 프로젝션 필터링을 이용한 확장 고차원 클러스터링 (Extended High Dimensional Clustering using Iterative Two Dimensional Projection Filtering)

  • 이혜명;박영배
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.573-580
    • /
    • 2001
  • 대용량의 고차원 데이터 집합은 고차원 데이터 고유 희소성에 의하여 상당한 양의 잡음을 포함하므로 효과적인 고차원 클러스터링에 어려움을 더한다. CLIP은 이와 같은 고차원 데이터의 특성을 지원하는 클러스터링 알고리즘으로 개발되었다. CLIP은 1차원 성형변환 프로젝션을 점진적으로 적용하여, 각 프로젝션 공간에서 얻어진 1차원 클러스터들의 곱집합을 찾는다. 이 집합은 클러스터를 포함할 뿐 아니라 잡음도 포함할 수 있다. 본 논문에서는 클러스터를 포함하는 곱집합을 정제하는 확장된 CLIP 알고리즘을 제안한다. 이미 CLIP에서 찾은 곱집합에 반복적인 2차원 프로젝션을 적용하여 클러스터의 고차원적 잡음을 제거한다. 확장된 알고리즘의 성능을 평가하기 위해 합성 데이터를 이용한 일련의 실험을 통하여 효과성을 증명한다.

  • PDF

점진적 알고리즘을 이용한 웹 문서 클러스터링 시스템의 설계 및 구현 (Design and implementation of web document clustering system using on incremental algorithm)

  • 황태호;손기락
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.207-209
    • /
    • 1999
  • 클러스터 분석은 관측의 대상이 되는 집합에 맞는 분류 구조를 생성하는데 이용되는 통계학적인 기술이다. 정보검색 응용에서 전형적으로 발견되는 높은 차원을 가진 많은 데이터 집합을 클러스터하기 위하여, 많은 공간과 시간이 필요하다. SLINK 알고리즘은 O(n2)의 시간과 O(n)의 공간의 성능을 갖으며 점진성을 반영할 수 있는 알고리즘이다. SLINK알고리즘을 이용하여 검색 엔진의 검색결과에 온라인으로 클러스터 분류를 수행하는 시스템을 구현하였다. 구현된 시스템은 상대적으로 높은 정확도와 각 클러스터를 저장하고 표현하는데 있어서의 장점을 제공하며, 상대적으로 느린 수행 속도는 온라인으로 문서들이 다운로드 되는 속도가 느리므로 문제가 되지 않음을 알 수 있었다.

  • PDF

함수 변환과 FFT에 기반한 조정자가 없는 XML 문서 클러스터링 기법 (An Unsupervised Clustering Technique of XML Documents based on Function Transform and FFT)

  • 이호석
    • 정보처리학회논문지D
    • /
    • 제14D권2호
    • /
    • pp.169-180
    • /
    • 2007
  • 본 논문은 함수 변환(Function Transform)과 FFT(Fast Fourier Transform)를 사용하는 새로운 XML 문서 클리스터링 기법에 대하여 논한다. 본 문서 클러스터링 기법은 조정자 없이 점진적으로 수행된다. XML 문서는 엘리먼트의 계층적인 구조에 기반하여 이산 함수로 변환된다. 이산 함수는 FFT를 사용하여 벡터로 변환된다. 문서를 나타내는 벡터는 가중치 유클리디안 거리 메트릭을 사용하여 비교된다. 비교 결과가 미리 정의된 값보다 작을 때에는 비교되는 두 개의 문서는 구조적으로 비슷한 것으로 간주되어 동일한 그룹으로 분류된다. XML 문서 클리스터링은 XML 문서의 저장과 검색에 유용하게 사용될 수 있다. 800개의 합서 문서와 520개의 실제 문서를 사용하여 실험하였다. 실험 결과는 함수변환과 FFT는 XML 문서를 엘리먼트의 구조를 기반으로 하여 점진적으로 조정자 없이 효과적으로 분류하는 것을 보여주었다.

데이터 마이닝을 위한 고차원 클러스터링 기법에 관한 비교 분석 연구 (A Comparison and Analysis on High-Dimensional Clustering Techniques for Data Mining)

  • 김홍일;이혜명
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.887-900
    • /
    • 2003
  • 데이터베이스의 많은 응용분야에서 대용량 고차원 데이터의 클러스터링을 요구하고 있다. 이에 따라 클러스터링 알고리즘에 대한 많은 연구가 이루어지고 있으나 기존의 알고리즘들은 “차원의 저주”에 기인하여 고차원 공간에서 효과적 및 효율적으로 수행하지 못하는 경향이 있다. 더욱이, 고차원 데이터는 상당한 양의 잡음 데이터를 포함하고 있으므로 알고리즘의 효과성 문제를 야기한다. 그러므로 고차원 데이터의 구조와 다양한 특성을 지원하는 적합한 클러스터링 알고리즘이 개발되어야 한다. 본 논문에서는 지금까지 연구된 고차원 클러스터링 기법을 조사한 후, 각 기법의 장단점과 적합한 응용 분야에 대한 비교 및 분석을 통하여 분류한다. 특히 본 논문에서는 최근의 연구를 통하여 개발한 점진적 프로젝션 기반의 클러스터링 알고리즘인 CLIP의 성능을 기존의 알고리즘과 비교 분석함으로써 그 효율성 및 효과성을 입증한다. 이러한 알리즘들의 소개 및 분류를 통하여 향후의 더욱 향상된 클러스터링 알고리즘 개발에 기반이 되고자 한다.

  • PDF

선형회귀와 국부적인 RBFN에 의한 점진적인 모델의 설계 (Design of Incremental Model by Linear Regression and Local RBFNs)

  • 이명원;곽근창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.471-473
    • /
    • 2010
  • 본 논문은 선형회귀(LR: Linear Regression)와 국부적인 방사기저함수 네트워크(RBFN: Radial Basis Function Networks)를 결합한 점진적인 모델(incremental model)의 설계와 관련되어진다. 전형적인 RBFN에 의한 모델링과는 달리, 제안된 방법의 근본적인 원리는 두 단계에 의해 고려되어진다. 첫째, 전체 모델의 설계과정에서 전역적인 모델로써 선형회귀에 의해 데이터의 선형부분을 구축한다. 다음으로, 모델링 오차는 오차가 존재하는 국부적인 공간에서 RBFN에 의해 보상되어진다. 여기서, 오차의 분포로부터 RBFN을 설계하기 위해 컨텍스트 기반 퍼지 클러스터링(CFC: Context-based Fuzzy Clustering)를 통해 정보입자의 형태로 구축되어진다. 실험은 자동차 mpg 연료소비량 예측과 부동산 가격예측문제를 통해 제안된 방법의 우수성을 증명한다.

두 다면체 모델 사이의 점진적 표현을 계산하는 휴리스틱 방법 (Heuristic Method for Computing Progressive Mesh Representation between Two Polygonal Models)

  • 윤원영;최정주;이인권
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제9권4호
    • /
    • pp.25-30
    • /
    • 2003
  • 본 논문에서는 서로 다른 개수의 정점을 가지는 두 다면체 사이의 점진적 다면체 모델 표현(Progressive Mesh Representation)을 계산하는 휴리스틱 방법을 제시한다. 정점의 개수가 각각 n, k개 인 두 다면체 모델 $M^n$, $M^k$ (n > k)에 대하여 $M^n$에서 서로 다른 k개의 정점을 선택한다. 선택된 k개의 정점을 기준으로 $M^n$의 모든 정점에 대한 클러스터링을 수행하여 k개의 정점군(Vertex Set)을 생성한다. $M^n$을 간략화하여 k개의 정점만을 가지는 모델 $M^{k'}$의 위상정보(Topology)를 $M^k$와 동일하게 유지하기 위하여 $M^n$ 정점군들의 위상정보를 수정한다. 수정 생성된 정점군 내에서 선분병합(Edge Collapse)을 수행하면, 위상정보를 유지하면서 $M^n$에서 $M^k$로 변화하는 점진적 다면체 모델 표현을 얻을 수 있다. $M^{k'}$$M^k$의 정점간의 기하학적 위치차이를 선형보간하여 선분병합이 일어날때 마다 반영하면 $M^n$에서 $M^k$로 기하정보를 부드럽게 유지하면서 변화하는 점진적 다면체 모델 표현을 얻을 수 있다. 본 논문의 연구결과는 기존의 DLoD(Discrete Level of Detail)를 지원하는 게임을 CLoD(Continuous Level of Detail)를 지원하는 게임으로 확장하는 등의 다양한 컴퓨터 그래픽스 응용문제에 사용할 수 있다.

  • PDF

RFM 분석 기반 고객 구매 패턴을 예측을 위한 SOM 클러스터링 방법 (SOM Clustering Method based on RFM Analysis for Predicting Customer Purchase Pattern in u-Commerce)

  • 조영성;문송철;류근호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2013년도 제48차 하계학술발표논문집 21권2호
    • /
    • pp.185-187
    • /
    • 2013
  • 유비쿼터스 컴퓨팅이 생활의 일부가 되어가면서 정보의 양도 급속도로 늘어나고 있으며, 이로 인해 많은 데이터 속에서 정보를 찾아내는 기술이 부각되고 있다. 고객 기반의 협력적 필터링을 이용한 고객 선호도 예측 방법에서는 아이템에 대한 사용자의 선호도를 기반으로 이웃 선정 방법을 사용하므로 아이템에 대한 내용을 반영하지 못할 뿐만 아니라 희박성 문제를 해결하지 못하고 있다. 그리고 비슷한 선호도를 가진 일부 아이템의 정보를 바탕으로 하기 때문에 아이템의 속성은 무시하는 경향이 있다. 본 논문에서는 유비쿼터스 상거래에서 RFM(Recency, Frequency, Monetary) 분석 기반의 SOM을 이용한 군집방법을 제안한다. 제안 방법은 고객의 구매 데이터 기반의 유사한 속성의 데이터끼리의 클러스터링을 통해 보다 빠른 시간 내에 고객 성향에 맞는 추천이 가능한 구매 패턴 추출이 가능하다.

  • PDF

인트라 클라우드 기반 데스크탑 가상화를 위한 리소스 클러스터링 시뮬레이터 (Resource Clustering Simulator for Desktop Virtualization Based on Intra Cloud)

  • 김현우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.45-50
    • /
    • 2019
  • IT의 점진적 진보에 따라 수동적인 작업 처리가 자동화되고 이를 통해 전반적인 삶의 질이 대폭 발전되었다. 이는 실생활에 접목된 다양하고 많은 스마트 디바이스간 유기적인 토폴로지가 형성됨으로써 가능하다. 이러한 다양한 스마트 디바이스에 서비스를 제공하기 위해서 기업 또는 사용자들은 클라우드를 이용하고 있다. 클라우드에서의 서비스는 크게 Infrastructure as a Service(IaaS), Platform as a Service(PaaS), Software as a Service(SaaS)로 나뉜다. SaaS는 PaaS 위에서 동작되고, PaaS는 IaaS 위에서 동작한다. 이와 같이 IaaS는 모든 서비스의 기반이기 때문에 가상화하는 자원을 효율적으로 운용하기 위한 알고리즘이 요구된다. 이 중에 데스크탑 자원 가상화는 기존 데스크탑 PC의 비가용 상태 시간의 자원 고가용성을 위해 사용된다. 이러한 자원의 고가용성을 위해서는 계층적 구조에 대한 클러스터링이 중요시된다. 또한 많은 클러스터링 알고리즘 중에서 데스크탑 PC의 분포율 및 환경에 따라 주로 사용되는 자원 비중이 다르기 때문에 적합한 알고리즘을 선정하는 것이 매우 중요하다. 만일 동작 환경의 데스크탑 자원 가상화에 적합한 알고리즘을 찾기 위해 다양한 시도를 한다면 이에 대한 전력적, 시간적, 인력에 대한 막대한 비용이 초래된다. 따라서 본 논문에서는 데스크탑 가상화의 클러스터 선정을 위한 리소스 클러스터링 시뮬레이터인 RCS를 제안한다. RCS에 클러스터 수, 호스트 수를 증가하여 동작하는 과정의 시각화 및 수행 시간을 비교 분석한다. 이를 통하여 데스크탑 PC들의 서로 다른 환경에서 클러스터링 알고리즘 선정 및 요소를 올바르게 적용할 수 있도록 클러스터링 시뮬레이션을 제공한다.

개선된 군집화 단계의 NofM 알고리즘을 이용한 훈련된 신경망으로부터의 규칙추출 (Rule extraction from trained neural network using NofM algorithm with improved clustering step)

  • 이한율;나종회;김문현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.581-584
    • /
    • 2001
  • 신경망이 만들어내는 출력에 대한 정보는 수치적으로 분산되어 신경망에 저장되므로, 인간이 직접 해석하기가 힘들다. 본 논문에서는 LRE(link rule extraction)기법인 NofM 알고리즘의 6단계 중에서 초기 단계인 가중치 군집화 단계를 개선하여 추출되는 규칙들의 전제부에 들어가는 규칙 조건들의 수를 조절함으로써, 추출된 규칙이 입력 특성에 대한 정보를 과잉 일반화하거나, 과잉 구체화하는 것을 피할 수 있음을 실험을 통해 보였다. 일반적으로 NofM 알고리즘에서 가중치들을 군집화한 때는 Join 알고리즘을 사용하는데, 본 논문에서는 Join 알고리즘의 Join condition을 0.05부터 0.25까지 0.05씩 점진적으로 확대하여 클러스터링을 하여줌으로써 신경망의 출력에 중요한 역할을 하는 가중치들을 효과적으로 군집화함을 보였다.

  • PDF

하이브리드 클러스터링을 이용한 샷 전환 검출 (The Shot Change Detection Using a Hybrid Clustering)

  • 이지현;강오형;나도원;이양원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.635-638
    • /
    • 2005
  • 비디오 분할은 비디오 질의 시스템을 만드는 첫 번째 단계로서 각 샷이 같은 내용을 가지는 프레임들의 순서를 표현하는 샷들에 대한 비디오 시퀀스 분할을 목적으로 한다. 샷 전환의 형태는 급진적인 샷 전환과 점진적인 샷 전환으로 구분된다. 샷 전환 검출 접근의 중요한 문제는 샷 전환 검출의 실행을 결정하는 정확한 경계값을 구체화하기 어렵다는 것이다. 또한 클러스터 접근에서는 클러스터의 올바를 수를 찾기가 어렵다. 이러한 문제점들을 개선하고자 컬러-X$^2$ 명도 히스토그램 기반 퍼지 c-means 클러스터링 방법을 이용하여 하이브리드 형태의 샷 전환 검출 방법을 제안 하였다.

  • PDF