• 제목/요약/키워드: X-means clustering

검색결과 24건 처리시간 0.022초

이중 K-평균 군집화 (Double K-Means Clustering)

  • 허명회
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.343-352
    • /
    • 2000
  • K-평균 군집화(K-means clustering)는 비계층적 군집화 방법이 하나로서 큰 자료에서 개체 군집화에 효율적인 것으로 알려져 있다. 그러나 종종 비교적 균일한 대군집의 일부를 소군집에 떼어주는 오류를 범하기도 한다. 이 연구에서는 그러한 현상을 정확히 인지하고 이에 대한 대책으로서 ‘이중 K-평균 군집화(double K-means clustering)’방법을 제시한다. 또한 실증적 사례에 새 방법론을 적용해보고 토의한다.

  • PDF

X-means 클러스터링을 이용한 악성 트래픽 탐지 방법 (A Malicious Traffic Detection Method Using X-means Clustering)

  • 한명지;임지혁;최준용;김현준;서정주;유철;김성렬;박근수
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.617-624
    • /
    • 2014
  • 악성 트래픽은 디도스 공격, 봇넷 통신 등의 인터넷 망을 교란시키거나 특정 네트워크, 서버, 혹은 호스트에 피해를 끼칠 의도를 가지고 발생시키는 트래픽을 지칭한다. 이와 같은 악성 트래픽은 인터넷이 발생한 이래 꾸준히 양과 질에서 진화하고 있고 이에 대한 대응 연구도 계속되고 있다. 이 논문에서는 악성 트래픽을 기존 X-means 클러스터링 알고리즘을 적용하여 효과적으로 탐지하는 방법을 제시하였다. 특히 악성 트래픽의 통계적 특징을 분석하고 클러스터링을 위한 메트릭을 정의하는 방법을 체계적으로 제시하였다. 또한 두 개의 공개된 트래픽 데이터에 대한 실험을 통해 실효성을 검증하였다.

영상 분할을 위한 개선된 공간적 퍼지 클러스터링 알고리즘 (An Enhanced Spatial Fuzzy C-Means Algorithm for Image Segmentation)

  • 퉁 투룽;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.49-57
    • /
    • 2012
  • FCM(fuzzy c-means)은 일반적으로 영상 분할에서 좋은 성능을 보인다. 하지만 공간 정보를 사용하지 않는 일반적인 FCM 알고리즘은 낮은 대비의 영상, 경계선이 뚜렷하지 않은 영상, 잡음이 포함된 영상의 분할에는 좋지 않은 성능을 보인다. 이와 같은 문제를 해결하기 위해 본 논문에서는 3x3 크기의 윈도우를 이용하여 윈도우 내의 중심 픽셀과 주변 픽셀간의 거리 정보를 소속 함수에 추가한 개선된 공간적 퍼지 클러스터링 알고리즘을 제안한다. 본 논문에서는 분할 계수, 분할 엔트로피, Xie-Bdni 함수와 같은 클러스터링 검증 함수를 이용하여 FCM 기반의 다양한 클러스터링 알고리즘과 제안한 알고리즘과의 성능을 비교하였다. 성능 평가 결과 제안한 알고리즘이 기존의 FCM기반의 클러스터링 알고리즘보다 클러스터링 검증 함수에서 성능이 우수함을 확인 할 수 있었다.

하이브리드 클러스터링을 이용한 샷 전환 검출 (The Shot Change Detection Using a Hybrid Clustering)

  • 이지현;강오형;나도원;이양원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.635-638
    • /
    • 2005
  • 비디오 분할은 비디오 질의 시스템을 만드는 첫 번째 단계로서 각 샷이 같은 내용을 가지는 프레임들의 순서를 표현하는 샷들에 대한 비디오 시퀀스 분할을 목적으로 한다. 샷 전환의 형태는 급진적인 샷 전환과 점진적인 샷 전환으로 구분된다. 샷 전환 검출 접근의 중요한 문제는 샷 전환 검출의 실행을 결정하는 정확한 경계값을 구체화하기 어렵다는 것이다. 또한 클러스터 접근에서는 클러스터의 올바를 수를 찾기가 어렵다. 이러한 문제점들을 개선하고자 컬러-X$^2$ 명도 히스토그램 기반 퍼지 c-means 클러스터링 방법을 이용하여 하이브리드 형태의 샷 전환 검출 방법을 제안 하였다.

  • PDF

가중 문맥벡터와 X-means 방법을 이용한 변형 다의어스킵그램 (Modified multi-sense skip-gram using weighted context and x-means)

  • 정현우;이은령
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.389-399
    • /
    • 2021
  • 최근 자연어 처리 문제에서의 단어 임베딩은 아주 큰 주목을 받고 있는 연구 주제이며 스킵그램은 성공적인 단어 임베딩 기법 중 하나이다. 주변단어들 정보를 이용해서 단어들의 의미를 학습하여 단어 임베딩 벡터를 할당하며 텍스트 자료를 효과적으로 분석할 수 있게 한다. 그러나 벡터 공간 모델의 한계로 인해 기본적인 단어 임베딩 방법들은 모든 단어가 하나의 의미를 가지고 있다는 것을 가정한다. 다의어, 즉 하나 이상의 의미를 가진 단어가 실생활에서 존재 하기 때문에 Neelakantan 등 (2014)은 군집분석 기법을 이용하여 다의어의 여러 의미들에 해당하는 의미 임베딩 벡터를 찾기 위해 MSSG (multi-sense skip-gram)를 제안했다. 본 논문에서는 MSSG의 통계적 성능을 개선시킬 수 있는 변형된 MSSG 방법을 제안한다. 먼저, 가중치를 활용한 가중문맥 벡터를 제안한다. 나아가, 군집의 수, 즉 다의어의 의미 수를 자료에서 자동적으로 추정해주는 x-means 방법을 활용한 알고리즘을 제안한다. 본 논문에서 수행한 실증자료를 기반한 모의실험에서 제안한 방법은 기존 방법에 비해 우수한 성능을 보여주었다.

X-means 확장을 통한 효율적인 집단 개수의 결정 (Extensions of X-means with Efficient Learning the Number of Clusters)

  • 허경용;우영운
    • 한국정보통신학회논문지
    • /
    • 제12권4호
    • /
    • pp.772-780
    • /
    • 2008
  • K-means는 알고리즘의 단순함과 효율적인 구현이 가능함으로 인해 군집화를 위해 현재까지 널리 사용되는 방법 중 하나이다. 하지만 K-means는 집단의 개수가 사전에 결정되어야 하는 근본적인 문제점이 있다. 이 논문에서는 BIC(Bayesian information criterion) 점수를 이용하여 효율적으로 집단의 개수를 추정할 수 있는 X-means 알고리즘을 확장한 두 가지 알고리즘을 제안한다. 제안한 방법은 기본적으로 X-means 방법을 따르면서 집단이 임의의 분산 행렬을 가질 수 있도록 함으로써 X-means 알고리즘이 원형 집단만을 허용함에 따른 over-fitting을 개선한다. 제안한 방법은 하나의 집단에서 시작하여 계속해서 집단을 나누어가는 하향식 방법으로, BIC score를 최대로 증가시키는 집단을 분할해 나간다. 제안한 알고리즘은 Modified X-means(MX-means)와 Generalized X-means(GX-means)의 두 가지로, 전자는 K-means 알고리즘을, 후자는 EM 알고리즘을 사용하여 현재 주어진 집단들에서 최적의 분할을 찾아낸다. MX-means는 GX-means보다 그 속도에서 앞서지만 집단들이 중첩 된 경우에는 올바른 집단을 찾아낼 수 없는 단점이 있다. GX-means는 실행 속도가 느린 단점이 있지만 집단들이 중첩된 경우에도 안정적으로 집단들을 찾아낼 수 있다. 이러한 점들은 일련의 실험을 통해서 확인할 수 있으며, 제안한 방법들이 기존의 방법들에 비해 나은 성능을 보임을 확인할 수 있다.

한글 웹 문서 클러스터링 성능향상을 위한 자질선정 기법 비교 연구 (A Comparative Study of Feature Selection Methods for Korean Web Documents Clustering)

  • 김영기
    • 한국문헌정보학회지
    • /
    • 제39권1호
    • /
    • pp.45-58
    • /
    • 2005
  • 이 연구는 한글 웹 문서를 클러스터링 하기 위한 자질 선정 방법에 대한 비교연구이다. 이 연구에는 두 개의 코퍼스가 사용되었다. 클러스터링을 위한 실험 문서는 Naver의 자연과학 범주에서, 자질 선정을 위한 학습문서는 Yahoo Korea의 같은 범주에서 수집하였다. 우선 실험 문서를 단어자질과 동시링크, 그리고 이 둘을 혼합한 방법으로 클러스터링 한 다음 그 성능을 비교하였다. 다음으로 학습문서에서 카이제곱 통계량$(X^2)$, 정보획득량(IG), 그리고 상호정보량(MI)을 이용하여 용어자질을 선정한 다음. 이를 실험문서에 적용하여 클러스터링 성능을 비교하였다. 석기에 각 범주별로 최댓값을 갖는 용어들만을 해당 범주를 대표하는 자질로 선정하는 '최댓간 자질 선정기법'을 실험적으로 도입하여 적용해 보았다. 실험 결과 사용된 자질에 따른 한글 웹 문서 클러스터링 정확률은 자연어 $ 72.3\%$, 동시링크 $74.3\%$, 단어-링크 혼합 $74.8\%$, $X^2\;79.6\%\;Max\;X^2\;83.8\%$로 나타났다. 전통적 자질 선정 기법 중에서는 $X^2$가 약간 나은 성능을 보여 주었지만 큰 차이는 발견되지 않았다. 그러나 최댓값 자질 선정기법을 적용하였을 때 클러스터링 성능은 크게 향상되었다. 이 논문에서 제안된 최댓간 자질 선정 기법은 웹 문서의 자질 공간 축소와 한글 웹 문서의 클러스터링을 위한 간단하면서도 효과적인 수단이다.

Visualizing Multi-Variable Prediction Functions by Segmented k-CPG's

  • Huh, Myung-Hoe
    • Communications for Statistical Applications and Methods
    • /
    • 제16권1호
    • /
    • pp.185-193
    • /
    • 2009
  • Machine learning methods such as support vector machines and random forests yield nonparametric prediction functions of the form y = $f(x_1,{\ldots},x_p)$. As a sequel to the previous article (Huh and Lee, 2008) for visualizing nonparametric functions, I propose more sensible graphs for visualizing y = $f(x_1,{\ldots},x_p)$ herein which has two clear advantages over the previous simple graphs. New graphs will show a small number of prototype curves of $f(x_1,{\ldots},x_{j-1},x_j,x_{j+1}{\ldots},x_p)$, revealing statistically plausible portion over the interval of $x_j$ which changes with ($x_1,{\ldots},x_{j-1},x_{j+1},{\ldots},x_p$). To complement the visual display, matching importance measures for each of p predictor variables are produced. The proposed graphs and importance measures are validated in simulated settings and demonstrated for an environmental study.

혼돈 시계열의 예측을 위한 Radial Basis 함수 회로망 설계 (Radial basis function network design for chaotic time series prediction)

  • 신창용;김택수;최윤호;박상희
    • 대한전기학회논문지
    • /
    • 제45권4호
    • /
    • pp.602-611
    • /
    • 1996
  • In this paper, radial basis function networks with two hidden layers, which employ the K-means clustering method and the hierarchical training, are proposed for improving the short-term predictability of chaotic time series. Furthermore the recursive training method of radial basis function network using the recursive modified Gram-Schmidt algorithm is proposed for the purpose. In addition, the radial basis function networks trained by the proposed training methods are compared with the X.D. He A Lapedes's model and the radial basis function network by nonrecursive training method. Through this comparison, an improved radial basis function network for predicting chaotic time series is presented. (author). 17 refs., 8 figs., 3 tabs.

  • PDF

픽셀간의 칼라공간에서의 거리와 이웃관계를 고려하는 클러스터링을 통한 칼라영상 분할 (Color Image Segmentation based on Clustering using Color Space Distance and Neighborhood Relation Among Pixels)

  • 이화정;김황수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권10호
    • /
    • pp.1038-1045
    • /
    • 2000
  • 본 논문에서는 칼라공간상의 거리와 이웃정보를 이용한 클러스터링을 통한 칼라영상 분할 방법을 제안한다. 칼라영상의 한 픽셀은 칼라정보(R.G.B)와 위치정보(x.y)를 가진다. 대개의 칼라공간에서의 클러스터링방법은 픽셀을 (R,G,B)공간으로 변환후 (R,G,B)공간상의 분포만을 이용하지만 여기서는(R,G,B)와 (x.y)모두를 사용하여 클러스터링함으로 영상의 세그먼트들을 찾는다. 클러스터링 방법으로서 인력을 모방하는 중력 클러스터링(gravitational clustering)을 사용하였다. 이 방법은 클러스터의 중심값과 클러스터 수를 미리 정해주지 않아도 자동적으로 결정할 수 있는 장점이 있다. 중력 클러스터링에서 찾은 클러스터 수를 가지고 다른 클러스터링 방법(K-means)에 입력으로 주어 결과를 비교해 본다. 본 논문에서는 이웃관계를 따라 클러스터링하는 것이 정확한 경계선을 찾는데 효과적임을 보여준다.

  • PDF