• 제목/요약/키워드: 데이터 군집화

검색결과 560건 처리시간 0.036초

외부 군집 연관 기준 정보를 이용한 군집수 최적화 (A Study on Optimizing the Number of Clusters using External Cluster Relationship Criterion)

  • 이현진;지태창
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권3호
    • /
    • pp.339-345
    • /
    • 2011
  • 군집화는 주어진 데이터를 분할하여 데이터 속에 숨겨져 있는 의미를 자동으로 발견하는 방법이다. k-means는 간단하고 빠른 군집화 알고리즘 중의 하나이다. 군집의 수 k는 군집화를 수행하는데 매우 중요한 요소이며, k의 값에 의해 군집화 결과가 달라진다. 본 논문에서는 반복적인 k-means 수행과 군집의 품질을 평가하는 외부 군집 연관 기준 정보를 결합하여 최적의 군집수를 결정하는 방법을 제안한다. 실험 결과 기존의 방법들에 비하여 제안하는 방법이 군집수의 정확성 측면에서 우수한 성능을 보였다.

데이터 분포를 고려한 연속 값 속성의 이산화 (Discretization of continuous-valued attributes considering data distribution)

  • 이상훈;박정은;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.217-220
    • /
    • 2003
  • 본 논문에서는 특정 매개변수의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(conti-nuous) 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

  • PDF

역인덱스 기반 상향식 군집화 기법을 이용한 대규모 학술 핵심어 분석 (Analysis of Massive Scholarly Keywords using Inverted-Index based Bottom-up Clustering)

  • 오흥선;정유철
    • 한국산학기술학회논문지
    • /
    • 제19권11호
    • /
    • pp.758-764
    • /
    • 2018
  • 특허(patent), 학술 논문(scholarly paper)과 연구 보고서(research report)와 같은 디지털 문서(digital document)에는 주제(topic)를 요약하는 저자 키워드(author keyword)가 있다. 서로 다른 문서가 동일한 키워드를 공유하고 있다면 두 문서가 동일한 주제의 내용을 기술하고 있을 가능성이 매우 높다. 문서 군집화(document clustering)는 비슷한 주제를 가지는 문서들을 비지도 학습 방법(unsupervised learning)을 이용하여 같은 군집으로 그룹(group)화 하는 것이다. 문서 군집화는 다양한 분석에 이용되지만 대용량의 문서 데이터에 적용하기 위해서는 많은 계산량이 필요함으로 쉽지 않다. 이러한 경우, 문서의 내용을 이용하는 것보다 문서의 키워드를 이용하여 군집화하면 더욱 효율적으로 대용량의 데이터를 연결할 수 있다. 기존의 상향식 군집화 방법(bottom-up hierarchical clustering)은 대용량의 키워드 군집화(keyword clustering)를 수행하는데 있어서 많은 시간이 필요하다는 문제점이 있다. 본 논문에서는 정보검색(information retrieval)에서 널리 사용되는 역인덱스(inverted-index) 구조를 상향식 군집화에 적용한 효율적인 군집화 방법을 제안하고, 제안 방법을 대용량의 키워드 데이터에 적용하였으며, 그 결과를 분석하였다.

예측을 이용한 효율적인 K-Means 알고리즘 (An Efficient K-means Clustering Algorithm using Prediction)

  • 지태창;이현진;이일병
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.3-4
    • /
    • 2008
  • 본 논문에서 k-means 군집화 알고리즘을 효율적으로 적용하는 방법을 제안했다. 제안하는 알고리즘의 특징을 속도 향상을 위해 예측 데이터를 이용한 것이다. 군집화 알고리즘의 각 단계에서 군집을 변경할 데이터만 최인접 군집을 계산함으로써 계산 시간을 줄일 수 있었다. 제안하는 알고리즘의 성능 비교를 위해서 KMHybrid 와 비교했다. 제안하는 알고리즘은 데이터의 차원이 큰 경우에 KMHybrid 보다 높은 속도 향상을 보였다.

온라인 문서 군집화에서 군집 수 결정 방법 (Determining the number of Clusters in On-Line Document Clustering Algorithm)

  • 지태창;이현진;이일병
    • 정보처리학회논문지B
    • /
    • 제14B권7호
    • /
    • pp.513-522
    • /
    • 2007
  • 군집화는 주어진 데이터를 분할하여 데이터 속에 숨겨져 있는 의미를 자동으로 발견하는 방법으로, 사람이 일일이 살펴보기 어려운 데이터를 분석해서 비슷한 성향을 가진 데이터들끼리 모은 여러 개의 군집들을 만들어 낸다. 온라인 문서 군집화는 검색 엔진을 통해 검색된 문서들을 대상으로 군집화를 실행하여 유사한 특성의 문서들을 묶어서 보여줌으로써 사용자의 검색 환경의 편의성을 증진시키는 것이 목적이다. 문서군집화는 사람의 개입이 없이 자동으로 이루어져야 하고, 군집화 결과에 영향을 미치는 군집의 개수 선정도 자동으로 이루어져야 한다. 또한, 온라인 시스템에서는 빠른 응답 시간을 보장하는 것이 중요하다. 본 논문에서는 기하학적인 정보를 이용하여 군집의 수를 결정하는 방법을 제안한다. 제안하는 방법은 군집의 중심을 저차원 평면에 사상하는 것과 사상된 군집 중심의 거리 정보를 이용하여 군집들을 병합하는 두 단계로 이루어져 있다. 제안하는 방법을 실데이터에 적용하여 실험한 결과 군집화 성능이 향상되고, 처리 시간도 온라인 환경에 적합한 것을 확인 할 수 있었다.

적응형 분광 군집 방법을 이용한 다중 특징 데이터 군집화 (Multiview Data Clustering by using Adaptive Spectral Co-clustering)

  • 손정우;전준기;이상윤;김선중
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.686-691
    • /
    • 2016
  • 본 논문에서는 다수의 특징, 특히 셋 이상의 특징을 가지는 데이터에 대한 분광 군집 방법인 적응형 분광 군집 방법을 소개하고, 적응형 분광 군집 방법의 성능을 시뮬레이션 데이터와 다중 언어 데이터를 이용하여 분석한다. 적응형 분광 군집 방법에서는 특징 간 서로 다른 정보들을 공유하여 데이터를 군집화함으로써 군집 성능을 높인다. 이때, 서로 다른 특징 간의 정보 공유를 효율적으로 하기 위해, 협업학습을 도입했다. 협업 학습에서는 각 특징이 서로 독립이 되도록 가중치를 학습하고, 학습된 가중치에 따라 정보를 전달한다. 이러한 과정을 통해 일반적인 특징 결합이나, 모든 특징 간 독립을 가정한 기존 협업학습 기반의 분광 군집에 비해 정보 공유의 효율성을 높인다. 실험에서는 시뮬레이션 데이터와 다중 언어문서 데이터를 이용하여 성능을 검증하였으며, 반복과정에서의 성능 변화와 정보 전달 결과 변화하는 모습을 제시함으로써 적응형 분광 군집 방법의 유의미한 성능 향상에 대해 분석하였다.

추천 시스템의 예측 정확도 향상을 위한 전처리 방법 (Preprocessing Methods for Improving Prediction Accuracy in Recommender Systems)

  • 박석인;김택헌;류영석;양성봉
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.247-249
    • /
    • 2002
  • 협력적 여과(collaborative filtering) 방법을 사용하는 추천 시스템에서 예측 정확도를 높이는 방법들 중 하나는 군집화(clustering)방법이 있다. 군집화 방법은 선호도가 유사한 사용자들을 미리 같은 군집으로 만들고, 군집 내에 속한 사용자들을 이웃으로 선정하여 예측을 수행하기 때문에 군집화의 결과가 예측의 정확도에 직접적인 영향을 주게 된다. 본 연구에서는 군집화 결과의 향상을 위해 데이터를 전 처리하는 두 가지 방법과 군집화의 특성을 이용한 새로운 예측식을 제안하고, 기존 연구 방법과의 비교 실험을 통해 실험결과를 분석한다.

  • PDF

효모 마이크로어레이 유전자발현 데이터에 대한 군집화 비교 (Comparison of clustering with yeast microarray gene expression data)

  • 이경아;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.741-753
    • /
    • 2011
  • 마이크로어레이 유전자 발현데이터인 효모데이터를 이용하여 군집분석을 실시하였다. 모형기반 군집방법, K-평균법, 중앙값 중심분포 (PAM), 자기 조직화 지도 (SOM), 계층적 Ward 군집방법을 이용하여 군집화를 실시하고, 연결성 측도 (connectivity), Dunn지수, 실루엣 측도 (silhouette)를 이용하여 각 군집방법에 대한 유효성을 측정하고 군집분석 결과를 비교하고자한다.

스마트폰 고객들을 위한 데이터 마이닝 기반의 제품 추천 시스템 (A product recommendation system based on sequence pattern mining for smartphone customers)

  • 진세훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.204-206
    • /
    • 2012
  • 스마트폰 시장의 확대로 인한 스마트폰 고객의 증가와 스마트폰을 이용한 제품 구매 활동이 급격하게 증가하고 있다. 이러한 추세에 따라 스마트폰 고객 추천 시스템에 관한 연구가 활발히 진행되고 있다. 하지만 기존의 스마트폰 고객 추천 시스템의 경우 고객들의 고차원 데이터를 효율적으로 처리하는데 어려움이 있다. 따라서 이 논문에서는 스마트폰 고객들의 고차원 데이터를 효율적으로 처리할 수 있는 부분 공간 군집화 기법과 순차 패턴 알고리즘을 이용한 제품 추천 시스템을 제안한다. 이 시스템은 스마트폰 고객들의 고차원 데이터를 기반으로 세분화된 고객들의 부분 군집화를 한다. 이들 군집화를 기반으로 순차적 패턴 알고리즘을 이용한 고객들의 제품 구매 패턴을 추출한다. 이 연구를 통해 스마트폰 고객들의 다양한 고차원 데이터를 이용한 제품 추천 시스템은 기업의 제품 판매 및 고객 마케팅에 긍정적인 도움을 줄 수 있을 것으로 기대된다.

붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정 (Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm)

  • 박민재;전성해;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.263-266
    • /
    • 2002
  • 데이터의 군집화를 수행할 때 최적 군집수 결정은 군집 결과의 성능에 많은 영향을 미친다. 특히 K-means 방법에서는 초기 군집수 K에 따라 군집결과의 성능 차이가 많이 나타난다. 하지만 대다수의 군집분석에서 초기 군집수의 결정은 경험을 바탕으로 하여 주관적으로 결정된다. 이때 개체수와 속성수가 증가하면 이러한 결정은 더욱 어려워지며 이때 결정된 군집수가 최적이 된다는 보장도 없다. 본 논문에서는 군집의 수를 자동으로 결정하고 그 결과의 유효성을 보장하기 위해 유전자 알고리즘에 기반한 최적 군집수 결정 방안을 제안한다. 데이터의 속성에 근거한 초기 해 집단이 생성되고, 해 집단 내에서 최적화된 군집수를 찾기 위해 교차 연산이 이루어진다. 적합도 값은 전체 군집화의 비 유사성의 합의 역으로 결정되어 전체적인 군집화 성능이 향상되는 방향으로 수렴된다. 또한 지역 국소값을 해결하기 위해 돌연변이 연산이 사용된다. 그리고 유전자 알고리즘의 학습 시간의 비용을 줄이기 위해 붓스트랩 기법이 적용된다.