• 제목/요약/키워드: K-평균 군집화 알고리즘

검색결과 64건 처리시간 0.037초

주성분 분석의 K 평균 알고리즘을 통한 XML 문서 군집화 기법 (XML Document Clustering Technique by K-means algorithm through PCA)

  • 김우생
    • 정보처리학회논문지D
    • /
    • 제18D권5호
    • /
    • pp.339-342
    • /
    • 2011
  • 최근 들어 인터넷에서 많이 사용되는 XML 문서들을 효율적으로 접근, 질의, 저장하는 방법들이 연구된다. 본 논문은 XML 문서들을 효율적으로 군집화 하는 새로운 기법을 제안한다. XML 문서를 대응하는 트리 구조의 원소들의 이름과 레벨로 표현하여 특징 벡터 공간상의 벡터로 나타내고 주성분 분석을 통한 k 평균 알고리즘 기법을 사용하여 군집화를 시도한다. 실험 결과를 통하여 제안하는 기법이 좋은 결과를 얻을 수 있음을 보였다.

개선된 밀도 기반의 퍼지 C-Means 알고리즘을 이용한 클러스터 합병 (Cluster Merging Using Enhanced Density based Fuzzy C-Means Clustering Algorithm)

  • 한진우;전성해;오경환
    • 한국지능시스템학회논문지
    • /
    • 제14권5호
    • /
    • pp.517-524
    • /
    • 2004
  • 1960년대 퍼지 이론이 소개된 이후 데이터 마이닝을 포함한 기계 학습 분야의 군집화 작업에서 퍼지 이론이 폭넓게 사용되었다. 퍼지 C-평균 알고리즘은 가장 많이 사용되는 퍼지 군집화 알고리즘이다. 이 알고리즘은 하나의 데이터 개체가 서로 다른 소속 정도를 가지고 각 군집에 할당될 수 있도록 한다. 퍼지 C-평균 알고리즘도 K-평균 알고리즘과 같은 일반적인 군집화 알고리즘과 마찬가지로 초기 군집수와 군집 중심의 위치에 의해 최종 군집 결과의 성능 차이가 나타난다. 군집화를 위한 이러한 초기 설정은 주관적이며 이 때문에 적절치 못한 결과를 얻게 될 수도 있다. 본 논문에서는 이 문제를 해결할 수 있는 방법으로 주어진 학습 데이터의 속성을 기반으로 한 초기 군집수와 군집 중심을 결정하는 개선된 밀도 기반의 퍼지 C-평균 알고리즘을 제안하였다. 제안 방법은 격자를 사용하여 초기 군집 중심의 위치와 군집수를 결정하였다. 기존에 많이 이용되었던 객관적인 기계 학습 데이터를 이용하여 제안 알고리즘의 성능비교를 수행하였다.

주성분 분석과 k 평균 알고리즘을 이용한 문서군집 방법 (Document Clustering Technique by K-means Algorithm and PCA)

  • 김우생;김수영
    • 한국정보통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.625-630
    • /
    • 2014
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되기 때문에, 이들을 효과적으로 검색하고 처리하는 방법의 연구가 필요하다. 문서 군집은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 대용량의 문서들을 자동으로 분류하고 검색하고 처리하는데 효율과 정확성을 증대시킨다. 본 논문은 특징 벡터 공간 상의 벡터들로 표현되는 문서들을 K 평균 알고리즘으로 군집화할 때, 주성분 분석을 사용하여 초기 시드점들을 선정함으로써 군집의 효율을 높이는 방법을 제안한다. 실험 결과를 통하여 제안하는 기법이 기존의 K 평균 알고리즘보다 좋은 결과를 얻을 수 있음을 보였다.

2단계 k-평균 군집화를 활용한 한류컨텐츠 기업 주가 예측 연구 (A Study On Predicting Stock Prices Of Hallyu Content Companies Using Two-Stage k-Means Clustering)

  • 김정우
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.169-179
    • /
    • 2021
  • 본 연구는 기존의 k-평균 군집화를 활용한 2단계 k-평균 군집화 방법을 사용하여 한류콘텐츠 기업들의 주식가격을 예측함으로써 본 기법이 예측성능을 개선할 수 있음을 보이고자 하였다. 이를 위하여 본 연구는 2단계 k-평균 군집화의 알고리즘을 소개하고, 다양한 머신러닝 기법들과의 예측값 비교를 통하여 본 기법의 예측성능을 검증하였다. 본 기법은 기존의 k-평균 군집화로부터 얻어진 군집들 중에서 예측 대상에 근접한 군집을 추출하고 이 군집에 k-평군 군집화 방법을 다시 적용하여 실제 값에 보다 근접한 군집을 탐색하는 방식이다. 본 기법을 한류콘텐츠 기업들의 주가 시계열 자료에 적용한 결과, 다른 머신러닝 기법의 예측값들보다 실제 주식가격에 근접한 예측값을 나타내어, 기존의 k-평균 군집화 방법보다 개선된 예측성능을 보였다. 또한, 본 기법은 상대적으로 적은 크기의 군집을 사용함에도 불구하고 비교적 안정적인 예측값을 나타내었다. 이에 따라, 2단계 k-평균 군집화 기법은 예측의 정확성과 안정성을 동시에 개선할 수 있으며, 소규모 자료에도 유용할 수 있는 새로운 군집화 방식을 제시했다고 볼 수 있다. 향후에는 본 기법을 발전시켜 대규모 자료에도 적용하는 방안을 검토하는 연구가 요구된다.

인공지능을 활용한 합류부에서 수질의 공간혼합 특성 분석 (Analysis of spatial mixing characteristics of water quality at the confluence using artificial intelligence)

  • 이서경;김동수;김경동;김영도;류시완
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.482-482
    • /
    • 2022
  • 하천의 합류부에서는 수질이 다른 유체가 혼합하여 합류 전과 다른 특성을 보인다. 하천의 합류부에서 수질을 효율적으로 관리하기 위해서는 수질의 공간적인 혼합 특성을 규명하는 것이 중요하다. 합류부에서 수질의 공간적인 혼합 특성을 분석하기 위해 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기 조직화 지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하였다. 세 가지 기법을 비교하여 어떤 알고리즘이 합류부의 수질 변화 특성을 더 뚜렷하게 나타내는지 분석하였다. 수질 변화 비교 인자들은 pH, chlorophyll, DO, Turbidity 등이 있고, 수질 인자들은 YSI를 활용해 측정하였다. 자료의 측정 지역은 낙동강과 황강이 합류하는 지역이며, 보트에 YSI 장비를 부착하고 횡단하여 측정하였다. 측정한 데이터를 R 프로그램을 통해 세 가지 기법을 적용시켜 수질 변화 비교를 분석한다. 토폴로지 데이터 분석(topological data analysis, TDA)은 거대하고 복잡한 데이터로부터 유의미한 정보를 추출하는 데 사용하고, 자기조직화지도(Self-Organizing Map, SOM) 기법은 차원 축소와 군집화를 동시에 수행한다. k-평균 알고리즘(K-means clustering algorithm) 기법은 주어진 데이터를 k개의 클러스터로 묶는 머신러닝 비지도학습에 속하는 알고리즘이다. 세 가지 방법들의 주목적은 클러스터링이다. 클러스터 분석(Cluster analysis)이란 주어진 데이터들의 특성을 고려해 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 데이터 마이닝의 한 방법이다. 군집화 방법들인 TDA, SOM, K-means를 이용해 합류 지역의 수질 특성들을 클러스터링하여 수질 패턴들을 분석해 하천 수질 오염을 방지할 수 있을 것이다. 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기조직화지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하여 합류부에서의 수질 특성을 비교하며 어떤 기법이 합류의 특성을 더욱 뚜렷하게 나타내는지 규명했다. 합류의 특성을 군집화 방법을 이용해 알게 된다면, 합류부의 수질 변화 패턴을 다른 합류 지역에서도 적용할 수 있을 것으로 기대된다.

  • PDF

사용자의 색상 선호 기반 추천 시스템을 위한 상품 이미지 속 의류 색상 분석 (Color Analysis of Clothing in Product Images for User's Color Preference-Based Recommendation System)

  • 노은진;박상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.643-645
    • /
    • 2022
  • 많은 온라인 쇼핑몰에서 색상 기반 필터링 서비스나 추천 시스템을 제공하지만, 수동 분류는 많은 시간이 들고 오류 위험이 있다. 본 연구의 실험에서는 먼저 분석할 의류 이미지를 실루엣 분석으로 수행한 경우와 수행하지 않는 경우의 k-평균 군집화 알고리즘으로 가장 우세한 색상 군집의 중심값을 도출하는데, 만약 군집 개수가 2개 이상이면 보다 큰 군집의 중심값만을 고려한다. 이 중심값을 이용해 사전 학습한 k-최근접 이웃 알고리즘으로 색상 클래스를 분류한다. 실험 결과 실루엣 분석을 수행하지 않은 k-평균 군집화 알고리즘을 사용한 분류 방식이 정확도와 수행 시간 모두 매우 준수하였으나, 배경색이 존재하여 의류 색 분석에 영향을 줄 수 있는 경우 잘못 분류한다는 문제도 있다.

그리드 기반 표본의 무게중심을 이용한 케이-평균군집화 (K-means clustering using a center of gravity for grid-based sample)

  • 이선명;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권1호
    • /
    • pp.121-128
    • /
    • 2010
  • 케이-평균 군집분석은 데이터들을 k개의 군집으로 임의로 분할을 하여 군집의 평균을 대푯값으로 분할해 나가는 방법으로 데이터들을 유사성을 바탕으로 재배치를 하는 방법이다. 이러한 케이-평균 군집분석은 시장조사, 패턴분석 및 인식, 그리고 이미지 처리 분야 등에서 폭넓게 응용되고 있다. 그러나 대용량의 데이터베이스를 분석대상으로 하므로 그 만큼 데이터 처리 시간이 많이 소요되는 것이 문제 중의 하나이다. 특히 웹이 보편화된 현재 사용자들의 다양한 패턴을 분석하기 위한 데이터 마이닝 방법이 사용되어지고 있는데 처리 속도 문제는 더욱 중요하게 생각하고 있다. 이러한 속도 문제를 해결하기 위해 본 논문에서는 분할 군집법에서 가장 일반적으로 사용되고 있는 케이-평균 알고리즘에 대해 그리드를 기반으로 한 무게중심 알고리즘을 제안하고자 한다.

K-평균 군집화 기반 WSN에서 클러스터 헤드 선택 방법 제안 (Proposal of Cluster Head Election Method in K-means Clustering based WSN)

  • 윤대열;박세영;황치곤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.447-449
    • /
    • 2021
  • 에너지 소비를 최소화하여 네트워크를 오랫동안 유지하기 위해 다양한 무선 센서 네트워크 프로토콜이 제안되었다. K-평균 군집화 알고리즘을 사용하면 최종 군집이 설정될 때까지 중심점을 반복적으로 이동해야 하기 때문에 기존 계층형 알고리즘보다 군집화에 시간이 더 오래 걸린다. K-평균 클러스터링 기반 프로토콜의 경우 클러스터 헤드가 선택되었을 때 클러스터 중심점 근처의 노드 또는 노드의 잔류 에너지만 고려된다. 본 논문에서는 앞서 언급한 문제를 개선하면서 에너지 효율을 개선하기 위해 K-평균 클러스터링을 기반으로 하는 새로운 무선 센서 네트워크 프로토콜을 제안한다.

  • PDF

흰개미 군집 알고리즘을 이용한 유사 블로그 추천 시스템에 관한 연구 (A Study of Similar Blog Recommendation System Using Termite Colony Algorithm)

  • 정기성;조이석;이말례
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.83-88
    • /
    • 2013
  • 본 연구의 목적은 유사 블로그 추천 시스템을 통해서 특정 주제의 유사도에 따라 주제를 찾아 주는 것이다. 유사 추천 시스템을 실현하기 위해서는 대규모 데이터 집합에서 유사항목을 가진 그룹을 찾을 수 있도록 군집해야 한다. 군집화(clustering) 기법은 군집하고자 하는 목적에 따라 적합한 기법과 군집수가 결정되어야 한다. 군집기법으로는 가장 많이 사용되는 K-means 알고리즘을 사용 하였고 추천 알고리즘은 흰개미 군집 알고리즘을 사용하였다. 흰개미 습성 모델을 이용한 군집화 기법은 K-means 알고리즘이 갖고 있는 적절한 군집 갯수 문제점을 해결하고, 군집화 시간을 단축하며, 군집을 위한 군집 평균 이동횟수를 개선한다.

에피폴라 기하와 군집화 알고리즘을 이용한 정밀 정사투영영상 제작에 관한 연구 (A Study on True Ortho-photo Generation Using Epipolar Geometry and Classification Algorithm)

  • 오금희;황현덕;김준철;신성웅
    • 한국측량학회지
    • /
    • 제26권6호
    • /
    • pp.633-641
    • /
    • 2008
  • 본 논문은 에피폴라기하를 이용하여 신속하게 폐색지역을 탐지하고 유사한 패턴을 자동으로 찾아 폐색지역을 복원하여 정밀 정사투영영상을 자동적으로 생성하기 위한 방법을 제안한다. 기존에는 건물에 대한 부가적인 정보를 이용하여 영상의 폐색지역을 탐지하였지만, 본 논문에서는 카메라의 외부표정요소와 DTM 정보만을 이용하여 폐색지역을 자동으로 탐지하고 탐지된 폐색지역에 대한 복원은 우선적으로 중복된 영상을 사용하여 복원을 수행한 후, K-평균 군집화 알고리즘을 사용하여 대표 패턴을 찾아 폐색지역을 완벽하게 복원한다. 이 때, 중복된 영상의 동일한 지역을 자동으로 빠르게 탐지하기 위해 에피폴라 알고리즘을 사용한다.