• 제목/요약/키워드: K-means 알고리즘

검색결과 770건 처리시간 0.041초

K-means 알고리즘을 사용한 분산 바이오 데이터 통합화 (Integration of Distributed Biological Data using Modified K-means Algorithm)

  • 류병걸;신동규;신동일;정종일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (B)
    • /
    • pp.32-35
    • /
    • 2007
  • Bioinformatics의 목표는 생물학적인 질의를 해결하는 것과 생물학자들이 수집된 데이터를 분석하고 검색을 하여 생물학자들이 정확한 일을 수행하는 것이다. 인터넷은 여러 조사 그룹의 데이터베이스에 동시에 접근가능한 수단을 제공했으나 이러한 분산 환경에서 많은 양의 데이터는 전송 시의 시간 지연 문제와 최종 검색시의 느린 검색 속도 문제를 나타낸다. 데이터 클러스터링은 데이터의 검색시 이러한 문제점을 해결하기 위하여 이용될 수 있는 방법이지만 단순 적용시에는 데이터의 양에 비례하는 실행 시간이 또 다른 문제를 발생시킨다. 본 논문에서는 바이오데이터의 효율적인 클러스터링을 위한 개선된 분산 클러스터링 시나리오와 이를 위해 수정된 K-means 알고리즘을 제시한다. 최종 실험 결과는 20% 이상 향상된 실행 속도를 보여준다.

  • PDF

K-means 클러스터링 알고리즘을 이용한 financial transfer entropy 시각화 연구 (A study on the visualization of financial transfer entropy by the k-means clustering algorithm)

  • 김진규;윤성로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.409-410
    • /
    • 2009
  • 최근 Transfer entropy 이론을 주가지수 데이터에 적용하여 각 국가 간 상호 주고받는 정보의 방향성을 분석하고자 하는 연구가 진행되었다. 하지만 이렇게 각 국가 간의 정보 이동 관계를 고려하는 것도 중요하지만, 나아가 비슷한 방향성을 갖는 국가 군을 찾고 이를 분석하는 것 또한 중요한 연구이다. 기존의 연구 결과는 각 국가 간의 Entropy만 계산한 이차원 구조로 이 같은 경향성을 파악하기가 쉽지 않았다. 따라서 본 연구에서는 이 경향성을 쉽게 찾기 위해 k-means 클러스터링 알고리즘을 적용한 시각화 방법을 제안하고자 한다.

AI 군집 알고리즘을 활용한 학업 성취도 데이터 분석 (Analysis of Academic Achievement Data Using AI Cluster Algorithms)

  • 구덕회;정소영
    • 정보교육학회논문지
    • /
    • 제25권6호
    • /
    • pp.1005-1013
    • /
    • 2021
  • 코로나 19가 장기화되면서 기존 학력 격차가 더욱 심화되고 있다. 본 연구의 목적은 담임교사에게 학업 성취도 분석을 통해 학년 및 학급 내 학력 격차 실태를 시각적으로 확인하고, 이를 활용하여 학력 격차를 개선하기 위한 수업 설계 및 방안 탐색에 도움을 주기 위함이다. 학생들의 학년 초 국어, 수학 진단평가 점수 데이터를 K-means 알고리즘을 활용하여 클러스터로 시각화하였으며, 그 결과 유의미한 군집이 형성된 것을 확인했다. 또한, 교사 인터뷰 결과를 통해서 학생의 학습 수준 및 학업 성취 확인, 개별 보충지도 및 수준별 학습과 같은 수업 설계 등 학력 격차 개선에 본 시스템이 유의미한 것으로 확인되었다. 이는 곧, 학업 성취도 데이터 분석 시스템이 학력 격차 개선에 도움이 된다는 것을 의미한다. 본 연구가 담임교사에게 학년 및 학급 내 학력 격차 개선 방안을 탐색하는 데에 실질적인 도움을 제공하며, 궁극적으로 학력 격차 개선에 기여하기를 기대한다.

빅데이터에서 개선된 TI-FCM 클러스터링 알고리즘 (Improved TI-FCM Clustering Algorithm in Big Data)

  • 이광규
    • 전기전자학회논문지
    • /
    • 제23권2호
    • /
    • pp.419-424
    • /
    • 2019
  • FCM 알고리즘은 반복 최적화 기법을 통해 최적해를 찾는다. 특히, 클러스터링 초기 중심과 잡음의 위치, 몰려있는 밀도의 위치, 개수에 따라 실행시간 차이가 난다. 하지만 이 방법은 중심점을 점차 갱신해 나가는 방법으로 초기 클러스터 중심이 한 쪽으로 치우치게 되고 클러스터링 결과의 편차가 심해 클러스터링 대푯값의 신뢰도가 떨어진다. 따라서 본 논문에서는 삼각부등식을 이용하여 클러스터 간 거리를 최대한 멀어지게 하여 클러스터 중심 밀도를 결정하는 TI-FCM(Triangular Inequality-Fuzzy C-Means:삼각부등식-FCM)클러스터링 알고리즘을 제안한다. 제안된 방법은 대용량의 빅데이터에서도 FCM에 비해 실제 클러스터에 수렴하는 효과적인 방법이고 실험을 통해 기존 FCM보다 실행시간이 감소됨을 보였다.

문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링 (K-means Clustering Method according to Documentation Numbers)

  • 조시성;안동언;정성종;이신원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.345-348
    • /
    • 2003
  • 본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)를 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

  • PDF

동적 공정계획에서의 기계선정을 위한 다목적 유전자 알고리즘 (Multi-Objective Genetic Algorithm for Machine Selection in Dynamic Process Planning)

  • 최회련;김재관;이홍철;노형민
    • 한국정밀공학회지
    • /
    • 제24권4호
    • /
    • pp.84-92
    • /
    • 2007
  • Dynamic process planning requires not only more flexible capabilities of a CAPP system but also higher utility of the generated process plans. In order to meet the requirements, this paper develops an algorithm that can select machines for the machining operations by calculating the machine loads. The developed algorithm is based on the multi-objective genetic algorithm that gives rise to a set of optimal solutions (in general, known as the Pareto-optimal solutions). The objective is to satisfy both the minimization number of part movements and the maximization of machine utilization. The algorithm is characterized by a new and efficient method for nondominated sorting through K-means algorithm, which can speed up the running time, as well as a method of two stages for genetic operations, which can maintain a diverse set of solutions. The performance of the algorithm is evaluated by comparing with another multiple objective genetic algorithm, called NSGA-II and branch and bound algorithm.

최대 전송횟수 제한 및 사용자 밀집도 변화에 따른 사용자 클러스터링 알고리즘 별 D2D 광고 확산 성능 분석 (Performance Analysis of User Clustering Algorithms against User Density and Maximum Number of Relays for D2D Advertisement Dissemination)

  • 한세호;김준선;이호원
    • 한국정보통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.721-727
    • /
    • 2016
  • 본 논문에서는 기존 알고리즘에서의 특정 D2D 사용자 분포에 대한 광고확산 효율 저하 문제를 해결하기 위해, D2D 통신 네트워크에서 광고확산 효율을 개선하는 광고확산 알고리즘 기반의 Modified Single Linkage, K-means, 그리고 Gaussian mixture model을 적용한 Expectation Maximization 클러스터링 알고리즘의 적용이 제안되었다. 제안된 클러스터링 알고리즘들을 통해 광고 확산을 위한 목표지역들이 목표그룹으로 클러스터링되고 이를 통해 D2D 전송 단말과 수신 단말 사이의 거리를 기반으로 광고 확산 경로 설정 알고리즘과 릴레이 단말 설정 알고리즘이 적용되어 광고가 연속적으로 전파된다. 본 논문에서는 MATLAB 시뮬레이션을 통해 각 알고리즘의 최대 D2D 릴레이 제한 수와 목표지역과 비목표지역의 사용자 밀집도의 비에 따른 성능을 비교 분석한다.

진화알고리즘을 이용한 클러스터링 알고리즘 (A Clustering Algorithm using the Genetic Algorithm)

  • 류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.313-315
    • /
    • 2000
  • 클러스터링에 있어서 K-means와 FCM(Fuzzy C-means)와 같은 기존의 알고리즘들은 지역적 최소 해에 수렴될 문제와 사전에 클러스터 개수를 결정해야 하는 문제점을 가지고 있다. 본 논문에서는 병렬 탐색을 통해 최적 해를 찾는 진화 알고리즘을 사용하여 지역적 최소 해에 수렴되는 문제점을 개선하였으며, 클러스터의 특성을 표준편차 벡터를 계산하여 중심으로부터 포함된 데이터가 얼마나 분포되어 있는지 알 수 있는 분산도와 임의의 데이터와 모든 중심들간의 거리의 비율로서 얻어지는 소속정도를 고려하여 클러스터간의 간격을 알 수 있는 분리도를 정의함으로써 자동으로 클러스터 개수를 결정할 수 있게 하였다. 실험데이터와 가우시안 분포에 의해 생성된 다차원 실험데이터를 사용하여 제안한 알고리즘이 이러한 문제점들을 해결하고 있음을 보인다.

  • PDF

K-Means 클러스터링 성능 향상을 위한 최대평균거리 기반 초기값 설정 (Refining Initial Seeds using Max Average Distance for K-Means Clustering)

  • 이신원;이원휘
    • 인터넷정보학회논문지
    • /
    • 제12권2호
    • /
    • pp.103-111
    • /
    • 2011
  • 대규모 데이터에 대한 특성에 따라 몇 개의 클러스터로 군집화하는 클러스터링 기법은 계층적 클러스터링이나 분할 클러스터링 등 다양한 기법이 있는데 그 중에서 K-Means 알고리즘은 구현이 쉬우나 할당-재계산에 소요되는 시간이 증가하게 된다. 본 논문에서는 초기 클러스터 중심들 간의 거리가 최대가 되도록 하여 초기 클러스터 중심들이 고르게 분포되도록 함으로써 할당-재계산 횟수를 줄이고 전체 클러스터링 시간을 감소시키고자 한다.

유전자 알고리즘을 이용한 서울시 군집화 최적 변수 선정 (Selection of Optimal Variables for Clustering of Seoul using Genetic Algorithm)

  • 김형진;정재훈;이정빈;김상민;허준
    • 대한공간정보학회지
    • /
    • 제22권4호
    • /
    • pp.175-181
    • /
    • 2014
  • 정부 3.0이라는 새로운 정부운영 계획과 함께 다양한 공공정보를 민간이 활용할 수 있게 되었으며, 특히 서울은 이러한 행정정보 공개 및 활용을 선도하고 있다. 공개된 행정정보를 통해 각 지역을 특징짓는 행정요소를 발견할 경우, 각종 행정정책을 위한 의사결정 수단에 반영할 수 있을 뿐만 아니라 특정 지역의 고객 특성을 파악하여 특화된 서비스나 상품을 판매하는 마케팅 수단으로도 사용할 수 있을 것으로 사료된다. 하지만, 방대한 양의 행정자료로부터 각 군집의 특성을 명확히 구분할 수 있는 최적의 조합을 찾는 과정은 조합최적화 문제로서 상당한 연산량을 요구한다. 본 연구에서는 서울시에서 제공하는 다차원 행정자료로부터 서울시를 대표하는 문화 산업의 중심인 서초구, 강남구, 송파구 등의 강남 3구를 다른 지역과 효과적으로 구분하는 행정요인를 찾고자 하였다. 방대한 양의 행정정보로부터 두 군집간의 차이점을 극대화하는 요인을 선별하기 위한 최적화 방법으로 유전자 알고리즘을 이용하였으며, 군집간 차이를 계산하는 척도로는 Dunn 지수를 이용하였다. 또한 유전자 알고리즘의 연산속도의 향상을 위해 Microsoft Azure에서 제공하는 cloud computing을 이용한 분산처리를 수행하였다. 자료로는 통계청으로 부터 취득한 총 718개의 행정자료를 이용하였으며, 그 중 28개가 최적 변수로 선정되었다. 검증을 위해 선정된 28개의 변수를 입력값으로 Ward의 최소분산법 및 K-means 알고리즘을 통한 군집화를 수행한 결과 두 경우 모두 강남 3구가 다른 지역으로부터 효과적으로 분류됨을 확인하였다.