• Title/Summary/Keyword: 데이터 군집화

Search Result 563, Processing Time 0.052 seconds

An Efficient Clustering using the Genetic Algorithm (진화 알고리즘을 적용한 효율적 군집화 기법)

  • Lee, Soo-Jung;Kwon, Hye-Ryun;Kim, Eun-Ju;Lee, Yill-Byung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04b
    • /
    • pp.1017-1020
    • /
    • 2001
  • 최근 들어 관심의 대상이 되고 있는 CRM, eCRM은 비즈니스 분야에 중요한 역할을 담당하고 있다. 이를 위해 여러 방법들이 사용되고 있으나, 그 중 데이터 마이닝은 핵심 기술이라 할 수 있다. 다양한 데이터 마이닝 기법가운데 군집화 기법은, 데이터 집합을 유사한 데이터 개체들의 군집들로 분할하여 데이터 속에 존재하는 의미 있는 정보를 얻는 과정이다. 그런데 기존의 군집화 알고리즘들은 사전에 군집의 개수를 미리 결정해져야 하며, 지역적 최적해(local minima)에 수렴할 수 있다는 문제점을 가지고 있다. 본 논문에서는 진화 알고리즘을 사용하여 자동적으로 적절한 군집의 개수를 결정하여 군집화 될 수 있도록 하고, 병렬 탐색을 통해 지역적 최적해에 수렴되는 문제점을 개선한 알고리즘과 적합도 함수를 제안한다.

  • PDF

Applying Particle Swarm Optimization for Enhanced Clustering of DNA Chip Data (DNA Chip 데이터의 군집화 성능 향상을 위한 Particle Swarm Optimization 알고리즘의 적용기법)

  • Lee, Min-Soo
    • The KIPS Transactions:PartD
    • /
    • v.17D no.3
    • /
    • pp.175-184
    • /
    • 2010
  • Experiments and research on genes have become very convenient by using DNA chips, which provide large amounts of data from various experiments. The data provided by the DNA chips could be represented as a two dimensional matrix, in which one axis represents genes and the other represents samples. By performing an efficient and good quality clustering on such data, the classification work which follows could be more efficient and accurate. In this paper, we use a bio-inspired algorithm called the Particle Swarm Optimization algorithm to propose an efficient clustering mechanism for large amounts of DNA chip data, and show through experimental results that the clustering technique using the PSO algorithm provides a faster yet good quality result compared with other existing clustering solutions.

The implementation of PSO clustering Algorithm for Embedded Systems (임베디드 시스템을 위한 PSO 기반의 군집화 알고리즘의 구현)

  • Meang, Boyeon;Choi, Ok-ju;Lee, Minsoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.290-293
    • /
    • 2009
  • 바이오 칩 분석 시스템은 유전자와 실험의 두 축으로 이루어진 바이오 칩에서 자료를 추출하고 필요한 정보를 얻기 위해 데이터를 분석하는 시스템이다. 유전자 데이터를 효율적으로 분석할 수 있는 방법으로 바이오 칩 분석 시스템이 각광받으면서 데이터의 양과 종류가 방대해지고 메모리의 효율적인 사용과 이에 따른 속도 개선을 위해 임베디드 시스템이 필요해지고 있다. 이에 따라 본 연구에서는 임베디드 시스템을 위한 PSO 기반의 군집화 알고리즘을 구현하였다. 방대한 양의 유전자 데이터를 분석하기 위해 생태계 모방 알고리즘인 Particle Swarm Optimization 알고리즘과 비슷한 유전자의 분류를 위한 기법으로 군집화를 사용하여 유전자 데이터의 통합 분석 시스템을 구현, 사용자에게 더욱 효율적으로 정보를 제공한다. 본 논문에서는 방대한 양의 데이터의 최적화에 효율적인 생태계 모방 알고리즘 Particle Swarm Optimization 을 이용하여 데이터들을 군집화하는 알고리즘을 임베디드 시스템을 위해 구현한 방법을 기술하고 있다.

Adaptive Spectral Clustering for Multiview Data (다중 뷰 데이터에 대한 적응형 분광 군집화)

  • Son, Jeong-Woo;Jeon, Junekey;Kim, Sun-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1337-1340
    • /
    • 2015
  • 분광 군집화 기술은 Non-convex 군집에 대해 타 군집화 기술에 비해 강건하여 다양한 분야에서 활용되고 있다. 본 논문에서는 다중 뷰 데이터의 특성을 반영한 새로운 분광 군집화 기술을 제안한다. 제안한 방법은 협업학습의 접근 방법을 적용하되, 다수의 뷰가 서로 간에 가지는 독립성의 정도를 반영하여 유사도 그래프를 구축하고, 구축된 그래프를 기반으로 분광 군집화를 수행한다. 이를 통해 뷰들간 서로 다른 정보 요구를 그래프에 반영함으로써 군집화 성능을 높인다. 세 개의 뷰를 가정한 가상의 데이터에서 제안한 방법은 기존 방법에 비해 최대 8.25%, 높은 성능을 보였다.

A New Fuzzy Clustering Algorithm (새로운 퍼지 군집화 알고리즘)

  • Kim, Jae-Young;Park, Dong-Chul;Han, Ji-Ho;Thuy, Huynh Thi Thanh;Song, Young-Soo
    • Proceedings of the KIEE Conference
    • /
    • 2009.07a
    • /
    • pp.1905_1906
    • /
    • 2009
  • 본 논문은 데이터의 군집화를 효율적으로 수행하기 위하여 새로운 군집화 알고리즘을 제안한다. 제안되는 군집화 알고리즘은 Fuzzy C-Means (FCM)에 기반을 두는데, FCM 알고리즘은 모든 데이터에 대한 거리에 기본을 둔 멤버쉽을 기초로 하기 때문에 잡음에 약한 제약을 지니고 있었다. 이를 개선하기 위하여, 제안되었던 PCM(Probabilistic C-Means), FPCM(Fuzzy PCM), PFCM(Probabilistic FCM) 등 여러가지 알고리즘이 제안 되었다. 그러나 이들 알고리즘들은 초기 파라미터값 설정과 과다한 계산양에 따른 문제가 증가하였으며, 또한 잡음에 어느 정도 민감한 문제점을 지니고 있었다. 이 논문에서는 잡음에 대해 효과적으로 대응할 수 있는 새로운 군집화 알고리즘을 제안하고, 전통적인 군집화를 위한 Iris 데이터에 대한 실험을 통하여 효용성을 확인하였다.

  • PDF

Feature Extraction of CNN-GRU based Multivariate Time Series Data for Regional Clustering (지역 군집화를 위한 CNN-GRU 기반 다변량 시계열 데이터의 특성 추출)

  • Kim, Jinah;Lee, Ji-Hoon;Choi, Dong-Wook;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.950-951
    • /
    • 2019
  • 시계열 데이터에 대한 군집화 관련 연구는 주로 통계 분석을 통해 이뤄지기 때문에 데이터가 갖는 특성을 완전히 반영하는 데 한계를 갖는다. 본 논문에서는 다변량 데이터에서의 군집화를 위하여 변수별로 시간에 따른 변화와 특징을 추출하기 위한 CNN-GRU(Convolutional Neural Network - Gated Recurrent Unit) 기반의 신경망 모델을 제안한다. CNN을 활용하여 변수별로 갖는 특성을 파악하고자 하였으며, GRU을 통해 전체 시간에 따른 소비 추세를 도출하고자 하였다. 지역별로 업종에 따라 사용된 2년 치의 실제 카드 데이터를 활용하였으며, 유사한 소비 추세를 보이는 지역을 군집화하는데 이를 적용하였다. 결과적으로, 다변량 시계열 데이터를 통해 전체적인 흐름을 반영하여 패턴화했다는 점에서 의의를 갖는다.

Stress Affect Detection At Wearable Devices Via Clustered Federated Learning Based On Number of Samples Mahalanobis Distance (웨어러블 기기에서 데이터수 기반 마하라노비스 군집화 연합학습을 통한 스트레스 및 감정탐지)

  • Tae-Hwan Yoon;Bong-Jun Choi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.764-767
    • /
    • 2024
  • 웨어러블 디바이스에서는 사용자의 다양한 메타데이터를 수집할 수 있다. 그러나 이런 개인정보를 함유하고 있는 데이터를 수집하는 것은 사용자에게 개인정보침해 위협을 야기한다. 때문에 본 논문에서는 개인정보보호를 통한 웨어러블 디바이스 데이터활용방안으로 연합학습을 채택하였다. 다만 기존 연합학습에서도 해결해야할 문제점들이 있다. 우리는 그중에서도 데이터이질성(Data Heterogeneity) 문제해결을 위해 군집화(Clustering) 방법을 활용하였다. 또한 기존의 코사인유사도 기반 군집화에서 파라미터중요도가 반영되지 않는다는 문제점을 해결하고자 데이터수 기반 마하라노비스거리(Number of Samples Mahalanobis Distance) 군집화 방법을 제시하였다. 이를 통해 WESAD(Werable Stress Affect Detection)데이터에서 피실험자의 데이터 이질성이 존재하는 상황에서 기존 연합학습보다 학습 안정성 측면에서 좋음을 보여주었다.

  • PDF

Entropy-based Clustering Validation Technique for Categorical Data Sets (범주형 데이터 집합에 대한 엔트로피 기반 군집 유효화 기술)

  • Park Namhyun;Ahn Chang Wook;Ramakrishna R.S.
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.477-480
    • /
    • 2004
  • 본 논문에서는 고차원의 특성을 가진 범주형 데이터 집합의 군집 유효화 기술에 대하여 알아본다. 먼저, 범주형 데이터 집합에 대하여 한 군집의 센트로이드를 정의함에 따라 일반적인 군집화 방법에서 사용되는 쌍 유사성 측정을 가능하게 한다. 다음으로, 범주형 데이터 집합에 대한 증분 군집 알고리즘을 통하여 도출된 결과에 대해 최적 군집 수의 결정하기 위하여 엔트로피 기반 군집 유효화 지수를 사용한다. 이를 통하여 일반적인 군집 알고리즘에서 최적 결과를 얻기 위해 필요한 문턱값 결정 문제를 손쉽게 해결한다. 마지막으로, 위의 개념들을 여러 데이터 집합에 대해 실험한다.

  • PDF

News Clustering and Multi-Document Summarization for Real-time Issue Analysis (실시간 이슈 분석을 위한 뉴스 군집화 및 다중 문서 요약)

  • Yu, Hongyeon;Lee, Seungwoo;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.132-137
    • /
    • 2018
  • 뉴스 기반의 실시간 이슈 분석을 위해서는 실시간으로 생성되는 다중 뉴스 기사 집합을 입력으로 받아 점증적으로 군집화 하고, 각 군집별 정보를 자동으로 요약하는 기술이 필요하다. 기존에는 정적인 데이터 기반의 군집화와 요약 각각에 대한 연구는 활발히 진행되고 있지만, 실시간으로 입력되는 대량의 데이터를 위한 점증적인 군집화와 요약에 대한 연구는 매우 부족하다. 따라서 본 논문에서는 실시간으로 입력되는 대량의 뉴스 기사 집합을 분석하기 위한 점증적이고 계층적인 뉴스 군집화 및 다중 문서 요약 방법을 제안한다. 평가를 위해서 2016년 10월, 11월 두 달간의 실제 데이터를 사용 하였으며, 전문 교육을 받은 연구원들이 Precision at k 기반의 정성평가를 진행하였다. 그 결과, 자동으로 생성된 12개의 군집에서 군집 성능은 평균 66% (상위계층 $l_1$: 82%, 하위계층 $l_2$: 43%), 요약 성능은 평균 92%를 얻었다.

  • PDF

Clustering Optimization Cluster Count Determination for Tourist Destination Recommendation (관광지 추천을 위한 클러스터링 최적화 군집수 결정)

  • Hae-Jin Yeo;In-Whee Joe
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.371-373
    • /
    • 2023
  • factor 들이 많은 데이터의 군집화는 어려움을 요한다. K-means 클러스터링을 사용하여 군집화를 할 때, 각 데이터들이 가진 factor 의 개수가 상이한 경우 비슷한 성향을 가진 데이터임에도 불구하고 클러스터링이 적합하게 되지 않는 현상이 발생한다. 이러한 문제점을 해결하기 위해 최적의 군집화 개수를 결정하는 실루엣 기반 방법을 제안하고 제안기법의 성능을 평가한다.