• Title/Summary/Keyword: 데이터 군집화

Search Result 560, Processing Time 0.036 seconds

An Efficient Clustering using the Genetic Algorithm (진화 알고리즘을 적용한 효율적 군집화 기법)

  • Lee, Soo-Jung;Kwon, Hye-Ryun;Kim, Eun-Ju;Lee, Yill-Byung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04b
    • /
    • pp.1017-1020
    • /
    • 2001
  • 최근 들어 관심의 대상이 되고 있는 CRM, eCRM은 비즈니스 분야에 중요한 역할을 담당하고 있다. 이를 위해 여러 방법들이 사용되고 있으나, 그 중 데이터 마이닝은 핵심 기술이라 할 수 있다. 다양한 데이터 마이닝 기법가운데 군집화 기법은, 데이터 집합을 유사한 데이터 개체들의 군집들로 분할하여 데이터 속에 존재하는 의미 있는 정보를 얻는 과정이다. 그런데 기존의 군집화 알고리즘들은 사전에 군집의 개수를 미리 결정해져야 하며, 지역적 최적해(local minima)에 수렴할 수 있다는 문제점을 가지고 있다. 본 논문에서는 진화 알고리즘을 사용하여 자동적으로 적절한 군집의 개수를 결정하여 군집화 될 수 있도록 하고, 병렬 탐색을 통해 지역적 최적해에 수렴되는 문제점을 개선한 알고리즘과 적합도 함수를 제안한다.

  • PDF

Applying Particle Swarm Optimization for Enhanced Clustering of DNA Chip Data (DNA Chip 데이터의 군집화 성능 향상을 위한 Particle Swarm Optimization 알고리즘의 적용기법)

  • Lee, Min-Soo
    • The KIPS Transactions:PartD
    • /
    • v.17D no.3
    • /
    • pp.175-184
    • /
    • 2010
  • Experiments and research on genes have become very convenient by using DNA chips, which provide large amounts of data from various experiments. The data provided by the DNA chips could be represented as a two dimensional matrix, in which one axis represents genes and the other represents samples. By performing an efficient and good quality clustering on such data, the classification work which follows could be more efficient and accurate. In this paper, we use a bio-inspired algorithm called the Particle Swarm Optimization algorithm to propose an efficient clustering mechanism for large amounts of DNA chip data, and show through experimental results that the clustering technique using the PSO algorithm provides a faster yet good quality result compared with other existing clustering solutions.

The implementation of PSO clustering Algorithm for Embedded Systems (임베디드 시스템을 위한 PSO 기반의 군집화 알고리즘의 구현)

  • Meang, Boyeon;Choi, Ok-ju;Lee, Minsoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.290-293
    • /
    • 2009
  • 바이오 칩 분석 시스템은 유전자와 실험의 두 축으로 이루어진 바이오 칩에서 자료를 추출하고 필요한 정보를 얻기 위해 데이터를 분석하는 시스템이다. 유전자 데이터를 효율적으로 분석할 수 있는 방법으로 바이오 칩 분석 시스템이 각광받으면서 데이터의 양과 종류가 방대해지고 메모리의 효율적인 사용과 이에 따른 속도 개선을 위해 임베디드 시스템이 필요해지고 있다. 이에 따라 본 연구에서는 임베디드 시스템을 위한 PSO 기반의 군집화 알고리즘을 구현하였다. 방대한 양의 유전자 데이터를 분석하기 위해 생태계 모방 알고리즘인 Particle Swarm Optimization 알고리즘과 비슷한 유전자의 분류를 위한 기법으로 군집화를 사용하여 유전자 데이터의 통합 분석 시스템을 구현, 사용자에게 더욱 효율적으로 정보를 제공한다. 본 논문에서는 방대한 양의 데이터의 최적화에 효율적인 생태계 모방 알고리즘 Particle Swarm Optimization 을 이용하여 데이터들을 군집화하는 알고리즘을 임베디드 시스템을 위해 구현한 방법을 기술하고 있다.

Adaptive Spectral Clustering for Multiview Data (다중 뷰 데이터에 대한 적응형 분광 군집화)

  • Son, Jeong-Woo;Jeon, Junekey;Kim, Sun-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1337-1340
    • /
    • 2015
  • 분광 군집화 기술은 Non-convex 군집에 대해 타 군집화 기술에 비해 강건하여 다양한 분야에서 활용되고 있다. 본 논문에서는 다중 뷰 데이터의 특성을 반영한 새로운 분광 군집화 기술을 제안한다. 제안한 방법은 협업학습의 접근 방법을 적용하되, 다수의 뷰가 서로 간에 가지는 독립성의 정도를 반영하여 유사도 그래프를 구축하고, 구축된 그래프를 기반으로 분광 군집화를 수행한다. 이를 통해 뷰들간 서로 다른 정보 요구를 그래프에 반영함으로써 군집화 성능을 높인다. 세 개의 뷰를 가정한 가상의 데이터에서 제안한 방법은 기존 방법에 비해 최대 8.25%, 높은 성능을 보였다.

A New Fuzzy Clustering Algorithm (새로운 퍼지 군집화 알고리즘)

  • Kim, Jae-Young;Park, Dong-Chul;Han, Ji-Ho;Thuy, Huynh Thi Thanh;Song, Young-Soo
    • Proceedings of the KIEE Conference
    • /
    • 2009.07a
    • /
    • pp.1905_1906
    • /
    • 2009
  • 본 논문은 데이터의 군집화를 효율적으로 수행하기 위하여 새로운 군집화 알고리즘을 제안한다. 제안되는 군집화 알고리즘은 Fuzzy C-Means (FCM)에 기반을 두는데, FCM 알고리즘은 모든 데이터에 대한 거리에 기본을 둔 멤버쉽을 기초로 하기 때문에 잡음에 약한 제약을 지니고 있었다. 이를 개선하기 위하여, 제안되었던 PCM(Probabilistic C-Means), FPCM(Fuzzy PCM), PFCM(Probabilistic FCM) 등 여러가지 알고리즘이 제안 되었다. 그러나 이들 알고리즘들은 초기 파라미터값 설정과 과다한 계산양에 따른 문제가 증가하였으며, 또한 잡음에 어느 정도 민감한 문제점을 지니고 있었다. 이 논문에서는 잡음에 대해 효과적으로 대응할 수 있는 새로운 군집화 알고리즘을 제안하고, 전통적인 군집화를 위한 Iris 데이터에 대한 실험을 통하여 효용성을 확인하였다.

  • PDF

Feature Extraction of CNN-GRU based Multivariate Time Series Data for Regional Clustering (지역 군집화를 위한 CNN-GRU 기반 다변량 시계열 데이터의 특성 추출)

  • Kim, Jinah;Lee, Ji-Hoon;Choi, Dong-Wook;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.950-951
    • /
    • 2019
  • 시계열 데이터에 대한 군집화 관련 연구는 주로 통계 분석을 통해 이뤄지기 때문에 데이터가 갖는 특성을 완전히 반영하는 데 한계를 갖는다. 본 논문에서는 다변량 데이터에서의 군집화를 위하여 변수별로 시간에 따른 변화와 특징을 추출하기 위한 CNN-GRU(Convolutional Neural Network - Gated Recurrent Unit) 기반의 신경망 모델을 제안한다. CNN을 활용하여 변수별로 갖는 특성을 파악하고자 하였으며, GRU을 통해 전체 시간에 따른 소비 추세를 도출하고자 하였다. 지역별로 업종에 따라 사용된 2년 치의 실제 카드 데이터를 활용하였으며, 유사한 소비 추세를 보이는 지역을 군집화하는데 이를 적용하였다. 결과적으로, 다변량 시계열 데이터를 통해 전체적인 흐름을 반영하여 패턴화했다는 점에서 의의를 갖는다.

Entropy-based Clustering Validation Technique for Categorical Data Sets (범주형 데이터 집합에 대한 엔트로피 기반 군집 유효화 기술)

  • Park Namhyun;Ahn Chang Wook;Ramakrishna R.S.
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.477-480
    • /
    • 2004
  • 본 논문에서는 고차원의 특성을 가진 범주형 데이터 집합의 군집 유효화 기술에 대하여 알아본다. 먼저, 범주형 데이터 집합에 대하여 한 군집의 센트로이드를 정의함에 따라 일반적인 군집화 방법에서 사용되는 쌍 유사성 측정을 가능하게 한다. 다음으로, 범주형 데이터 집합에 대한 증분 군집 알고리즘을 통하여 도출된 결과에 대해 최적 군집 수의 결정하기 위하여 엔트로피 기반 군집 유효화 지수를 사용한다. 이를 통하여 일반적인 군집 알고리즘에서 최적 결과를 얻기 위해 필요한 문턱값 결정 문제를 손쉽게 해결한다. 마지막으로, 위의 개념들을 여러 데이터 집합에 대해 실험한다.

  • PDF

News Clustering and Multi-Document Summarization for Real-time Issue Analysis (실시간 이슈 분석을 위한 뉴스 군집화 및 다중 문서 요약)

  • Yu, Hongyeon;Lee, Seungwoo;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.132-137
    • /
    • 2018
  • 뉴스 기반의 실시간 이슈 분석을 위해서는 실시간으로 생성되는 다중 뉴스 기사 집합을 입력으로 받아 점증적으로 군집화 하고, 각 군집별 정보를 자동으로 요약하는 기술이 필요하다. 기존에는 정적인 데이터 기반의 군집화와 요약 각각에 대한 연구는 활발히 진행되고 있지만, 실시간으로 입력되는 대량의 데이터를 위한 점증적인 군집화와 요약에 대한 연구는 매우 부족하다. 따라서 본 논문에서는 실시간으로 입력되는 대량의 뉴스 기사 집합을 분석하기 위한 점증적이고 계층적인 뉴스 군집화 및 다중 문서 요약 방법을 제안한다. 평가를 위해서 2016년 10월, 11월 두 달간의 실제 데이터를 사용 하였으며, 전문 교육을 받은 연구원들이 Precision at k 기반의 정성평가를 진행하였다. 그 결과, 자동으로 생성된 12개의 군집에서 군집 성능은 평균 66% (상위계층 $l_1$: 82%, 하위계층 $l_2$: 43%), 요약 성능은 평균 92%를 얻었다.

  • PDF

Clustering Optimization Cluster Count Determination for Tourist Destination Recommendation (관광지 추천을 위한 클러스터링 최적화 군집수 결정)

  • Hae-Jin Yeo;In-Whee Joe
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.371-373
    • /
    • 2023
  • factor 들이 많은 데이터의 군집화는 어려움을 요한다. K-means 클러스터링을 사용하여 군집화를 할 때, 각 데이터들이 가진 factor 의 개수가 상이한 경우 비슷한 성향을 가진 데이터임에도 불구하고 클러스터링이 적합하게 되지 않는 현상이 발생한다. 이러한 문제점을 해결하기 위해 최적의 군집화 개수를 결정하는 실루엣 기반 방법을 제안하고 제안기법의 성능을 평가한다.

Key Frame Clustering for Efficient Video Retrieval and Browsing (효율적인 비디오 검색 및 브라우징을 위한 대표 프레임 군집화)

  • 김영민;이성환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.553-555
    • /
    • 1998
  • 효율적인 비디오 검색과 브라우징을 위해서는 비디오를 장면 단위로 나누는 비디오 분할과 더불어 분할된 비디오 셧을 대표하는 프레임을 군집화하는 기술이 필요하다. 이는 내용 기반 비디오 검색 및 브라우징의 바탕이 되는 핵심 기술로써, 국내외적으로 많은 연구가 요구되고 있는 실정이다. 본 논문에서는 주파수 정보를 이용한 대표 프레임 군집화 방법을 제안하고 실험 비디오 데이터에 대하여 그 성능을 평가해 본다. 제안된 방법에서는 웨이블렛 변환을 통하여 대표 프레임의 주파수 정보를 구한 후, 고주파 영역과 저주파 영역에 가중치를 두어 대표 프레임을 군집화 하였다. 제안된 방법을 드라마 비디오 데이터에 대하여 실험한 결과 군집화의 정확도가 우수할 뿐 아니라 군집화 정도를 조절할 수 있어 다양한 수준의 군집화를 수행할 수 있음을 확인할 수 있었다.

  • PDF