• 제목/요약/키워드: 데이터 군집화

검색결과 560건 처리시간 0.042초

진화 알고리즘을 적용한 효율적 군집화 기법 (An Efficient Clustering using the Genetic Algorithm)

  • 이수정;권혜련;김은주;이일병
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.1017-1020
    • /
    • 2001
  • 최근 들어 관심의 대상이 되고 있는 CRM, eCRM은 비즈니스 분야에 중요한 역할을 담당하고 있다. 이를 위해 여러 방법들이 사용되고 있으나, 그 중 데이터 마이닝은 핵심 기술이라 할 수 있다. 다양한 데이터 마이닝 기법가운데 군집화 기법은, 데이터 집합을 유사한 데이터 개체들의 군집들로 분할하여 데이터 속에 존재하는 의미 있는 정보를 얻는 과정이다. 그런데 기존의 군집화 알고리즘들은 사전에 군집의 개수를 미리 결정해져야 하며, 지역적 최적해(local minima)에 수렴할 수 있다는 문제점을 가지고 있다. 본 논문에서는 진화 알고리즘을 사용하여 자동적으로 적절한 군집의 개수를 결정하여 군집화 될 수 있도록 하고, 병렬 탐색을 통해 지역적 최적해에 수렴되는 문제점을 개선한 알고리즘과 적합도 함수를 제안한다.

  • PDF

DNA Chip 데이터의 군집화 성능 향상을 위한 Particle Swarm Optimization 알고리즘의 적용기법 (Applying Particle Swarm Optimization for Enhanced Clustering of DNA Chip Data)

  • 이민수
    • 정보처리학회논문지D
    • /
    • 제17D권3호
    • /
    • pp.175-184
    • /
    • 2010
  • 최근 DNA 칩의 등장으로 유전자 관련 실험과 연구가 매우 용이해졌으며 이를 활용한 다양한 실험 결과로 대량의 데이터가 제공되고 있다. DNA칩에 의해 제공된 데이터는 2차원 행렬로 표현되며 하나의 축은 유전자를 나타내고 다른 하나의 축은 샘플정보를 나타낸다. 이러한 데이터에 대하여 빠른 시간 안에 좋은 품질의 군집화를 수행함으로써 이후의 분석 단계인 분류화 작업의 정확도와 효율성을 높일 수 있다. 본 논문에서는 생태계 모방 알고리즘의 하나인 Particle Swarm Optimization 알고리즘을 사용하여 방대한 양의 DNA칩 데이터에 대한 효율적인 군집화 기법을 제안하였으며 실험을 통해서 PSO 기반의 군집화 알고리즘이 기존의 군집화 알고리즘들보다 수행속도 및 품질 면에서 우수한 성능을 가짐을 보였다.

임베디드 시스템을 위한 PSO 기반의 군집화 알고리즘의 구현 (The implementation of PSO clustering Algorithm for Embedded Systems)

  • 맹보연;최옥주;이민수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.290-293
    • /
    • 2009
  • 바이오 칩 분석 시스템은 유전자와 실험의 두 축으로 이루어진 바이오 칩에서 자료를 추출하고 필요한 정보를 얻기 위해 데이터를 분석하는 시스템이다. 유전자 데이터를 효율적으로 분석할 수 있는 방법으로 바이오 칩 분석 시스템이 각광받으면서 데이터의 양과 종류가 방대해지고 메모리의 효율적인 사용과 이에 따른 속도 개선을 위해 임베디드 시스템이 필요해지고 있다. 이에 따라 본 연구에서는 임베디드 시스템을 위한 PSO 기반의 군집화 알고리즘을 구현하였다. 방대한 양의 유전자 데이터를 분석하기 위해 생태계 모방 알고리즘인 Particle Swarm Optimization 알고리즘과 비슷한 유전자의 분류를 위한 기법으로 군집화를 사용하여 유전자 데이터의 통합 분석 시스템을 구현, 사용자에게 더욱 효율적으로 정보를 제공한다. 본 논문에서는 방대한 양의 데이터의 최적화에 효율적인 생태계 모방 알고리즘 Particle Swarm Optimization 을 이용하여 데이터들을 군집화하는 알고리즘을 임베디드 시스템을 위해 구현한 방법을 기술하고 있다.

다중 뷰 데이터에 대한 적응형 분광 군집화 (Adaptive Spectral Clustering for Multiview Data)

  • 손정우;전준기;김선중
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1337-1340
    • /
    • 2015
  • 분광 군집화 기술은 Non-convex 군집에 대해 타 군집화 기술에 비해 강건하여 다양한 분야에서 활용되고 있다. 본 논문에서는 다중 뷰 데이터의 특성을 반영한 새로운 분광 군집화 기술을 제안한다. 제안한 방법은 협업학습의 접근 방법을 적용하되, 다수의 뷰가 서로 간에 가지는 독립성의 정도를 반영하여 유사도 그래프를 구축하고, 구축된 그래프를 기반으로 분광 군집화를 수행한다. 이를 통해 뷰들간 서로 다른 정보 요구를 그래프에 반영함으로써 군집화 성능을 높인다. 세 개의 뷰를 가정한 가상의 데이터에서 제안한 방법은 기존 방법에 비해 최대 8.25%, 높은 성능을 보였다.

새로운 퍼지 군집화 알고리즘 (A New Fuzzy Clustering Algorithm)

  • 김재영;박동철;한지호;;송영수
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2009년도 제40회 하계학술대회
    • /
    • pp.1905_1906
    • /
    • 2009
  • 본 논문은 데이터의 군집화를 효율적으로 수행하기 위하여 새로운 군집화 알고리즘을 제안한다. 제안되는 군집화 알고리즘은 Fuzzy C-Means (FCM)에 기반을 두는데, FCM 알고리즘은 모든 데이터에 대한 거리에 기본을 둔 멤버쉽을 기초로 하기 때문에 잡음에 약한 제약을 지니고 있었다. 이를 개선하기 위하여, 제안되었던 PCM(Probabilistic C-Means), FPCM(Fuzzy PCM), PFCM(Probabilistic FCM) 등 여러가지 알고리즘이 제안 되었다. 그러나 이들 알고리즘들은 초기 파라미터값 설정과 과다한 계산양에 따른 문제가 증가하였으며, 또한 잡음에 어느 정도 민감한 문제점을 지니고 있었다. 이 논문에서는 잡음에 대해 효과적으로 대응할 수 있는 새로운 군집화 알고리즘을 제안하고, 전통적인 군집화를 위한 Iris 데이터에 대한 실험을 통하여 효용성을 확인하였다.

  • PDF

지역 군집화를 위한 CNN-GRU 기반 다변량 시계열 데이터의 특성 추출 (Feature Extraction of CNN-GRU based Multivariate Time Series Data for Regional Clustering)

  • 김진아;이지훈;최동욱;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.950-951
    • /
    • 2019
  • 시계열 데이터에 대한 군집화 관련 연구는 주로 통계 분석을 통해 이뤄지기 때문에 데이터가 갖는 특성을 완전히 반영하는 데 한계를 갖는다. 본 논문에서는 다변량 데이터에서의 군집화를 위하여 변수별로 시간에 따른 변화와 특징을 추출하기 위한 CNN-GRU(Convolutional Neural Network - Gated Recurrent Unit) 기반의 신경망 모델을 제안한다. CNN을 활용하여 변수별로 갖는 특성을 파악하고자 하였으며, GRU을 통해 전체 시간에 따른 소비 추세를 도출하고자 하였다. 지역별로 업종에 따라 사용된 2년 치의 실제 카드 데이터를 활용하였으며, 유사한 소비 추세를 보이는 지역을 군집화하는데 이를 적용하였다. 결과적으로, 다변량 시계열 데이터를 통해 전체적인 흐름을 반영하여 패턴화했다는 점에서 의의를 갖는다.

범주형 데이터 집합에 대한 엔트로피 기반 군집 유효화 기술 (Entropy-based Clustering Validation Technique for Categorical Data Sets)

  • 박남현;안창욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.477-480
    • /
    • 2004
  • 본 논문에서는 고차원의 특성을 가진 범주형 데이터 집합의 군집 유효화 기술에 대하여 알아본다. 먼저, 범주형 데이터 집합에 대하여 한 군집의 센트로이드를 정의함에 따라 일반적인 군집화 방법에서 사용되는 쌍 유사성 측정을 가능하게 한다. 다음으로, 범주형 데이터 집합에 대한 증분 군집 알고리즘을 통하여 도출된 결과에 대해 최적 군집 수의 결정하기 위하여 엔트로피 기반 군집 유효화 지수를 사용한다. 이를 통하여 일반적인 군집 알고리즘에서 최적 결과를 얻기 위해 필요한 문턱값 결정 문제를 손쉽게 해결한다. 마지막으로, 위의 개념들을 여러 데이터 집합에 대해 실험한다.

  • PDF

실시간 이슈 분석을 위한 뉴스 군집화 및 다중 문서 요약 (News Clustering and Multi-Document Summarization for Real-time Issue Analysis)

  • 유홍연;이승우;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.132-137
    • /
    • 2018
  • 뉴스 기반의 실시간 이슈 분석을 위해서는 실시간으로 생성되는 다중 뉴스 기사 집합을 입력으로 받아 점증적으로 군집화 하고, 각 군집별 정보를 자동으로 요약하는 기술이 필요하다. 기존에는 정적인 데이터 기반의 군집화와 요약 각각에 대한 연구는 활발히 진행되고 있지만, 실시간으로 입력되는 대량의 데이터를 위한 점증적인 군집화와 요약에 대한 연구는 매우 부족하다. 따라서 본 논문에서는 실시간으로 입력되는 대량의 뉴스 기사 집합을 분석하기 위한 점증적이고 계층적인 뉴스 군집화 및 다중 문서 요약 방법을 제안한다. 평가를 위해서 2016년 10월, 11월 두 달간의 실제 데이터를 사용 하였으며, 전문 교육을 받은 연구원들이 Precision at k 기반의 정성평가를 진행하였다. 그 결과, 자동으로 생성된 12개의 군집에서 군집 성능은 평균 66% (상위계층 $l_1$: 82%, 하위계층 $l_2$: 43%), 요약 성능은 평균 92%를 얻었다.

  • PDF

관광지 추천을 위한 클러스터링 최적화 군집수 결정 (Clustering Optimization Cluster Count Determination for Tourist Destination Recommendation)

  • 여해진;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.371-373
    • /
    • 2023
  • factor 들이 많은 데이터의 군집화는 어려움을 요한다. K-means 클러스터링을 사용하여 군집화를 할 때, 각 데이터들이 가진 factor 의 개수가 상이한 경우 비슷한 성향을 가진 데이터임에도 불구하고 클러스터링이 적합하게 되지 않는 현상이 발생한다. 이러한 문제점을 해결하기 위해 최적의 군집화 개수를 결정하는 실루엣 기반 방법을 제안하고 제안기법의 성능을 평가한다.

효율적인 비디오 검색 및 브라우징을 위한 대표 프레임 군집화 (Key Frame Clustering for Efficient Video Retrieval and Browsing)

  • 김영민;이성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.553-555
    • /
    • 1998
  • 효율적인 비디오 검색과 브라우징을 위해서는 비디오를 장면 단위로 나누는 비디오 분할과 더불어 분할된 비디오 셧을 대표하는 프레임을 군집화하는 기술이 필요하다. 이는 내용 기반 비디오 검색 및 브라우징의 바탕이 되는 핵심 기술로써, 국내외적으로 많은 연구가 요구되고 있는 실정이다. 본 논문에서는 주파수 정보를 이용한 대표 프레임 군집화 방법을 제안하고 실험 비디오 데이터에 대하여 그 성능을 평가해 본다. 제안된 방법에서는 웨이블렛 변환을 통하여 대표 프레임의 주파수 정보를 구한 후, 고주파 영역과 저주파 영역에 가중치를 두어 대표 프레임을 군집화 하였다. 제안된 방법을 드라마 비디오 데이터에 대하여 실험한 결과 군집화의 정확도가 우수할 뿐 아니라 군집화 정도를 조절할 수 있어 다양한 수준의 군집화를 수행할 수 있음을 확인할 수 있었다.

  • PDF