• Title/Summary/Keyword: 데이터 클러스터링

Search Result 1,054, Processing Time 0.036 seconds

Efficient K-means Clustering for High-dimensional Large Data (고차원 대규모 데이터를 위한 효율적인 K-means 클러스터링)

  • Yoon, Tae-Sik;Shim, Kyu-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.33-36
    • /
    • 2011
  • 클러스터링은 데이터 포인트들을 그룹으로 묶어 데이터를 분석하는데 유용하다. 특히 K-means는 가장 널리 쓰이는 클러스터링 알고리즘으로 k개의 군집(Cluster)을 찾는다. 본 논문에서는 기존의 K-means 알고리즘과 비교해 고차원 대규모데이터에 대해서 효율적으로 동작하는 K-means 알고리즘을 제안한다. 제안된 알고리즘은 기존의 알고리즘에서와 같이 거리 정보를 이용해 불필요한 계산을 줄여나가며 또한 움직임 없는 군집들을 계산에서 제외하여 수행시간을 단축한다. 제안된 알고리즘은 기존의 관련연구에서 제안된 알고리즘에 비해 공간을 적게 쓰면서 동시에 빠르다. 실제 고차원 데이터 실험을 통해서 제안된 알고리즘의 효율성을 보였다.

Video On Demand Server develop Study with UNIX (UNIX이용한 VOD서버 개발 연구)

  • 황두순;김재업
    • Proceedings of the KAIS Fall Conference
    • /
    • 2001.11a
    • /
    • pp.215-219
    • /
    • 2001
  • VOD는 사용자가 원하는 Video등의 멀티미디어 데이터들을 선택적으로 제 받을 수 있는 서비스이다. VOD는 여러 가지 응용분야의 요구사항을 만족하기에는 기술적으로 해결하여야 할 문제점이 여러 가지 존재한다. 그래서 본 논문에서는 클러스터링 시스템 구조에서 멀티미디어 데이터의 실시간 디스플레이를 보장하는 병렬/분산 입출력 시스템에 대한 연구를 제시하여 Linux 운영체제를 사용하는 컴퓨터를 단위 노드로 하여 테스트베드 시스템을 구성한다. 이 환경에서 멀티미디어 데이터를 각 I/O노드에 디클러스터링하여 비디오 설시간성과 멀티미디어 데이터의 대역폭 요구를 만족하기 위한 방법을 연구 개발하고 특정 응용 프로그램에 연구개발하고 특정응용 프로그램에 연구 개발된 방법을 적용하여 제시된 방법의 우수성과 클러스터링 환경에서 멀티미디어 데이터처리에 장점을 이 논문에서 입증하고자 한다.

A K-means Clustering Model on a Water Quality Monitoring System (수질 모니터링 시스템에서의 K-means 클러스터링 모델)

  • Kwon, Daehyeon;Cho, Soosun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.1666-1669
    • /
    • 2010
  • 본 논문에서는 USN환경에서 수질 모니터링 시스템의 일부인 싱크노드에서의 클러스터링 모델을 설계하였다. 싱크노드에서 수집된 많은 데이터 중 핵심 데이터만을 전송하기 위해서 많은 연구들이 진행 중에 있다. 본 논문에서 사용된 K-means 클러스터링 모델은 비슷한 속성들로 이루어진 K개의 클러스터로 데이터들을 묶어 불필요한 중복을 줄이고 위험 요소로 판단되는 데이터들을 추출하는 모델이다. 실험을 통해서 제안한 시스템의 성능을 다른 시스템과 비교하여 얼마나 더 효과적으로 데이터를 축약하였는지 확인할 수 있었다.

Classification of Gene Expression Data Using Membership Function and Neural Network (소속도 함수와 신경망을 이용한 유전자 발현 정보의 분류)

  • 염해영;문영식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.757-759
    • /
    • 2004
  • 유전자 발현은 유전자가 mRNA와 생체의 기능을 일으키게 하는 단백질을 만들어내는 과정이다. 유전자 발현에 대한 정보는 유전자의 기능을 밝히고 유전자간의 상관 관계를 알아내는데 중요한 역할을 한다. 이러한 유전자 발현 연구를 위한 정보를 대량으로 신속하게 얻을 수 있는 도구가 DNA Chip이다. DNA Chip으로 얻은 수백-수천 개의 데이터는 그 데이터만으로는 의미를 갖지 못한다. 따라서 유전자 발현 정도에 따라 수치적으로 획득된 데이터에서 의미적인 특성을 찾아내기 위해서는 클러스터링 방법이 필요하다. 본 논문에서는 수많은 유전자 데이터 중에서 주요 정보를 포함한 것으로 판단되는 유전자 데이터를 선택하여 특징간을 계산하고 신경망 학습을 이용한 클러스터링하는 알고리즘에 대해서 기술한다.

  • PDF

Noise Averaging Effect on Privacy-Preserving Clustering of Time-Series Data (시계열 데이터의 프라이버시 보호 클러스터링에서 노이즈 평준화 효과)

  • Moon, Yang-Sae;Kim, Hea-Suk
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.3
    • /
    • pp.356-360
    • /
    • 2010
  • Recently, there have been many research efforts on privacy-preserving data mining. In privacy-preserving data mining, accuracy preservation of mining results is as important as privacy preservation. Random perturbation privacy-preserving data mining technique is known to well preserve privacy. However, it has a problem that it destroys distance orders among time-series. In this paper, we propose a notion of the noise averaging effect of piecewise aggregate approximation(PAA), which can be preserved the clustering accuracy as high as possible in time-series data clustering. Based on the noise averaging effect, we define the PAA distance in computing distance. And, we show that our PAA distance can alleviate the problem of destroying distance orders in random perturbing time series.

Gaussian Mixture Model for Data Clustering using Fuzzy Entropy Measures (데이터 클러스터링을 위한 가우시안 혼합 모델을 이용할 퍼지 정보량 측정)

  • 임채주;최병인;이정훈
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.10a
    • /
    • pp.335-338
    • /
    • 2004
  • 본 논문에서는 기존의 정보량(Entropy) 기반 클러스터링 기법을 향상시키기 위한 방법으로서 퍼지 정보량을 이용하였다 가우시안 혼합 모델을 이용하면, 프로토타입의 목적 함수를 이용하는 클러스터링 기법보다 향상된 결과를 얻을 수 있고, Parameter의 조정이 요구되지 않는다. 그러나, 가우시안 혼합 모델의 사용은 주어진 패턴 집합을 클러스터링하는데 계산량의 증가를 초래하게 된다. 본 논문에서는 가우시안 혼합 모델의 정형화에 요구되는 계산량을 감소시키는 방법을 제시한다 또한 퍼지정보량(Fuzzy Entropy)을 적용하여 기존의 정보량 기반의 클러스터링 결과와 비교 분석하였다.

  • PDF

E-Commerce에서의 퍼지 클러스터링 알고리즘을 적용한 추천 시스템

  • Lyou, Hae-Ri;Kim, Moon-Hyun
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2003.05a
    • /
    • pp.410-415
    • /
    • 2003
  • 인터넷의 발전으로 전 세계적으로 다양한 인터넷 서비스들이 점차 확대되고 있으며, 특히 수익을 내는 방법으로서의 인터넷 전자상거래는 큰 비중을 차지하고 있다. 이에 수많은 사이트, 쇼핑몰은 상품과 고객들의 수많은 데이터를 데이터베이스 모듈로 관리하고 있다. 이렇게 고객에게 맞는 상품을 추천하기 위해 효율적으로 클러스터링 하는 방법이 요구된다. 이에 본 논문에서는 여러 클러스터링 방법 중에서 퍼지 이론을 기반으로 개선된 클러스터링 알고리즘을 이용하여 상품을 추천하고자 한다 이 방법은 클러스터의 개수가 한정되어 있는 기존의 방법에 클러스터의 유사도에 따른 유사성을 부여함으로써 더 세밀하고 정확한 클러스터링을 가능케 하여 이에 따른 개인의 성향에 맞게 개인화된 상품을 추천하는 시스템을 설계하고자 한다.

  • PDF

Document Clustering using Generic Algorithm and Cluster Measurement (클러스터 측정과 유전자 알고리즘을 이용한 문서 클러스터링)

  • Choi, Lim Cheon;Park, Soon Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.490-493
    • /
    • 2010
  • 본 논문에서는 클러스터 측정(Cluster Measurement)과 유전자 알고리즘을 이용한 문서 클러스링 알고리즘을 제안한다. 유전자 알고리즘의 요소를 클러스터링에 대입하고 클러스터 측정을 적합도 함수에 대입하여 문서 클러스터링을 구현하였다. 성능 평가를 위하여 한국일보-20000/한국일보-40075 문서범주화 실험문서집합의 데이터 셋을 이용하였다. 클러스터링 성능 평가 결과 AS Index가 DB Index, RS Index 보다 좋은 성능을 보여준다. 또한 제안한 알고리즘이 K-means 클러스터링 알고리즘에 비교해 안정적으로 좋은 성능을 보여준다.

Self Organized Map based Clustering for WSN Environment (WSN 환경을 위한 자체 조직 지도 기법 기반 클러스터링)

  • Kim, Min-Woo;Lee, Tae-Ho;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.113-114
    • /
    • 2019
  • 다수의 센서 노드로 구성된 IoT 환경에서는 네트워크 수명, 센서 노드의 통신 범위 제한과 같은 제약 사항들이 있다. 이러한 한계점을 해결하기 위해 밀집된 센서 노드 간의 협력이 필요하다. 이때, 밀집된 센서 노드들은 에너지 낭비 및 전송 데이터의 정확도를 저하시킨다. 본 연구에서는 데이터 집중으로 인해 발생하는 네트워크의 에너지 낭비 및 전송 데이터의 정확도 문제를 해결하기 위해 자체조직지도(Self Organized Map, SOM)를 기반으로 한 클러스터링 기법을 제안한다. 결과적으로 제안된 기법을 통하여 클러스터링 된 노드들은 다른 클러스터링 기법과 비교했을 때 밀도 기반의 정확한 예측 값을 얻을 수 있다.

  • PDF

Improved Parameter Inference for Low-Cost 3D LiDAR-Based Object Detection on Clustering Algorithms (클러스터링 알고리즘에서 저비용 3D LiDAR 기반 객체 감지를 위한 향상된 파라미터 추론)

  • Kim, Da-hyeon;Ahn, Jun-ho
    • Journal of Internet Computing and Services
    • /
    • v.23 no.6
    • /
    • pp.71-78
    • /
    • 2022
  • This paper proposes an algorithm for 3D object detection by processing point cloud data of 3D LiDAR. Unlike 2D LiDAR, 3D LiDAR-based data was too vast and difficult to process in three dimensions. This paper introduces various studies based on 3D LiDAR and describes 3D LiDAR data processing. In this study, we propose a method of processing data of 3D LiDAR using clustering techniques for object detection and design an algorithm that fuses with cameras for clear and accurate 3D object detection. In addition, we study models for clustering 3D LiDAR-based data and study hyperparameter values according to models. When clustering 3D LiDAR-based data, the DBSCAN algorithm showed the most accurate results, and the hyperparameter values of DBSCAN were compared and analyzed. This study will be helpful for object detection research using 3D LiDAR in the future.