• Title/Summary/Keyword: 데이터 클러스터링

Search Result 1,054, Processing Time 0.032 seconds

Intrusion Detection based on Clustering a Data Stream (데이터 스트림 클러스터링을 이용한 침임탐지)

  • Oh Sang-Hyun;Kang Jin-Suk;Byun Yung-Cheol
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2005.11a
    • /
    • pp.529-532
    • /
    • 2005
  • In anomaly intrusion detection, how to model the normal behavior of activities performed by a user is an important issue. To extract the normal behavior as a profile, conventional data mining techniques are widely applied to a finite audit data set. However, these approaches can only model the static behavior of a user in the audit data set This drawback can be overcome by viewing the continuous activities of a user as an audit data stream. This paper proposes a new clustering algorithm which continuously models a data stream. A set of features is used to represent the characteristics of an activity. For each feature, the clusters of feature values corresponding to activities observed so far in an audit data stream are identified by the proposed clustering algorithm for data streams. As a result, without maintaining any historical activity of a user physically, new activities of the user can be continuously reflected to the on-going result of clustering.

  • PDF

Differentially Private k-Means Clustering based on Dynamic Space Partitioning using a Quad-Tree (쿼드 트리를 이용한 동적 공간 분할 기반 차분 프라이버시 k-평균 클러스터링 알고리즘)

  • Goo, Hanjun;Jung, Woohwan;Oh, Seongwoong;Kwon, Suyong;Shim, Kyuseok
    • Journal of KIISE
    • /
    • v.45 no.3
    • /
    • pp.288-293
    • /
    • 2018
  • There have recently been several studies investigating how to apply a privacy preserving technique to publish data. Differential privacy can protect personal information regardless of an attacker's background knowledge by adding probabilistic noise to the original data. To perform differentially private k-means clustering, the existing algorithm builds a differentially private histogram and performs the k-means clustering. Since it constructs an equi-width histogram without considering the distribution of data, there are many buckets to which noise should be added. We propose a k-means clustering algorithm using a quad-tree that captures the distribution of data by using a small number of buckets. Our experiments show that the proposed algorithm shows better performance than the existing algorithm.

An Analysis of Player Types using Data Clustering in Gamification (데이터 클러스터링을 활용한 게이미피케이션 환경에서의 플레이어 유형 분석)

  • Park, Sungjin;Kang, Bumsoo;Kim, Sungsoo;Kim, Sangkyun
    • Journal of Korea Game Society
    • /
    • v.17 no.6
    • /
    • pp.77-88
    • /
    • 2017
  • The purpose of this study is to compare existing player type theories using data clustering. For the study, 235 result data of the gamified class in second semester of A university at 2016 used. This study applied K-means and Silhouette to decide the appropriate number of clusters. The player types applied in this study are Bartle's 2-D and 3-D player types, Ferro's five types, and BrainHex. According to the results, Bartle's 2D player type was found to be the best in perspective of data clustering. This study also analyzed the distribution of characteristics for each player types. The results of this study are expected to have an impact on player analysis, which is used in the application of gamification or in the development process.

A study on the searching of images via clustering and sequential I/O (클러스터링 및 연속적 I/O를 이용한 이미지 데이터 검색 연구)

  • 김진옥
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.106-108
    • /
    • 2002
  • 본 연구에서는 멀티미디어 데이터 검색에 클러스터링과 인덱싱 기법을 같이 적용하여 유사할 이미지끼리는 인접 디스크에 클러스터하고 이 클러스터에 접근하는 인덱스를 구축하여 검색이 빠르게 이루어지는 유사 검색방법을 제시한다. 이 연구에서는 트리 유사 구조의 인덱스 대신 해싱 방법을 이용하며 검색시 I/O시간을 줄이기 위해 오브젝트를 가진 클러스터 위치를 찾는데 한번의 I/O를 사용하고 이 클러스터를 읽기 위해 연속주인 파일 I/O를 사용하여 클러스터를 찾는 데용을 최소화한다 클러스터인덱싱 접근은 트리 유사 구조와 임의 I/O를 사용한 내용기반의 이미지 검색보다 효율적인 검색 적합성을 보이며 연속적 I/O를 통해 검색 미용을 낮춘다.

  • PDF

Vertex Detection of 3-D Data Using FCV Clustering Algorithm (FCE 클러스터링 알고리듬을 이용한 3차원 데이터의 정점 검출)

  • Choi, Byeong-Geol;Lee, Won-Hui;Kang, Hun
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 1998.03a
    • /
    • pp.24-27
    • /
    • 1998
  • 최근 컴퓨터의 속도 및 용량의 확장과 더불어 3차원 정보에 대한 연구의 필요성이 요구되고 있다. 본 논문에서는이 여기에 관한 연구의 하나로 FCV(Fuzzy c-Varieties)클러스터링의 방법을 써서 3차원 데이터의 변과 장점을 찾아 3차원 물체를 구성하여 중복된 자료의 크기를 압축하는 방법을 제시한다. 여기에 따른 문제점으로 클러스터의 개수를 결정하는 문제가 있는데 이는 fuzzy classification entropy로 해결하였다.

  • PDF

A Weight Distance-based Clustering for MultiDatabase Mining (다중데이터베이스 마이닝에서 가중치 거리를 이용한 클러스터링)

  • 김진현;윤성대
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.695-697
    • /
    • 2003
  • 다중데이터베이스 마이닝에서 하나의 데이터 집합을 형성하는 작업은 많은 부하가 따른다. 그러므로, 본 논문에서는, 가중치 거리를 이용한 클러스터링을 통해 관련성이 높은 데이터베이스를 식별하는 기법을 제안한다. 제안한 기법은 빈발한 항목으로 구성된 데이터 집합을 생성하여 데이터베이스 사이의 유사성과 거리를 측정하고 데이터베이스간의 거리에 대한 식별성을 향상시키기 위하여 최다 빈발항목에 대한 비교 연산을 통해 가중치를 산출한다. 그리고 성능평가를 통하여 제안한 기법이 Ideal&Goodness 기법보다 다중데이터베이스의 트랜잭션 데이터베이스에 대한 식별 능력이 우수함을 알 수 있었다.

  • PDF

A Differentially Private K-Means Clustering using Quadtree and Uniform Sampling (쿼드트리와 균등 샘플링를 이용한 효과적 차분 프라이버시 K-평균 클러스터링 알고리즘)

  • Hong, Daeyoung;Goo, Hanjun;Shim, Kyuseok
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2018.05a
    • /
    • pp.25-26
    • /
    • 2018
  • 최근 데이터를 공개할 때 프라이버시를 보호하기 위한 방법들이 연구되고 있다. 그 중 차분 프라이버시(differential privacy)는 최소성 공격 등에 대해서도 안전함이 증명된 익명화 기법이다. 본 논문에서는 기존 차분 프라이버시 -평균 클러스터링 알고리즘의 성능을 개선하고 실생활 데이터를 이용한 실험을 통해 이를 검증한다.

  • PDF

Research for novel clustering algorithm for protein functional analysis (단백질의 기능 분석을 위한 클러스터링 알고리즘 연구)

  • Han, Seok-Hyeon;Yi, Gangman
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.737-740
    • /
    • 2015
  • 유전자의 기능분석이 필요한 유전자 데이터의 양의 증가로 기능분석을 위한 다양한 연구들이 진행되고 있다. 단백질의 기능과 구조가 밝혀지지 않은 새로운 단백질들의 그 기능을 예측하기 위해 제안된 가중치를 제안하여 새로운 클러스터링 알고리즘을 개발하였다. 단백질의 기능을 계통에 따라 구별하고 있는 pfam의 protein family database를 이용하여 기능을 알지 못하는 단백질에 대해 protein family를 분류하는 방법을 제안하고, 이미 알고있는 데이터를 이용하여 제안된 방법의 기능분석 및 성능을 평가하고자 한다.

A Study on Process Data Compression Method by Clustering Method (클러스터링 기법을 이용한 공정 데이터의 압축 저장 기법에 관한 연구)

  • Kim Yoonsik;Mo Kyung Joo;Yoon En Sup
    • Journal of the Korean Institute of Gas
    • /
    • v.4 no.4 s.12
    • /
    • pp.58-64
    • /
    • 2000
  • Data compression and retrieval method are investigated for the effective utilization of measured process data. In this paper, a new data compression method, Clustering Compression(CC), which is based on the k-means clustering algorithm and piecewise linear approximation method is suggested. Case studies on industrial data set showed the superior performance of clustering based techniques compared to other conventional methods and showed that CC could handle the compression of multi-dimensional data.

  • PDF

Extraction of higher yeast protein-protein interaction with hierarchical clustering from textual data (계층적 군집화를 통한 이스트(Yeast) 단백질의 고차 상호작용 추출)

  • 엄재홍;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.364-366
    • /
    • 2002
  • 본 논문에서는 텍스트 형태로 구성된 특정 생물에 대한 문헌 데이터에서 해당 생물의 주요 단백질간의 이진(binary) 관계를 추출하여 이들을 특징별로 계층적으로 군집화 함으로써 특정 현상을 나타내는 단백질간의 주요 관계를 추출하는 방법을 제시한다. 텍스트 데이터에서 단백질간의 이진관계는 기본적인 데이터마이닝 기법을 사용하여 연관규칙(association rule)의 형태로 추출하게 된다. 본 논문에서는 실험을 위해 PUBMED에서 추출한 Yeast의 주요 단백질간의 관계를 포함하고 있는 논문 데이터인 MEDLINE Abstract와 몇몇 공개 데이터베이스를 사용하였다. 실험 결과 SH3와 같이 기존에 알려진 단백질간의 단일 관계를 추출하는 것 이외에 이러한 관계들을 이용하여 클러스터링을 행한 결과 공통 현상에 작용하는 주요 단백질간의 관계들이 서로 군집화 됨을 확인 할 수 있었다. 또한 단순 이진관계가 아닌 클러스터링을 이용한 보다 상위 단계에서 단순 규칙들 간의 관계를 살펴봄으로써 단백질간의 이진관계를 추출하기 위한 데이터로 사용한 문헌 데이터에 나타나 있지 않은 1차 이상의 관계를 고찰 해 볼 수 있었다. 논문에서는 규칙 추출의 전체 과정과 함께 사용된 추출 시스템의 각 부와 데이터에 대한 설명을 다룬다.

  • PDF