• 제목/요약/키워드: Hierarchical Clustering

검색결과 561건 처리시간 0.029초

An Abnormal Worker Movement Detection System Based on Data Stream Processing and Hierarchical Clustering

  • Duong, Dat Van Anh;Lan, Doi Thi;Yoon, Seokhoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제14권4호
    • /
    • pp.88-95
    • /
    • 2022
  • Detecting anomalies in human movement is an important task in industrial applications, such as monitoring industrial disasters or accidents and recognizing unauthorized factory intruders. In this paper, we propose an abnormal worker movement detection system based on data stream processing and hierarchical clustering. In the proposed system, Apache Spark is used for streaming the location data of people. A hierarchical clustering-based anomalous trajectory detection algorithm is designed for detecting anomalies in human movement. The algorithm is integrated into Apache Spark for detecting anomalies from location data. Specifically, the location information is streamed to Apache Spark using the message queuing telemetry transport protocol. Then, Apache Spark processes and stores location data in a data frame. When there is a request from a client, the processed data in the data frame is taken and put into the proposed algorithm for detecting anomalies. A real mobility trace of people is used to evaluate the proposed system. The obtained results show that the system has high performance and can be used for a wide range of industrial applications.

단어-역문서 빈도 벡터화를 통한 한국 걸그룹의 음반 메타 정보 군집화 (Clustering Meta Information of K-Pop Girl Groups Using Term Frequency-inverse Document Frequency Vectorization)

  • 현준서;조재혁
    • Journal of Platform Technology
    • /
    • 제11권3호
    • /
    • pp.12-23
    • /
    • 2023
  • 2020 년대 K-Pop 시장은 보이그룹보다 걸그룹이, 3 세대보다 4 세대가 전반에서 주목받았다. 해당 논문은 걸그룹의 세대가 바뀌기 시작했는지 알아보고자 가사 군집화에 대한 방법과 결과를 제시한다. 2013 년부터 2022 년까지 발표된 47 개 그룹의 1469 곡에 대한 메타정보를 수집하여 가사 정보와 가사 외 메타정보로 분류하여 각각 수치화했다. 가사 정보는 선행연구를 기반으로 단어역문서 빈도 벡터화를 적용한 뒤 상위 벡터 값만 선정하는 전처리를 하였다. 가사 외 메타정보는 가사 정보만 사용했을 때의 편향성을 줄이고 더 좋은 군집화 결과를 보여주기 위해 One-Hot Encoding 으로 전처리하여 적용했다. 전처리된 데이터에 대한 군집화 성능은 Spherical K-Means 의 Silhouette Coefficient, Calinski-Harabasz Score 가 Hierarchical Clustering 에 비해 각각 129%, 45% 더 높았다. 본 연구는 한국 대중가요 발전사와 걸그룹 가사 분석 및 군집화 연구에 기여할 수 있을 것으로 기대된다.

  • PDF

Three Effective Top-Down Clustering Algorithms for Location Database Systems

  • Lee, Kwang-Jo;Yang, Sung-Bong
    • Journal of Computing Science and Engineering
    • /
    • 제4권2호
    • /
    • pp.173-187
    • /
    • 2010
  • Recent technological advances in mobile communication systems have made explosive growth in the number of mobile device users worldwide. One of the most important issues in designing a mobile computing system is location management of users. The hierarchical systems had been proposed to solve the scalability problem in location management. The scalability problem occurs when there are too many users for a mobile system to handle, as the system is likely to react slow or even get down due to late updates of the location databases. In this paper, we propose a top-down clustering algorithm for hierarchical location database systems in a wireless network. A hierarchical location database system employs a tree structure. The proposed algorithm uses a top-down approach and utilizes the number of visits to each cell made by the users along with the movement information between a pair of adjacent cells. We then present a modified algorithm by incorporating the exhaustive method when there remain a few levels of the tree to be processed. We also propose a capacity constraint top-down clustering algorithm for more realistic environments where a database has a capacity limit. By the capacity of a database we mean the maximum number of mobile device users in the cells that can be handled by the database. This algorithm reduces a number of databases used for the system and improves the update performance. The experimental results show that the proposed, top-down, modified top-down, and capacity constraint top-down clustering algorithms reduce the update cost by 17.0%, 18.0%, 24.1%, the update time by about 43.0%, 39.0%, 42.3%, respectively. The capacity constraint algorithm reduces the average number of databases used for the system by 23.9% over other algorithms.

개미 군락 시스템을 이용한 계층적 클러스터 분석 (Ant Colony Hierarchical Cluster Analysis)

  • 강문수;최영식
    • 인터넷정보학회논문지
    • /
    • 제15권5호
    • /
    • pp.95-105
    • /
    • 2014
  • 본 논문에서는 방향그래프에서 개미가 한 노드에서 다른 노드들로 이동하는 새로운 개미 기반계층적 클러스터링 알고리즘을 제안한다. 노드페로몬은 로컬영역에서 상대 밀도값으로 간주될 수 있는 값으로 노드로 들어오는 에지들의 페로몬 양을 합한 것이다. 일정한 횟수만큼 개미들을 이동시킨 후 방향 그래프로부터 소량의 노드페로몬 값을 가진 노드들을 제거하고, 강하게 연결되어 있는 요소들을 하나의 클러스터로 구성한다. 반복적으로 낮은 값부터 높은 값까지 제거작업을 하여 계층적 클러스터들을 구축한다. 다양한 실험을 통해 제안하는 알고리즘과 기존 클러스터링 알고리즘을 비교하고 제안하는 알고리즘의 우수성을 실험을 통해 입증한다.

A Study of HME Model in Time-Course Microarray Data

  • Myoung, Sung-Min;Kim, Dong-Geon;Jo, Jin-Nam
    • 응용통계연구
    • /
    • 제25권3호
    • /
    • pp.415-422
    • /
    • 2012
  • For statistical microarray data analysis, clustering analysis is a useful exploratory technique and offers the promise of simultaneously studying the variation of many genes. However, most of the proposed clustering methods are not rigorously solved for a time-course microarray data cluster and for a fitting time covariate; therefore, a statistical method is needed to form a cluster and represent a linear trend of each cluster for each gene. In this research, we developed a modified hierarchical mixture of an experts model to suggest clustering data and characterize each cluster using a linear mixed effect model. The feasibility of the proposed method is illustrated by an application to the human fibroblast data suggested by Iyer et al. (1999).

Efficient Dual-layered Hierarchical Routing Scheme for Wireless Sensor Networks

  • Yoon, Mahn-Suk;Kim, Hyun-Sung;Lee, Sung-Woon
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2008년도 추계 공동 국제학술대회
    • /
    • pp.507-511
    • /
    • 2008
  • Supporting energy efficiency and load balancing in wireless sensor network is the most important issue in devising the hierarchical routing protocols. Recently, the dual layered clustering scheme with GPS was proposed for the supporting of load balancing for cluster heads but there would be many collided messages in the overlapped area between two layers. Thereby, the purpose of this paper is to reduce the collision rate in the overlapped layer by concisely distinguish them with the same number of nodes in them. For the layer partition, this paper uses an equation $x^2+ y^2{\le}(\frac{R}{\sqrt{2\pi}})^2$ to distinguish layers. By using it, the scheme could efficiently distinguish two layers and gets the balanced number of elements in them. Therefore, the proposed routing scheme could prolong the overall network life cycle about 10% compared to the previous two layered clustering scheme.

  • PDF

제조 셀 구현을 위한 군집분석 기반 방법론 (Cluster Analysis-based Approach for Manufacturing Cell Formation)

  • 심영학;황정윤
    • 산업경영시스템학회지
    • /
    • 제36권1호
    • /
    • pp.24-35
    • /
    • 2013
  • A cell formation approach based on cluster analysis is developed for the configuration of manufacturing cells. Cell formation, which is to group machines and parts into machine cells and the associated part families, is implemented to add the flexibility and efficiency to manufacturing systems. In order to develop an efficient clustering procedure, this paper proposes a cluster analysis-based approach developed by incorporating and modifying two cluster analysis methods, a hierarchical clustering and a non-hierarchical clustering method. The objective of the proposed approach is to minimize intercellular movements and maximize the machine utilization within clusters. The proposed approach is tested on the cell formation problems and is compared with other well-known methodologies available in the literature. The result shows that the proposed approach is efficient enough to yield a good quality solution no matter what the difficulty of data sets is, ill or well-structured.

빅 데이터 환경에서 계층적 문서 유형 분류를 위한 클러스터링 기반 다중 SVM 모델 (Multi-class Support Vector Machines Model Based Clustering for Hierarchical Document Categorization in Big Data Environment)

  • 김영수;이병엽
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.600-608
    • /
    • 2017
  • 최근 인터넷의 급격한 확장에 따른 정보의 양이 기하급수적으로 증가하고 있다. 그러나 실제 사용자에게 필요한 정보는 극히 일부분으로 사용자가 원하는 정보를 찾는데 까지는 부가적인 시간과 노력이 요구된다. 따라서 검색어로 검색된 문서에 대한 유사도 평가를 통한 계층적 유사 정보와 검색 우선순위에 대한 정보를 제공할 필요성이 있다. 이를 위해서 검색어를 구성하고 있는 키워드의 동시 발생 빈도를 고려한 검색 문서에 대한 유사도를 기반으로 문서 클러스터를 구성하고 SVM을 적용한 빅 데이터 기반 계층적 유형 분류 모델을 제안한다. 계층적 분류방법과 SVM 분류기의 결합은 문서의 계층이 기하급수적으로 늘어나는 웹 문서의 경우에 높은 성능을 얻을 수 있다. 제안된 모델은 정확하고 신속한 검색을 제공하는 정보검색시스템의 응용 모델로 활용될 수 있다.

Nested-Hierarchical 분류분석 (Nested-Hierarchical Classification)

  • 이상훈
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2007년도 춘계학술대회 논문집
    • /
    • pp.130-133
    • /
    • 2007
  • 본 연구는 원격 탐사의 영상 처리에서 영상 분할의 상위 수준으로 웅집 계층 clustering의 dendrogram을 통한 무감독 영상 분류를 제안한다. 제안된 알고리즘은 분광 영역에서 정의된 RAG(Regional Agency Graph)와 min-heap 자료 구조를 이용하여 MCSNP(Mutual Closest Spectral Neighbor Pair)의 집 합을 검색하면서 합병을 수행하는 계층 clustering 방법이다. 계산 시간과 저장 기억의 사용에 대한 효율을 증가시키기 위해 분광적 인접성올 정의 하는 분광 공간(spectral space)내의 다중창을 사용하였고 RNV(Region Neighbor Vector)을 이용하여 합병에 의하여 변하는 RAG 갱신하였고 적정한 단계 수가 주어 진다면 제안된 알고리즘은 집단 합병의 계층적 관계를 쉽게 해석 할 수 있는 dendrogram을 생성한다. 본 연구는 생성된 dendrogram을 이용한 nested-hierarchical 분석을 통하여 피복 형태의 계층적 관계를 해석한다. 이러한 해석은 피복 형태의 정확한 분류를 위한 의사 결정에 중요한 정보를 공급한다.

  • PDF

시퀀스 요소 기반의 유사도를 이용한 시퀀스 데이터 클러스터링 (Mining Clusters of Sequence Data using Sequence Element-based Similarity Measure)

  • 오승준;김재련
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2004년도 추계학술대회
    • /
    • pp.221-229
    • /
    • 2004
  • Recently, there has been enormous growth in the amount of commercial and scientific data, such as protein sequences, retail transactions, and web-logs. Such datasets consist of sequence data that have an inherent sequential nature. However, only a few of the existing clustering algorithms consider sequentiality. This study presents a method for clustering such sequence datasets. The similarity between sequences must be decided before clustering the sequences. This study proposes a new similarity measure to compute the similarity between two sequences using a sequence element. Two clustering algorithms using the proposed similarity measure are proposed: a hierarchical clustering algorithm and a scalable clustering algorithm that uses sampling and a k-nearest neighbor method. Using a splice dataset and synthetic datasets, we show that the quality of clusters generated by our proposed clustering algorithms is better than that of clusters produced by traditional clustering algorithms.

  • PDF