• 제목/요약/키워드: View Clustering

검색결과 100건 처리시간 0.027초

Student Group Division Algorithm based on Multi-view Attribute Heterogeneous Information Network

  • Jia, Xibin;Lu, Zijia;Mi, Qing;An, Zhefeng;Li, Xiaoyong;Hong, Min
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권12호
    • /
    • pp.3836-3854
    • /
    • 2022
  • The student group division is benefit for universities to do the student management based on the group profile. With the widespread use of student smart cards on campus, especially where students living in campus residence halls, students' daily activities on campus are recorded with information such as smart card swiping time and location. Therefore, it is feasible to depict the students with the daily activity data and accordingly group students based on objective measuring from their campus behavior with some regular student attributions collected in the management system. However, it is challenge in feature representation due to diverse forms of the student data. To effectively and comprehensively represent students' behaviors for further student group division, we proposed to adopt activity data from student smart cards and student attributes as input data with taking account of activity and attribution relationship types from different perspective. Specially, we propose a novel student group division method based on a multi-view student attribute heterogeneous information network (MSA-HIN). The network nodes in our proposed MSA-HIN represent students with their multi-dimensional attribute information. Meanwhile, the edges are constructed to characterize student different relationships, such as co-major, co-occurrence, and co-borrowing books. Based on the MSA-HIN, embedded representations of students are learned and a deep graph cluster algorithm is applied to divide students into groups. Comparative experiments have been done on a real-life campus dataset collected from a university. The experimental results demonstrate that our method can effectively reveal the variability of student attributes and relationships and accordingly achieves the best clustering results for group division.

과거이력자료를 활용한 요일별 패턴분류 알고리즘 개발 (Development of a Daily Pattern Clustering Algorithm using Historical Profiles)

  • 조준한;김보성;김성호;강원의
    • 한국ITS학회 논문지
    • /
    • 제10권4호
    • /
    • pp.11-23
    • /
    • 2011
  • 이 연구는 시계열 과거 속도자료를 활용하여 유사한 패턴 변화를 보이는 요일을 그룹핑하는 알고리즘을 개발하였다. 알고리즘에 적용할 이력자료 시간적 범위는 과거 2개월치 자료를 사용하였으며, 공간적 범위는 도시부도로를 대상으로 하였다. 이 연구에서 제안한 알고리즘은 크게 거시적인 관점과 미시적인 관점으로 나누어 요일별 패턴분류를 수행하였다. 먼저 거시적인 관점에서 요일별 첨두/비첨두 시간대와 요일별 속도변화가 크게 나타나는 중점시간대를 도출하였다. 미시적인 관점에서는 거시적인 관점에서 도출된 중점시간대를 대상으로 요일간 속도 차이를 개별(요일별) 혹은 그룹간의 유사성을 비교하여 단계적으로 분류하는 2단계 속도 군집 알고리즘(Two-step speed clustering algorithm, TSC)을 개발하였다. TSC 알고리즘은 중점시간대의 매 가공주기(또는 제공주기)마다 요일별(월~일) 속도차이를 토대로 그룹핑하는 1단계와 1단계에서 도출된 각 그룹의 평균과 요일간의 속도차이를 비교하여 재할당하는 2단계로 구성된다. TSC 알고리즘은 실제 지점검지기에서 수집된 시간대별 시계열 자료를 토대로 개발 및 성능평가가 수행되었다. 따라서, 교통정보센터에서 수집 가공 저장되는 과거이력자료를 이용하여 요일별 패턴분류 수행이 가능하고 알고리즘 구현도 실제 가공체계에 적용하기 용이하다. 이 연구에서 제안한 알고리즘은 통행패턴기반 정보가공 알고리즘 개발, 요일별 반복정체구간 운영관리, TOD에 근거한 신호운영 개선 등 교통운영 및 관리 전반에 적용이 가능하다.

DBSCAN 기반의 제조 공정 데이터 불량 위치의 검출 (Detection of the Defected Regions in Manufacturing Process Data using DBSCAN)

  • 최은석;김정훈;아지즈 나스리디노프;이상현;강정태;류관희
    • 한국콘텐츠학회논문지
    • /
    • 제17권7호
    • /
    • pp.182-192
    • /
    • 2017
  • 제조 산업은 국가 경제 성장의 원동력으로 그 중요성이 부각되고 있다. 이에 따라 제조 공정상에서 생성되는 제조 데이터 분석의 중요성 또한 조명 받고 있다. 본 논문에서는 PCB(Printed Circuit Board) 제조 공정에서 발생한 로그 데이터를 분석하여 PCB 상에서 빈번하게 발생하는 고장 영역에 대해서 작업자가 고장 영역을 직접 눈으로 볼 수 있도록 시각화하는 방법을 제안한다. 우선 고장 영역을 파악하기 위해서 PCB 공정 데이터 집합에 K-means, DB-SCAN 클러스터링 알고리즘을 적용하여 군집화 하였고, 두 알고리즘 중 더 정확한 고장 영역을 도출하는지 비교하였다. 또한 MVC(Model-View-Controller) 구조 시스템을 개발하여 실제 PCB 이미지 상에 클러스터링 결과를 출력하는 것으로 실제 고장영역을 눈으로 확인할 수 있도록 시각화하였다.

격자 기반의 디지털 사진 시각화와 계층적인 클러스터링 방법 (A Grid-based Digital Photo Visualization and Hierarchical Clustering Method)

  • 류동성;정우근;조환규
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권5호
    • /
    • pp.616-620
    • /
    • 2010
  • 일반적으로 대부분의 사람들은 많은 수의 디지털 사진을 관리하기 위해서, 이벤트 혹은 날짜에 따라 각 사진들을 폴더별로 분류하는 방법을 사용한다. 그러나 관리해야할 사진의 개수가 수백에서 수천 장으로 증가함에 따라, 사진 관리에 많은 시간과 비용이 소모된다. 본 논문에서는 촬영 시각과 사진의 색상 차이를 이용하여, 유사한 사진들을 서로 가깝게 배치하는 2D 격자 공간 기반의 사진 관리 시스템을 제안한다. 그리고 2차원 격자 공간에 배치된 각 사진들을 계층적으로 클러스터링 함으로써, 사용자가 원하는 수준의 세부 단계별 분류 기능을 지원한다. 제안한 시스템의 성능을 평가하기 위해서, 배치된 사진들에 대한 시간 일관성과 사용 공간 효율성을 측정하였다.

Identifying potential mergers of globular clusters: a machine-learning approach

  • Pasquato, Mario
    • 천문학회보
    • /
    • 제39권2호
    • /
    • pp.89-89
    • /
    • 2014
  • While the current consensus view holds that galaxy mergers are commonplace, it is sometimes speculated that Globular Clusters (GCs) may also have undergone merging events, possibly resulting in massive objects with a strong metallicity spread such as Omega Centauri. Galaxies are mostly far, unresolved systems whose mergers are most likely wet, resulting in observational as well as modeling difficulties, but GCs are resolved into stars that can be used as discrete dynamical tracers, and their mergers might have been dry, therefore easily simulated with an N-body code. It is however difficult to determine the observational parameters best suited to reveal a history of merging based on the positions and kinematics of GC stars, if evidence of merging is at all observable. To overcome this difficulty, we investigate the applicability of supervised and unsupervised machine learning to the automatic reconstruction of the dynamical history of a stellar system. In particular we test whether statistical clustering methods can classify simulated systems into monolithic versus merger products. We run direct N-body simulations of two identical King-model clusters undergoing a head-on collision resulting in a merged system, and other simulations of isolated King models with the same total number of particles as the merged system. After several relaxation times elapse, we extract a sample of snapshots of the sky-projected positions of particles from each simulation at different dynamical times, and we run a variety of clustering and classification algorithms to classify the snapshots into two subsets in a relevant feature space.

  • PDF

정보입자기반 퍼지 RBF 뉴럴 네트워크를 이용한 트랙킹 검출 (Tracking Detection using Information Granulation-based Fuzzy Radial Basis Function Neural Networks)

  • 최정내;김영일;오성권;김정태
    • 전기학회논문지
    • /
    • 제58권12호
    • /
    • pp.2520-2528
    • /
    • 2009
  • In this paper, we proposed tracking detection methodology using information granulation-based fuzzy radial basis function neural networks (IG-FRBFNN). According to IEC 60112, tracking device is manufactured and utilized for experiment. We consider 12 features that can be used to decide whether tracking phenomenon happened or not. These features are considered by signal processing methods such as filtering, Fast Fourier Transform(FFT) and Wavelet. Such some effective features are used as the inputs of the IG-FRBFNN, the tracking phenomenon is confirmed by using the IG-FRBFNN. The learning of the premise and the consequent part of rules in the IG-FRBFNN is carried out by Fuzzy C-Means (FCM) clustering algorithm and weighted least squares method (WLSE), respectively. Also, Hierarchical Fair Competition-based Parallel Genetic Algorithm (HFC-PGA) is exploited to optimize the IG-FRBFNN. Effective features to be selected and the number of fuzzy rules, the order of polynomial of fuzzy rules, the fuzzification coefficient used in FCM are optimized by the HFC-PGA. Tracking inference engine is implemented by using the LabVIEW and loaded into embedded system. We show the superb performance and feasibility of the tracking detection system through some experiments.

다변량기법을 활용한 용담호 수질측정지점 유사성 연구 (A Study on Measuring the Similarity Among Sampling Sites in Lake Yongdam with Water Quality Data Using Multivariate Techniques)

  • 이요상;권세혁
    • 환경영향평가
    • /
    • 제18권6호
    • /
    • pp.401-409
    • /
    • 2009
  • Multivariate statistical approaches to classify sampling sites with measuring their similarity by water quality data and understand the characteristics of classified clusters have been discussed for the optimal water quality monitering network. For empirical study, data of two years (2005, 2006) at the 9 sampling sites with the combination of 2 depth levels and 7 important variables related to water quality is collected in Yongdam reservoir. The similarity among sampling sites is measured with Euclidean distances of water quality related variables and they are classified by hierarchical clustering method. The clustered sites are discussed with principal component variables in the view of the geographical characteristics of them and reducing the number of measuring sites. Nine sampling sites are clustered as follows; One cluster of 5, 6, and 7 sampling sites shows the characteristic of low water depth and main stream of water. The sites of 2 and 4 are clustered into the same group by characteristics of hydraulics which come from that of main stream. But their changing pattern of water quality looks like different since the site of 2 is near to dam. The sampling sites of 3, 8, and 9 are individually positioned due to the different tributary.

저수지 수질조사 지점간 유사성 분석 (A Study on Measuring the Similarity Among Sampling Sites in Lake)

  • 이요상;고덕구;이현석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.957-961
    • /
    • 2010
  • Multivariate statistical approaches to classify sampling sites with measuring their similarity by water quality data. For empirical study, data of two years at the 9 sampling sites with the combination of 2 depth levels and 7 important variables related to water quality is collected in reservoir. The similarity among sampling sites is measured with Euclidean distances of water quality related variables and they are classified by hierarchical clustering method. The clustered sites are discussed with principal component variables in the view of the geographical characteristics of them and reducing the number of measuring sites. Nine sampling sites are clustered as follows; One cluster of 5, 6, and 7 sampling sites shows the characteristic of low water depth and main stream of water. The sites of 2 and 4 are clustered into the same group by characteristics of hydraulics which come from that of main stream. But their changing pattern of water quality looks like different since the site of 2 is near to dam. The sampling sites of 3, 8, and 9 are individually positioned due to the different tributary.

  • PDF

Text Mining in Online Social Networks: A Systematic Review

  • Alhazmi, Huda N
    • International Journal of Computer Science & Network Security
    • /
    • 제22권3호
    • /
    • pp.396-404
    • /
    • 2022
  • Online social networks contain a large amount of data that can be converted into valuable and insightful information. Text mining approaches allow exploring large-scale data efficiently. Therefore, this study reviews the recent literature on text mining in online social networks in a way that produces valid and valuable knowledge for further research. The review identifies text mining techniques used in social networking, the data used, tools, and the challenges. Research questions were formulated, then search strategy and selection criteria were defined, followed by the analysis of each paper to extract the data relevant to the research questions. The result shows that the most social media platforms used as a source of the data are Twitter and Facebook. The most common text mining technique were sentiment analysis and topic modeling. Classification and clustering were the most common approaches applied by the studies. The challenges include the need for processing with huge volumes of data, the noise, and the dynamic of the data. The study explores the recent development in text mining approaches in social networking by providing state and general view of work done in this research area.

일반영향요인과 댓글기반 콘텐츠 네트워크 분석을 통합한 유튜브(Youtube)상의 콘텐츠 확산 영향요인 연구 (A Study on the Impact Factors of Contents Diffusion in Youtube using Integrated Content Network Analysis)

  • 박병언;임규건
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.19-36
    • /
    • 2015
  • 대표적 소셜미디어인 유튜브는 기존 폐쇄형 콘텐츠 서비스와는 다르게 개방형 콘텐츠 서비스로 이용자들의 참여와 공유를 통하여 많은 인기를 유지하고 있다. 콘텐츠 산업에서 중요한 위치를 차지하고 있는 유투브 상의 콘텐츠 확산 요인에 관한 기존의 연구들은 댓글 수 등과 같은 일반적 정보 특성 요인과 조회 수 간에 상관관계 등을 분석하는 것이 대부분이었다. 최근 네트워크 구조를 기반으로 한 연구들도 진행되었으나 대부분 콘텐츠를 이용하는 대상인 구독자나 지인 등을 중심으로 한 인적 관계 네트워크 구조 연구가 대부분이었다. 이에 본 연구에서는 실질적인 콘텐츠를 중심으로 한 네트워크 구조와 일반요인을 통합한 모델을 제시하고 확산요인을 분석하고자 한다. 이를 위해 통합 모델 인과관계 분석과 함께 21,307개의 유튜브 콘텐츠를 콘텐츠 기반 네트워크 구조로 분석하였다. 본 연구를 통해 기존에 알려진 일반적 요인과 네트워크 요인들이 모두 조회수에 영향을 주는 인과관계를 통계적으로 재검증하였으며 통합적으로는 등록자의 구독자 수, 경과시간, 매개 중심성, 댓글 수, 근접 중심성, 클러스터링 계수, 평균 평점 순으로 조회 수에 긍정적인 영향을 미치는 것으로 분석되었다. 하지만 네트워크 요인중 연결정도 중심성과 고유벡터 중심성은 부정적 영향을 주는 것으로 분석되었다. 본 연구를 통하여 유튜브 콘텐츠 확산에 대한 일반영향요인과 구조적인 현상을 함께 규명하였다. 본 연구는 기업들이 유튜브와 같은 콘텐츠 서비스를 통한 온라인 마케팅 활동 시 콘텐츠들의 구조적인 면을 고려할 수 있는 근거를 제공하였으며 음반산업의 수요예측이나 콘텐츠 제작 업체들의 원활한 서비스 제공을 위한 설명력있는 영향요인 및 모델이 될 수 있을 것이다.