• 제목/요약/키워드: Hierarchical K-means clustering

검색결과 88건 처리시간 0.024초

FCM법과 AHP법을 융합한 아시아 주요항만의 경쟁력에 관한 종합적 분석에 관한 연구 (Overall Analysis of Competitiveness of Asian Major Ports Using the Hybrid Mechanism of FCM and AHP)

  • 이홍걸
    • 한국항해항만학회지
    • /
    • 제27권2호
    • /
    • pp.185-191
    • /
    • 2003
  • 본 연구의 목적은 아시아 주요항만의 특성을 종합적으로 분석/분류하는 것이다. 특히, 본 연구에서는 기존연구가 지닌 연구대상 선정과 관련한 문제점을 극복하기 위해, 객관적인 지표에 의거하여 부산항이 속한 아시아 주요 대상 항만을 선정했다. 그리고, 연구 방법론의 측면에서 기존연구의 계층평가 알고리즘을 이용한 항만평가와 군집분석법을 이용한 연구의 경우 상호보완적인 장/단점을 지니고 있어, 두 가지 알고리즘을 연계하여 아시아 항만의 전체적인 판도와 항만의 경쟁력 순위 등을 종합적으로 고찰했다. 또한, 본 연구에서는 일반군집분석법에 퍼지 알고리즘을 적용한 FC<(Fuzzy C-Means)법을 이용하여, 기존 방법보다 다양한 고찰이 가능케 하였다. 분석결과, 아시아 16개 주요 항만들 중 10개 항만이 독자적이 위상을 가지고 6가지 항만군을 형성하고 있었으며, 순위면에서 싱가폴항, 홍콩항, 부산항 카오슝항이 높은 경쟁력을 가지고 있었다. 특히, 부산항과 카오슝은 여러 가지 특성에서 유사하여 동일 항만군으로 분류되었고, 싱가폴하엥 이어 2번째로 높은 경쟁력을 보유한 항만군을 형성하고 있는 것으로 파악되었으나, 경쟁력 면에서 싱가폴항과의 격차는 큰 것으로 파악되었다.

군집분석을 이용한 전시장비의 취약성 그룹 재분류 (Reclassification of the vulnerability group of wartime equipment)

  • 이한우;김수환;주경식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권3호
    • /
    • pp.581-592
    • /
    • 2015
  • 현재 한국군의 전시장비소요산정은 미군의 모델인 ELCON을 기반으로 하고 있다. 하지만 전시장비소요산정을 위해 ELCON에서 적용하는 22개의 취약성그룹에 대한 구체적인 분류기준은 알려져 있지 않다. 따라서 이번 연구에서는 2014년 국방전시기본품목 505종에 대해 데이터를 수집하고, 군집분석 방법을 통해 ELCON에서 사용되는 취약성그룹과 다른 새로운 취약성그룹을 제시하였다. 이번 연구를 통해 한국의 상황에 맞는 전시장비들의 취약성그룹을 분류하는 방법을 제시하였을 뿐만 아니라 새로 추가될 장비 역시 해당 장비의 특성을 통해 분류 할 수 있는 기준을 제시함으로 전시 정확한 장비소요를 예측할 수 있도록 하였다.

전국자연환경조사를 활용한 포유류 서식지 유형의 분류 (The Habitat Classification of mammals in Korea based on the National Ecosystem Survey)

  • 이화진;하정욱;차진열;이중효;윤희남;정철운;오홍식;배소연
    • 환경영향평가
    • /
    • 제26권2호
    • /
    • pp.160-170
    • /
    • 2017
  • 본 연구는 2006년부터 2012년까지 수행된 제3차 전국자연환경조사 포유류 데이터(70,562개)를 활용하여 국내에서 서식하는 포유류의 서식지 유형을 클러스터링하고 서식지 유형에 나타나는 종의 특징을 파악하고자 하였다. 제3차 전국자연환경조사의 야장에 기록된 서식지 유형 중에서 15개의 키워드를 뽑아 재분류하여 포유류 서식지유형을 통계 분석하였다. 서식지 유형 군집분석에서는 30회 이상 기록된 14개의 서식지 유형을 대상으로 비계층적 클러스터 분석(k 평균 클러스터 분석), 계층적 클러스터 분석, 비계량형 다차원척도법을 시행하였다. 2006년에서 2012년까지 전국에서 수집된 제3차 전국자연환경조사를 통해 확인된 포유류는 총 7목 16과 39종이었다. 서식지 유형에 대한 분류는 11개로 클러스터를 분류했을 때 단순구조지수가 가장 높았다(ssi = 0.07). 계층적 클러스터 분석으로 서식지 유형들 간의 유사성과 위계를 확인해 본 결과, 포유류에게는 주거지가 가장 차별된 서식지 유형이었고, 그 다음은 하천과 해안이 병합된 클러스터였다. 비계량형 다차원척도 분석 결과, 포유류에게 가장 차별된 서식지유형인 주거지의 경우 생쥐와 집쥐 두 종이 제한적으로 나타났으며, 해안과 하천의 경우 수달이 제한적으로 나타났다. 연구결과를 종합해보면, 포유류의 서식지 유형은 크게 산림을 주요 서식지와 이동경로로 이용하는 산림형과, 물을 주요 서식지로 이용하는 하천형, 주거지 인근에서 서식하는 주거형, 곡류나 씨앗을 주 먹이원으로 하는 저지대형 등 4가지로 구분할 수 있다.

Nonstandard Machine Learning Algorithms for Microarray Data Mining

  • Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보 워크샵 (DNA Chip Bioinformatics)
    • /
    • pp.165-196
    • /
    • 2001
  • DNA chip 또는 microarray는 다수의 유전자 또는 유전자 조각을 (보통 수천내지 수만 개)칩상에 고정시켜 놓고 DNA hybridization 반응을 이용하여 유전자들의 발현 양상을 분석할 수 있는 기술이다. 이러한 high-throughput기술은 예전에는 생각하지 못했던 여러가지 분자생물학의 문제에 대한 해답을 제시해 줄 수 있을 뿐 만 아니라, 분자수준에서의 질병 진단, 신약 개발, 환경 오염 문제의 해결 등 그 응용 가능성이 무한하다. 이 기술의 실용적인 적용을 위해서는 DNA chip을 제작하기 위한 하드웨어/웻웨어 기술 외에도 이러한 데이터로부터 최대한 유용하고 새로운 지식을 창출하기 위한 bioinformatics 기술이 핵심이라고 할 수 있다. 유전자 발현 패턴을 데이터마이닝하는 문제는 크게 clustering, classification, dependency analysis로 구분할 수 있으며 이러한 기술은 통계학과인공지능 기계학습에 기반을 두고 있다. 주로 사용된 기법으로는 principal component analysis, hierarchical clustering, k-means, self-organizing maps, decision trees, multilayer perceptron neural networks, association rules 등이다. 본 세미나에서는 이러한 기본적인 기계학습 기술 외에 최근에 연구되고 있는 새로운 학습 기술로서 probabilistic graphical model (PGM)을 소개하고 이를 DNA chip 데이터 분석에 응용하는 연구를 살펴본다. PGM은 인공신경망, 그래프 이론, 확률 이론이 결합되어 형성된 기계학습 모델로서 인간 두뇌의 기억과 학습 기작에 기반을 두고 있으며 다른 기계학습 모델과의 큰 차이점 중의 하나는 generative model이라는 것이다. 즉 일단 모델이 만들어지면 이것으로부터 새로운 데이터를 생성할 수 있는 능력이 있어서, 만들어진 모델을 검증하고 이로부터 새로운 사실을 추론해 낼 수 있어 biological data mining 문제에서와 같이 새로운 지식을 발견하는 exploratory analysis에 적합하다. 또한probabilistic graphical model은 기존의 신경망 모델과는 달리 deterministic한의사결정이 아니라 확률에 기반한 soft inference를 하고 학습된 모델로부터 관련된 요인들간의 인과관계(causal relationship) 또는 상호의존관계(dependency)를 분석하기에 적합한 장점이 있다. 군체적인 PGM 모델의 예로서, Bayesian network, nonnegative matrix factorization (NMF), generative topographic mapping (GTM)의 구조와 학습 및 추론알고리즘을소개하고 이를 DNA칩 데이터 분석 평가 대회인 CAMDA-2000과 CAMDA-2001에서 사용된cancer diagnosis 문제와 gene-drug dependency analysis 문제에 적용한 결과를 살펴본다.

  • PDF

Microarray Profiling of Genes Differentially Expressed during Erythroid Differentiation of Murine Erythroleukemia Cells

  • Heo, Hyen Seok;Kim, Ju Hyun;Lee, Young Jin;Kim, Sung-Hyun;Cho, Yoon Shin;Kim, Chul Geun
    • Molecules and Cells
    • /
    • 제20권1호
    • /
    • pp.57-68
    • /
    • 2005
  • Murine erythroleukemia (MEL) cells are widely used to study erythroid differentiation thanks to their ability to terminally differentiate in vitro in response to chemical induction. At the molecular level, not much is known of their terminal differentiation apart from activation of adult-type globin gene expression. We examined changes in gene expression during the terminal differentiation of these cells using microarray-based technology. We identified 180 genes whose expression changed significantly during differentiation. The microarray data were analyzed by hierarchical and k-means clustering and confirmed by semi-quantitative RT-PCR. We identified several genes including H1f0, Bnip3, Mgl2, ST7L, and Cbll1 that could be useful markers for erythropoiesis. These genetic markers should be a valuable resource both as potential regulators in functional studies of erythroid differentiation, and as straightforward cell type markers.

군집분석 기법을 이용한 공공도서관 그룹화에 대한 연구 (A Study of Library Grouping using Cluster Analysis Methods)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제31권3호
    • /
    • pp.79-99
    • /
    • 2020
  • 이 연구의 목적은 공공도서관 그룹화를 위해 적합한 군집분석 모델을 파악하고 그 특징을 분석하는데 있다. 국가도서관통계시스템의 공공도서관 통계 데이터를 사용하였으며, 군집분석 기법의 3가지 모델을 적용하였다. 공공도서관 규모를 기준으로 군집분석을 실시한 결과 크게 2가지 군집으로 구분되었으며, 군집의 크기는 크게 한쪽으로 치우쳤다. 그룹화 모델로 도서관 규모를 기준으로 삼으면, 계층적 군집분석의 와드측정법과 k-평균군집분석 모델이 적합하였다. 공공도서관 그룹화 연구 결과에 대한 시사점은 다음과 같다. 첫째, 통계 데이터 외에 도서관 서비스 관련 다양한 데이터 수집이 진행되어야 한다. 둘째, 분석 대상이 되는 데이터 세트에 적합한 분석 모델이 적용되어야 한다. 셋째, 도서관 서비스 향상을 위해 군집분석 기법의 다양한 분야 적용 가능성에 대한 적극적인 연구가 필요가 있다.

HCBKA를 이용한 Interval Type-2 퍼지 논리시스템 기반 예측 시스템 설계 (Prediction System Design based on An Interval Type-2 Fuzzy Logic System using HCBKA)

  • 방영근;이철희
    • 산업기술연구
    • /
    • 제30권A호
    • /
    • pp.111-117
    • /
    • 2010
  • To improve the performance of the prediction system, the system should reflect well the uncertainty of nonlinear data. Thus, this paper presents multiple prediction systems based on Type-2 fuzzy sets. To construct each prediction system, an Interval Type-2 TSK Fuzzy Logic System and difference data were used, because, in general, it has been known that the Type-2 Fuzzy Logic System can deal with the uncertainty of nonlinear data better than the Type-1 Fuzzy Logic System, and the difference data can provide more steady information than that of original data. Also, to improve each rule base of the fuzzy prediction systems, the HCBKA (Hierarchical Correlation Based K-means clustering Algorithm) was applied because it can consider correlationship and statistical characteristics between data at a time. Subsequently, to alleviate complexity of the proposed prediction system, a system selection method was used. Finally, this paper analyzed and compared the performances between the Type-1 prediction system and the Interval Type-2 prediction system using simulations of three typical time series examples.

  • PDF

유아의 기초학습능력과 어머니의 성취기대불안에 따른 군집화:유아의 자기조절능력과 어머니의 학습관여의 군집 예측가능성 (Cluster Analysis by Children's Basic Learning Ability and Mother's Achievement Expectation Anxiety:Predictability of Children's Self-regulation Ability and Mother's Learning Involvement)

  • 전은옥;최나야
    • 한국보육학회지
    • /
    • 제17권1호
    • /
    • pp.75-98
    • /
    • 2017
  • 본 연구는 취학 직전 만 5세 유아의 기초학습능력과 어머니의 성취기대불안에 따른 군집화 가능성을 살펴보고, 유아의 자기조절능력과 어머니의 학습관여가 각 군집에 미치는 영향력을 비교해 보는 것을 목적으로 하였다. 서울, 인천, 경기 지역 9개 유치원의 만 5세 유아 239명(남아 120명, 여아 119명)과 해당 유아의 어머니 239명을 대상으로 조사하였다. 수집된 자료는 PASW 18.0 프로그램을 사용하여 비계층적 군집분석, 다항로지스틱 회귀분석을 사용하여 분석하였다. 자료 분석 결과, 첫째, 유아의 기초학습능력과 어머니의 성취기대불안의 수준에 따라 '고학습능력-고기대불안', '고학습능력-저기대불안', '저학습능력-고기대불안', '저학습능력-저기대불안'의 4군집이 분류되었다. 둘째, 유아의 자기조절능력 하위 요인인 '자기점검', '자기통제'와 어머니의 학습관여 하위 요인인 '존중과 사랑'은 '고학습능력-저기대불안' 군집이 '저학습능력-고기대불안' 군집보다 높고, '학업성과압력'은 '고학습능력-고기대불안' 군집이 '저학습능력-저기대불안' 군집보다 높은 수준이었다. 셋째, 유아의 자기조절능력의 '자기점검'과 어머니의 학습관여의 '학업성과압력', '가정학습활동', '존중과 사랑'이 학습능력-기대불안 군집 구분을 예측하였다.

연관 규칙 학습과 군집분석을 활용한 멸종위기 기수갈고둥과 생태계 내 종 간 연관성 분석 (Analyzing the Co-occurrence of Endangered Brackish-Water Snails with Other Species in Ecosystems Using Association Rule Learning and Clustering Analysis)

  • 임성호;도윤호
    • 생태와환경
    • /
    • 제57권2호
    • /
    • pp.83-91
    • /
    • 2024
  • 본 연구는 한국의 멸종위기야생생물 II급으로 분류된 기수갈고둥 (Clithon retropictum)과 생태계 내 다른 종들 사이의 공동출현 양상을 분석하고자, 연관 규칙 학습과 군집분석 방법론을 통합적으로 사용했다. 이 연구의 주요 목적은 기수갈고둥과 다른 생물종 사이의 공동출현 패턴을 파악하는 것이다. 대규모 데이터 세트를 통한 연관 규칙 학습으로 종 간의 공동 출현 패턴과 그들사이의 연관성을 탐색하였고, K-mean와 계층적 군집분석을 통해 종들 간의 생태적 유사성과 차이에 기반으로 한 그룹화를 진행하였다. 연구 결과는 기수갈고둥과 다른 종들 사이에 상당한 공동 출현 관계가 있음을 보여주며, 이러한 공동 출현은 특정 환경 조건과 밀접하게 연결되어 있음을 나타냈다. 특히, 기수갈고둥이 출현하는 지점에서는 특정종의 출현 빈도가 높게 나타나는 패턴을 보였고, 이는 기수갈고둥이 생태계 내에서 중요한 생물지표종으로서의 역할을 수행하고 있음을 시사한다. 이러한 접근 방식은 기수갈고둥과 같은 멸종 위기종의 보존과 생태계 관리 전략 수립에 있어 중요한 의미를 지닌다. 생태계 내에서 공동으로 출현하는 종들 간의 복잡한 연관성을 이해함으로써, 보다 효과적인 보존 전략을 개발하고 생태계의 건강과 안정성을 유지하는 데 기여할 수 있다. 본 연구는 생태계 연구에 있어 데이터기반 접근법의 중요성을 강조하며, 생물 다양성 보존을 위한 새로운 방향을 제시한다.

Lung Function Trajectory Types in Never-Smoking Adults With Asthma: Clinical Features and Inflammatory Patterns

  • Kim, Joo-Hee;Chang, Hun Soo;Shin, Seung Woo;Baek, Dong Gyu;Son, Ji-Hye;Park, Choon-Sik;Park, Jong-Sook
    • Allergy, Asthma & Immunology Research
    • /
    • 제10권6호
    • /
    • pp.614-627
    • /
    • 2018
  • Purpose: Asthma is a heterogeneous disease that responds to medications to varying degrees. Cluster analyses have identified several phenotypes and variables related to fixed airway obstruction; however, few longitudinal studies of lung function have been performed on adult asthmatics. We investigated clinical, demographic, and inflammatory factors related to persistent airflow limitation based on lung function trajectories over 1 year. Methods: Serial post-bronchodilator forced expiratory volume (FEV) 1% values were obtained from 1,679 asthmatics who were followed up every 3 months for 1 year. First, a hierarchical cluster analysis was performed using Ward's method to generate a dendrogram for the optimum number of clusters using the complete post-FEV1 sets from 448 subjects. Then, a trajectory cluster analysis of serial post-FEV1 sets was performed using the k-means clustering for the longitudinal data trajectory method. Next, trajectory clustering for the serial post-FEV1 sets of a total of 1,679 asthmatics was performed after imputation of missing post-FEV1 values using regression methods. Results: Trajectories 1 and 2 were associated with normal lung function during the study period, and trajectory 3 was associated with a reversal to normal of the moderately decreased baseline FEV1 within 3 months. Trajectories 4 and 5 were associated with severe asthma with a marked reduction in baseline FEV1. However, the FEV1 associated with trajectory 4 was increased at 3 months, whereas the FEV1 associated with trajectory 5 was persistently disturbed over 1 year. Compared with trajectory 4, trajectory 5 was associated with older asthmatics with less atopy, a lower immunoglobulin E (IgE) level, sputum neutrophilia and higher dosages of oral steroids. In contrast, trajectory 4 was associated with higher sputum and blood eosinophil counts and more frequent exacerbations. Conclusions: Trajectory clustering analysis of FEV1 identified 5 distinct types, representing well-preserved to severely decreased FEV1. Persistent airflow obstruction may be related to non-atopy, a low IgE level, and older age accompanied by neutrophilic inflammation and low baseline FEV1 levels.