• 제목/요약/키워드: Hierarchical Clustering Analysis

검색결과 247건 처리시간 0.051초

A Bibliometric Approach for Department-Level Disciplinary Analysis and Science Mapping of Research Output Using Multiple Classification Schemes

  • Gautam, Pitambar
    • Journal of Contemporary Eastern Asia
    • /
    • 제18권1호
    • /
    • pp.7-29
    • /
    • 2019
  • This study describes an approach for comparative bibliometric analysis of scientific publications related to (i) individual or several departments comprising a university, and (ii) broader integrated subject areas using multiple disciplinary schemes. It uses a custom dataset of scientific publications (ca. 15,000 articles and reviews, published during 2009-2013, and recorded in the Web of Science Core Collections) with author affiliations to the research departments, dedicated to science, technology, engineering, mathematics, and medicine (STEMM), of a comprehensive university. The dataset was subjected, at first, to the department level and discipline level analyses using the newly available KAKEN-L3 classification (based on MEXT/JSPS Grants-in-Aid system), hierarchical clustering, correspondence analysis to decipher the major departmental and disciplinary clusters, and visualization of the department-discipline relationships using two-dimensional stacked bar diagrams. The next step involved the creation of subsets covering integrated subject areas and a comparative analysis of departmental contributions to a specific area (medical, health and life science) using several disciplinary schemes: Essential Science Indicators (ESI) 22 research fields, SCOPUS 27 subject areas, OECD Frascati 38 subordinate research fields, and KAKEN-L3 66 subject categories. To illustrate the effective use of the science mapping techniques, the same subset for medical, health and life science area was subjected to network analyses for co-occurrences of keywords, bibliographic coupling of the publication sources, and co-citation of sources in the reference lists. The science mapping approach demonstrates the ways to extract information on the prolific research themes, the most frequently used journals for publishing research findings, and the knowledge base underlying the research activities covered by the publications concerned.

시계열자료의 효율적 군집분석을 위한 구간특징화와 계층적 베이지안 기법의 융합 (A Fusion of the Period Characterized and Hierarchical Bayesian Techniques for Efficient Cluster Analysis of Time Series Data)

  • 정영애;전진호
    • 디지털융복합연구
    • /
    • 제13권7호
    • /
    • pp.169-175
    • /
    • 2015
  • 주가지표처럼 동적이며 시간흐름을 따르는 시계열자료들을 이해하는 효과적인 방법은 주어진 시계열자료들에 대하여 모델을 결정함으로서 이해하는 것이 좋다. 주어진 자료들에 대한 모델 결정과정은 수집되어진 대용량 시계열자료 전체를 한 번에 다 살펴보는 것보다 자료를 특정의 중요한 몇 개의 하위그룹으로 군집화하여 각 군집별 모델결정을 통해 자료 전체를 이해하는 것이 효율적이다. 본 연구에서는 주어진 시계열자료들에 대하여 하위그룹으로의 효율적 군집화 과정 그리고 각 군집별 모델결정의 두 과정 중 첫 번째 과정인 하위집단으로 군집화 과정에 자료의 구간특징화 기법과 휴리스틱 베이지안기법의 융합을 이용하여 시간 및 계산비용을 감소시킬 수 있는 기법을 제안하였으며 실제적인 주가지표를 이용한 실험을 통해 제안하는 기법의 유효성을 확인하였다.

섹터화된 랜덤 클러스터 헤더 선출 알고리즘 효율성 분석 (S-RCSA : Efficiency Analysis of Sectored Random Cluster Header Selection Algorithm)

  • 김민제;이두완;장경식
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 추계학술대회
    • /
    • pp.831-834
    • /
    • 2011
  • WSN 분야의 대표적인 알고리즘의 하나인 LEACH는 시스템 수명동안 모든 노드들이 균일한 횟수로 클러스터 헤더가 되는 것을 보장한다. 하지만 각 라운드별로 일정한 클러스터 헤더 수를 보장하지 못하여 클러스터 헤더가 선출되지 못하는 경우가 발생하거나 적은 수로 선출되는 경우가 발생한다. 클러스터 헤더가 적게 선출될 경우 클러스터 헤더에 높은 부하가 걸린다. 또한 선출된 클러스터 헤더의 위치에 따라 센서 노드가 소속되지 않은 클러스터가 발생할 경우도 있다. 이에 본 논문에서는 관심 영역을 일정한 섹터로 나누어 각 섹터마다 클러스터 헤더를 무작위로 하나씩 선출하는 알고리즘을 제안한다. 클러스터 구성 시 각 센서 노드는 가장 가까운 클러스터 헤더에 소속되어 클러스터 구성은 섹터와는 무관하게 진행된다. 이 알고리즘은 매 라운드마다 일정한 수의 클러스터 헤더를 보장하며 소속된 센서 노드가 없는 헤더가 발생하지 않도록 한다.

  • PDF

데이터마이닝의 자동 데이터 규칙 추출 방법론 개발 : 계층적 클러스터링 알고리듬과 러프 셋 이론을 중심으로 (Development of Automatic Rule Extraction Method in Data Mining : An Approach based on Hierarchical Clustering Algorithm and Rough Set Theory)

  • 오승준;박찬웅
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.135-142
    • /
    • 2009
  • 테이터 마이닝은 대용량의 데이터 셋을 분석하기 위하여 새로운 이론, 기법, 분석 툴을 제공하는 전산 지능분야의 새로운 영역중 하나이다. 데이터 마이닝의 주요 기법으로는 연관규칙 탐사, 분류, 클러스터링 등이 있다. 그러나 이들 기법을 기존 연구 방법들처럼 개별적으로 사용하는 것보다는 통합화하여 규칙들을 자동적으로 발견해내는 방법론이 필요하다. 이런 데이터 규칙 추출 방법론은 대량의 데이터들을 분석하여 성공적인 의사결정을 내리는데 도움을 줄 수 있기에 많은 분야에 이용될 수 있다. 본 논문에서는 계층적 클러스터링 알고리듬과 러프셋 이론을 이용하여 대량의 데이터로부터 의미 있는 규칙들을 발견해 내는 자동적인 규칙 추출 방법론을 제안한다. 또한 UCI KDD 아카이브에 포함되어 있는 데이터 셋을 이용하여 제안하는 방법에 대하여 실험을 수행하였으며, 실제 생성된 규칙들을 예시하였다. 이들 자동 생성된 규칙들은 효율적인 의사결정에 도움을 준다.

Imperatorin을 처리한 HL-60 백혈병 세포주에서 대규모 유전자 분석 발현 연구 (Studies on Gene Expression of Imperatorin treated in HL-60 cell line using High-throughput Gene Expression Analysis Techniques)

  • 강봉주;차민호;전병훈;윤용갑;윤유식
    • 동의생리병리학회지
    • /
    • 제18권4호
    • /
    • pp.1028-1035
    • /
    • 2004
  • Imperatorin, a biologically active furanocoumarin from the roots of Angelica dahurica (Umbelliferae), was mutagenic and induced transformation of mouse fibroblast cell lines, whereas it provided inhibiting effects on mutagenesis and carcinogenesis induced by various carcinogens. Furthermore, it has been suggested that imperatorin may have potential anticarcinogenic effects when administered orally in the diet. In addition to its anticarcinogenic properties, imperatorin has been shown to possess anticancer activities. We investigated the macro scale gene expression analysis on the HL-60 cells treated with imperatorin. Imperatorin (10μM) were used to treat the cells for 6h, 12h, 24h, 48h, and 72h. In a human cDNAchip study of 10,000 genes evaluated 6, 12, 24, 48, 72 hours after treated with imperatorin in HL-60 cells. Hierarchical cluster against the genes which showed expression changes by more than 2 fold. Three hundred eighty six genes were grouped into 6 clusters by a hierarchical clustering algorithm. Pathway analysis using gene microarray pathway prof Her that is a computer application designed to visualize gene expression data on screen representing biological pathways and groupings of genes.

고속철도 열차지연 유형의 구분지표 및 기준 (Types of Train Delay of High-Speed Rail : Indicators and Criteria for Classification)

  • 김한수;강중혁;배영규
    • 한국경영과학회지
    • /
    • 제38권3호
    • /
    • pp.37-50
    • /
    • 2013
  • The purpose of this study is to determine the indicators and the criteria to classify types of train delays of high-speed rail in South Korea. Types of train delays have divided into the chronic delays and the knock-on delays. The Indicators based on relevance, reliability, and comparability were selected with arrival delay rate of over five minutes, median of arrival delays of preceding train and following train, knock-on delay rate of over five minutes, correlation of delay between preceding train and following train on intermediate and last stations, average train headway, average number of passengers per train, and average seat usages. Types of train delays were separated using the Ward's hierarchical cluster analysis. The criteria for classification of train delay were presented by the Fisher's linear discriminant. The analysis on the situational characteristics of train delays is as follows. If the train headway in last station is short, the probability of chronic delay is high. If the planned running times of train is short, the seriousness of chronic delay is high. The important causes of train delays are short headway of train, shortly planned running times, delays of preceding train, and the excessive number of passengers per train.

전국자연환경조사를 활용한 포유류 서식지 유형의 분류 (The Habitat Classification of mammals in Korea based on the National Ecosystem Survey)

  • 이화진;하정욱;차진열;이중효;윤희남;정철운;오홍식;배소연
    • 환경영향평가
    • /
    • 제26권2호
    • /
    • pp.160-170
    • /
    • 2017
  • 본 연구는 2006년부터 2012년까지 수행된 제3차 전국자연환경조사 포유류 데이터(70,562개)를 활용하여 국내에서 서식하는 포유류의 서식지 유형을 클러스터링하고 서식지 유형에 나타나는 종의 특징을 파악하고자 하였다. 제3차 전국자연환경조사의 야장에 기록된 서식지 유형 중에서 15개의 키워드를 뽑아 재분류하여 포유류 서식지유형을 통계 분석하였다. 서식지 유형 군집분석에서는 30회 이상 기록된 14개의 서식지 유형을 대상으로 비계층적 클러스터 분석(k 평균 클러스터 분석), 계층적 클러스터 분석, 비계량형 다차원척도법을 시행하였다. 2006년에서 2012년까지 전국에서 수집된 제3차 전국자연환경조사를 통해 확인된 포유류는 총 7목 16과 39종이었다. 서식지 유형에 대한 분류는 11개로 클러스터를 분류했을 때 단순구조지수가 가장 높았다(ssi = 0.07). 계층적 클러스터 분석으로 서식지 유형들 간의 유사성과 위계를 확인해 본 결과, 포유류에게는 주거지가 가장 차별된 서식지 유형이었고, 그 다음은 하천과 해안이 병합된 클러스터였다. 비계량형 다차원척도 분석 결과, 포유류에게 가장 차별된 서식지유형인 주거지의 경우 생쥐와 집쥐 두 종이 제한적으로 나타났으며, 해안과 하천의 경우 수달이 제한적으로 나타났다. 연구결과를 종합해보면, 포유류의 서식지 유형은 크게 산림을 주요 서식지와 이동경로로 이용하는 산림형과, 물을 주요 서식지로 이용하는 하천형, 주거지 인근에서 서식하는 주거형, 곡류나 씨앗을 주 먹이원으로 하는 저지대형 등 4가지로 구분할 수 있다.

수박 엘리트 계통의 GBS를 통한 마커이용 육종용 SNP 마커 개발 (Development of an SNP set for marker-assisted breeding based on the genotyping-by-sequencing of elite inbred lines in watermelon)

  • 이준우;손병구;최영환;강점순;이용재;제병일;박영훈
    • Journal of Plant Biotechnology
    • /
    • 제45권3호
    • /
    • pp.242-249
    • /
    • 2018
  • 본 연구는 국내 육종 회사에서 개발된 수박(Citrullus lanatus L.) 우량 육성계통 20종을 대상으로 Genotyping-by-sequencing(GBS) 분석을 통해 품종식별, 순도검정, 그리고 마커이용여교잡(Marker-assisted backcross, MABC)용 SNP 세트를 개발하고자 수행되었다. GBS 분석 결과 총 1,100,000천개 raw read 중 77%가 수박 유전체에 mapping되었으며 평균 mapping region은 약 4,000 Kb로 2.3%의 genome coverage를 보였다. Filtering을 통해 평균 depth 31.57의 SNP 총 2,670개를 얻었으며, 20개 계통에 대한 이들의 Polymorphic information content(PIC) 값의 범위는 0.1 ~ 0.38 였다. 이 중 PIC 값이0.3이상이며 각 염색체 별로 5개씩 균등히 분포된 SNP 총 55개를 최종 선발하였다. 사용된 20개 계통의 유연관계분석을 위해 선발된 55개 SNP를 기반으로 한 주성분 분석(Principle component analysis, PCA) 결과 주성분 1 (52%)과 주성분 2 (11%)를 기준으로 4개의 그룹으로 분류 되었으며 각 계통 간 유전자형에 따른 뚜렷한 식별이 가능하였다. 계층적 군집화(Hierarchical clustering) 분석에서도PCA에서와 유사한 분류양상을 관찰할 수 있었다. 따라서 본 연구에서 개발된 SNP 세트는 적용 가능성이 검증된 20개 계통뿐 만 아니라 향후 다양한 수박 육종소재 및 품종에 대한 품종식별, F1 순도검정 및 MABC에 활용될 수 있으리라 기대된다.

군집분석법과 분산주성분분석법을 이용한 대기분진시료의 분류 (Classification of Ambient Particulate Samples Using Cluster Analysis and Disjoint Principal Component Analysis)

  • 유상준;김동술
    • 한국대기환경학회지
    • /
    • 제13권1호
    • /
    • pp.51-63
    • /
    • 1997
  • Total suspended particulate matters in the ambient air were analyzed for eight chemical elements (Ca, Co, Cu, Fe, Mn, Pb, Si, and Zn) using an x-ray fluorescence spectrometry (XRF) at the Kyung Hee University - Suwon Campus during 1989 to 1994. To use these data as basis for source identification study, membership of each sample was selected to represent one of the well defined sample groups. The data sets consisting of 83 objects and 8 variables were initially separated into two groups, fine (d$_{p}$<3.3 ${\mu}{\textrm}{m}$) and coarse particle groups (d$_{p}$>3.3 ${\mu}{\textrm}{m}$). A hierarchical clustering method was examined to obtain possible member of homogeneous sample classes for each of the two groups by transforming raw data and by applying various distances. A disjoint principal component analysis was then used to define homogeneous sample classes after deleting outliers. Each of five homogeneous sample classes was determined for the fine and the coarse particle group, respectively. The data were properly classified via an application of logarithmic transformation and Euclidean distance concept. After determining homogeneous classes, correlation coefficients among eight chemical variables within all the homogeneous classes for calculated and meteorological variables (temperature. relative humidity, wind speed, wind direction, and precipitation) were examined as well to intensively interpret environmental factors influencing the characteristics of each class for each group. According to our analysis, we found that each class had its own distinct seasonal pattern that was affected most sensitively by wind direction.ion.

  • PDF

Comparison of 12 Isoflavone Profiles of Soybean (Glycine max (L.) Merrill) Seed Sprouts from Three Different Countries

  • Park, Soo-Yun;Kim, Jae Kwang;Kim, Eun-Hye;Kim, Seung-Hyun;Prabakaran, Mayakrishnan;Chung, Ill-Min
    • 한국작물학회지
    • /
    • 제63권4호
    • /
    • pp.360-377
    • /
    • 2018
  • The levels of 12 isoflavones were measured in soybean (Glycine max (L.) Merrill) sprouts of 68 genetic varieties from three countries (China, Japan, and Korea). The isoflavone profile differences were analyzed using data mining methods. A principal component analysis (PCA) revealed that the CSRV021 variety was separated from the others by the first two principal components. This variety appears to be most suited for functional food production due to its high isoflavone levels. Partial least squares discriminant analysis (PLS-DA) and orthogonal projections to latent structures discriminant analysis (OPLS-DA) showed that there are meaningful isoflavone compositional differences in samples that have different countries of origin. Hierarchical clustering analysis (HCA) of these phytochemicals resulted in clusters derived from closely related biochemical pathways. These results indicate the usefulness of metabolite profiling combined with chemometrics as a tool for assessing the quality of foods and identifying metabolic links in biological systems.