• 제목/요약/키워드: Dunn index

검색결과 14건 처리시간 0.028초

효모 마이크로어레이 유전자발현 데이터에 대한 군집화 비교 (Comparison of clustering with yeast microarray gene expression data)

  • 이경아;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.741-753
    • /
    • 2011
  • 마이크로어레이 유전자 발현데이터인 효모데이터를 이용하여 군집분석을 실시하였다. 모형기반 군집방법, K-평균법, 중앙값 중심분포 (PAM), 자기 조직화 지도 (SOM), 계층적 Ward 군집방법을 이용하여 군집화를 실시하고, 연결성 측도 (connectivity), Dunn지수, 실루엣 측도 (silhouette)를 이용하여 각 군집방법에 대한 유효성을 측정하고 군집분석 결과를 비교하고자한다.

효모 마이크로어레이 유전자 발현 데이터에 대한 유전자 선별 및 군집분석 (Gene Screening and Clustering of Yeast Microarray Gene Expression Data)

  • 이경아;김태훈;김재희
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1077-1094
    • /
    • 2011
  • 마이크로어레이 유전자 발현 데이터인 yeast cdc15에 대해 시계열 데이터의 특성을 반영한 푸리에 계수를 이용한 검정통계량과 FDR 다중비교법을 이용하여 차별화된 유전자를 선별한 후 선별된 유전자들에 대해 모형기반 군집방법, K-평균법, PAM, SOM, 계층적 Ward 군집방법과 Fuzzy 군집방법을 실시하였다. 군집방법에 따른 특성을 알아보고 군집화 결과와 내부유효성 측도로 연결성 측도, Dunn 지수와 실루엣 값을 살펴본다. 또한 GO분석을 통한 생물학적 의미도 파악해본다.

Dunn 지수를 이용한 최적 강수지역 군집수 분석 (The Analysis of Optimal Cluster Number of Precipitation Region with Dunn Index)

  • 엄명진;정창삼;남우성;정영훈;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2011년도 학술발표회
    • /
    • pp.87-91
    • /
    • 2011
  • 강수는 지역에 따라 발생양상이 매우 다른 자연현상 중 하나이다. 이러한 강수를 효과적으로 분석하여 확률강수량을 산정하기위해서 수문학에서는 다양한 방법이 시도되어 왔다. 우리나라에서는 지점빈도해석을 통한 확률강수량을 주로 사용해왔으나 최근 들어 Hosking and Wallis(1997)가 제안한 지역빈도해석을 활용을 적극 도모 하고 있는 중이다. 이러한 지역빈도해석 기법은 지점빈도해석 기법에 비하여 한정된 강수자료를 활용하는 측면 등 여러 가지 장점을 가진 확률 강수량 산정방법이다. 그러나 이 기법을 적용하여 확률강수량을 산정하기 위해서는 강수의 지역구분을 먼저 수행하여야 한다. 강수지역의 구분을 위해서는 여러 가지 기법이 존재하나 최근에는 Cluster 기법 중 K-means 방법이나 Fuzzy c-means 방법 등을 주로 적용하여 지역구분을 수행하고 있다. 그러나 K-means 방법이나 Fuzzy c-means 방법 등은 산정 방법내에서 최적 군집수를 결정할 수 있는 알고리즘이 없기 때문에 임의적으로 최적 군집수를 결정하여야 한다. 본 연구에서는 이러한 단점을 극복하기 위하여 Cluster 평가지수 중 하나인 Dunn 지수를 이용하여 최적 군집수를 제시하고자 한다. 본 연구에서 강수지역을 구분하기 위하여 적용한 인자는 월 평균 강수량, 연 평균 강수량, 월 최대 강수량, 경도, 위도, 고도 등이며, 이를 K-means, PAM 및 친근도 전파 기법을 통하여 강수지역을 구분하였다. 적정 군집수를 임의적으로 증가시켜 가면서 Dunn 지수를 산정하였다. 산정된 결과를 통하여 최적 군집수를 결정하였다.

  • PDF

고차원 (유전자 발현) 자료에 대한 군집 타당성분석 기법의 성능 비교 (Comparison of the Cluster Validation Methods for High-dimensional (Gene Expression) Data)

  • 정윤경;백장선
    • 응용통계연구
    • /
    • 제20권1호
    • /
    • pp.167-181
    • /
    • 2007
  • 유전자 발현 자료(gene expression data)는 전형적인 고차원 자료이며, 이를 분석하기 위한 여러 가지 군집 알고리즘(clustering algorithm)과 군집 결과들을 검증하는 군집타당성분석 기법(cluster validation technique)이 제안되고 있지만, 이들 군집 타당성을 분석하는 기법의 성능에 대한 비교, 평가는 매우 드물다. 본 논문에서는 저차원의 모의실험 자료와 실제 유전자 발현 자료에 대하여 군집 타당성분석 기법들의 성능을 비교하였으며, 그 결과 내적 측도에서는 Dunn 지수, Silhouette 지수 순으로 뛰어났고 외적 측도에서는 Jaccard 지수가 성능이 가장 우수한 것으로 평가되었다.

군집분석 비교 및 한우 관능평가데이터 군집화 (A Comparison of Cluster Analyses and Clustering of Sensory Data on Hanwoo Bulls)

  • 김재희;고윤실
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.745-758
    • /
    • 2009
  • 자발적인 군집을 유도하는 다변량 통계기법으로 널리 사용되는 군집분석은 데이터에 기반한 탐색적 방법으로 쓰이며 군집원칙에 따라 여러 가지 방법이 제안되어 왔다. 또한 군집화된 결과에 대하여 유효성을 측정하는 측도도 다양한방법이 개발되었다. 본 연구에서는 계층적 군집분석 방법으로 최장연결법과 Ward의 방법, 비계층적 군집분석 방법으로 K-평균법 그리고 확률분포정보를 활용한 모형기반 군집분석방법을 이용하여 모의실험으로 군집분석을 실시하고 군집유효성 측도로는 연결성, Dunn 지수, 실루엣을 구하여 각 군집방법에 대해 유효성을 비교한다. 또한, 한우 관능평가 데이터에 군집분석을 적용하여 최적의 군집 상황을 구하고자 한다.

유전자 알고리즘을 이용한 서울시 군집화 최적 변수 선정 (Selection of Optimal Variables for Clustering of Seoul using Genetic Algorithm)

  • 김형진;정재훈;이정빈;김상민;허준
    • 대한공간정보학회지
    • /
    • 제22권4호
    • /
    • pp.175-181
    • /
    • 2014
  • 정부 3.0이라는 새로운 정부운영 계획과 함께 다양한 공공정보를 민간이 활용할 수 있게 되었으며, 특히 서울은 이러한 행정정보 공개 및 활용을 선도하고 있다. 공개된 행정정보를 통해 각 지역을 특징짓는 행정요소를 발견할 경우, 각종 행정정책을 위한 의사결정 수단에 반영할 수 있을 뿐만 아니라 특정 지역의 고객 특성을 파악하여 특화된 서비스나 상품을 판매하는 마케팅 수단으로도 사용할 수 있을 것으로 사료된다. 하지만, 방대한 양의 행정자료로부터 각 군집의 특성을 명확히 구분할 수 있는 최적의 조합을 찾는 과정은 조합최적화 문제로서 상당한 연산량을 요구한다. 본 연구에서는 서울시에서 제공하는 다차원 행정자료로부터 서울시를 대표하는 문화 산업의 중심인 서초구, 강남구, 송파구 등의 강남 3구를 다른 지역과 효과적으로 구분하는 행정요인를 찾고자 하였다. 방대한 양의 행정정보로부터 두 군집간의 차이점을 극대화하는 요인을 선별하기 위한 최적화 방법으로 유전자 알고리즘을 이용하였으며, 군집간 차이를 계산하는 척도로는 Dunn 지수를 이용하였다. 또한 유전자 알고리즘의 연산속도의 향상을 위해 Microsoft Azure에서 제공하는 cloud computing을 이용한 분산처리를 수행하였다. 자료로는 통계청으로 부터 취득한 총 718개의 행정자료를 이용하였으며, 그 중 28개가 최적 변수로 선정되었다. 검증을 위해 선정된 28개의 변수를 입력값으로 Ward의 최소분산법 및 K-means 알고리즘을 통한 군집화를 수행한 결과 두 경우 모두 강남 3구가 다른 지역으로부터 효과적으로 분류됨을 확인하였다.

고려엉겅퀴(Cirsium setidens (Dunn) Nakai)의 구성성분 및생리활성에 관한 리뷰 (A review on Phytochemistry and pharmacological Activities of Cirsium setidens (Dunn) Nakai)

  • 조미애;김범정
    • 대한본초학회지
    • /
    • 제38권4호
    • /
    • pp.31-43
    • /
    • 2023
  • Objectives : The objective of this study was to investigate the phytochemistry and pharmacological activities of Cirsium setidens. Methods : Domestic and international articles about Cirsium setidens were investigated. A review was perfoemed via DB searching engine such as Sci.Direct, Springer, DBpia, KISS, Google scholar, Kipris, and so on. Total 73 listed literature were classified by compound analysis and pharmacological efficacy. Results : C. setidens contains pectolinarin and its glycoside, pectolinarigenin as index compounds, and linarin, apigenin, diosmetin, scopoletin, acacetin, cirsimarin, cirsimaritin, setidenosides A and B, silymarin, hispidulin, 92 volatile compounds, and 15 fatty acids. The Pharmacological activities of C. setidens has been reported to inhibit of platelet aggregation and fat accumulation in the liver, inhibit to hepatitis, anti-cancer, antibacterial, skin improvement, hair growth, liver protection, anti-diabetic, anti-inflammatory, sedative. Also, It has been reported the effect of cholesterol-lowering and anti-obesity, neuroprotective effects, increasing human stem cell viability, inhibiting osteoclast formation and osteogenic differentiation. Conclusion : This reviews showed that C. setidens which has been traditionally used for the treatment of inflammation and hypertension, has anticancer and river protective effect, as well as hair loss and diet. In order to maximize the efficacy of C. setidens, research has also begun on the effect of processing processes such as fermentation or fine powdering and combining natural plant resources.

Comparison of time series clustering methods and application to power consumption pattern clustering

  • Kim, Jaehwi;Kim, Jaehee
    • Communications for Statistical Applications and Methods
    • /
    • 제27권6호
    • /
    • pp.589-602
    • /
    • 2020
  • The development of smart grids has enabled the easy collection of a large amount of power data. There are some common patterns that make it useful to cluster power consumption patterns when analyzing s power big data. In this paper, clustering analysis is based on distance functions for time series and clustering algorithms to discover patterns for power consumption data. In clustering, we use 10 distance measures to find the clusters that consider the characteristics of time series data. A simulation study is done to compare the distance measures for clustering. Cluster validity measures are also calculated and compared such as error rate, similarity index, Dunn index and silhouette values. Real power consumption data are used for clustering, with five distance measures whose performances are better than others in the simulation.

군집분류를 이용한 흙막이 벽체 배면 지반의 상대적 침하거동 분석 (Analysis of Relative Settlement Behavior of Retaining Wall Backside Ground Using Clustering)

  • 곽영준;한희수
    • 지질공학
    • /
    • 제33권1호
    • /
    • pp.189-200
    • /
    • 2023
  • 도시화와 산업화에 따라 도심지에 개발이 늘어나면서 지반침하로 인한 피해가 지속적으로 발생되고 있으며, 도심지에서의 건물붕괴는 대규모 인명 및 재산 피해로 이어질 위험이 크다. 굴착지반에 균등하지 않은 하중이 작용하고, 대상지반의 사전지식이 없는 경우의 지반거동에 대해서는 연구가 거의 이루어지지 않았다. 이에 따라 지반 조사 정보가 없는 흙막이 공사의 굴착 과정에서 발생되는 배면 지반의 침하거동을 분석하는 방법이 기존에는 없었고, 본 연구에서는 시계열 데이터를 가공하여 상대적 침하거동과 상호관련성을 분석하여 흙막이 벽체 배면 지반의 침하거동을 분석하고자 하였다. 본 논문에서는 평균침하량차지수와 평균상대침하량차를 정의 및 계산하였으며, 이를 좌표계에 도시하여 시간경과에 따라 측점간의 상대적 침하거동을 분석하였다. 또한 관측점들의 군집을 분류할 수 있는 기준이 필요하여 k-평균군집분석과 Dunn Index를 이용하여 분류하였다. 분석결과 계측지점의 침하량이 일정한 값으로 수렴하면서 모든 군집들이 안정영역으로 이동한 것을 확인할 수 있었으며, 군집은 세분화되었다. 이러한 분석결과를 바탕으로 연구대상의 각 측점 간 상관관계를 분석하여 연구대상 지반의 독자거동영역과 동일거동영역을 구분할 수 있었다. 이처럼 측점들 간의 상대적 침하거동을 분석을 통해 거동영역을 구분할 수 있다면, 주변지역의 융기, 지반파괴영역 예측, 터파기 공사 시 활동파괴의 방지 등 침하관리와 안정관리에 도움을 줄 수 있다고 판단된다.

Analysis of a Large-scale Protein Structural Interactome: Ageing Protein structures and the most important protein domain

  • Bolser, Dan;Dafas, Panos;Harrington, Richard;Schroeder, Michael;Park, Jong
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.26-51
    • /
    • 2003
  • Large scale protein interaction maps provide a new, global perspective with which to analyse protein function. PSIMAP, the Protein Structural Interactome Map, is a database of all the structurally observed interactions between superfamilies of protein domains with known three-dimensional structure in thePDB. PSIMAP incorporates both functional and evolutionary information into a single network. It makes it possible to age protein domains in terms of taxonomic diversity, interaction and function. One consequence of it is to predict the most important protein domain structure in evolution. We present a global analysis of PSIMAP using several distinct network measures relating to centrality, interactivity, fault-tolerance, and taxonomic diversity. We found the following results: ${\bullet}$ Centrality: we show that the center and barycenter of PSIMAP do not coincide, and that the superfamilies forming the barycenter relate to very general functions, while those constituting the center relate to enzymatic activity. ${\bullet}$ Interactivity: we identify the P-loop and immunoglobulin superfamilies as the most highly interactive. We successfully use connectivity and cluster index, which characterise the connectivity of a superfamily's neighbourhood, to discover superfamilies of complex I and II. This is particularly significant as the structure of complex I is not yet solved. ${\bullet}$ Taxonomic diversity: we found that highly interactive superfamilies are in general taxonomically very diverse and are thus amongst the oldest. This led to the prediction of the oldest and most important protein domain in evolution of lift. ${\bullet}$ Fault-tolerance: we found that the network is very robust as for the majority of superfamilies removal from the network will not break up the network. Overall, we can single out the P-loop containing nucleotide triphosphate hydrolases superfamily as it is the most highly connected and has the highest taxonomic diversity. In addition, this superfamily has the highest interaction rank, is the barycenter of the network (it has the shortest average path to every other superfamily in the network), and is an articulation vertex, whose removal will disconnect the network. More generally, we conclude that the graph-theoretic and taxonomic analysis of PSIMAP is an important step towards the understanding of protein function and could be an important tool for tracing the evolution of life at the molecular level.

  • PDF