• Title/Summary/Keyword: 클러스터링 분석

Search Result 743, Processing Time 0.09 seconds

An Analysis of the Hierarchical Agglomerative Clustering based on various Compound Noun Indexing Method (복합명사 분리 색인 방법이 문서 클러스터링에 미치는 영향 분석)

  • 양명석;최성필
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.697-699
    • /
    • 2002
  • 본 논문에서는 복합명사에 대한 색인 방법을 다각적으로 적용하여 계층적 결함 문서 클러스터링 시스템의 결과를 분석하고자 한다. 우선 한글 색인 엔진과 HAC(Hierarchical Agglumerative Clustering) 엔진에 대해서 설명하고 한글 색인엔진에서 제공되는 세가지 복합명사 분석 모드에 대해서 설명한다. 또한 구현된 클러스터링 엔진의 특징과 속도 향상을 위한 기법 등을 설명한다. 실험에서는 다양한 요소를 가지고 클러스터링된 문서 집합에 대한 분석 결과를 보인다. 실험 결과에 대한 분석에서 복합명사에 대한 색인 방법이 문서 클러스터링의 결과에 직접적인 영향을 준다는 것을 보여준다.

  • PDF

Analysis of Gene Expression Data Using Gath-Geva Algorithm (Gath-Geva 알고리즘을 이용한 유전자 발현 데이터의 분석)

  • 박한샘;유시호;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.253-255
    • /
    • 2004
  • 다량의 유전자 발현 정보를 담고 있는 DNA 마이크로어레이 기술의 발달로 인해 대량의 생물정보를 한번의 실험을 통해 분석할 수 있게 되었다. 유전자 발현 데이터를 분석하는 방법 중 하나인 클러스터링은 비슷한 기능을 가진 유전자들을 그룹별로 묶어서 그룹 레의 유전자들의 기능을 밝히거나 미지의 유전자를 분석하는데 이용되고 있다 본 논문에서는 유전자 발현 데이터를 클러스터링 하여 그로부터 유전 정보를 찾아내기 위한 방법으로 GG (Gath-Geva) 알고리즘을 제시한다. 퍼지 클러스터링 알고리즘중 하나인 GG 알고리즘은 대표적인 퍼지 클러스터링 방법인 퍼지 c-means 와 GK (Gustafson-Kessel) 알고리즘을 개선한 것으로. 차원이 크고 분포가 애매하여 클러스터링이 어려운 유전자 발현 데이터의 클러스터링에 적합한 알고리즘이다. 혈청(Serum) 유전자 데이터와 효모(Yeast) 세포주기 데이터를 CG 알고리즘 이용해 클러스터링 해 보고, 그 결과를 퍼지 c-means 알고리즘, GK알고리즘과 비교해 본 결과, GG 알고리즘이 유전자 발현 데이터의 클러스터링에 더 적합함을 확인하였다.

  • PDF

Analysis of Combined Yeast Cell Cycle Data by Using the Integrated Analysis Program for DNA chip (DNA chip 통합분석 프로그램을 이용한 효모의 세포주기 유전자 발현 통합 데이터의 분석)

  • 양영렬;허철구
    • KSBB Journal
    • /
    • v.16 no.6
    • /
    • pp.538-546
    • /
    • 2001
  • An integrated data analysis program for DNA chip containing normalization, FDM analysis, various kinds of clustering methods, PCA, and SVD was applied to analyze combined yeast cell cycle data. This paper includes both comparisons of some clustering algorithms such as K-means, SOM and furry c-means and their results. For further analysis, clustering results from the integrated analysis program was used for function assignments to each cluster and for motif analysis. These results show an integrated analysis view on DNA chip data.

  • PDF

시공간 데이터를 위한 클러스터링 기법의 성능 비교

  • 강주영;이봉재;송재주;신진호;용환승
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.49-51
    • /
    • 2004
  • 최근 GPS시스템, 감시 시스템, 기상 관측 시스템과 같은 다양한 응용 시스템으로부터 수집된 시공간 속성을 가진 데이터를 분석하고자 하는 시공간 데이터 마이닝에 대한 관심이 더욱 높아지고 있다. 기존의 시공간 데이터 마이닝에 대한 연구는 문자.숫자 데이터를 기반의 마이닝 기법을 그대로 적용하고 있기 때문에 데이터의 시공간 속성을 충분히 고려한 분석으로는 한계가 많은 것이 사실이다. 본 논문에서는 패턴 인식과 클러스터링 능력이 뛰어나다고 알려진 SOM을 기반으로 시공간 클러스터링 모듈을 개발하고, 개발된 모듈의 성능과 클러스터링 정확성에 대하여 K-means, 응집 계층 알고리즘(Average Linkage, Ward)과 비교함으로써 시공간 데이터 마이닝을 위한 각 알고리즘들의 성능을 분석하였다 또한 입력 데이터의 특성과 클러스터링 결과를 더욱 정확하게 나타내어 가시적인 분석을 도울 수 있도록 시공간 데이터 클러스터링을 위한 가시화 모듈을 개발하였다.

  • PDF

Development of Clustering Algorithm based on Massive Network Compression (대용량 네트워크 압축 기반 클러스터링 알고리즘 개발)

  • Seo, Dongmin;Yu, Seok Jong;Lee, Min-Ho
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF

An Empirical Study on the Measurement of Clustering and Trend Analysis among the Asian Container Ports Using the Variable Group Benchmarking and Categorical Variable Models (가변 그룹 벤치마킹 모형과 범주형 변수모형을 이용한 아시아 컨테이너항만의 클러스터링측정 및 추세분석에 관한 실증적 연구)

  • Park, Rokyung
    • Journal of Korea Port Economic Association
    • /
    • v.29 no.1
    • /
    • pp.143-175
    • /
    • 2013
  • The purpose of this paper is to show the clustering trend by using the variable group benchmarking(VGB) and categorical variable(CV) models for 38 Asian ports during 9 years(2001-2009) with 4 inputs(birth length, depth, total area, and number of crane) and 1 output(container TEU). The main empirical results of this paper are as follows. First, clustering results by using VGB show that Shanghai, Qingdao, and Ningbo ports took the core role for clustering. Second, CV analysis focusing on the container throughputs indicated that Singapore, Keelong, Dubai, and Kaosiung ports except Chinese ports are appeared as the center ports of clustering. Third, Aqaba, Dubai, Hongkong, Shanghai, Guangzhou, and Ningbo ports are recommended as the efficient ports for the target of clustering. Fourth, when the ports are classified by the regional location, Dubai, Khor Fakkan, Shanghai, Hongkong, Keelong, Ningbo, and Singapore ports are the core ports for clustering. On the whole, other ports located in Asia should be clustered to Dubai, Khor Fakkan, Shanghai, Hongkong, Ningbo, and Singapore ports. The policy implication of this paper is that Korean port policy planner should introduce the VGB model, and CV model for clustering among the international ports for enhancing the efficiency of inputs and outputs.

Double Clustering of Gene Expression Data Based on the Information Bottleneck Method (정보병목기법에 기반한 유전자 발현 데이터의 이중 클러스터링)

  • 김병희;황규백;장정호;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.362-364
    • /
    • 2003
  • 기능 유전체학에서 클러스터링 기법은 고차원의 마이크로 어레이 데이터 분석을 위한 주된 도구 중의 하나이다. 본 논문에서는 정보병목(information bottleneck)기법 기반의 이중 클러스터링에 의한, 유전자 발현 데이터의 계층적 병합방식 클러스터링 기법을 제안한다. 정보병목기법은, 두 랜덤변수의 결합확률분포가 주어진 경우 두 변수의 상호 정보량을 최대한 보존하면서 한 변수를 압축하는 기법이며, 두 변수를 차례로 압축하는 것이 이중 클러스터링이다. 실제 마이크로 어레이 데이터인 NC160 데이터(암세포 내 유전자 발현 데이터)에 대한 실험에서, 먼저 유전자를 그 발현패턴에 따라 클러스터링 한 후 이를 이용하여 표본들을 클러스터링하고 그 성능을 다각도로 분석하였다. 상호 정보량과 유전자 및 표본 클러스터 수와 엔트로피 척도에 의한 성능을 검토해 본 결과, 표본이 추출 조직에 따라 구분 가능할 것이라는 가정을 검증할 수 있었으며, 적절한 클러스터의 수를 결정할 수 있는 임계점의 기준을 설정할 수 있었다.

  • PDF

A novel clustering method for examining and analyzing the intellectual structure of a scholarly field (지적 구조 분석을 위한 새로운 클러스터링 기법에 관한 연구)

  • Lee, Jae-Yun
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.4 s.62
    • /
    • pp.215-231
    • /
    • 2006
  • Recently there are many bibliometric studies attempting to utilize Pathfinder networks(PFNets) for examining and analyzing the intellectual structure of a scholarly field. Pathfinder network scaling has many advantages over traditional multidimensional scaling, including its ability to represent local details as well as global intellectual structure. However there are some limitations in PFNets including very high time complexity. And Pathfinder network scaling cannot be combined with cluster analysis, which has been combined well with traditional multidimensional scaling method. In this paper, a new method named as Parallel Nearest Neighbor Clustering (PNNC) are proposed for complementing those weak points of PFNets. Comparing the clustering performance with traditional hierarchical agglomerative clustering methods shows that PNNC is not only a complement to PFNets but also a fast and powerful clustering method for organizing informations.

A Heuristic Leaf Ordering Algorithm for Hierarchical Clustering of DNA Microarray Data (DNA 마이크로어레이 데이터의 계층적 클러스터링에 대한 리프오더링 알고리즘 개발)

  • 여상수;이정원;김성권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04a
    • /
    • pp.706-708
    • /
    • 2002
  • DNA 마이크로어레이 실험으로 나온 데이터들을 클러스터링하는 것은 유전자의 기능과 유전자의 네트워크를 파악해 나가는데 도움을 주게 된다. 계층적 클러스터링(hierarchical clustering) 방법은 그러한 실험 분석에서 가장 보편적으로 사용되는 방법이다. 본 논문에서는 계층적 클러스터링을 통해서 나온 결과 트리에 대해서, 트리의 리프 노드들을 재배열함으로써, 인접한 리프 노드들간의 거리의 종합이 최소가 되도록 하는 문제인 리프오더링 방법을 다루었고, 새로운 리프오더링 알고리즘을 제안하였다. 그리고, 이를 포함한 여러 리프오더링 방법들에 대한 실험 및 생물학적인 분석을 하였다.

  • PDF

Mathematical Programming Application for Clustering Problems in Conjunction with Confusing Matrix (혼동 행렬을 이용한 클러스터링 문제의 수리 계획적 접근)

  • 김영민;최경현
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.605-608
    • /
    • 2000
  • 혼동 행렬 (confusion matrix)은 자극 또는 인식대상(데이터)에 대한 반응을 데이터화함으로써 인식대상(데이터)의 특성분석을 통하여 복잡한 시스템을 효율적으로 통제, 관리하기 위한 분석기법에 사용된다. 클러스터링은 인식 시스템을 위한 기법으로서 다양한 분야에서 널리 활용되고 있다. 본 연구에서는 혼동 행렬을 이용한 최적화 모델을 통하여 클러스터링(Clustering) 문제의 새로운 접근법을 제시한다. 최근 수리 계획 분야에서 클러스터링 분야에 대한 연구가 계속되고 있는데 그러한 수리 모델과 혼동 행렬을 접목하여 새로운 모델을 제시한다.

  • PDF