• Title/Summary/Keyword: 군집의 응집도

Search Result 47, Processing Time 0.022 seconds

Document Clustering Method using Coherence of Cluster and Non-negative Matrix Factorization (비음수 행렬 분해와 군집의 응집도를 이용한 문서군집)

  • Kim, Chul-Won;Park, Sun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.13 no.12
    • /
    • pp.2603-2608
    • /
    • 2009
  • Document clustering is an important method for document analysis and is used in many different information retrieval applications. This paper proposes a new document clustering model using the clustering method based NMF(non-negative matrix factorization) and refinement of documents in cluster by using coherence of cluster. The proposed method can improve the quality of document clustering because the re-assigned documents in cluster by using coherence of cluster based similarity between documents, the semantic feature matrix and the semantic variable matrix, which is used in document clustering, can represent an inherent structure of document set more well. The experimental results demonstrate appling the proposed method to document clustering methods achieves better performance than documents clustering methods.

Evaluation of the Two Class Population Balance Equation for Predicting the Bimodal Flocculation of Cohesive Sediments in Turbulent Flow (난류조건에서의 점착성 유사 이군집 응집 모형 적용성 평가)

  • Lee, Byung Joon;Toorman, E.A.
    • Journal of Korea Water Resources Association
    • /
    • v.48 no.3
    • /
    • pp.233-243
    • /
    • 2015
  • The bimodal flocculation of cohesive sediments in water environments describes the aggregation and breakage process developing a bimodal floc size distribution with dense flocculi and floppy flocs. A two class population balance equation (TCPBE) was tested for simulating the bimodal flocculation by a model-data fitting analysis with two sets of experimental data (low and high turbulent flows) from 1-D flocculation-settling column tests. In contrast to the Single-Class PBE (SCPBE), the TCPBE could simulate interactions between flocculi and flocs and the flocculation mechanism by differential settling in a low turbulent flow. Also, the TCPBE could perform the same quality of simulation as the elaborate Multi-Class PBE (MCPBE), with a small number of floc size classes and differential equations. Thus, the TCPBE was proven to be the simplest model that is capable of simulating the bimodal flocculation of cohesive sediments in water environments and water, wastewater treatment systems.

Rarity-Based Saliency Detection (희귀도 기반의 중요도 검출 기법)

  • Lee, Se-Ho;Kim, Jin-Hwan;Kim, Chang-Su
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.11a
    • /
    • pp.244-245
    • /
    • 2013
  • 본 논문에서는 회귀도 기반의 중요도 검출 기법을 제안한다. 제안하는 기법은 각 군집의 분포 정보를 이용하여 중요도를 검출한다. 우선, 이를 입력 영상에 군집 기법을 수행한다. 그리고 각 군집의 분포를 분석하여 각 군집에 대한 회귀도, 응집도, 그리고 중심밀집도를 추출한다. 마지막으로 회귀도, 응집도, 그리고 중심밀집도를 곱함으로써 중요도를 검출한다. 실험 결과 제안하는 알고리즘이 기존의 기법들 보다 중요도를 정확하게 검출하는 것을 확인할 수 있다.

  • PDF

Generic Document Summarization using Coherence of Sentence Cluster and Semantic Feature (문장군집의 응집도와 의미특징을 이용한 포괄적 문서요약)

  • Park, Sun;Lee, Yeonwoo;Shim, Chun Sik;Lee, Seong Ro
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.16 no.12
    • /
    • pp.2607-2613
    • /
    • 2012
  • The results of inherent knowledge based generic summarization are influenced by the composition of sentence in document set. In order to resolve the problem, this papser propses a new generic document summarization which uses clustering of semantic feature of document and coherence of document cluster. The proposed method clusters sentences using semantic feature deriving from NMF(non-negative matrix factorization), which it can classify document topic group because inherent structure of document are well represented by the sentence cluster. In addition, the method can improve the quality of summarization because the importance sentences are extracted by using coherence of sentence cluster and the cluster refinement by re-cluster. The experimental results demonstrate appling the proposed method to generic summarization achieves better performance than generic document summarization methods.

Fine Needle Aspiration Cytology of Adenomyoepithelioma of the Breast - Comparison with Typical Fibroadenoma - (유방 선근상피종의 세침흡인 세포학적 소견 - 섬유선종과의 비교 -)

  • Yoon, Hye-Kyoung;Jung, Soo-Jin;Kang, Mi-Seon
    • The Korean Journal of Cytopathology
    • /
    • v.9 no.1
    • /
    • pp.105-110
    • /
    • 1998
  • Adenomyoepithelioma is an uncommon benign tumor of the breast. We present the fine needle aspiration cytologic features of adenomyoepithelioma in a 23 year-old Korean women, initially diagnosed as fibroadenoma. Aspiration cytologic findings of the left breast mass revealed high cellularity, small to medium sized, less cohesive epithelial clusters, rich naked cells and amorphous materials on background. The epithelial cells were round and uniform with no cytologic atypia or mitosis. Myoeplthelial cells were conspicuous with peripheral rimming along the epithelial clusters. Small amount of fibrotic stromal tissues were observed. Distinguishing features from typical fibroadenoma are less tight epithelial clusters, dyscohesive epithelial cell aggregates, more abundant naked cells and scant stromal tissue fragments.

  • PDF

Agglomerative Hierarchical Clustering Using Latent Semantic Analysis in Information Retrieval (정보 검색에서의 잠재 의미 분석 방법을 이용한 응집 계층 군집화 기법 연구)

  • Khiati, Abdel-Ilah Zakaria;Kang, Daehyun;Park, Hansaem;Kwon, Kyunglag;Chung, In-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.952-955
    • /
    • 2014
  • 본 논문에서는 정보 검색 분야에서 잘 알려진 잠재 의미 분석 방법과 계층적 군집화 방법의 단점을 상호 보완하여 보다 효율적인 정보 검색을 위한 혼합형 군집화 방법을 제안한다. 먼저, 잠재 의미 분석 방법은 벡터 연산을 통하여 자동적으로 문서 내에 있는 잠재적인 의미를 찾는 정보 검색분야에서 많이 사용되는 고전적인 방법이다. 그러나 이 방법은 언어의 유의성이나 다의성으로 인하여 발생되는 백-오브-워드(bag-of-word) 문제를 가지고 있다. 두 번째 방법인 문서 군집화를 위하여 범용적으로 사용되고 있는 계층적 군집화 방법이다. 이 방법은 이를 통하여 분석된 군집의 질적 측면에서 볼 때, 여전히 단층적 군집들이 많이 형성되어 세부적인 분석을 통한 추가적인 군집화가 필요함을 알 수 있다. 따라서, 본 논문에서는 앞서 언급한 문제점을 해결하기 위하여 혼합적인 방법으로 잠재 의미 분석 방법을 이용한 응집 계층 군집화 방법을 제안한다. 제안한 방법을 이용하여 잘 알려진 두 개의 데이터에 적용하고 기존의 방법과 그 결과를 비교함으로써 군집의 질적 측면에서의 우수함을 보인다.

Development of Core Components of Projected Clustering for High-Dimensional Categorical Data (고차원 범주형 데이터를 위한 투영 군집화 기법의 핵심 요소 개발)

  • Kim Min-Ho;Ramakrishna R.S.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.181-183
    • /
    • 2006
  • 본 논문은 고차원의 범주형 데이터에 대한 군집화에 대해서 다룬다. 기존의 범주형 데이터 객체를 위한 유사성(상이성) 계측들의 기저에 깔려 있는 한계점은 수치형 데이터에서와 같은 순서화 (ordering)의 부재와 데이터의 고차원성과 희소성에 기인하는데, 이를 효과적으로 극복할 수 있는 기법이 투영 군집화이다. 본 논문에서는 고차원의 범주형 데이터를 효과적으로 처리할 수 있는 투영 군집화를 다루며 핵심 요소인 군집 차원의 정의와 군집 응집도를 제안한다.

  • PDF

A Comparative Study on the Agglomerative and Divisive Methods for Hierarchical Document Clustering (계층적 문서 클러스터링을 위한 응집식 기법과 분할식 기법의 비교 연구)

  • Lee, Jae-Yun;Jeong, Jin-Ah
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2005.08a
    • /
    • pp.65-70
    • /
    • 2005
  • 계층적 문서 클러스터링에 있어서 실험집단에 따라 응집식 기법과 분할식 기법의 성능이 다르며, 이를 좌우하는 요소는 분류의 깊이, 즉 분류수준이라고 가정하였다. 조금만 나누면 되는 대분류인 경우는 상대적으로 분할식 기법이 유리하고, 조금만 합치면 되는 소분류인 경우에는 응집식 기법이 유리할 것이라고 판단했기 때문이다. 그에 따라 분할식 클러스터링 기법인 양분(Bisecting) K-means기법과 응집식 기법인 완전연결, 평균연결, WARD기법의 성능을 실험집단이 대분류인 경우와 소분류인 경우의 유사계수를 적용하여 각 기법별 성능을 비교하여 실험집단의 특성에 따른 적합 클러스터링 기법을 찾고자 하였다. 실험결과 응집식 기법과 분할식 기법의 성능 우열에 영향을 미치는 것은 분류수준보다는 변이계수로 측정된 상대적인 군집의 크기 편차인 것으로 나타났다.

  • PDF

Development of Datamining Roadmap and Its Application to Water Treatment Plant for Coagulant Control (데이터마이닝 로드맵 개발과 수처리 응집제 제어를 위한 데이터마이닝 적용)

  • Bae, Hyeon;Kim, Sung-Shin;Kim, Ye-Jin
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.9 no.7
    • /
    • pp.1582-1587
    • /
    • 2005
  • In coagulant control of water treatment plants, rule extraction, one of datamining categories, was performed for coagulant control of a water treatment plant. Clustering methods were applied to extract control rules from data. These control rules can be used for fully automation of water treatment plants instead of operator's knowledge for plant control. To perform fuzzy clustering, there are some coefficients to be determined and these kinds of studies have been performed over decades such as clustering indices. In this study, statistical indices were taken to calculate the number of clusters. Simultaneously, seed points were found out based on hierarchical clustering. These statistical approaches give information about features of clusters, so it can reduce computing cost and increase accuracy of clustering. The proposed algorithm can play an important role in datamining and knowledge discovery.

Cluster Feature Selection using Entropy Weighting and SVD (엔트로피 가중치 및 SVD를 이용한 군집 특징 선택)

  • Lee, Young-Seok;Lee, Soo-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.4
    • /
    • pp.248-257
    • /
    • 2002
  • Clustering is a method for grouping objects with similar properties into a same cluster. SVD(Singular Value Decomposition) is known as an efficient preprocessing method for clustering because of dimension reduction and noise elimination for a high dimensional and sparse data set like E-Commerce data set. However, it is hard to evaluate the worth of original attributes because of information loss of a converted data set by SVD. This research proposes a cluster feature selection method, called ENTROPY-SVD, to find important attributes for each cluster based on entropy weighting and SVD. Using SVD, one can take advantage of the latent structures in the association of attributes with similar objects and, using entropy weighting one can find highly dense attributes for each cluster. This paper also proposes a model-based collaborative filtering recommendation system with ENTROPY-SVD, called CFS-CF and evaluates its efficiency and utilization.