• Title/Summary/Keyword: 군집의 수

Search Result 3,588, Processing Time 0.048 seconds

Document Clustering using Semantic Features and Fuzzy (의미 특징과 퍼지를 이용한 문서군집)

  • Park, Sun;Kim, Chul Won;An, Dong Un
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.293-295
    • /
    • 2010
  • 본 논문은 문서의 의미특징과 퍼지를 이용한 새로운 문서군집 방법을 제안한다. 제안된 방법은 비음수 행렬 분해된 의미특징을 이용하여 군집 레이블과 군집의 대표 용어들을 선택함으로서 문서군집의 내부구조를 더 잘 표현할 수 있으며, 퍼지를 이용한 군집은 문서군집에 유사하지 않은 문서를 더 잘 구분함으로써 문서군집의 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

Determining the number of Clusters in On-Line Document Clustering Algorithm (온라인 문서 군집화에서 군집 수 결정 방법)

  • Jee, Tae-Chang;Lee, Hyun-Jin;Lee, Yill-Byung
    • The KIPS Transactions:PartB
    • /
    • v.14B no.7
    • /
    • pp.513-522
    • /
    • 2007
  • Clustering is to divide given data and automatically find out the hidden meanings in the data. It analyzes data, which are difficult for people to check in detail, and then, makes several clusters consisting of data with similar characteristics. On-Line Document Clustering System, which makes a group of similar documents by use of results of the search engine, is aimed to increase the convenience of information retrieval area. Document clustering is automatically done without human interference, and the number of clusters, which affect the result of clustering, should be decided automatically too. Also, the one of the characteristics of an on-line system is guarantying fast response time. This paper proposed a method of determining the number of clusters automatically by geometrical information. The proposed method composed of two stages. In the first stage, centers of clusters are projected on the low-dimensional plane, and in the second stage, clusters are combined by use of distance of centers of clusters in the low-dimensional plane. As a result of experimenting this method with real data, it was found that clustering performance became better and the response time is suitable to on-line circumstance.

The Similarity Plot for Comparing Clustering Methods (군집분석 방법들을 비교하기 위한 상사그림)

  • Jang, Dae-Heung
    • The Korean Journal of Applied Statistics
    • /
    • v.26 no.2
    • /
    • pp.361-373
    • /
    • 2013
  • There are a wide variety of clustering algorithms; subsequently, we need a measure of similarity between two clustering methods. Such a measure can compare how well different clustering algorithms perform on a set of data. More numbers of compared clustering algorithms allow for more number of valuers for a measure of similarity between two clustering methods. Thus, we need a simple tool that presents the many values of a measure of similarity to compare many clustering methods. We suggest some graphical tools to compareg many clustering methods.

Reachability Plot for Non-monotonic Dendrograms (비단조적 덴드로그램을 위한 Reachability Plot)

  • Jeon, Yong-Kweon;Lee, Tae-Hoon;Lee, Byung-Han;Yoon, Sung-Roh
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.441-443
    • /
    • 2012
  • 계층 군집화 (Hierarchical Clustering)는 전역정보를 활용하여 군집화를 하기 때문에 다양한 군집 분석(Cluster Analysis) 방법들 중에 비교적 많이 이용되고 있으나 군집화의 결과를 덴드로그램의 형태로 나타내 전체 군집들의 정보를 직관적으로 확인하기에는 어려움이 존재한다. 이러한 문제를 개선하기 위해서 기존 Dendrogram의 정보를 크게 훼손하지 않고 직관적으로 클러스터의 정보를 확인할 수 있는 Reachability plot이 개발되었다. 그러나 Centroid Linkage 방식과 같이 덴드로그램이 비단조적이 될 수 있는 계층 군집화에서는 이것을 기존의 Reachability plot 방식으로 변환할 경우 정보가 왜곡 되어 나타날 수 있다. 따라서 우리는 이러한 문제를 해결하기 위한 방법을 제안함으로써 비단조적 덴드로그램의 경우에도 군집들을 정보의 왜곡 없이 표현할 수 있도록 하였다.

Clustering of Gene Expression Data by using SOM and Hierarchical Clustering (자기 조직화 지도와 계층적 군집화를 이용한 유전자 발현 데이터 군집화 기법)

  • 박창범;이동환;이성환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.784-786
    • /
    • 2003
  • 본 논문에서는 유전자 발현 데이터를 분석하는데 있어서 자기 조직화 지도와 계층적 군집화 기법을 상호 보완적으로 사용하여 사용자가 보다 직관적으로 군집화 결과를 해석할 수 있는 방법을 제안한다. 제안된 방법을 사용하면 빠른 처리 속도로 대용량 데이터 처리에 적합한 자기 조직화 지도의 장점을 살릴 수 있으며 계층적 군집화의 장점인 가시화 기능을 이용하여 자기 조직화 지도의 단점인 군집 경계에 대한 불명확성을 해소하여 군집화 결과를 사용자가 쉽게 이해하고 직관적으로 해석할 수 있도록 도와준다. 본 논문에서 제안된 방법의 효용성을 검증하기 위해 세 종류의 데이터를 사용하여 실험을 수행한 결과 제안된 방법이 기존 방법에 비해 더 나은 성능을 보이는 것을 확인할 수 있었다.

  • PDF

Plant Recovery of the Burnt Area around Samsinbong in Chirisan National Park (지리산국립공원 삼신봉주변 산불지역의 식생회복현황)

  • 김정호
    • Korean Journal of Environment and Ecology
    • /
    • v.14 no.1
    • /
    • pp.18-27
    • /
    • 2000
  • 지리산국립공원 동부지역인 경남하동군 화개면에 위치하는 삼신봉(해발 1,284m) 산림 중 산불이 발생하였던 지역의 식생회복현황을 파악하기 위해 산불이 발생하였던 지역에 20개 조사구 대조지역에 12개 조사구를 설정하고 연구를 수행하였다 산불이 발생하였던 지역에 설정한 20개 조사구를 대상으로 TWINSPAN과 DCA를 분석한 결과 신갈나무군집(I) 신갈나무-쇠물푸레군집(II) 으로 분리되었고 대조지역에 설정한 조사구는 신갈나무군집(II)이었다 군집 I과 군집II에서 교목층과 아교목층의 대부분 수목이 고사상태이었고 관목층에서는 산화후 천이 초기에 나타나는 조록싸리가 우점하고 있었다 상대우점치와 유사도지수를 분석한 결과 산불이 발생하였던 신갈나무군집(I) 신갈나무-쇠물푸레군집(II) 은 대조구인 신갈나무군집(III)과 유사도지수분석에서 유사성이 높았는데 산불발생 이후 피해를 입은 신갈나무가 맹아에 의해 회복속도가 빠른 것으로 추정되었다 Shannon의 종다양도는 산불지역(군집 I,II)에서 각각 0.3259, 0.4727이었고 대조구 (군집III)는 0.1084로 나타났다.

  • PDF

Intelligent Data Mining Agent for Automatic Clustering (자동 군집화를 위한 지능화된 데이터 마이닝 에이전트)

  • 박정은;전성해;오경환
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.11a
    • /
    • pp.370-376
    • /
    • 2002
  • 인터넷 환경에서 발생되는 수많은 데이터를 지능적으로 처리할 수 있는 자동화된 분석 시스템의 필요성이 제기된다. 이러한 시스템의 데이터 분석은 크게 지도 학습과 자율 학습으로 나된다. 본 논문에서는 특히 자율학습 군집화에 대한 자동화된 시스템으로서 지능화된 데이터 마이닝 에이전트를 제안한다. 군집화 과정에서는 데이터를 분석하는 분석가가 군집화의 방법과 결과 해석에 실시간으로 관여하기 어렵기 때문에 이러한 작업을 담당하는 지능화된 에이전트가 자동화된 군집화를 담당하면 효과적인 군집화 전략이 될 수 있다. 본 논문의 자동 군집화를 위한 지능화된 데이터 마이닝 에이전트 시스템은 군집화 수행 에이전트와 군집화 성능 평가 에이전트로 구성된 다중 에이전트로서 두 개의 에이전트가 서로 정보를 교환하면서 최적의 군집화를 수행한다. UCI Machine Repository 데이터를 이용한 실험을 통해 제안 시스템의 성능 평가를 수행하였다.

  • PDF

Document Clustering using Clustering and Wikipedi (군집과 위키피디아를 이용한 문서군집)

  • Park, Sun;Lee, Seong Ho;Park, Hee Man;Kim, Won Ju;Kim, Dong Jin;Chandra, Abel;Lee, Seong Ro
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2012.10a
    • /
    • pp.392-393
    • /
    • 2012
  • This paper proposes a new document clustering method using clustering and Wikipedia. The proposed method can well represent the concept of cluster topics by means of NMF. It can solve the problem of "bags of words" to be not considered the meaningful relationships between documents and clusters, which expands the important terms of cluster by using of the synonyms of Wikipedia. The experimental results demonstrate that the proposed method achieves better performance than other document clustering methods.

  • PDF

Analysis on the forest Community Structure of Daewon Valley in Chirisan national Park (지리산국립공원 대원사계곡의 삼림군집구조 분석)

  • 권전오
    • Korean Journal of Environment and Ecology
    • /
    • v.13 no.4
    • /
    • pp.354-366
    • /
    • 2000
  • 지리산국립공원 대원계곡의 삼림군집구조를 분석하여 국립공원관리의 기초자료를 제공하기 위하여 기조사지역(이경재 등, 1991)이외의 지역에 대해 39개 조사지(100m2)를 설정하고 식생조사를 실시하였다 Classification의 한 기법인 TWINSPAN을 사용하여 군집을 분리하였으며 그 결과 느릅나무-굴참나무군집(군집 I) 졸참나무-굴참나무군집(군집II) 졸참나무군집(군집III-V) 신갈나무군집(군집VI) 그리고 서어나무-노각나무군집(군집VII)의 7개 군집으로 나뉘었다 각 군집에 대해 우점도 종다양도 유사도 종수 및 개체수 그리고 흉고직경 등의 분석을 통해 군집의 종조서을 살펴본 결과 지리산 대원계곡의 삼림은 졸참나무 굴참나무 신갈나무 등의 참나무가 주류를 이루고 있었으며 점차 서어나무와 노각나무등으로 천이가 진행되어갈 것으로 판단되었다.

  • PDF

Detecting Space-Time Clusters in Linear Point Data (선형 점자료에 있어서의 시.공 복합 군집의 탐색)

  • 홍상기
    • Journal of the Korean Geographical Society
    • /
    • v.33 no.2
    • /
    • pp.325-338
    • /
    • 1998
  • 본 연구에서는 시.공 복합적인 선형 점 자료를 대상으로 시간과 공간을 함께 고려했을 때 자료 내에 군집(cluster)-시.공 복합 군집(space-time cluster)-이 존재하는 가를 검증하는 방법에 대해 논의하고, 실제 교통사고지점의 분포자료를 분석하여 군집의 유무를 통계적으로 검증하였다. 통계 분석의 결과 다음과 같은 사실이 확인되었다. 첫째, Knox의 분할표 방법과 Mantel의 역수 변환을 이용한 일반화된 회귀분석방법 모두 임계 거리 및 임계 시간 간격의 선택이 분석결과에 영향을 미친다. 둘째, 이러한 임의성을 극복하기 위해 다양한 임계 거리 및 임계 시간 간격(혹은 부가 상수)에 대해 반복 실험한 결과, 일부 임계값의 조합에서 시간과 공간이 서로 독립적이라는 귀무가설을 기각할 수 있는 증거가 발견되었다. 셋째, 시.공 복합 군집의 파악에 가장 적합한 임계 거리와 임계 시간 간격은 공간적으로는 7000m, 시간적으로는 14일 혹은 21일이다. 마지막으로, 통계 분석과정에서 자료에 존재하는 중복 기록 사고들의 존재가 밝혀짐으로써 시.공 복합군집 검증이 탐험적 자료 분석(exploratory data analysis)의 도구로서 가지는 가치를 확인할 수 있었다.

  • PDF