• 제목/요약/키워드: Automatic clustering

검색결과 242건 처리시간 0.025초

클러스터 중심 결정 방법에 따른 문서 클러스터링 성능 분석 (Analysis of Document Clustering Varing Cluster Centroid Decisions)

  • 오형진;변동률;이신원;박순철;정성종;안동언
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(3)
    • /
    • pp.99-102
    • /
    • 2002
  • K-means clustering algorithm is a very popular clustering technique, which is used in the field of information retrieval. In this paper, We deal with the problem of K-means Algorithm from the view of creating the centroids and suggest a method reflecting document feature and considering the context of each document to determine the new centroids during the process of forming new centroids. For experiment, We used the automatic document summarizer to summarize the Reuter21578 newslire test dataset and achieved 20% improved results to the recall metrics.

  • PDF

단어클러스터링 시스템을 이용한 어휘의미망의 활용평가 방안 (The Method of the Evaluation of Verbal Lexical-Semantic Network Using the Automatic Word Clustering System)

  • 김혜경;송미영
    • 한국한의학연구원논문집
    • /
    • 제12권3호통권18호
    • /
    • pp.1-15
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만, 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다. 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68,455,856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '[-하]동사류' 3,656개의 어휘의미를 포함하는 동사 어휘의미망을 활용하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘의 세 번째 층위까지의 노드 동일성 여부로 정확률을 검수하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론, 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

  • PDF

CCD 영상에서의 실시간 자동 표적 탐지 알고리즘 (Real-Time Automatic Target Detection in CCD image)

  • 유정재;선선구;박현욱
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.99-108
    • /
    • 2004
  • 본 논문에서는 CCD(charge-coupled device) 영상 기반의 자동 표적 탐지 시스템(ATD System : Automatic Target Detection System)에 적합한 빠른 탐색 방법을 제안한다. 무기체계에서의 활용을 위해서는 빠른 연산이 주요한 변수인 만큼 이 논문에서는 적은 계산량으로 다양한 표적을 탐지할 수 있는 능력에 주안점을 두고 있다. 표적 훈련(train)단계에서는 구간별 수직 방향 프로젝션을 이용하여 1D의 템플릿을 구성하고 K-means clustering과 이진 트리 구조(binary tree structure)를 활용하여 실제 시험 단계에서 템플릿 정합하는 횟수를 최소화한다. 또한 Correlation-based Adaptive Predictive Search(CAPS)를 이용하여 각각의 템플릿에 적응적인 skip-width를 사용하여 탐색 속도를 높이고 클러터 제거 단계에서는 윤곽선으로부터 추출한 Fourier Descriptor계수를 비교함으로써 초기 탐지에서 타겟으로 오인된 클러터를 모양 정보에 기반해서 제거하는 방법을 사용한다.

유전체 상호간의 BLAST 최대 히트(best-hit)를 사용하여 서열화가 완성된 다수의 유전체로부터 Orthologous 단백질그룹을 자동적으로 클러스터링하는 기법 (Automatic Orthologous-Protein-Clustering from Multiple Complete-Genomes by the Best Reciprocal BLAST Hits)

  • 김선신;이충세;류근호
    • 정보처리학회논문지D
    • /
    • 제13D권2호
    • /
    • pp.207-214
    • /
    • 2006
  • 서열화가 완성된 유전체의 수가 최근에 빠르게 상승하고 있지만, 상동성에 의한 단백질 기능을 예측하는 방법은 충분히 연구되고 있지 않다. 서열화가 완성된 다수의 유전체로부터 유전체 상호간의 BLAST 최대 히트(best-hit)를 사용하여 OPCs(Orthologous Protein Clusters)를 만드는 일은 성공적으로 연구되어 왔다. 그러나 OPCs를 수작업으로 구축하는 것은 시간과 노력이 많이 드는 일이다. 이 논문에서 우리는 서열화가 완성된 다수의 유전체로부터 OPs(Orthologous Proteins)를 클러스터링하는 자동화 방법을 제시하고, 해당 클러스터링의 타당성을 수학적으로 증명 한다.

수정된 MAP 적응 기법을 이용한 음성 데이터 자동 군집화 (Automatic Clustering of Speech Data Using Modified MAP Adaptation Technique)

  • 반성민;강병옥;김형순
    • 말소리와 음성과학
    • /
    • 제6권1호
    • /
    • pp.77-83
    • /
    • 2014
  • This paper proposes a speaker and environment clustering method in order to overcome the degradation of the speech recognition performance caused by various noise and speaker characteristics. In this paper, instead of using the distance between Gaussian mixture model (GMM) weight vectors as in the Google's approach, the distance between the adapted mean vectors based on the modified maximum a posteriori (MAP) adaptation is used as a distance measure for vector quantization (VQ) clustering. According to our experiments on the simulation data generated by adding noise to clean speech, the proposed clustering method yields error rate reduction of 10.6% compared with baseline speaker-independent (SI) model, which is slightly better performance than the Google's approach.

A Study on Efficient Classification of Pattern Using Object Oriented Relationship between Design Patterns

  • Kim Gui-Jung;Han Jung-Soo
    • International Journal of Contents
    • /
    • 제2권3호
    • /
    • pp.11-17
    • /
    • 2006
  • The Clustering is representative method of components classification. The previous clustering methods that use cohesion and coupling cannot be effective because design pattern has focused on relation between classes. In this paper, we classified design patterns with features of object-oriented relationship. The result is that classification by clustering showed higher precision than classification by facet. It is effective that design patterns are classified by automatic clustering algorithm. When patterns are retrieved in classification of design patterns, we can use to compare them because similar pattern is saved to same category. Also we can manage repository efficiently because of storing patterns with link information.

  • PDF

레이더 자료의 군집화를 통한 Mean Field Rainfall Bias의 보정 (Adjustment of the Mean Field Rainfall Bias by Clustering Technique)

  • 김영일;김태순;허준행
    • 한국수자원학회논문집
    • /
    • 제42권8호
    • /
    • pp.659-671
    • /
    • 2009
  • 본 연구에서는 레이더 강우량 자료의 편차보정에 사용되는 G/R비의 정확도를 향상시키기 위하여 fuzzy c-means 방법을 사용한 자료의 군집화를 적용하였다. 대상 레이더자료는 광덕산 레이더기지의 자료로서 유효범위 100km이내의 자료를 대상으로 지상관측망인 기상청의 AWS(Automatic Weather System) 지점에서 관측한 자료와의 비교를 통하여 G/R비를 구하였다. G/R비를 구하는데 있어서 전체 유효범위를 대상으로 동일한 방법을 사용한 경우와 레이더 자료의 군집화를 통해서 지형적인 효과를 고려한 경우를 비교하였으며, AWS 실측강우량과 G/R비를 통한 레이더 강우량 자료의 비교를 위하여 절대상대오차와 평균제곱근오차 등을 비교분석하였다. 그 결과 전체유효범위를 대상으로 동일하게 G/R비를 적용하여 구한 레이더 강우량에 비하여 군집분석을 이용하여 지형효과를 고려한 G/R비를 적용한 레이더 강우량의 오차가 더 적게 나타났다.

평균연결법과 K-means 혼합클러스터링 기법을 이용한 공시지가 유사가격권역의 설정 (A Similar Price Zone Determination of Public Land Price Using a Hybrid Clustering Technique)

  • 이성규;박수홍;홍성언
    • 대한지리학회지
    • /
    • 제41권1호
    • /
    • pp.121-135
    • /
    • 2006
  • 공시지가 유사가격권의 경우는 비교표준지 선정시 지침상에서 상당히 중요한 요소로 취급되고 있으면서도 실제적으로는 범위와 적용에 관해서 모호한 개념상의 규정을 두고 있다. 이러한 원인에 기인하여 비교표준지의 자동 선정이나 공시지가의 자동 산정에 있어 많은 문제점으로 작용하고 있다. 따라서 신속하고 정확한 비교표준지의 선정과 향후 지가산정 일련의 과정을 전산화하기 위해서는 자동화된 방식으로 유사가격권을 구획할 수 있는 객관적이고 합리적인 방법론이 필요하다. 본 연구에서는 개별공시지가 산정시 유사가격권 설정의 문제를 해결하고자 평균연결법과 K-means 혼합클러스터링 기법을 활용하여 유사가격권을 설정하여보고 이에 대한 타당성을 제시하고자 하였다. 이를 위해 실제 사례지역을 선정하고 실험한 결과 유사가격 권역 별로 군집화가 가능하였고, 현행 유사가격 권역과 많은 차이를 보이지 않아 방법론의 타당성을 제시할 수 있었다.

SMT 검사기의 경로계획을 위한 클러스터링 알고리즘 (A Clustering Algorithm for Path Planning of SMT Inspection Machines)

  • 김화중;박태형
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.480-485
    • /
    • 2003
  • 인쇄회로기판을 조립하는 SMT (surface mount technology) 라인의 AOI (automatic optical inspection) 형 검사기를 대상으로, 검사시간 단축을 위한 경로계획 방법을 제안한다. 기판에 존재하는 검사 윈도우들은 카메라의 FOV (field-of-view) 크기를 고려하여 클러스터링 되어야 하며, 전체 검사시간의 단축을 위하여 클러스터의 수를 최소화하는 것이 바람직하다. 주어진 기판에 대한 클러스터의 수를 최소화하기 위한 유전자 알고리즘을 새로이 제안하며, 이를 사용한 효과적 경로계획 방법을 제시한다. 상용 검사기를 대강으로 시뮬레이션을 수행하며, 비교 평가를 통하여 제안된 방법의 유용성을 검증한다.

자동 군집화를 위한 지능화된 데이터 마이닝 에이전트 (Intelligent Data Mining Agent for Automatic Clustering)

  • 박정은;전성해;오경환
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.370-376
    • /
    • 2002
  • 인터넷 환경에서 발생되는 수많은 데이터를 지능적으로 처리할 수 있는 자동화된 분석 시스템의 필요성이 제기된다. 이러한 시스템의 데이터 분석은 크게 지도 학습과 자율 학습으로 나된다. 본 논문에서는 특히 자율학습 군집화에 대한 자동화된 시스템으로서 지능화된 데이터 마이닝 에이전트를 제안한다. 군집화 과정에서는 데이터를 분석하는 분석가가 군집화의 방법과 결과 해석에 실시간으로 관여하기 어렵기 때문에 이러한 작업을 담당하는 지능화된 에이전트가 자동화된 군집화를 담당하면 효과적인 군집화 전략이 될 수 있다. 본 논문의 자동 군집화를 위한 지능화된 데이터 마이닝 에이전트 시스템은 군집화 수행 에이전트와 군집화 성능 평가 에이전트로 구성된 다중 에이전트로서 두 개의 에이전트가 서로 정보를 교환하면서 최적의 군집화를 수행한다. UCI Machine Repository 데이터를 이용한 실험을 통해 제안 시스템의 성능 평가를 수행하였다.

  • PDF