• Title/Summary/Keyword: 클러스터링 기법

Search Result 1,044, Processing Time 0.03 seconds

Task Duplication Based Clustering and Scheduling on Symmetric Multiprocessor Systems (대칭형 다중프로세서 시스템에서 태스크 중복기반의 클러스터링과 스케줄링)

  • 강오한;조경미;김기남;김시관
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.97-99
    • /
    • 2003
  • 대칭형 다중프로세서 (SMP: Symmetric Multiprocessors) 시스템은 고성능의 병렬 연산을 위한 중요하고 효과적인 기반환경을 제공하고 있다. SMP에서 태스크 클러스터링과 스케줄링 기법은 시스템의 성능에 큰 영향을 미친다. 본 논문에서는 버스 기반의 SMP에서 사용할 수 있는 태스크 중복 기반의 클러스터링과 스케줄링 기법을 소개한다. 본 논문에서 제안한 클러스터링 기법에서는 휴리스틱을 사용하여 중복할 태스크를 선택한 후 프로세서에 할당하고, 스케줄링 기법에서는 잠재하는 통신 충돌을 방지하기 위하여 네트워크 통신 자원을 사전에 할당한다. 새로운 클러스터링과 스케줄링 기법의 성능을 확인하기 위하여 시뮬레이션에서는 통신비용의 변화에 대한 병렬연산시간을 비교하였다.

  • PDF

An Improving Method of Efficiency for Word Clustering Based on Language Model (언어모델 기반 단어 클러스터링 알고리즘의 효율성 향상 기법)

  • Park, Sang-Woo;Kim, Youngtae;Kang, Dong-Min;Ra, Dongyul
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.55-60
    • /
    • 2011
  • 단어 클러스터링 (word clustering) 또는 군집화는 자연어처리에서 데이터 부족 문제로 인하여 단어 간의 의미관계와 관련된 정보를 사용하기 어렵게 만드는 문제에 대처할 수 있는 중요한 기술이다. 단어 클러스터링과 관련하여 알려진 가장 대표적인 기법으로는 클래스-기반 n-gram 언어모델의 개발을 위하여 제안된 Brown 단어 클러스터링 기법이다. 그러나 Brown 클러스터링 기법을 이용하는데 있어서 부딪치는 가장 큰 문제점은 시간과 공간적인 면에서 자원 소요량이 너무 방대하다는 점이다. 본 연구는 이 클러스터링 기법의 효율성을 개선하는 실험을 수행하였다. 실험 결과 가장 단순한(naive) 접근에 비하여 약 7.9배 이상의 속도 향상을 이룰 수 있음을 관찰하였다.

  • PDF

Double Clustering of Gene Expression Data Based on the Information Bottleneck Method (정보병목기법에 기반한 유전자 발현 데이터의 이중 클러스터링)

  • 김병희;황규백;장정호;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.362-364
    • /
    • 2003
  • 기능 유전체학에서 클러스터링 기법은 고차원의 마이크로 어레이 데이터 분석을 위한 주된 도구 중의 하나이다. 본 논문에서는 정보병목(information bottleneck)기법 기반의 이중 클러스터링에 의한, 유전자 발현 데이터의 계층적 병합방식 클러스터링 기법을 제안한다. 정보병목기법은, 두 랜덤변수의 결합확률분포가 주어진 경우 두 변수의 상호 정보량을 최대한 보존하면서 한 변수를 압축하는 기법이며, 두 변수를 차례로 압축하는 것이 이중 클러스터링이다. 실제 마이크로 어레이 데이터인 NC160 데이터(암세포 내 유전자 발현 데이터)에 대한 실험에서, 먼저 유전자를 그 발현패턴에 따라 클러스터링 한 후 이를 이용하여 표본들을 클러스터링하고 그 성능을 다각도로 분석하였다. 상호 정보량과 유전자 및 표본 클러스터 수와 엔트로피 척도에 의한 성능을 검토해 본 결과, 표본이 추출 조직에 따라 구분 가능할 것이라는 가정을 검증할 수 있었으며, 적절한 클러스터의 수를 결정할 수 있는 임계점의 기준을 설정할 수 있었다.

  • PDF

Development of a Clustering Model for Automatic Knowledge Classification (지식 분류의 자동화를 위한 클러스터링 모형 연구)

  • 정영미;이재윤
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.2
    • /
    • pp.203-230
    • /
    • 2001
  • The purpose of this study is to develop a document clustering model for automatic classification of knowledge. Two test collections of newspaper article texts and journal article abstracts are built for the clustering experiment. Various feature reduction criteria as well as term weighting methods are applied to the term sets of the test collections, and cosine and Jaccard coefficients are used as similarity measures. The performances of complete linkage and K-means clustering algorithms are compared using different feature selection methods and various term weights. It was found that complete linkage clustering outperforms K-means algorithm and feature reduction up to almost 10% of the total feature sets does not lower the performance of document clustering to any significant extent.

  • PDF

Similarity-based Image Clustering Method using Hierarchical Clustering Technique (다단계 클러스터링 기법을 이용한 이미지 클러스터링 기법에 관한 연구)

  • 한정규;김석대;황수찬
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.707-709
    • /
    • 2003
  • 본 논문에서는 유사도(similarity) 기반 이미지 클러스터링 기법에 대하여 논하고자 한다. 비트맵 이미지의 특징을 추출하고 이러한 특징에 기반한 유사도 측정 함수들을 소개하고 이미지 클러스터링 알고리즘과 구현을 통한 실험 예제들에 대해서 설명한다. 이 실험에서 우리는 유사도에 따라 이미지들이 계층적(Hierarchical)으로 집단화 되는 계층적 클러스터링 알고리즘을 사용하였다. 이미지의 특징 표현을 위해서는 HSV 기반의 히스토그램을 이용하였다. 본 논문에서 제안한 기법의 실험 결과는 이미지 데이터베이스에서 유사한 이미지를 검색하는데 높은 효율성이 있는 것을 보여준다.

  • PDF

Document Clustering Using Reference Titles (인용문헌 표제를 이용한 문헌 클러스터링에 관한 연구)

  • Choi, Sang-Hee
    • Journal of the Korean Society for information Management
    • /
    • v.27 no.2
    • /
    • pp.241-252
    • /
    • 2010
  • Titles have been regarded as having effective clustering features, but they sometimes fail to represent the topic of a document and result in poorly generated document clusters. This study aims to improve the performance of document clustering with titles by suggesting titles in the citation bibliography as a clustering feature. Titles of original literature, titles in the citation bibliography, and an aggregation of both titles were adapted to measure the performance of clustering. Each feature was combined with three hierarchical clustering methods, within group average linkage, complete linkage, and Ward's method in the clustering experiment. The best practice case of this experiment was clustering document with features from both titles by within-groups average method.

User Query Expansion Through Keyword Similarity Ranking Algorithm Us ins Cluster ing Methods (클러스터링 기법을 이용한 키워드 유사도 순위화 알고리즘에 따른 사용자 질의 확장)

  • 이상훈;김기태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.479-481
    • /
    • 2003
  • 본 논문에서는 여러 가지 클러스터링 기법들을 사용하여 키워드 유사도롤 순위화하여 사용자의 질의를 확장하는 기법을 제안한다. 클러스터링 기법에는 연관(Association) 클러스터링, 메트릭(Metric) 클러스터링, 스칼라(Scalar) 클러스터링 기법을 사용하고, 이들간의 가중치를 적절히 조절하여 검색 시스템을 만든다. 사용자의 질의가 주어졌을 때, 질의 키워드와 연관된 키워드들을 순위화 하여 사용자에게 보여주고, 사용자의 추가입력을 받아서 질의를 확장한다. 사용자가 적당한 질의어로 판단하여 확장된 질의로 검색을 수행할 때까지 이 과정을 반복한다. 실험에서 사용한 문헌집합은 Korea Herald의 2003년 1월과 2월의 경제 관련 기사들을 수집하여 사용하였고, 실험을 거쳐서 질의를 확장한 결과 만족할 만한 결과가 도출되었다.

  • PDF

Effective Clustering Method for High-Dimensional Indexes (고차원 색인을 위한 효과적 클러스터링 기법)

  • 신봉근;곽태영;최승락;이윤준;김명호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.247-249
    • /
    • 1998
  • 최근 들어 내용기반의 이미지 검색을 지원하기 위한 방법으로, 특징 벡터를 이용한 유사 질의 연구가 활발히 진행되고 있다. 이러한 유사 질의를 효율적으로 지원하기 위해서는 고차원 공간상에 존재하는 점 데이터나 공간 데이터를 효과적으로 색인할 수 있는 색인 기법이 필요하다. 하지만 R*-트리를 바탕으로 하는 기존의 방법들은 고차원 데이터에 대해서 차원의 증가함에 따라 검색 시간이 급격하게 증가하는 문제점을 안고 있다. 이러한 문제는 데이터의 클러스터링에 기반을 둔 기존의 방법들이 차원이 증가함에 따라 데이터를 제대로 클러스터링하지 못하기 때문에 발생하며, 따라서 이를 해결하기 위해서는 효과적인 클러스터링 기법이 필요하다. 본 논문에서는 하나의 최소 한계 영역(minimum bounding region)에 속하는 개체들의 응집 정도와 최소 한계 영역들간의 결합 정도를 고려하여 효과적으로 클러스터링하는 방안을 제안한다. 또한 이러한 클러스터링 기법을 수용하기 위한 색인 기법을 간략히 제시한다

Declustering of Moving object database based on Inertia (관성을 이용한 이동체 데이터베이스의 디클러스터링)

  • 서영덕;김진덕;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.734-736
    • /
    • 2003
  • 이동체의 궤적을 저장하는 대용량 이동체 DB는 대규모의 이동 객체 궤적의 효과적인 검색을 위하여 디클러스터링 기법을 통한 객체 궤적의 분산 배치가 필수적으로 요구된다. 그러나 기존 공간 객체의 디클러스터링 기법은 이동체의 특성과 시간 영역에 대한 고려 없이 디클러스터링을 수행한다. 또한, 단순히 현재 시점에서 색인 노드의 공간 관련성안을 판단의 근거로 삼고 있어서 효과적인 디클러스터링이 되지 않는 단점이 있다. 이러한 이유로 이동체 데이터베이스에서 빠른 질의 수행을 위한 디클러스터링 기법이 필요하다. 이 논문에서는 이동체 궤적에 대한 질의 시 빠른 응답 시간을 얻고 전제 시스템의 처리율 향상을 위한 디클러스터링 방법을 제시한다. 제시되는 방법은 이동체의 진행 방향에 대하여 이동 시간에 의한 이동 궤적의 관성을 정의하고, 이를 색인의 노드 단위로 확장한 노드의 관성을 정의한다. 정의된 관성을 이용하여 이동체 궤적의 노드가 저장될 디스크를 정의함으로써 궤적 데이터의 디클러스터링을 효과적으로 수행할 수 있다.

  • PDF

A Comparative Study on the Agglomerative and Divisive Methods for Hierarchical Document Clustering (계층적 문서 클러스터링을 위한 응집식 기법과 분할식 기법의 비교 연구)

  • Lee, Jae-Yun;Jeong, Jin-Ah
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2005.08a
    • /
    • pp.65-70
    • /
    • 2005
  • 계층적 문서 클러스터링에 있어서 실험집단에 따라 응집식 기법과 분할식 기법의 성능이 다르며, 이를 좌우하는 요소는 분류의 깊이, 즉 분류수준이라고 가정하였다. 조금만 나누면 되는 대분류인 경우는 상대적으로 분할식 기법이 유리하고, 조금만 합치면 되는 소분류인 경우에는 응집식 기법이 유리할 것이라고 판단했기 때문이다. 그에 따라 분할식 클러스터링 기법인 양분(Bisecting) K-means기법과 응집식 기법인 완전연결, 평균연결, WARD기법의 성능을 실험집단이 대분류인 경우와 소분류인 경우의 유사계수를 적용하여 각 기법별 성능을 비교하여 실험집단의 특성에 따른 적합 클러스터링 기법을 찾고자 하였다. 실험결과 응집식 기법과 분할식 기법의 성능 우열에 영향을 미치는 것은 분류수준보다는 변이계수로 측정된 상대적인 군집의 크기 편차인 것으로 나타났다.

  • PDF