• 제목/요약/키워드: Clustering Technique

검색결과 704건 처리시간 0.031초

Enhancing Text Document Clustering Using Non-negative Matrix Factorization and WordNet

  • Kim, Chul-Won;Park, Sun
    • Journal of information and communication convergence engineering
    • /
    • 제11권4호
    • /
    • pp.241-246
    • /
    • 2013
  • A classic document clustering technique may incorrectly classify documents into different clusters when documents that should belong to the same cluster do not have any shared terms. Recently, to overcome this problem, internal and external knowledge-based approaches have been used for text document clustering. However, the clustering results of these approaches are influenced by the inherent structure and the topical composition of the documents. Further, the organization of knowledge into an ontology is expensive. In this paper, we propose a new enhanced text document clustering method using non-negative matrix factorization (NMF) and WordNet. The semantic terms extracted as cluster labels by NMF can represent the inherent structure of a document cluster well. The proposed method can also improve the quality of document clustering that uses cluster labels and term weights based on term mutual information of WordNet. The experimental results demonstrate that the proposed method achieves better performance than the other text clustering methods.

Semantic Correspondence of Database Schema from Heterogeneous Databases using Self-Organizing Map

  • Dumlao, Menchita F.;Oh, Byung-Joo
    • 전기전자학회논문지
    • /
    • 제12권4호
    • /
    • pp.217-224
    • /
    • 2008
  • This paper provides a framework for semantic correspondence of heterogeneous databases using self- organizing map. It solves the problem of overlapping between different databases due to their different schemas. Clustering technique using self-organizing maps (SOM) is tested and evaluated to assess its performance when using different kinds of data. Preprocessing of database is performed prior to clustering using edit distance algorithm, principal component analysis (PCA), and normalization function to identify the features necessary for clustering.

  • PDF

도메인 온톨로지에 의한 문서 군집화 기법 (Document Clustering Technique by Domain Ontology)

  • 김우생;관향동
    • Journal of Information Technology Applications and Management
    • /
    • 제23권2호
    • /
    • pp.143-152
    • /
    • 2016
  • We can organize, manage, search, and process the documents efficiently by a document clustering. In general, the documents are clustered in a high dimensional feature space because the documents consist of many terms. In this paper, we propose a new method to cluster the documents efficiently in a low dimensional feature space by finding the core concepts from a domain ontology corresponding to the particular area documents. The experiment shows that our clustering method has a good performance.

하이브리드 셋업을 이용한 에너지 효율적 센서 네트워크 클러스터링 (An Energy-Efficient Sensor Network Clustering Using the Hybrid Setup)

  • 민홍기
    • 융합신호처리학회논문지
    • /
    • 제12권1호
    • /
    • pp.38-43
    • /
    • 2011
  • 센서 네트워크에서 사용되는 동적 클러스터링 방식은 주기적으로 클러스터 구조가 바뀌는 셋업과정으로 인한 에너지 소모가 크다. 셋업과정은 보안적용을 해야 할 경우 보안 키가 주기적으로 재 생성되는 등 클러스터 구성 이외에 추가적인 에너지 낭비가 발생한다. 본 논문은 최초에 구성된 클러스터 알고리즘과 이후 반복적으로 발생되는 클러스터 재셋업 알고리즘을 달리하는 하이브리드 방식을 제안한다. 재 셋업에서는 고정된 클러스터 내에서 순환적으로 클러스터 헤드노드를 선출하는 순환적 클러스터 헤드선정(RRCH: Round-Robin Cluster Header)방식을 이용하여 에너지 소모를 줄인다. 보안키 생성 및 적용으로 추가되는 에너지 소모는 클러스터가 지속적으로 고정되기 때문에 최초 클러스터 형성 때 사전 배포하는 방식으로 해결된다. 본 논문에서 제안한 방식의 타당성을 확인하기 위해 모의실험을 실시하였다. 라운드 구간을 100번 반복하여 클러스터 구성과 데이터 전송을 포함한 전체 에너지 소모량을 측정하였다. 결과는 제안한 방식이 LEACH방식보다 평균 26.5%, HEED방식보다 평균 20% 적게 소모되는 것을 확인하였다.

Word2Vec를 이용한 한국어 단어 군집화 기법 (Korean Language Clustering using Word2Vec)

  • 허지욱
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.25-30
    • /
    • 2018
  • 최근 인터넷의 발전과 함께 사용자들이 원하는 정보를 빠르게 획득하기 위해서는 효율적인 검색 결과를 제공해주는 정보검색이나 데이터 추출등과 같은 연구 분야에 대한 중요성이 점점 커지고 있다. 하지만 새롭게 생겨나는 한국어 단어나 유행어들은 의미파악하기가 어렵기 때문에 주어진 단어와 의미적으로 유사한 단어들을 찾아 분석하는 기법들에 대한 연구가 필요하다. 이를 해결하기 위한 방법 중 하나인 단어 군집화 기법은 문서에서 주어진 단어와 의미상 유사한 단어들을 찾아서 묶어주는 기법이다. 본 논문에서는 Word2Vec기법을 이용하여 주어진 한글 문서의 단어들을 임베딩하여 자동적으로 유사한 한국어 단어들을 군집화 하는 기법을 제안한다.

클러스터링 기반 사례기반추론을 이용한 웹 개인화 추천시스템 (A Web Personalized Recommender System Using Clustering-based CBR)

  • 홍태호;이희정;서보밀
    • 지능정보연구
    • /
    • 제11권1호
    • /
    • pp.107-121
    • /
    • 2005
  • 최근, 추천시스템과 협업 필터링에 대한 연구가 학계와 업계에서 활발하게 이루어지고 있다. 하지만, 제품 아이템들은 다중 값 속성을 가질 수 있음에도 불구하고, 기존의 연구들은 이러한 다중 값 속성을 반영하지 못하고 있다. 이러한 한계를 극복하기 위하여, 본 연구에서는 추천시스템을 위한 새로운 방법론을 제시하고자 한다. 제안된 방법론은 제품 아이템에 대한 클러스터링 기법에 기반하여 다중 값 속성을 팔용하며, 정확한 추천을 위하여 협업 필터링을 적용한다. 즉, 사용자간의 상관관계만이 아니라 아이템간의 상관관계를 고려하기 위하여, 사용자 클러스터링에 기반한 사례기반추론과 아이템 속성 클러스터링에 기반한 사례기반추론 모두가 협업 필터링에 적용되는 것이다. 다중 값 속성에 기반하여 아이템을 클러스터링 함으로써, 아이템의 특징이 명확하게 식별될 수 있다. MovieLens 데이터를 이용하여 실험을 하였으며, 제안된 방법론이 기존 방법론의 성능을 능가한다는 결과를 얻을 수 있었다.

  • PDF

핵자기 뇌기능 영상에서 군집경계기법을 이용한 영상처리법 (The Clustering Threshold Image Processing Technique in fMRI)

  • 정순철;노용만;조장희
    • 대한의용생체공학회:의공학회지
    • /
    • 제16권4호
    • /
    • pp.425-430
    • /
    • 1995
  • 핵자기 공명 뇌기능 영상에서 상관관계를 이용한 데이터 해석기법이 많이 사용되고 있다. 이 논문에서 새롭게 제안된 CLT 기법은 상관관계(CCT)를 이용한 기법을 변화시켜서, 이 CCT기법의 단점을 보완하고자 하였다. CLT기법은 다음의 두 단계로 이루어진다. 첫째, 잡음을 포함한 CCT기법의 상관계수결과로 부터 잡음은 제거하고 실제 자극반응 픽셀들은 추출한다. 둘째, 이산적인 분포를 가지는 반응 픽셀들을 두 가지의 선별법으로 군집을 이루도록 한다. 이 CLT기법을 이용해서 실제 자극에 반응하는 픽셀들은 서로 모이게 하였고, 잡음에 기인한 오류의 픽셀들은 제거 되어질 수 있었다. 본 논문에서 제안된 CLT기법은 기존의 다른 기법에 비해 여러 잇점이 있고, 특히 잡음에 강한 특성이 있다.

  • PDF

공간적 패턴클러스터링을 위한 새로운 접근방법의 제안 : 슈퍼마켓고객의 동선분석 (A New Approach to Spatial Pattern Clustering based on Longest Common Subsequence with application to a Grocery)

  • 정인철;권영식
    • 산업공학
    • /
    • 제24권4호
    • /
    • pp.447-456
    • /
    • 2011
  • Identifying the major moving patterns of shoppers' movements in the selling floor has been a longstanding issue in the retailing industry. With the advent of RFID technology, it has been easier to collect the moving data for a individual shopper's movement. Most of the previous studies used the traditional clustering technique to identify the major moving pattern of customers. However, in using clustering technique, due to the spatial constraint (aisle layout or other physical obstructions in the store), standard clustering methods are not feasible for moving data like shopping path should be adjusted for the analysis in advance, which is time-consuming and causes data distortion. To alleviate this problems, we propose a new approach to spatial pattern clustering based on longest common subsequence (LCSS). Experimental results using the real data obtained from a grocery in Seoul show that the proposed method performs well in finding the hot spot and dead spot as well as in finding the major path patterns of customer movements.

한글 위키피디아를 이용한 트위터 문서의 주제별 클러스터링 기법 (Topical Clustering Techniques of Twitter Documents Using Korean Wikipedia)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권5호
    • /
    • pp.189-196
    • /
    • 2014
  • 최근 들어 트위터와 같은 SNS 환경에서 검색의 필요성이 증가하고 있다. 트위터 검색을 지원하기 위해서는 다량으로 검색된 문서를 주제별로 분류하는 클러스터링 기법이 필요하다. 하지만 트위터의 특성상 단순한 클러스터링 기술을 그대로 적용하기에는 많은 제약이 따른다. 본 논문에서는 이를 극복하기 위해 트위터 환경에 적합한 클러스터링 기법을 제안한다. 제안된 기법에서는 한글 위키피디아를 이용하여 각 트위터 문서에 대한 특징 벡터를 보강하고 각 특징들의 가중치를 재계산하는 방법을 이용하였다. 또한 한글 트위터 문서를 대상으로 실험을 실시하고 기존 기법과의 성능 비교를 통해서 제안된 기법의 유용성을 증명하였다.

HMM을 기본으로한 집단화 방법의 불특정화자 단어 인식에 응용 (The Application of an HMM-based Clustering Method to Speaker Independent Word Recognition)

  • 임현;박순영;방만원
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.5-10
    • /
    • 1995
  • 본 논문에서는 단어를 발음하는 방법 이 각각 다른 화자들의 변이성을 잘 흡수하도록 복수개의 통계적인 모델들을 구성하기 위하여 HMM을 기본으로 하는 집단화 방법을 제시한다. 또한 개발된 방법으로부터 얻어진 HMM집단화된 모델들이 불특정화자 고립단어 인식에 응용된다. HMM 집단화 방법은 학습용 데이타로부터 어떤 경계치 보다 낮은 유사도를 갖는 관측열들을 분리하여 새로운 집단을 만들고 이 집단내에 있는 관측열들을 이용하여 새로운 모델들을 학습시키는 방법이다. 집단화 과정은 반복되는데 최고의 유사도를 갖는 모델의 집단에 관측열들을 재분배하고 집단내 관측열들이 변화하면 새로운 모델을 재 추정하여 기존의 모델을 대신한다. 그러므로 이 집단화 방법은 집단화 과정과 파라미터 추정이 일체화되어 기존의 패턴에 의한 집단화 방법보다 더욱 효율적이 된다. 실험결과 HMM에 의한 집단화 방법이 기존의 패턴에 의한 집단화 방법보다. 고립 숫자음 인식에 있어서 $1.43\%$의 인식률을 향상시킬 수 있었으며 단일 모델의 사용보다는 $2.08\%$의 인식률이 향상되었다.

  • PDF