• 제목/요약/키워드: Over-clustering

검색결과 385건 처리시간 0.034초

단어-역문서 빈도 벡터화를 통한 한국 걸그룹의 음반 메타 정보 군집화 (Clustering Meta Information of K-Pop Girl Groups Using Term Frequency-inverse Document Frequency Vectorization)

  • 현준서;조재혁
    • Journal of Platform Technology
    • /
    • 제11권3호
    • /
    • pp.12-23
    • /
    • 2023
  • 2020 년대 K-Pop 시장은 보이그룹보다 걸그룹이, 3 세대보다 4 세대가 전반에서 주목받았다. 해당 논문은 걸그룹의 세대가 바뀌기 시작했는지 알아보고자 가사 군집화에 대한 방법과 결과를 제시한다. 2013 년부터 2022 년까지 발표된 47 개 그룹의 1469 곡에 대한 메타정보를 수집하여 가사 정보와 가사 외 메타정보로 분류하여 각각 수치화했다. 가사 정보는 선행연구를 기반으로 단어역문서 빈도 벡터화를 적용한 뒤 상위 벡터 값만 선정하는 전처리를 하였다. 가사 외 메타정보는 가사 정보만 사용했을 때의 편향성을 줄이고 더 좋은 군집화 결과를 보여주기 위해 One-Hot Encoding 으로 전처리하여 적용했다. 전처리된 데이터에 대한 군집화 성능은 Spherical K-Means 의 Silhouette Coefficient, Calinski-Harabasz Score 가 Hierarchical Clustering 에 비해 각각 129%, 45% 더 높았다. 본 연구는 한국 대중가요 발전사와 걸그룹 가사 분석 및 군집화 연구에 기여할 수 있을 것으로 기대된다.

  • PDF

새로운 클러스터 평가 지표 (A Novel Cluster Validation Index)

  • 서석태;손세호;이인근;정혜천;권순학
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 추계학술대회 학술발표 논문집 제15권 제2호
    • /
    • pp.171-174
    • /
    • 2005
  • 기존의 클러스터 평가 지표(cluster validation index)는 클러스터의 개수가 커질수록 클러스터 평가 지표 값이 단조 감소하는 경향을 보인다. 최근에 이러한 단점을 보완하는 새로운 클러스터 평가 지표가 본 논문 저자중의 하나에 의해 제안되었으나, over-clustering의 단점 을 지니고 있다. 본 논문에서는, 클러스터 평가 지표 값이 단조 감소 및 over-clustering을 방지할 수 있는 새로운 클러스터 평가 지표를 제안하고, 여러 가지 예제를 통하여 새롭게 제안된 평가 지표의 타당성을 보인다.

  • PDF

자동 윈도우 크기 결정 기법을 적용한 Minimum Entropy Clustering과 Iterative Over-Segmentation 기반 Semantic Segmentation (Semantic Segmentation using Iterative Over-Segmentation and Minimum Entropy Clustering with Automatic Window Size)

  • 최형욱;송현승;손홍규;전문구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.826-829
    • /
    • 2014
  • 본 연구에서는 야외 지형 영상 및 항공 영상 등에 대하여 각각의 영역들의 속성을 분할 및 인식 하기 위해 minimum entropy clustering 기반의 군집화 기법과 over-segmentation을 반복 적용하여 군집화 하는 두 방법을 융합한 기법을 제안하였다. 이 기법들을 기반으로 각 군집의 대표 영역을 추출한 후에 학습 데이터를 기반으로 만들어진 텍스톤 사전과 학습 데이터 각각의 텍스톤 모델을 이용하여 텍스톤 히스토그램 매칭을 통해 매칭 포인트를 얻어내고 얻어낸 매칭 포인트를 기반으로 영역의 카테고리를 결정한다. 본 논문에서는 인터넷에서 얻은 일반 야외 영상들로부터 자체적으로 제작한 지형 데이터 셋을 통해 제안한 기법의 우수성을 검증하였으며, 본 실험에서는 영역을 토양, 수풀 그리고 물 지형으로 하여 영상내의 영역을 분류 및 인식하였다.

Identification of Plastic Wastes by Using Fuzzy Radial Basis Function Neural Networks Classifier with Conditional Fuzzy C-Means Clustering

  • Roh, Seok-Beom;Oh, Sung-Kwun
    • Journal of Electrical Engineering and Technology
    • /
    • 제11권6호
    • /
    • pp.1872-1879
    • /
    • 2016
  • The techniques to recycle and reuse plastics attract public attention. These public attraction and needs result in improving the recycling technique. However, the identification technique for black plastic wastes still have big problem that the spectrum extracted from near infrared radiation spectroscopy is not clear and is contaminated by noise. To overcome this problem, we apply Raman spectroscopy to extract a clear spectrum of plastic material. In addition, to improve the classification ability of fuzzy Radial Basis Function Neural Networks, we apply supervised learning based clustering method instead of unsupervised clustering method. The conditional fuzzy C-Means clustering method, which is a kind of supervised learning based clustering algorithms, is used to determine the location of radial basis functions. The conditional fuzzy C-Means clustering analyzes the data distribution over input space under the supervision of auxiliary information. The auxiliary information is defined by using k Nearest Neighbor approach.

EXTENDED ONLINE DIVISIVE AGGLOMERATIVE CLUSTERING

  • Musa, Ibrahim Musa Ishag;Lee, Dong-Gyu;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2008년도 International Symposium on Remote Sensing
    • /
    • pp.406-409
    • /
    • 2008
  • Clustering data streams has an importance over many applications like sensor networks. Existing hierarchical methods follow a semi fuzzy clustering that yields duplicate clusters. In order to solve the problems, we propose an extended online divisive agglomerative clustering on data streams. It builds a tree-like top-down hierarchy of clusters that evolves with data streams using geometric time frame for snapshots. It is an enhancement of the Online Divisive Agglomerative Clustering (ODAC) with a pruning strategy to avoid duplicate clusters. Our main features are providing update time and memory space which is independent of the number of examples on data streams. It can be utilized for clustering sensor data and network monitoring as well as web click streams.

  • PDF

HMM을 기본으로한 집단화 방법의 불특정화자 단어 인식에 응용 (The Application of an HMM-based Clustering Method to Speaker Independent Word Recognition)

  • 임현;박순영;방만원
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.5-10
    • /
    • 1995
  • 본 논문에서는 단어를 발음하는 방법 이 각각 다른 화자들의 변이성을 잘 흡수하도록 복수개의 통계적인 모델들을 구성하기 위하여 HMM을 기본으로 하는 집단화 방법을 제시한다. 또한 개발된 방법으로부터 얻어진 HMM집단화된 모델들이 불특정화자 고립단어 인식에 응용된다. HMM 집단화 방법은 학습용 데이타로부터 어떤 경계치 보다 낮은 유사도를 갖는 관측열들을 분리하여 새로운 집단을 만들고 이 집단내에 있는 관측열들을 이용하여 새로운 모델들을 학습시키는 방법이다. 집단화 과정은 반복되는데 최고의 유사도를 갖는 모델의 집단에 관측열들을 재분배하고 집단내 관측열들이 변화하면 새로운 모델을 재 추정하여 기존의 모델을 대신한다. 그러므로 이 집단화 방법은 집단화 과정과 파라미터 추정이 일체화되어 기존의 패턴에 의한 집단화 방법보다 더욱 효율적이 된다. 실험결과 HMM에 의한 집단화 방법이 기존의 패턴에 의한 집단화 방법보다. 고립 숫자음 인식에 있어서 $1.43\%$의 인식률을 향상시킬 수 있었으며 단일 모델의 사용보다는 $2.08\%$의 인식률이 향상되었다.

  • PDF

Homogeneous Centroid Neural Network에 의한 Tied Mixture HMM의 군집화 (Clustering In Tied Mixture HMM Using Homogeneous Centroid Neural Network)

  • 박동철;김우성
    • 한국통신학회논문지
    • /
    • 제31권9C호
    • /
    • pp.853-858
    • /
    • 2006
  • 음성인식에서 TMHMM(Tied Mixture Hidden Markov Model)은 자유 매개변수의 수를 감소시키기 위한 좋은 접근이지만, GPDF(Gaussian Probability Density Function) 군집화 오류에 의해 음성인식의 오류를 발생시켰다. 본 논문은 TMHMM에서 발생하는 군집화 오류를 최소화하기 위하여 HCNN(Homogeneous Centroid Neural Network) 군집화 알고리즘을 제안한다. 제안된 알고리즘은 CNN(Centroid Neural Network)을 TMHMM상의 음향 특징벡터에 활용하였으며, 다른 상태에 소속된 확률밀도가 서로 겹쳐진 형태의 이질군집 지역에 더 많은 코드벡터를 할당하기 위해서 본 논문에서 새로 제안이 제안되는 이질성 거리척도를 사용 하였다. 제안된 알고리즘을 한국어 고립 숫자단어의 인식문제에 적용한 결과, 기존 K-means 알고리즘이나 CNN보다 각각 14.63%, 9,39%의 오인식률의 감소를 얻을 수 있었다.

Data Clustering Method Using a Modified Gaussian Kernel Metric and Kernel PCA

  • Lee, Hansung;Yoo, Jang-Hee;Park, Daihee
    • ETRI Journal
    • /
    • 제36권3호
    • /
    • pp.333-342
    • /
    • 2014
  • Most hyper-ellipsoidal clustering (HEC) approaches use the Mahalanobis distance as a distance metric. It has been proven that HEC, under this condition, cannot be realized since the cost function of partitional clustering is a constant. We demonstrate that HEC with a modified Gaussian kernel metric can be interpreted as a problem of finding condensed ellipsoidal clusters (with respect to the volumes and densities of the clusters) and propose a practical HEC algorithm that is able to efficiently handle clusters that are ellipsoidal in shape and that are of different size and density. We then try to refine the HEC algorithm by utilizing ellipsoids defined on the kernel feature space to deal with more complex-shaped clusters. The proposed methods lead to a significant improvement in the clustering results over K-means algorithm, fuzzy C-means algorithm, GMM-EM algorithm, and HEC algorithm based on minimum-volume ellipsoids using Mahalanobis distance.

양방향 군집 알고리즘을 적용한 교차혼합 U자형 조립라인 균형문제 (Balancing Problem of Cross-over U-shaped Assembly Line Using Bi-directional Clustering Algorithm)

  • 이상운
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.89-96
    • /
    • 2022
  • 본 논문은 NP-난제로 알려진 단일모델 교차혼합 조립라인 균형문제에 대해 휴리스틱 알고리즘을 제안하였다. 조립라인 균형문제는 주로 메타휴리스틱 방법들을 적용하고 있는 추세로 다항시간의 정확한 해를 찾는 알고리즘이 제안되지 않고 있어 실무에 적용하기가 매우 어렵다. 제안된 알고리즘은 주어진 총 조립시간 W와 순환시간 c에 대해 m* = ⌈W/c⌉의 최소 작업자수와 c* = ⌈W/m*⌉의 목표 순환시간을 구하고, i=1,2,…,m* 개의 작업대에 Ti=c* ±α≤ c가 되도록 양방향의 공정들을 배정하는 양방향 군집방법을 적용하였다. 7개의 다양한 실험 데이터에 적용한 결과 제안된 양방향 군집 알고리즘은 타 방법들과 동일한 성능을 보였다.

A Study on Distributed Self-Reliance Wireless Sensing Mechanism for Supporting Data Transmission over Heterogeneous Wireless Networks

  • Caytiles, Ronnie D.;Park, Byungjoo
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권3호
    • /
    • pp.32-38
    • /
    • 2020
  • The deployment of geographically distributed wireless sensors has greatly elevated the capability of monitoring structural health in social-overhead capital (SOC) public infrastructures. This paper deals with the utilization of a distributed mobility management (DMM) approach for the deployment of wireless sensing devices in a structural health monitoring system (SHM). Then, a wireless sensing mechanism utilizing low-energy adaptive clustering hierarchy (LEACH)-based clustering algorithm for smart sensors has been analyzed to support the seamless data transmission of structural health information which is essentially important to guarantee public safety. The clustering of smart sensors will be able to provide real-time monitoring of structural health and a filtering algorithm to boost the transmission of critical information over heterogeneous wireless and mobile networks.