• 제목/요약/키워드: K-mean Clustering

검색결과 279건 처리시간 0.038초

비디오 자막 추출 기법에 관한 연구 (Extraction of open-caption from video)

  • 김성섭;문영식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.481-483
    • /
    • 2001
  • 본 논문에서는 동영상으로부터 색상, 서체, 크기와 같은 사전 지식 없이도 글자/자막을 효율적으로 추출하는 방법을 제안한다. 해상도가 낮고 복잡한 배경을 포함할 수 있는 비디오에서 글자 인식률 향상을 위해 먼저 동일한 텍스트 영역의 존재하는 프레임들을 자동적으로 추출한 후 이들의 시간적 평균영상을 만들어 향상된 영상을 얻는다. 평균영상의 외각선 영상의 투영 값을 통해 문자영역을 찾고 각 텍스트 영역에 대해 1차 배경제거 과정인 region filling을 적용하여 글자의 배경들을 제거 함으로써 글자를 추출한다. 1차 배경제거의 결과를 검증하고 추가적으로 k-means를 이용한 color clustering을 적용하여 남아있는 배경들을 효율적으로 제거 함으로써 최종 글자영상을 추출한다.

  • PDF

진화알고리즘을 이용한 클러스터링 알고리즘 (A Clustering Algorithm using the Genetic Algorithm)

  • 류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.313-315
    • /
    • 2000
  • 클러스터링에 있어서 K-means와 FCM(Fuzzy C-means)와 같은 기존의 알고리즘들은 지역적 최소 해에 수렴될 문제와 사전에 클러스터 개수를 결정해야 하는 문제점을 가지고 있다. 본 논문에서는 병렬 탐색을 통해 최적 해를 찾는 진화 알고리즘을 사용하여 지역적 최소 해에 수렴되는 문제점을 개선하였으며, 클러스터의 특성을 표준편차 벡터를 계산하여 중심으로부터 포함된 데이터가 얼마나 분포되어 있는지 알 수 있는 분산도와 임의의 데이터와 모든 중심들간의 거리의 비율로서 얻어지는 소속정도를 고려하여 클러스터간의 간격을 알 수 있는 분리도를 정의함으로써 자동으로 클러스터 개수를 결정할 수 있게 하였다. 실험데이터와 가우시안 분포에 의해 생성된 다차원 실험데이터를 사용하여 제안한 알고리즘이 이러한 문제점들을 해결하고 있음을 보인다.

  • PDF

문서 시각화를 위한 개선된 클러스터링 알고리즘 (Advanced Clustering Algorithm for Documents Visualization)

  • 신광철;한상용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.256-258
    • /
    • 2002
  • 본 논문은 주어진 문서집합에 대한 유사도 검사를 통해 주어진 문서집합의 내용을 사용자가 직관적으로 파악할 수 있도록 하는 클러스터링 시각화 알고리즘에 관한 것이다. 제안하는 방법의 핵심은 주어진 문서 집합의 각 문서 사이의 유사도를 측정하여 각 문서 주변의 밀집도를 파악하고, 밀집도가 높은 문서들을 묶어 하나의 클러스터로 구성한 후, 구성된 각각의 클러스터의 키워드를 제공함으로 사용자가 해당 문서 집합의 내용을 보다 직관적으로 파악할 수 있도록 한 것이다. 우리는 TIME 데이터 집합에 대해 제시하는 알고리즘을 적용해 실험한 후 그 결과를 기존의 spherical k-means에 의해 클러스터링한 결과와 비교하여 제안하는 방법이 사용자에게 더 나은 시각화 정보를 제공함을 알아보았다.

  • PDF

Pattern Recognition with Rotation Invariant Multiresolution Features

  • Rodtook, S.;Makhanov, S.S.
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1057-1060
    • /
    • 2004
  • We propose new rotation moment invariants based on multiresolution filter bank techniques. The multiresolution pyramid motivates our simple but efficient feature selection procedure based on the fuzzy C-mean clustering, combined with the Mahalanobis distance. The procedure verifies an impact of random noise as well as an interesting and less known impact of noise due to spatial transformations. The recognition accuracy of the proposed techniques has been tested with the preceding moment invariants as well as with some wavelet based schemes. The numerical experiments, with more than 30,000 images, demonstrate a tangible accuracy increase of about 3% for low noise, 8% for the average noise and 15% for high level noise.

  • PDF

유전자 알고리즘을 이용한 문서 클러스터링 연구 (A Study on Clustering using Genetic Algorithm)

  • 쏭웨이;최임천;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.325-326
    • /
    • 2009
  • 본 논문에서는 효율적인 인공지능 알고리즘인 유전자 알고리즘(GA)을 이용한 문서 클러스터링 시스템을 제안한다. 일반적으로 클러스터링 알고리즘에 가장 많이 사용되는 K-Means는 임의로 결정되는 초기 센트로이드 벡터에 따라 그 성능이 많이 달라지는 것을 볼 수 있다. 이에 본 논문에서는 유전자 알고리즘을 이용하여 안정적이면서도 높은 성능을 보여주는 클러스터링 알고리즘을 개발하였다. 제안한 클러스터링 알고리즘의 성능 평가를 위하여 HANTEC 2.0과 문서 범주화 집단 데이터 셋을 사용하였다. 제안된 방법은 효율적이고 빠른 K-Means를 이용한 클러스터링 알고리즘에 비하여 훨씬 뛰어난 성능을 보였다.

주파수 및 시간 특성을 활용한 머신러닝 기반 공동주택 주거소음의 군집화 및 분류 (Clustering and classification of residential noise sources in apartment buildings based on machine learning using spectral and temporal characteristics)

  • 김정훈;이송미;김수홍;송은성;류종관
    • 한국음향학회지
    • /
    • 제42권6호
    • /
    • pp.603-616
    • /
    • 2023
  • 본 연구는 주파수 및 시간 특성을 활용하여 머신러닝 기반 공동주택 주거소음의 군집화 및 분류를 진행하였다. 먼저, 공동주택 주거소음의 군집화 및 분류를 진행하기 위하여 주거소음원 데이터셋을 구축하였다. 주거소음원 데이터셋은 바닥충격음, 공기전달음, 급배수 및 설비소음, 환경소음, 공사장 소음으로 구성되었다. 각 음원의 주파수 특성은 1/1과 1/3 옥타브 밴드별 Leq와 Lmax값을 도출하였으며, 시간적 특성은 5 s 동안의 6 ms 간격의 음압레벨 분석을 통해 Leq값을 도출하였다. 공동주택 주거소음원의 군집화는 K-Means clustering을 통해 진행하였다. K-Means의 k의 개수는 실루엣 계수와 엘보우 방법을 통해 결정하였다. 주파수 특성을 통한 주거소음원 군집화는 모든 평가지수에서 3개로 군집되었다. 주파수 특성 기준으로 분류된 각 군집별 시간적 특성을 통한 주거소음원 군집화는 Leq평가지수의 경우 9개, Lmax 경우는 11개로 군집되었다. 주파수 특성을 통해 군집된 각 군집은 타 주파수 대역 대비 저주파 대역의 음에너지의 비율 또한 조사되었다. 이후, 군집화 결과를 활용하기 위한 방안으로 세 종류의 머신러닝 방법을 이용해 주거소음을 분류하였다. 주거소음 분류 결과, 1/3 옥타브 밴드의 Leq값으로 라벨링된 데이터에서 가장 높은 정확도와 f1-score가 나타났다. 또한, 주파수 및 시간적 특성을 모두 사용하여 인공신경망(Artificial Neural Network, ANN) 모델로 주거소음원을 분류했을 때 93 %의 정확도와 92 %의 f1-score로 가장 높게 나타났다.

The combination of a histogram-based clustering algorithm and support vector machine for the diagnosis of osteoporosis

  • Kavitha, Muthu Subash;Asano, Akira;Taguchi, Akira;Heo, Min-Suk
    • Imaging Science in Dentistry
    • /
    • 제43권3호
    • /
    • pp.153-161
    • /
    • 2013
  • Purpose: To prevent low bone mineral density (BMD), that is, osteoporosis, in postmenopausal women, it is essential to diagnose osteoporosis more precisely. This study presented an automatic approach utilizing a histogram-based automatic clustering (HAC) algorithm with a support vector machine (SVM) to analyse dental panoramic radiographs (DPRs) and thus improve diagnostic accuracy by identifying postmenopausal women with low BMD or osteoporosis. Materials and Methods: We integrated our newly-proposed histogram-based automatic clustering (HAC) algorithm with our previously-designed computer-aided diagnosis system. The extracted moment-based features (mean, variance, skewness, and kurtosis) of the mandibular cortical width for the radial basis function (RBF) SVM classifier were employed. We also compared the diagnostic efficacy of the SVM model with the back propagation (BP) neural network model. In this study, DPRs and BMD measurements of 100 postmenopausal women patients (aged >50 years), with no previous record of osteoporosis, were randomly selected for inclusion. Results: The accuracy, sensitivity, and specificity of the BMD measurements using our HAC-SVM model to identify women with low BMD were 93.0% (88.0%-98.0%), 95.8% (91.9%-99.7%) and 86.6% (79.9%-93.3%), respectively, at the lumbar spine; and 89.0% (82.9%-95.1%), 96.0% (92.2%-99.8%) and 84.0% (76.8%-91.2%), respectively, at the femoral neck. Conclusion: Our experimental results predict that the proposed HAC-SVM model combination applied on DPRs could be useful to assist dentists in early diagnosis and help to reduce the morbidity and mortality associated with low BMD and osteoporosis.

엔트로피 기반의 가중치와 분포크기를 이용한 향상된 FCM 알고리즘 (Improved FCM Algorithm using Entropy-based Weight and Intercluster)

  • 곽현욱;오준택;손영호;김욱현
    • 대한전자공학회논문지SP
    • /
    • 제43권4호
    • /
    • pp.1-8
    • /
    • 2006
  • 본 논문은 엔트로피 기반의 가중치와 클러스터 분포크기를 이용한 향상된 FCM(Fuzzy C-Mean)알고리즘을 제안한다. FCM 알고리즘은 영상분할에서 일반적으로 많이 사용되는 퍼지 클러스터링 방법이다. 그러나 공간정보를 포함하지 않기 때문에 잡음 등에 민감하고, 클러스터를 이루는 특정들의 분포에 따라 화소들을 정확하게 분류할 수 없다. 이러한 단점을 해결하기 위해서 FCM 알고리즘의 소속정도를 연산할 때 클러스터 분포크기와 이웃 화소의 공간정보를 이용한 엔트로피 기반의 가중치를 적용한다. 실험결과에서 제안한 방법이 기존의 방법들보다 잡음에 강건하며 분할결과를 보였다.

대표적인 클러스터링 알고리즘을 사용한 비감독형 결함 예측 모델 (Unsupervised Learning Model for Fault Prediction Using Representative Clustering Algorithms)

  • 홍의석;박미경
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.57-64
    • /
    • 2014
  • 입력 모듈의 결함경향성을 결정하는 결함 예측 모델 연구들은 대부분 훈련 데이터 집합을 사용하는 감독형 모델에 관련된 것들이었다. 하지만 과거 데이터 집합이 없거나 데이터 집합이 있더라도 현재 프로젝트와 성격이 다른 경우는 비감독형 모델이 필요하며, 이들에 관한 연구들은 모델 구축의 어려움 때문에 극소수 존재한다. 본 논문에서는 기존 비감독형 모델 연구들에서 사용하지 않은 대표적인 클러스터링 알고리즘인 EM, DBSCAN을 사용한 비감독형 모델들을 제작하여, 기존 연구들에서 사용한 K-means 모델과 성능을 비교하였다. 그 결과 오류율 면에서 EM이 K-means보다 약간 나은 성능을 보였으며, DBSCAN은 두 모델에 떨어지는 성능을 보였다.

사용자 관점에서의 음식 레시피 분류 모델에 관한 연구 (Food Recipe Clustering Model from the User's Perspective)

  • 이우행;최수연
    • 한국정보통신학회논문지
    • /
    • 제26권10호
    • /
    • pp.1441-1446
    • /
    • 2022
  • 현대인들은 음식 레시피에 대한 다양한 정보들을 인터넷이나 소셜 미디어 등에서 매우 쉽게 접할 수 있게 되었다. 음식 레시피를 제공하는 공급량이 많아지면서 범람하는 정보 안에서 사용자들이 각자에 맞는 레시피를 찾기에는 수고로움이 따르게 된다. 이처럼 사용자들의 요구사항을 반영하여 정보를 제공할 필요성이 높아졌고, 음식 레시피와 요리 추천에 관련 연구가 활발해지고 있다. 또한, 이를 활용한 인터넷, 영상 및 어플리케이션 시장 역시 급속도로 활성화되고 있다. 본 연구에서는 음식 레시피 사용자들의 관점에서 레시피를 분류하기 위하여 사용자의 리뷰 데이터를 비지도학습인 K-평균 군집화 기법을 적용하였으며, 이를 통해 "음식 레시피 분류 모델"을 도출하였다. 그 결과 특정 목적, 조리 단계 등 많은 사용자들이 필요한 정보를 포함한 총 25개의 군집으로 분류하였다.