• 제목/요약/키워드: Feature clustering

검색결과 447건 처리시간 0.024초

Hardware Accelerated Design on Bag of Words Classification Algorithm

  • Lee, Chang-yong;Lee, Ji-yong;Lee, Yong-hwan
    • Journal of Platform Technology
    • /
    • 제6권4호
    • /
    • pp.26-33
    • /
    • 2018
  • In this paper, we propose an image retrieval algorithm for real-time processing and design it as hardware. The proposed method is based on the classification of BoWs(Bag of Words) algorithm and proposes an image search algorithm using bit stream. K-fold cross validation is used for the verification of the algorithm. Data is classified into seven classes, each class has seven images and a total of 49 images are tested. The test has two kinds of accuracy measurement and speed measurement. The accuracy of the image classification was 86.2% for the BoWs algorithm and 83.7% the proposed hardware-accelerated software implementation algorithm, and the BoWs algorithm was 2.5% higher. The image retrieval processing speed of BoWs is 7.89s and our algorithm is 1.55s. Our algorithm is 5.09 times faster than BoWs algorithm. The algorithm is largely divided into software and hardware parts. In the software structure, C-language is used. The Scale Invariant Feature Transform algorithm is used to extract feature points that are invariant to size and rotation from the image. Bit streams are generated from the extracted feature point. In the hardware architecture, the proposed image retrieval algorithm is written in Verilog HDL and designed and verified by FPGA and Design Compiler. The generated bit streams are stored, the clustering step is performed, and a searcher image databases or an input image databases are generated and matched. Using the proposed algorithm, we can improve convenience and satisfaction of the user in terms of speed if we search using database matching method which represents each object.

칼라특징공간별 SLIC기반 슈퍼픽셀의 특성비교 (A Comparison of Superpixel Characteristics based on SLIC(Simple Linear Iterative Clustering) for Color Feature Spaces)

  • 이정환
    • 디지털산업정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.151-160
    • /
    • 2014
  • In this paper, a comparison of superpixel characteristics based on SLIC(simple linear iterative clustering) for several color feature spaces is presented. Computer vision applications have come to rely increasingly on superpixels in recent years. Superpixel algorithms group pixels into perceptually meaningful atomic regions, which can be used to replace the rigid structure of the pixel grid. A superpixel is consist of pixels with similar features such as luminance, color, textures etc. Thus superpixels are more efficient than pixels in case of large scale image processing. Generally superpixel characteristics are described by uniformity, boundary precision and recall, compactness. However previous methods only generate superpixels a special color space but lack researches on superpixel characteristics. Therefore we present superpixel characteristics based on SLIC as known popular. In this paper, Lab, Luv, LCH, HSV, YIQ and RGB color feature spaces are used. Uniformity, compactness, boundary precision and recall are measured for comparing characteristics of superpixel. For computer simulation, Berkeley image database(BSD300) is used and Lab color space is superior to the others by the experimental results.

엔트로피 가중치 및 SVD를 이용한 군집 특징 선택 (Cluster Feature Selection using Entropy Weighting and SVD)

  • 이영석;이수원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.248-257
    • /
    • 2002
  • 군집화는 객체들의 특성을 분석하여 유사한 성질을 갖고 있는 객체들을 동일한 집단으로 분류하는 방법이다. 전자 상거래 자료처럼 차원 수가 많고 누락 값이 많은 자료의 경우 입력 자료의 차원축약, 잡음제거를 목적으로 SVD를 사용하여 군집화를 수행하는 것이 효과적이지만, SVD를 통해 변환된 자료는 원래의 속성 정보를 상실하기 때문에 군집 결과분석에서 원본 속성의 가치 해석이 어렵다. 따라서 본 연구는 군집화 수행 후 엔트로피 가중치 및 SVD를 이용하여 군집의 중요한 속성을 발견하기 위한 군집 특징 선택 기법 ENTROPY-SVD를 제안한다. ENTROPY-SVD는 자료의 속성들과 유사객체 군과의 묵시적인 은닉 구조를 활용하기 위하여 SVD를 이용하고 유사객체 군에 포함된 응집도가 높은 속성들을 발견하기 위하여 엔트로피 가중치를 사용한다. 또한 ENTROPY-SVD를 적용한 모델 기반의 협력적 여과기법의 추천 시스템 CFS-CF를 제안하고 그 효용성 및 효과를 평가한다.

엔트로피 기반의 가중치와 분포크기를 이용한 향상된 FCM 알고리즘 (Improved FCM Algorithm using Entropy-based Weight and Intercluster)

  • 곽현욱;오준택;손영호;김욱현
    • 대한전자공학회논문지SP
    • /
    • 제43권4호
    • /
    • pp.1-8
    • /
    • 2006
  • 본 논문은 엔트로피 기반의 가중치와 클러스터 분포크기를 이용한 향상된 FCM(Fuzzy C-Mean)알고리즘을 제안한다. FCM 알고리즘은 영상분할에서 일반적으로 많이 사용되는 퍼지 클러스터링 방법이다. 그러나 공간정보를 포함하지 않기 때문에 잡음 등에 민감하고, 클러스터를 이루는 특정들의 분포에 따라 화소들을 정확하게 분류할 수 없다. 이러한 단점을 해결하기 위해서 FCM 알고리즘의 소속정도를 연산할 때 클러스터 분포크기와 이웃 화소의 공간정보를 이용한 엔트로피 기반의 가중치를 적용한다. 실험결과에서 제안한 방법이 기존의 방법들보다 잡음에 강건하며 분할결과를 보였다.

시간흐름을 고려한 특징 추출과 군집 분석을 이용한 헬스 리스크 관리 (Health Risk Management using Feature Extraction and Cluster Analysis considering Time Flow)

  • 강지수;정경용;정호일
    • 한국융합학회논문지
    • /
    • 제12권1호
    • /
    • pp.99-104
    • /
    • 2021
  • 본 논문에서는 시간 흐름을 고려한 특징추출과 군집분석을 이용한 헬스 리스크 관리를 제안한다. 제안하는 방법은 세단계로 진행한다. 첫 번째는 전처리 및 특징추출 단계이다. 이는 웨어러블 디바이스를 이용하여 라이프로그를 수집하여 불완전데이터, 에러, 잡음, 모순된 데이터를 제거하며 결측 값을 처리한다. 그 다음 특징추출을 위해 주성분 분석을 통해 중요 변수를 선택하고, 상관계수와 공분산을 통해 데이터 간의 관계와 유사한 데이터들의 분류를 진행한다. 또한 라이프로그에서 추출한 특징을 분석하기 위해 시간의 흐름을 고려하여 K-means 알고리즘을 통해 동적 군집을 진행한다. 새로운 데이터는 오차 제곱합의 증가분을 기반으로 유사성 거리 측정 방법을 통해 군집을 진행하고, 시간의 흐름을 고려하여 군집에 대한 정보를 추출한다. 따라서 특징 군집을 통해 헬스 의사결정 시스템을 이용하여 신체적 특성, 생활습관, 질병여부, 헬스케어 이벤트 발생위험, 예상 정도 등의 요소를 통해 리스크를 관리할 수 있다. 성능평가는 Precision, Recall, F-measure을 사용하여 제안하는 방법과 퍼지방법, 커널기반 방법을 비교한다. 평가결과 제안하는 방법이 우수하게 평가된다. 따라서 제안하는 방법을 통해 유병자와의 유사도를 이용하여 정확한 사용자의 잠재적 건강 위험을 예측 및 적절한 관리가 가능하다.

ModifiedFAST: A New Optimal Feature Subset Selection Algorithm

  • Nagpal, Arpita;Gaur, Deepti
    • Journal of information and communication convergence engineering
    • /
    • 제13권2호
    • /
    • pp.113-122
    • /
    • 2015
  • Feature subset selection is as a pre-processing step in learning algorithms. In this paper, we propose an efficient algorithm, ModifiedFAST, for feature subset selection. This algorithm is suitable for text datasets, and uses the concept of information gain to remove irrelevant and redundant features. A new optimal value of the threshold for symmetric uncertainty, used to identify relevant features, is found. The thresholds used by previous feature selection algorithms such as FAST, Relief, and CFS were not optimal. It has been proven that the threshold value greatly affects the percentage of selected features and the classification accuracy. A new performance unified metric that combines accuracy and the number of features selected has been proposed and applied in the proposed algorithm. It was experimentally shown that the percentage of selected features obtained by the proposed algorithm was lower than that obtained using existing algorithms in most of the datasets. The effectiveness of our algorithm on the optimal threshold was statistically validated with other algorithms.

데이터마이닝 기법을 이용한 감정 기반 음악 분류 (Music Classification Based On Emotion Utilizing Data Mining)

  • 조우연;손태식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.941-944
    • /
    • 2015
  • 저장 장치의 급속한 발전으로 인해 기존에 서비스할 수 없었던 개인 사용자를 위한 클라우드 서비스가 활성화되고 있다. 이 중 음악을 대상으로 하는 스트리밍 및 공유 서비스는 다양한 음악의 종류를 수용하기 위해 체계적인 분류를 필요로 한다. 기존의 분류체계는 단순히 작곡가나 업로더의 의견에 의해서 일방적으로 정해지기 때문에 사용자가 중심이 되는 클라우드 서비스에는 어울리지 않는다. 따라서 본 논문은 이와 같은 문제점을 해결하기 위해 사랑의 감정을 기준으로 새로운 분류체계를 제안한다. 자동적인 분류를 위해 데이터마이닝 기법을 접목시켰으며, 원활한 마이닝을 위해 오디오 음악 파일(raw data)을 정해진 크기로 자르고 feature extraction을 통해 오디오 음악 파일에 대한 전처리를 수행하였다. 이후 feature selection을 수행하기 위해 clustering을 이용해 유효한 중요도를 지나는 feature를 선별하였으며 선별된 feature를 토대로 SVN(Support Vector Machine)을 이용해 feature의 중요도에 대한 유효성을 검증함과 동시에 분류를 수행하여 감정을 기반으로 분류한 결과를 보였다.

적응형 분광 군집 방법을 이용한 다중 특징 데이터 군집화 (Multiview Data Clustering by using Adaptive Spectral Co-clustering)

  • 손정우;전준기;이상윤;김선중
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.686-691
    • /
    • 2016
  • 본 논문에서는 다수의 특징, 특히 셋 이상의 특징을 가지는 데이터에 대한 분광 군집 방법인 적응형 분광 군집 방법을 소개하고, 적응형 분광 군집 방법의 성능을 시뮬레이션 데이터와 다중 언어 데이터를 이용하여 분석한다. 적응형 분광 군집 방법에서는 특징 간 서로 다른 정보들을 공유하여 데이터를 군집화함으로써 군집 성능을 높인다. 이때, 서로 다른 특징 간의 정보 공유를 효율적으로 하기 위해, 협업학습을 도입했다. 협업 학습에서는 각 특징이 서로 독립이 되도록 가중치를 학습하고, 학습된 가중치에 따라 정보를 전달한다. 이러한 과정을 통해 일반적인 특징 결합이나, 모든 특징 간 독립을 가정한 기존 협업학습 기반의 분광 군집에 비해 정보 공유의 효율성을 높인다. 실험에서는 시뮬레이션 데이터와 다중 언어문서 데이터를 이용하여 성능을 검증하였으며, 반복과정에서의 성능 변화와 정보 전달 결과 변화하는 모습을 제시함으로써 적응형 분광 군집 방법의 유의미한 성능 향상에 대해 분석하였다.

문서 클러스터링을 위한 학술지 논문의 구조적 초록 활용성 연구 (Usability Analysis of Structured Abstracts in Journal Articles for Document Clustering)

  • 최상희;이재윤
    • 정보관리학회지
    • /
    • 제29권1호
    • /
    • pp.331-349
    • /
    • 2012
  • 구조적 초록은 학술 논문의 주제를 표현하는 역할을 하여 학술 논문을 처리하는데 중요한 요소로 인식되어왔다. 이 연구에서는 구조적 초록을 구성하는 세부 필드의 속성을 4개로 분석하고 초록의 구조를 활용하여 문서 클러스터링에 적용할 수 있는 가능성을 고찰고자 하였다. 구조적 초록의 필드 속성을 문서 클러스터링에 적용한 결과 클러스터링 기법간의 편차가 있었으나 연구 목적이 제공하는 정보량에 비해 주제성이 커서 클러스터링 성능에 가장 큰 영향을 미치고 있는 것으로 나타났다. 또한 분석 결과 특정 필드에 특화되어 출현하는 필드 종속적인 단어가 발생하는 것으로 나타나 필드 종속적인 단어를 배제하고 집단내 평균연결 기법을 적용하였을 때는 클러스터링의 성능이 개선되는 것으로 분석되었다.

단어클러스터링 시스템을 이용한 어휘의미망의 활용평가 방안 (The Method of the Evaluation of Verbal Lexical-Semantic Network Using the Automatic Word Clustering System)

  • 김혜경;송미영
    • 한국한의학연구원논문집
    • /
    • 제12권3호통권18호
    • /
    • pp.1-15
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만, 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다. 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68,455,856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '[-하]동사류' 3,656개의 어휘의미를 포함하는 동사 어휘의미망을 활용하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘의 세 번째 층위까지의 노드 동일성 여부로 정확률을 검수하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론, 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

  • PDF