• 제목/요약/키워드: K-medoids

검색결과 22건 처리시간 0.031초

반려동물 사료 추천시스템을 위한 유사성 측정 알고리즘에 대한 연구 (A Study of Similarity Measure Algorithms for Recomendation System about the PET Food)

  • 김삼택
    • 한국융합학회논문지
    • /
    • 제10권11호
    • /
    • pp.159-164
    • /
    • 2019
  • ICT 기술 발전으로 강아지와 고양이등 반려동물 돌보기와 건강에 대한 관심도가 높아지고 있다. 본 논문에서는 반려동물 산업의 다양한 분야에 활용될 수 있도록 반려동물 사료의 성분 데이터를 기반으로 군집분석을 수행하고 적합한 서비스에 대해 고찰한다. 군집분석을 위해 시중에서 유통되고 있는 300여 개의 강아지 및 고양이 펫푸드를 대상으로 성분별 상관관계를 분석하여 유사성을 측정하며, Hierarchical, K-Means, Partitioning around medoids(PAM), Density-based, Mean-Shift 등의 다양한 클러스터링 기법을 활용하여 군집화 하여 분석한다. 또한 반려동물의 개인화 추천시스템도 제안한다. 본 논문의 연구 결과는 반려동물을 대상으로 한 사료 추천시스템 등의 맞춤형 개인화 서비스에 활용할 수 있다.

도로 네트워크에서의 유사 궤적 클러스터링 (Similar Trajectory Clustering on Road Networks)

  • 백지행;원정임;김상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.256-260
    • /
    • 2006
  • 본 논문에서는 도로 네트워크내의 이동 객체들을 대상으로 하는 효과적인 유사 궤적 검색 및 클러스터링 기법에 대하여 논한다. 이동 객체들 간의 유사도 측정을 위한 기존의 기법들은 대부분 유클리디안 공간 상의 궤적들을 대상으로 한다. 그러나 실제 응용에서 대부분의 이동 객체들은 도로 네트워크 공간 상에 존재하므로, 이러한 실제 상황을 반영하는 유사도 측정 방식이 요구된다. 본 논문에서는 각 이동 객체가 시간에 따라 지나간 도로 세그먼트들의 리스트를 궤적이라 정의하고, 이렇게 정의된 궤적들을 대상으로 하는 새로운 유사도 측정 함수를 제안한다. 제안된 유사도 측정 함수는 궤적을 이루는 도로 세그먼트의 길이와 식별자 정보를 이용한다. 제안된 유사도 측정 함수에 의하여 측정된 각 궤적 쌍 간의 유사도를 기반으로 전체 궤적들을 FastMap을 이용하여 k차원 공간상의 점들로 사상하고, 이들을 k-medoids 방식을 이용하여 클러스터링 한다. 구성된 클러스터와 연관된 사용자 정보, 도로 정보 등을 함께 사용자에게 제공하는 활용 예를 제시함으로써 제안된 기법이 실제 응용에 유용하게 사용될 수 있음을 보인다.

  • PDF

A Study on the Integration Between Smart Mobility Technology and Information Communication Technology (ICT) Using Patent Analysis

  • Alkaabi, Khaled Sulaiman Khalfan Sulaiman;Yu, Jiwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.89-97
    • /
    • 2019
  • This study proposes a method for investigating current patents related to information communication technology and smart mobility to provide insights into future technology trends. The method is based on text mining clustering analysis. The method consists of two stages, which are data preparation and clustering analysis, respectively. In the first stage, tokenizing, filtering, stemming, and feature selection are implemented to transform the data into a usable format (structured data) and to extract useful information for the next stage. In the second stage, the structured data is partitioned into groups. The K-medoids algorithm is selected over the K-means algorithm for this analysis owing to its advantages in dealing with noise and outliers. The results of the analysis indicate that most current patents focus mainly on smart connectivity and smart guide systems, which play a major role in the development of smart mobility.

소셜 이미지 분류를 위한 클러스터링 알고리즘 기반 트레이닝 집합 획득 기법의 비교 (A Study on Comparison of Clustering Algorithm-based Methods for Acquiring Training Sets for Social Image Classification)

  • 정진우;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1294-1297
    • /
    • 2011
  • 최근, Flickr, YouTube 와 같은 사용자 참여형 미디어 공유 및 검색 사이트가 폭발적으로 증가하면서, 이를 멀티미디어 정보 검색 서비스에 효과적으로 활용하기 위한 다양한 연구들이 시도되고 있다. 특히, 이미지에 할당되어 있는 태그를 이용하여 이미지를 효과적으로 검색하기 위한 연구가 활발히 진행 중이다. 그러나 사용자들에 의해 제공되는 소셜 이미지들은 매우 다양한 범위와 주제를 가지고 있기 때문에, 소셜 이미지들의 분류 및 태그 할당을 위한 트레이닝 집합의 획득이 쉽지 않다는 한계점을 가지고 있다. 본 논문에서는 데이터 군집화를 위한 클러스터링 알고리즘들 중 K-Means, K-Medoids, Affinity Propagation 을 활용하여 소셜 이미지 집합으로부터 트레이닝 집합을 획득하기 위한 방법들을 살펴 본다. 또한, 각 알고리즘으로부터 획득한 트레이닝 집합을 이용하여 소셜 이미지를 분류한 결과를 비교 분석한다.

온라인 텍스트문서의 계층적 트리 기반 주제탐색 기법 (A Novel Technique of Topic Detection for On-line Text Documents: A Topic Tree-based Approach)

  • 현만;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.396-399
    • /
    • 2012
  • Topic detection is a problem of discovering the topics of online publishing documents. For topic detection, it is important to extract correct topic words and to show the topical words easily to understand. We consider a topic tree-based approach to more effectively and more briefly show the result of topic detection for online text documents. In this paper, to achieve the topic tree-based topic detection, we propose a new term weighting method, called CTF-CDF-IDF, which is simple yet effective. Moreover, we have modified a conventional clustering method, which we call incremental k-medoids algorithm. Our experimental results with Reuters-21578 and Google news collections show that the proposed method is very useful for topic detection.

클러스터링 기반의 최적 차량 운행 계획 수립을 위한 비교연구 (Comparative Analysis for Clustering Based Optimal Vehicle Routes Planning)

  • 김재원;신광섭
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.155-180
    • /
    • 2020
  • 화물의 수배송을 위한 차량의 배차 및 최적 경로 설계는 물류 서비스의 효율성 향상을 위한 가장 핵심적인 역할을 담당한다. 이 문제는 차량의 대수, 차량별 적재 용량, 차량의 총 이동거리와 같이 다양한 비용 요소를 동시에 고려해야 하기 때문이다. 최근 비용 최소화 및 운영 효율성 향상을 위해 TMS를 도입하는 사례가 증가하고 있으나, 현장에서 필요한 모든 요소를 고려하지 못한다는 한계가 존재한다. 이를 해결하기 위해 현장 전문가가 TMS의 결과를 경험과 직관에 기반하여 수정하는 과정이 필요하다. 본 연구에서는 지금까지 총 비용의 최소화에 집중하고 있는 기존 연구들과 달리 서비스에 투입되는 자원 활용의 효율성과 형평성을 동시에 높일 수 있는 방법을 제안한다. 이를 위해 Cluster-First Route-Second (CFRS)기법을 활용한다. 고객의 위치를 기준으로 네 가지 클러스터링 알고리즘(K-Means, K-Medoids, DBSCAN, Model-based)과 Fisher & Jaikumar 알고리즘을 적용하여 고객들을 군집화하였다. 이 후, 군집별 최적의 차량 경로 계획을 수립하였다. 수치 실험을 통해 본 연구에서 제안하는 CFRS 기법을 적용한 방안이 상대적으로 차량의 전체 이동거리와 평균 이동거리 및 이동시간이 더 절감될 수 있다는 사실을 확인하였다. 또한, 차량별 방문하는 고객의 수에 대한 편차가 더 낮다는 사실로부터 기본적인 차량 경로 배정 유형에 비해 본 연구에서 제안하는 방안이 상대적으로 형평성 있게 업무가 할당되었음을 확인할 수 있었다.

Performance evaluation of principal component analysis for clustering problems

  • Kim, Jae-Hwan;Yang, Tae-Min;Kim, Jung-Tae
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제40권8호
    • /
    • pp.726-732
    • /
    • 2016
  • Clustering analysis is widely used in data mining to classify data into categories on the basis of their similarity. Through the decades, many clustering techniques have been developed, including hierarchical and non-hierarchical algorithms. In gene profiling problems, because of the large number of genes and the complexity of biological networks, dimensionality reduction techniques are critical exploratory tools for clustering analysis of gene expression data. Recently, clustering analysis of applying dimensionality reduction techniques was also proposed. PCA (principal component analysis) is a popular methd of dimensionality reduction techniques for clustering problems. However, previous studies analyzed the performance of PCA for only full data sets. In this paper, to specifically and robustly evaluate the performance of PCA for clustering analysis, we exploit an improved FCBF (fast correlation-based filter) of feature selection methods for supervised clustering data sets, and employ two well-known clustering algorithms: k-means and k-medoids. Computational results from supervised data sets show that the performance of PCA is very poor for large-scale features.

생존분석을 이용한 맞춤형 대장내시경 검진주기 추천 (Recommendation of Personalized Surveillance Interval of Colonoscopy via Survival Analysis)

  • 구자연;김은선;김성범
    • 대한산업공학회지
    • /
    • 제42권2호
    • /
    • pp.129-137
    • /
    • 2016
  • A colonoscopy is important because it detects the presence of polyps in the colon that can lead to colon cancer. How often one needs to repeat a colonoscopy may depend on various factors. The main purpose of this study is to determine personalized surveillance interval of colonoscopy based on characteristics of patients including their clinical information. The clustering analysis using a partitioning around medoids algorithm was conducted on 625 patients who had a medical examination at Korea University Anam Hospital and found several subgroups of patients. For each cluster, we then performed survival analysis that provides the probability of having polyps according to the number of days until next visit. The results of survival analysis indicated that different survival distributions exist among different patients' groups. We believe that the procedure proposed in this study can provide the patients with personalized medical information about how often they need to repeat a colonoscopy.

마이크로어레이 유전자 발현 자료에 대한 군집 방법 비교 (Comparison of clustering methods of microarray gene expression data)

  • 임진수;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.39-51
    • /
    • 2012
  • 군집분석은 마이크로어레이 발현자료에서 유전자 혹은 표본들의 유사한 특성을 갖는 연관구조를 조사하는데 중요한 도구이다. 본 논문에서는 마이크로어레이 자료에서 계층적 군집방법, K-평균법, PAM (partitioning around medoids), SOM (self-organizing maps) 그리고 모형기반 군집방법 들의 성능을 3가지 군집 타당성 측도인 내적 측도, 안정적 측도 그리고 생물학적 측도를 가지고 비교분석하고자 한다. 모의실험을 통해 생성된 자료와 실제 SRBCT (small round blue cell tumor) 자료를 가지고 여러 가지 군집방법들의 성능을 비교하였으며 그 결과 모의실험 자료에서는 거의 모든 방법들이 3가지 군집측도에서 원래 자료와 일치하는 좋은 군집 결과를 나타내었고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적측도의 실루엣 너비 (Silhouette width) 관점에서는 PAM 방법, SOM, 모형기반 군집방법 그리고 생물학적 측도에서는 PAM 방법과 모형기반 군집방법이 모의실험 결과와 비슷한 결과를 얻었고 안정적 측도에서 모형기반 군집방법이 다른 방법들보다 좋은 군집결과를 보여주었다.

데이터 마이닝 기법을 이용한 군 통신·전자 분야 기술 분석 (Analysis of Defense Communication-Electronics Technologies using Data Mining Technique)

  • 백성호;강석중
    • 한국정보통신학회논문지
    • /
    • 제24권6호
    • /
    • pp.687-699
    • /
    • 2020
  • 정부가 주도하는 종래의 하향식 무기체계 개발방식은 기술의 발전속도가 급격하게 빨라짐에 따라, 기술 진부화라는 문제에 직면하게 되었다. 이에 따라 정부는 방위산업 분야에도 기업 주도의 상향식 사업추진 방식을 점진적으로 확대 적용해오고 있다. 상향식 사업추진 방식의 핵심 성공요소는 무엇보다도 방산 기업의 기술기획 역량이다. 본 논문은 국내 방산 기업이 기술기획 활동에 활용할 수 있도록 데이터 마이닝 기법을 통해 특허 데이터를 분석하는 방법을 제시하였다. 주요 내용은 군 통신·전자 분야에 해당하는 기업선정 기법을 제안하고 국제특허분류(IPC)에 대해서 주성분 분석과 군집 분석을 수행하는 것이다. 이를 통해, 9개 기업의 특허를 기반으로 군 통신·전자 분야의 기술을 4개의 그룹으로 분류하고 각 그룹의 대표 기업을 도출하였다.