• 제목/요약/키워드: K-mean Clustering

검색결과 279건 처리시간 0.034초

유전체 생태계 분석을 위한 알고리즘 구현: 미토콘드리아 사례 (The Algorithm of implementation for genome analysis ecosystems : Mitochondria's case)

  • 최성자;조한욱
    • 디지털융복합연구
    • /
    • 제14권4호
    • /
    • pp.349-353
    • /
    • 2016
  • 융복합 패러다임의 도입은 방대한 유전체 정보의 분석을 위한 컴퓨팅 기술의 연구 및 개발 또한 활발히 진행되고 있다. 최근 유전체 분석 서비스 유형은 개인의 유전체 정보(personal genome analysis)를 읽어서 특정 질환들의 발병 확률 등을 알려주고, 해당 질병을 예방할 수 있도록 식습관, 라이프 스타일등의 변화를 꾀하도록 맞춤형의 서비스를 제공하고 있다. 생물의 특성을 결정하는 정보는 유전자이며, 이 유전자는 DNA 염기서열에 따라 결정되므로, 유전체 정보의 분석기술은 정확하고 빠르게 수행되어야 한다. 정확한 유전체 분석을 빠르게 수행하기위해 K-Mean 클러스터링 기법을 활용하였으며, 코돈 데이타 패턴을 추출하여 유전체 정보 분석에 적용하였다. 또한, 미토콘드리아 데이타군을 실험사례로 제공한다. 본 연구의 결과, 제공된 분석 데이타를 통해 기존의 문자열 형태의 유전체 분석 기법을 이미지 패턴 형태로 추출이 가능하며, 패턴형태의 이미지는 분석시간의 단축과 정확도를 높인다.

Comparative Study of Quantitative Data Binning Methods in Association Rule

  • Choi, Jae-Ho;Park, Hee-Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • 제19권3호
    • /
    • pp.903-911
    • /
    • 2008
  • Association rule mining searches for interesting relationships among items in a given large database. Association rules are frequently used by retail stores to assist in marketing, advertising, floor placement, and inventory control. Many data is most quantitative data. There is a need for partitioning techniques to quantitative data. The partitioning process is referred to as binning. We introduce several binning methods ; parameter mean binning, equi-width binning, equi-depth binning, clustering-based binning. So we apply these binning methods to several distribution types of quantitative data and present the best binning method for association rule discovery.

  • PDF

Nonlinear damage detection using higher statistical moments of structural responses

  • Yu, Ling;Zhu, Jun-Hua
    • Structural Engineering and Mechanics
    • /
    • 제54권2호
    • /
    • pp.221-237
    • /
    • 2015
  • An integrated method is proposed for structural nonlinear damage detection based on time series analysis and the higher statistical moments of structural responses in this study. It combines the time series analysis, the higher statistical moments of AR model residual errors and the fuzzy c-means (FCM) clustering techniques. A few comprehensive damage indexes are developed in the arithmetic and geometric mean of the higher statistical moments, and are classified by using the FCM clustering method to achieve nonlinear damage detection. A series of the measured response data, downloaded from the web site of the Los Alamos National Laboratory (LANL) USA, from a three-storey building structure considering the environmental variety as well as different nonlinear damage cases, are analyzed and used to assess the performance of the new nonlinear damage detection method. The effectiveness and robustness of the new proposed method are finally analyzed and concluded.

An Adaption of Pattern Sequence-based Electricity Load Forecasting with Match Filtering

  • Chu, Fazheng;Jung, Sung-Hwan
    • 한국멀티미디어학회논문지
    • /
    • 제20권5호
    • /
    • pp.800-807
    • /
    • 2017
  • The Pattern Sequence-based Forecasting (PSF) is an approach to forecast the behavior of time series based on similar pattern sequences. The innovation of PSF method is to convert the load time series into a label sequence by clustering technique in order to lighten computational burden. However, it brings about a new problem in determining the number of clusters and it is subject to insufficient similar days occasionally. In this paper we proposed an adaption of the PSF method, which introduces a new clustering index to determine the number of clusters and imposes a threshold to solve the problem caused by insufficient similar days. Our experiments showed that the proposed method reduced the mean absolute percentage error (MAPE) about 15%, compared to the PSF method.

APMDI-CF: An Effective and Efficient Recommendation Algorithm for Online Users

  • Ya-Jun Leng;Zhi Wang;Dan Peng;Huan Zhang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권11호
    • /
    • pp.3050-3063
    • /
    • 2023
  • Recommendation systems provide personalized products or services to online users by mining their past preferences. Collaborative filtering is a popular recommendation technique because it is easy to implement. However, with the rapid growth of the number of users in recommendation systems, collaborative filtering suffers from serious scalability and sparsity problems. To address these problems, a novel collaborative filtering recommendation algorithm is proposed. The proposed algorithm partitions the users using affinity propagation clustering, and searches for k nearest neighbors in the partition where active user belongs, which can reduce the range of searching and improve real-time performance. When predicting the ratings of active user's unrated items, mean deviation method is used to impute values for neighbors' missing ratings, thus the sparsity can be decreased and the recommendation quality can be ensured. Experiments based on two different datasets show that the proposed algorithm is excellent both in terms of real-time performance and recommendation quality.

Fuzzy c-means의 문제점 및 해결 방안 (Problems in Fuzzy c-means and Its Possible Solutions)

  • 허경용;서진석;이임건
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.39-46
    • /
    • 2011
  • 클러스터링은 주어진 데이터 집합을 균일한 특성을 가지는 몇 개의 그룹으로 묶는 대표적인 비교사 학습 방법 중 하나로 지금까지 다양한 형태의 알고리듬이 개발되어 다양한 응용 분야에서 사용되어 왔다. 이 중 fuzzy c-means (FCM)는 분할 기반의 클러스터링 기법에 속하는 알고리듬으로 1970년대에 정립된 이후 지금까지 사용되고 있는 대표적인 클러스터링 알고리듬 중의 하나이다. 하지만 FCM에는 여러 가지 문제점이 있으며 이를 해결하기 위해 지금까지도 다양한 FCM의 변형이 제안되고 있다. 이 논문에서는 먼저 FCM의 문제점을 살펴보고 이를 해결하기 위해 제안된 방법들을 통해 연구 방향을 제시하고자 한다. FCM의 문제점을 해결하고자 하는 대부분의 FCM 변형은 주어진 문제 영역의 지식을 활용하고 있다. 하지만 이 논문에서는 문제 영역을 한정하지 않고 모든 문제에 적용할 수 있는 일반적인 방안을 제시하는데 초점을 둔다. 제시하는 방안은 앞으로 더 많은 연구가 필요하지만 클러스터링을 연구하고자 하는 이들에게 최근의 연구 동향과 더불어 출발점을 제시할 수 있을 것으로 기대한다.

이단계표본추출을 이용한 소결핵병 유병률 추정 (Two-stage Sampling for Estimation of Prevalence of Bovine Tuberculosis)

  • 박선일
    • 한국임상수의학회지
    • /
    • 제28권4호
    • /
    • pp.422-426
    • /
    • 2011
  • For a national survey in which wide geographic region or an entire country is targeted, multi-stage sampling approach is widely used to overcome the problem of simple random sampling, to consider both herd- and animallevel factors associated with disease occurrence, and to adjust clustering effect of disease in the population in the calculation of sample size. The aim of this study was to establish sample size for estimating bovine tuberculosis (TB) in Korea using stratified two-stage sampling design. The sample size was determined by taking into account the possible clustering of TB-infected animals on individual herds to increase the reliability of survey results. In this study, the country was stratified into nine provinces (administrative unit) and herd, the primary sampling unit, was considered as a cluster. For all analyses, design effect of 2, between-cluster prevalence of 50% to yield maximum sample size, and mean herd size of 65 were assumed due to lack of information available. Using a two-stage sampling scheme, the number of cattle sampled per herd was 65 cattle, regardless of confidence level, prevalence, and mean herd size examined. Number of clusters to be sampled at a 95% level of confidence was estimated to be 296, 74, 33, 19, 12, and 9 for desired precision of 0.01, 0.02, 0.03, 0.04, 0.05, and 0.06, respectively. Therefore, the total sample size with a 95% confidence level was 172,872, 43,218, 19,224, 10,818, 6,930, and 4,806 for desired precision ranging from 0.01 to 0.06. The sample size was increased with desired precision and design effect. In a situation where the number of cattle sampled per herd is fixed ranging from 5 to 40 with a 5-head interval, total sample size with a 95% confidence level was estimated to be 6,480, 10,080, 13,770, 17,280, 20.925, 24,570, 28,350, and 31,680, respectively. The percent increase in total sample size resulting from the use of intra-cluster correlation coefficient of 0.3 was 22.2, 32.1, 36.3, 39.6, 41.9, 42.9, 42,2, and 44.3%, respectively in comparison to the use of coefficient of 0.2.

SPOT/VEGETATION 영상을 이용한 눈과 구름의 분류 알고리즘 (SPOT/VEGETATION-based Algorithm for the Discrimination of Cloud and Snow)

  • 한경수;김영섭
    • 대한원격탐사학회지
    • /
    • 제20권4호
    • /
    • pp.235-244
    • /
    • 2004
  • 본 연구는 SPOT-4 위성의 VEGETATION-1 센서의 가시 채널, 근적외 채널, 단파 적외채널 자료를 이용하여 눈과 구름을 구별하기 위해 새롭게 제시된 알고리즘을 평가하기 위한 것이다. 눈과 구름의 마스크를 위해 전통적으로 이용되고 있는 임계치 방법들은 본 연구에서 좋은 결과를 보여 주지 못하였다 따라서 K-means 군집화 방법이 이러한 임계치 방법 대신 본 연구에서 사용되었다. 군집화에서는 두 임계치 알고리즘을 통합하여 적설과 구름을 그룹화 시켜 동시에 추출한 화소들을 적용하였다. 이것은 전체 영상을 군집화에 적용시킬 때와 비교해 군집화의 과정을 단순화시키고 나아가 정확도를 향상시킬 수 있다. 본 연구는 이러한 과정을 통해 얻어진 결과를 임계치 방법이 적용되었을 때의 결과와 비교함과 동시에 VEGETATION 자료의 분별능력을 평가하였다. 본 연구에서 제시한 방법을 이용하였을 때, 구름과 눈의 분별 능력은 상당히 향상되었다. 분별 오차는 임계치 방법을 사용하였을 때 보다 구름에 대해 19.4% 적설에 대해 9.7% 정도 감소하였다.

컬러영상에서 Mean-Shift 군집화와 단계별 병합 방법을 이용한 자동 원료 선별 알고리즘 (Automatic Source Classification Algorithm using Mean-Shift Clustering and stepwise merging in Color Image)

  • 김상준;장지현;고병철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1597-1599
    • /
    • 2015
  • 본 논문에서는 곡물이나 광석 등의 원료들 중에서 양품 및 불량품을 검출하기 위해, Color CCD 카메라로 촬영한 원료영상에서 Mean-Shift 클러스터링 알고리즘과 단계별 병합 방법을 제안하고 있다. 먼저 원료 학습 영상에서 배경을 제거하고 영상 색 분포정도를 기준으로 모폴로지를 이용하여 영상의 전경맵을 얻는다. 전경맵 영상에 대해서 Mean-Shift 군집화 알고리즘을 적용하여 영상을 N개의 군집으로 나누고, 단계별로 위치 근접성, 색상대푯값 유사성을 비교하여 비슷한 군집끼리 통합한다. 이렇게 통합된 원료 객체는 영상채널마다의 연관관계를 반영할 수 있도록 RG/GB/BR의 2차원 컬러분포도로 표현한다. 원료 객체별로 변환된 2차원 컬러 분포도에서 분포의 주성분의 기울기와 타원들을 생성한다. 객체별 분포 타원은 테스트 원료 영상데이터에서 양품과 불량품을 검출하는 임계값이 된다. 본 논문에서 제안한 방법으로 다양한 원료영상에 실험한 결과, 기존 선별방식에 비해 사용자의 인위적 조작이 적고 정확한 원료 선별 결과를 얻을 수 있었다.

수많은 전략을 가진 차등 진화 (Differential Evolution with Numerous Strategies)

  • 오숙경;신성윤
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
    • /
    • pp.243-244
    • /
    • 2020
  • 본 논문에서는 SIM(Soft Island Model)을 통해 소집단 정보를 이동시키기 위한 KSDE라고 하는 수많은 전략을 제안한다. 먼저, 전체 모집단은 k- 평균 군집 알고리즘에 의해 k 개의 하위 모집단으로 분리된다. 둘째, 소집단에 돌연변이 조작을 수행하기 위해 전략 풀에서 돌연변이 전략을 무작위로 선택한다. 마지막으로, 이 알고리즘의 모집단 다양성을 개선하기 위해 하위 집단 정보가 SIM을 통해 마이그레이션 된다.

  • PDF