• 제목/요약/키워드: 2-Step Clustering

검색결과 86건 처리시간 0.024초

High-performance computing for SARS-CoV-2 RNAs clustering: a data science-based genomics approach

  • Oujja, Anas;Abid, Mohamed Riduan;Boumhidi, Jaouad;Bourhnane, Safae;Mourhir, Asmaa;Merchant, Fatima;Benhaddou, Driss
    • Genomics & Informatics
    • /
    • 제19권4호
    • /
    • pp.49.1-49.11
    • /
    • 2021
  • Nowadays, Genomic data constitutes one of the fastest growing datasets in the world. As of 2025, it is supposed to become the fourth largest source of Big Data, and thus mandating adequate high-performance computing (HPC) platform for processing. With the latest unprecedented and unpredictable mutations in severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2), the research community is in crucial need for ICT tools to process SARS-CoV-2 RNA data, e.g., by classifying it (i.e., clustering) and thus assisting in tracking virus mutations and predict future ones. In this paper, we are presenting an HPC-based SARS-CoV-2 RNAs clustering tool. We are adopting a data science approach, from data collection, through analysis, to visualization. In the analysis step, we present how our clustering approach leverages on HPC and the longest common subsequence (LCS) algorithm. The approach uses the Hadoop MapReduce programming paradigm and adapts the LCS algorithm in order to efficiently compute the length of the LCS for each pair of SARS-CoV-2 RNA sequences. The latter are extracted from the U.S. National Center for Biotechnology Information (NCBI) Virus repository. The computed LCS lengths are used to measure the dissimilarities between RNA sequences in order to work out existing clusters. In addition to that, we present a comparative study of the LCS algorithm performance based on variable workloads and different numbers of Hadoop worker nodes.

방송 매체 간 경쟁 상황에서의 활용 자원에 기반한 IPTV 고객 세분화 (Customer Segmentation for IPTV Based on Competitive Resources under the Competition Environment among Broadcasting Media)

  • 서보밀
    • Journal of Information Technology Applications and Management
    • /
    • 제19권2호
    • /
    • pp.97-116
    • /
    • 2012
  • Since 2008 when IPTV service entered the broadcasting market, the competition among interactive broadcasting media has been growing more and more fierce. To make a market strategy under the harsh competition, this study tried to make an IPTV customer segmentation based on the characteristics of interactive broadcasting media. From previous literature, this study drew five characteristics of interactive broadcasting media : ease of use, two-way communications, active control, variety of content, and economic efficiency. Two-step clustering based on these characteristics identified four customer segments. There were statistically significant differences in the five characteristics among the customer segments. This study profiled the customer segments and proposed competitive strategies for each customer segment.

복수물류센터에 대한 VRP 및 GA-TSP의 개선모델개발 (Improved VRP & GA-TSP Model for Multi-Logistics Center)

  • 이상철;류정철
    • 한국산학기술학회논문지
    • /
    • 제8권5호
    • /
    • pp.1279-1288
    • /
    • 2007
  • 시간제한을 가지는 차량경로문제는 배송 및 물류에서 가장 중요한 문제 중의 하나이다. 실제적으로 고객의 서비스를 위하여 주어진 시간 안에 출발해서 배송을 끝마쳐야 한다. 본 연구는 복수 물류센터의 최적차량경로문제를 위하여 유전자 알고리즘을 이용한 2단계 접근방법을 사용한 VRP(Vehicle Routing Problem)모델의 개발이다. 1단계로 구역별로 Clustering한 것은 복수 물류센터의 문제를 쉽게 해결하기 위해 단일 물류센터의 문제로 전환하여 모델을 개발하였다. 2단계로 시간제한을 가지는 최적차량경로를 찾을 수 있는 개선된 유전자 알고리즘을 이용하여 GA-TSP(Genetic Algorithm-Traveling Salesman Problem)모델을 개발하였다. 따라서 본 연구에서 개발한 Network VRP는 ActiveX와 분산객체기술을 이용한 VRP문제의 해를 구하기 위한 전산프로그램을 개발한다.

  • PDF

서비스수준을 고려한 GIS기반의 차량 운송시스템 (Design of a GIS-Based Distribution System with Service Consideration)

  • 황흥석;조규성
    • 경영과학
    • /
    • 제18권2호
    • /
    • pp.125-134
    • /
    • 2001
  • This paper is concerned with the development of a GIS-based distribution system with service consideration. The proposed model could be used for a wide range of logistics applications in planning, engineering and operational purpose for logistics system. This research addresses the formulation of those complex prob1ems of two-echelon logistics system to plan the incorporating supply center locations and distribution problems based on GIS. We propose an integrated logistics model for determining the optimal patterns of supply centers and inventory allocations (customers) with a three-step sequential approach. 1) First step, Developing GIS-distance model and stochastic set-covering program to determine Optimel pattern of supply center location. 2) Second step, Optimal sector-clustering to support customers. 3) Third step, Optimal vehicle rouse scheduling based on GIS, GIS-VRP In this research we developed GUI-tree program, the GIS-VRP provide the vehicle to users and freight information in real time. We applied a set of sample examples to this model and demonstrated samp1e results. It has been found that the proposed model is potentially efficient and useful in solving multi-depot problem through examples. However the proposed model can provide logistics decision makers to get the best supply schedule.

  • PDF

계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지 (Wafer bin map failure pattern recognition using hierarchical clustering)

  • 정주원;정윤서
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.407-419
    • /
    • 2022
  • 반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴탐지는 불량의 재현율이 96.31%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.

클러스터링을 이용한 계층적 분할 방법 (A Hierarchical Partitioning Method Using Clustering)

  • 김충희;신현철
    • 전자공학회논문지A
    • /
    • 제30A권3호
    • /
    • pp.139-145
    • /
    • 1993
  • Partitioning is an important step in the hierarchical design of very large scale integrated circuits. In this research, a new effective partitioning algorithm based on 2-level hierarchy is presented. At the beginning, clusters are formed to reduce the problem size. To overcome the weakness of the iterative improvement techniques that the partitioning result is dependent on the initial partitioning and to consistently produce good results, the cluster-level partitioning is performed several times using several sets of parameters. Then the best result of cluster-partitioning is used as the initial solution for lower level partitioning. For each partitioning, the gradual constraint enforcing partitioning method has been used. The clustering-based partitioning algorithm has been applied to several benchmark examples and produced promising results which show that this algorithm is efficient and effective.

  • PDF

마이크로 어레이 데이터에 적용된 2단계 K-means 클러스터링의 소개 (An Introduction of Two-Step K-means Clustering Applied to Microarray Data)

  • 박대훈;김연태;김성신;이춘환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 추계학술대회 학술발표 논문집 제16권 제2호
    • /
    • pp.83-86
    • /
    • 2006
  • 많은 유전자 정보와 그 부산물은 많은 방법을 통해 연구되어 왔다. DNA 마이크로어레이 기술의 사용은 많은 데이터를 가져왔으며, 이렇게 얻은 데이터는 기존의 연구 방법으로는 분석하기 힘들다. 본 눈문에서는 많은 양의 데이터를 처리할 수 있게 하기 위하여 K-means 클러스터링 알고리즘을 이용한 분할 클러스터링을 제안하였다. 제안한 방법을 쌀 유전자로부터 나온 마이크로어레이 데이터에 적용함으로써 제안된 클러스터링 방법의 유용성을 검증하였으며, 기존의 K-means 클러스터링 알고리즘을 적용한 결과와 비교함으로써 제안된 알고리즘의 우수성을 확인 할 수 있었다.

  • PDF

대출심사의 예측 정확도 향상을 위한 방법 제안 (Proposing the Method for Improving the Forecast Accuracy of Loan Underwriting)

  • 양유영;박상성;신영근;장동식
    • 한국산학기술학회논문지
    • /
    • 제11권4호
    • /
    • pp.1419-1429
    • /
    • 2010
  • 외환위기 이후 본격적으로 시작된 외국계 대형 은행의 국내 진출 및 선진 금융상품의 수입은 국내 은행 산업 구조와 환경을 변화시키고 경쟁을 가속화시켰다. 앞으로 일어날 변화 및 추세에 대한 정확한 예측은 경쟁이 치열한 환경에서 국내의 은행이 생존하고 발전하기 위해 필수적인 요소이며 그 중에서도 대출 신청 고객에 대한 승인 여부에 대한 예측은 대출 상품이 은행 경영에 있어 가장 큰 비중을 차지하는 수익의 원천이자 신용 리스크 관리의 중심이 된다는 점에서 큰 의미가 있다. 따라서 본 논문에서는 대출 심사 결과의 예측 정확성을 높이기 위한 방법을 제시하고자 한다. 수행 단계로는 상관관계 분석과 특징선택 기법을 통해 대출승인 결과에 유의한 영향을 주는 예측변수들을 선별하고 선별된 변수로 2-Step 군집화 기법을 통해 고객을 군집화 하였다. 이후 각 군집에 LR, NN, SVM 기법을 활용하여 구축한 예측 모형을 적용하여 정확도가 가장 높은 모형을 찾아보았다. 최종적으로 기존 방식의 대출 심사 모형에 LR, NN, SVM 예측 모형을 적용했을 때 산출된 결과와 제안한 모형의 결과를 비교하여 예측의 정확도를 평가하였다.

MR Brain Image Segmentation Using Clustering Technique

  • Yoon, Ock-Kyung;Kim, Dong-Whee;Kim, Hyun-Soon;Park, Kil-Houm
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -1
    • /
    • pp.450-453
    • /
    • 2000
  • In this paper, an automated segmentation algorithm is proposed for MR brain images using T1-weighted, T2-weighted, and PD images complementarily. The proposed segmentation algorithm is composed of 3 steps. In the first step, cerebrum images are extracted by putting a cerebrum mask upon the three input images. In the second step, outstanding clusters that represent inner tissues of the cerebrum are chosen among 3-dimensional (3D) clusters. 3D clusters are determined by intersecting densely distributed parts of 2D histogram in the 3D space formed with three optimal scale images. Optimal scale image best describes the shape of densely distributed parts of pixels in 2D histogram. In the final step, cerebrum images are segmented using FCM algorithm with it’s initial centroid value as the outstanding cluster’s centroid value. The proposed segmentation algorithm complements the defect of FCM algorithm, being influenced upon initial centroid, by calculating cluster’s centroid accurately And also can get better segmentation results from the proposed segmentation algorithm with multi spectral analysis than the results of single spectral analysis.

  • PDF

히스토그램에 기반한 다중스펙트럼 뇌 자기공명영상의 분할 (Segmentation of Multispectral Brain MRI Based on Histogram)

  • 윤옥경;김동휘
    • 한국산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.46-54
    • /
    • 2003
  • 본 논문에서는 T1 강조 영상, T2 강조 영상 그리고 PD 영상의 히스토그램 특징을 상호 보완적으로 이용한 영상 분할 방법을 제안한다. 제안한 분할 알고리듬은 3단계로 이루어지는데, 첫 번째 단계에서는 T1과 T2, PD 영상으로부터 각각의 대뇌 영상을 추출하고, 두 번째 단계에서는 대뇌 영상의 히스토그램에서 봉우리 범위를 추출하고, 마지막 단계에서는 클러스터링을 이용하여 대뇌 영상을 분할한다. 본 논문에서는 봉우리 범위에 따른 분할결과와 수행 시간을 비교하고 기존의 분할 방법에 의한 실험 결과와 수행시간을 비교하여 보이는데 제안한 방법의 분할결과가 기존의 방법에 의한 결과보다 더 나은 결과를 보임을 확인할 수 있었다.

  • PDF