• 제목/요약/키워드: process repository

검색결과 211건 처리시간 0.03초

데이터 클러스터링을 위한 혼합 시뮬레이티드 어닐링 (Hybrid Simulated Annealing for Data Clustering)

  • 김성수;백준영;강범수
    • 산업경영시스템학회지
    • /
    • 제40권2호
    • /
    • pp.92-98
    • /
    • 2017
  • Data clustering determines a group of patterns using similarity measure in a dataset and is one of the most important and difficult technique in data mining. Clustering can be formally considered as a particular kind of NP-hard grouping problem. K-means algorithm which is popular and efficient, is sensitive for initialization and has the possibility to be stuck in local optimum because of hill climbing clustering method. This method is also not computationally feasible in practice, especially for large datasets and large number of clusters. Therefore, we need a robust and efficient clustering algorithm to find the global optimum (not local optimum) especially when much data is collected from many IoT (Internet of Things) devices in these days. The objective of this paper is to propose new Hybrid Simulated Annealing (HSA) which is combined simulated annealing with K-means for non-hierarchical clustering of big data. Simulated annealing (SA) is useful for diversified search in large search space and K-means is useful for converged search in predetermined search space. Our proposed method can balance the intensification and diversification to find the global optimal solution in big data clustering. The performance of HSA is validated using Iris, Wine, Glass, and Vowel UCI machine learning repository datasets comparing to previous studies by experiment and analysis. Our proposed KSAK (K-means+SA+K-means) and SAK (SA+K-means) are better than KSA(K-means+SA), SA, and K-means in our simulations. Our method has significantly improved accuracy and efficiency to find the global optimal data clustering solution for complex, real time, and costly data mining process.

가우시안 기반 Hyper-Rectangle 생성을 이용한 효율적 단일 분류기 (An Efficient One Class Classifier Using Gaussian-based Hyper-Rectangle Generation)

  • 김도균;최진영;고정한
    • 산업경영시스템학회지
    • /
    • 제41권2호
    • /
    • pp.56-64
    • /
    • 2018
  • In recent years, imbalanced data is one of the most important and frequent issue for quality control in industrial field. As an example, defect rate has been drastically reduced thanks to highly developed technology and quality management, so that only few defective data can be obtained from production process. Therefore, quality classification should be performed under the condition that one class (defective dataset) is even smaller than the other class (good dataset). However, traditional multi-class classification methods are not appropriate to deal with such an imbalanced dataset, since they classify data from the difference between one class and the others that can hardly be found in imbalanced datasets. Thus, one-class classification that thoroughly learns patterns of target class is more suitable for imbalanced dataset since it only focuses on data in a target class. So far, several one-class classification methods such as one-class support vector machine, neural network and decision tree there have been suggested. One-class support vector machine and neural network can guarantee good classification rate, and decision tree can provide a set of rules that can be clearly interpreted. However, the classifiers obtained from the former two methods consist of complex mathematical functions and cannot be easily understood by users. In case of decision tree, the criterion for rule generation is ambiguous. Therefore, as an alternative, a new one-class classifier using hyper-rectangles was proposed, which performs precise classification compared to other methods and generates rules clearly understood by users as well. In this paper, we suggest an approach for improving the limitations of those previous one-class classification algorithms. Specifically, the suggested approach produces more improved one-class classifier using hyper-rectangles generated by using Gaussian function. The performance of the suggested algorithm is verified by a numerical experiment, which uses several datasets in UCI machine learning repository.

정보 유사성 기반 입자화 중심 RBF NN의 진화론적 설계 (Genetic Design of Granular-oriented Radial Basis Function Neural Network Based on Information Proximity)

  • 박호성;오성권;김현기
    • 전기학회논문지
    • /
    • 제59권2호
    • /
    • pp.436-444
    • /
    • 2010
  • In this study, we introduce and discuss a concept of a granular-oriented radial basis function neural networks (GRBF NNs). In contrast to the typical architectures encountered in radial basis function neural networks(RBF NNs), our main objective is to develop a design strategy of GRBF NNs as follows : (a) The architecture of the network is fully reflective of the structure encountered in the training data which are granulated with the aid of clustering techniques. More specifically, the output space is granulated with use of K-Means clustering while the information granules in the multidimensional input space are formed by using a so-called context-based Fuzzy C-Means which takes into account the structure being already formed in the output space, (b) The innovative development facet of the network involves a dynamic reduction of dimensionality of the input space in which the information granules are formed in the subspace of the overall input space which is formed by selecting a suitable subset of input variables so that the this subspace retains the structure of the entire space. As this search is of combinatorial character, we use the technique of genetic optimization to determine the optimal input subspaces. A series of numeric studies exploiting some nonlinear process data and a dataset coming from the machine learning repository provide a detailed insight into the nature of the algorithm and its parameters as well as offer some comparative analysis.

Data Citation Index를 기반으로 한 연구데이터 인용에 관한 연구 (Study about Research Data Citation Based on DCI (Data Citation Index))

  • 조재인
    • 한국문헌정보학회지
    • /
    • 제50권1호
    • /
    • pp.189-207
    • /
    • 2016
  • 연구데이터의 개방과 공유는 연구의 효율성과 연구 과정의 투명성을 제고할 뿐 아니라, 데이터 통합과 재해석을 통해 새로운 과학으로의 창출도 가능하다. 서구를 중심으로 연구데이터 공개와 재사용을 위한 다양한 정책이 개발되면서 표준적인 인용 체계도 자리를 잡아가고 있다. 본 연구는 연구데이터 인용색인 DCI(Data Citation Index)를 기반으로 연구데이터의 구축 규모와 인용 정도를 파악하고, 기술통계분석과 Kruskal-Wallis H 분석을 통해서 고인용 데이터의 특성과 인용 경향을 분석해 보았다. 또한 알트매트릭스(Altmetrics) 분석 도구인 Impactstory를 통하여 연구데이터의 사회적 영향력도 진단해 보았다. 그 결과 연구데이터의 규모는 유전학과 생명공학 분야가 압도적으로 크지만, 다수 인용된 분야는 인구, 고용 등 경제 사회과학분야인 것으로 나타났으며, UK Data Archive, ICPSR(Inter-University Consortium For Political And Social Research)에 구축된 연구데이터가 가장 많이 인용되고 있는 것으로 분석되었다. 또한 데이터세트보다는 조사방법과 연구방법론이 포함된 데이터스터디가 높은 피인용도를 보이는 것으로 나타났으며, 연구데이터의 알트매트릭스 분석 결과에서도 사회과학분야의 데이터스터디가 상대적으로 많이 참조되고 있는 것으로 나타났다.

원시코드의 메타 정보 관리를 위한 버전 제어 시스템의 설계와 구현 (Design and Implementation of Version Control System for Meta Information Management of Source Codes)

  • 오상엽;장덕철
    • 한국정보처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.633-648
    • /
    • 1998
  • 빠른 컴퓨팅 환경과 응용 구조의 변화, 그리고 다양한 요구는 소프트웨어 개발에 대한 수요를 증대시키고 있다. 버전제어는 기존의 소프트웨어를 구축하는데 사용된 델타를 이용하여 소프트웨어의 생산성을 향상시킨다. 본 논문에서는 검색 시스템과 델타 관리 프로그램으로 구성된 객체지향 버전제어 시스템을 설계 및 구현하였다. 검색 시스템에서는 다양한 검색 방법을 제안한다. 이 방법은 파일 이름, 내용, 크기, 그리고 작업일자를 가지고 처리하는 방법론을 제공한다. 다양한 검색 방법은 효율적인 델타 관리를 위해 중요하다. 이러한 방법을 이용하여 델타 관리를 위한 메타 데이터를 쉽게 구성할 수 있다. 구현된 버전 제어 시스템은 다른 시스템과 비교하여 다음과 같은 장점을 가진다. 첫째, 델타 관리를 위해 전향적 및 후향적 방법을 통합하여 버전의 유지보수를 처리한다. 둘째, 프로젝트내에서 델타 관리 분은 전향적과 후향적 방법을 통합하여 관리의 효율성을 증대한다. 제안된 시스템은 프로젝트 저장소를 위해 파일과 데이터베이스를 사용하는 방법을 지원하여, 효율적인 버전 관리가 되도록 하였다.

  • PDF

시멘틱 웹 기반의 비교구매 에이전트를 위한 동적 웹 온톨로지에 대한 연구 (A Study of Dynamic Web Ontology for Comparison-shopping Agent based on Semantic Web)

  • 김수경;안기홍
    • 지능정보연구
    • /
    • 제11권2호
    • /
    • pp.31-45
    • /
    • 2005
  • 본 논문에서는 전자상거래 상점별로 상이하게 정의되고 표현되어 있는 디지털 캠코더에 대한 HTML 페이지의 상품 정보를 래퍼(Wrapper)기술을 이용하여 획득하고 이를 RDF 문서 변환기를 통해 RDF 트리플(triple)과 RDF 문서로 변환하여 디지털 캠코더에 대한 메타데이터 스키마를 설계한다. 설계된 메타데이터 스키마를 기반으로 OWL 웹 온톨로지로 변환하고 이를 관계형 데이터베이스로 구현된 디지털 캠코더(DC: Digital Camcoder) 도메인 온톨로지 저장소(Domain Ontology Repository)에 DCC 지식 베이스 온톨로지 (DCCKBO: DCC Knowledge Based Ontology)로 저장한다. 다음 각 상점의 RDF 트리플과 문서를 DCCKBO와 비교, 매핑 그리고 추론 과정을 통해 최적의 상품 구매 정보를 가진 상점의 DCC 정보를 구매자에게 제공하고, DCCKBO에 저장되어 있는 도메인 온톨로지를 최적의 상품 구매 정보의 내용으로 재 정의하는 동적 웹 온톨로지를 제안하고자 한다.

  • PDF

토픽 모델과 버그 리포트 메타 필드를 이용한 버그 심각도 예측 방법 (Predicting Bug Severity by utilizing Topic Model and Bug Report Meta-Field)

  • 양근석;이병정
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권9호
    • /
    • pp.616-621
    • /
    • 2015
  • 최근 개발된 소프트웨어들은 많은 수의 컴포넌트들을 가지고 있으며, 복잡성 또한 증가하고 있다. 지난 해 오픈소스 프로젝트 (Eclipse, Mozilla)에서는 하루에 약 375건의 버그 리포트가 제출되었다. 이렇게 증가된 버그 리포트들로 인해 개발자들의 시간과 노력이 불필요하게 증가하고 있다. 또 버그 심각도는 품질 보증 담당자, 프로젝트 매니저 또는 개발자에 의해 직접 판단되므로 그들에 의해 주관적으로 결정된다. 또한 많은 수의 버그 리포트 때문에 심각도 판단에서 실수할 수도 있다. 따라서 본 논문에서는 버그 심각도 예측 방법을 제안한다. 먼저, 새로운 버그 리포트가 제출되면, 유사한 토픽을 찾아내고 버그 리포트의 메타 필드를 이용하여 후보 버그 리포트의 범위를 줄인다. 추출된 버그 리포트를 Naive Bayes Multinomial 기법에 훈련하여 새로운 버그 리포트의 심각성을 예측한다. 오픈소스 프로젝트에 본 방법을 적용하여 본 방법이 버그 심각도 예측에 효과적이라는 것을 보인다.

SaaS 환경에서 SLA 보장을 위한 명세 및 교환 방법 (A Specification and Exchange Method for Supporting SLA in SaaS Environment)

  • 남태우;강태준;장문수;안영민;염근혁
    • 소프트웨어공학소사이어티 논문지
    • /
    • 제26권2호
    • /
    • pp.45-52
    • /
    • 2013
  • 클라우드 컴퓨팅 서비스를 제공하는 사업자는 이용자에게 신뢰성 있고 일관된 품질을 제공하기 위해서 SLA를 보장해야 한다. SLA(Service Level Agreement)는 서비스 사업자가 제공하는 서비스를 대상으로 가용성 등 일정한 서비스 수준을 보장하기 위해 맺는 서비스 사업자와 고객간의 계약이다. 클라우드 컴퓨팅은 다양한 클라우드 서비스의 IT 자원에 따라 IaaS, PaaS, SaaS 등으로 구분되는데 기존의 SLA는 물리적인 네트워크 환경에 대한 요소만 고려하고 있어서 제공되는 서비스의 품질 요소는 반영하기 어렵다. 본 논문에서는 SaaS 레벨에서의 SLA 명세를 위한 XML 스키마를 가지는 명세 언어와 이를 교환하기 위한 UDDI 기반의 교환 프로세스 및 아키텍처를 제안한다. 클라우드 환경에서 SaaS의 품질 요구사항은 제안한 명세 언어로 정의되고 품질 명세 저장소에 저장되며 교환 아키텍처를 기반으로 서비스 바인딩 시 교환된다.

  • PDF

점토질 퇴적암 내 굴착영향영역 투수특성의 시간경과 변화 파악을 위한 수치해석기법에 대한 고찰 (Review of Numerical Approaches to Simulate Time Evolution of Excavation-Induced Permeability in Argillaceous Rocks)

  • 김형목;박의섭
    • 터널과지하공간
    • /
    • 제30권6호
    • /
    • pp.519-539
    • /
    • 2020
  • 본 고에서는 점토질 퇴적암 부지에 건설되는 처분갱도 주변 굴착영향영역에서의 투수특성을 평가하기 위한 수치해석기법을 검토하였다. 팽창성 점토를 함유한 퇴적암에 형성된 굴착영향영역 내 균열은 포화과정에서 점진적으로 간극을 상실하고 주변 모암의 투수계수에 수렴해 가는 자기 치유(self-healing) 혹은 자기 밀봉(self-sealing) 특성을 보이는 것으로 알려져 있다. 본고에 소개된 수치해석기법은 실내 및 현장실험을 통해 관측된 균열의 자기 치유 거동을 고려함으로써 처분장 건설 후 장기 운영과정에서 예상되는 굴착영향영역 투수계수의 시공간적 변화를 파악할 수 있는 특징이 있다. 지하연구시설 내 굴착 갱도 주변에서 현장투수시험을 통해 획득한 투수계수 측정치와 수치해석에 의한 결과를 비교 분석함으로서 활용타당성을 검증하였다.

High-performance computing for SARS-CoV-2 RNAs clustering: a data science-based genomics approach

  • Oujja, Anas;Abid, Mohamed Riduan;Boumhidi, Jaouad;Bourhnane, Safae;Mourhir, Asmaa;Merchant, Fatima;Benhaddou, Driss
    • Genomics & Informatics
    • /
    • 제19권4호
    • /
    • pp.49.1-49.11
    • /
    • 2021
  • Nowadays, Genomic data constitutes one of the fastest growing datasets in the world. As of 2025, it is supposed to become the fourth largest source of Big Data, and thus mandating adequate high-performance computing (HPC) platform for processing. With the latest unprecedented and unpredictable mutations in severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2), the research community is in crucial need for ICT tools to process SARS-CoV-2 RNA data, e.g., by classifying it (i.e., clustering) and thus assisting in tracking virus mutations and predict future ones. In this paper, we are presenting an HPC-based SARS-CoV-2 RNAs clustering tool. We are adopting a data science approach, from data collection, through analysis, to visualization. In the analysis step, we present how our clustering approach leverages on HPC and the longest common subsequence (LCS) algorithm. The approach uses the Hadoop MapReduce programming paradigm and adapts the LCS algorithm in order to efficiently compute the length of the LCS for each pair of SARS-CoV-2 RNA sequences. The latter are extracted from the U.S. National Center for Biotechnology Information (NCBI) Virus repository. The computed LCS lengths are used to measure the dissimilarities between RNA sequences in order to work out existing clusters. In addition to that, we present a comparative study of the LCS algorithm performance based on variable workloads and different numbers of Hadoop worker nodes.