• 제목/요약/키워드: Repository Mining

검색결과 37건 처리시간 0.04초

다형의 버그 추적 시스템 마이닝 및 분석을 위한 저장소 독립 모델 설계 (Designing a Repository Independent Model for Mining and Analyzing Heterogeneous Bug Tracking Systems)

  • 이재권;정우성
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권9호
    • /
    • pp.103-115
    • /
    • 2014
  • 본 논문은 다양한 버그 추적 시스템으로부터 추출한 데이터를 통합하여 단일 저장소 모델을 제공하는 UniBAS(Unified Bug Analysis System)를 제안한다. UniBAS는 MSR(Mining Software Repositories) 연구 과정에서의 저장소 추출, 데이터 가공이나 모델 생성과 같은 공통적인 반복 작업을 줄이고, 관련 연구자가 상위 수준의 연구에 보다 집중할 수 있도록 함으로써 해당 연구 수행에 발생하는 복잡도와 비용을 줄여준다. 또한, UniBAS는 데이터 추출 뿐 아니라 질의 기반 분석에 필요한 테이블, 뷰 및 저장 프로시저 등을 자동 생성하며, 수집한 데이터 관리와 외부 도구와의 연동을 위해 다양한 형식의 파일을 생성할 수 있다. 사례 연구로 UniBAS의 유용성을 검증하기 위해 Mozilla사이트의 Firefox프로젝트를 대상으로 실제 중복 버그 리포트를 탐지하는 실험을 진행하였다. 이 과정에서 자동 추출된 자료를 대상으로 질의와 분석이 유연하게 이루어질 수 있었으며, 다양한 자연어 처리 알고리즘 적용을 통해 유효한 실험 결과를 얻을 수 있었다.

예외업무 관리를 위한 비즈니스 프로세스 저장소의 활용 (Business Process Repository for Exception Handling in BPM)

  • 최덕원;신진규;진중현
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2006년도 춘계공동학술대회 논문집
    • /
    • pp.265-270
    • /
    • 2006
  • In an organization where major business operations are geared by business process management system(BPMS), routine tasks are processed according to the predefined business processes. However, most business operations are subject to some sort of exceptions, and the exceptional situations require update of the existing business process model, or a new business process model has to be defined to handle the exceptions. This paper proposes a system architecture that deploys business process repository as the media for storage and retrieval of the various business process models developed for exception handling. Well defined situation variables and decision variables play the key role for efficient storage and retrieval of the business process models developed for exception handling. The data mining technique C5.0 was used to build the optimum path for the process repository search tree.

  • PDF

Statistical Profiles of Users' Interactions with Videos in Large Repositories: Mining of Khan Academy Repository

  • Yassine, Sahar;Kadry, Seifedine;Sicilia, Miguel Angel
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권5호
    • /
    • pp.2101-2121
    • /
    • 2020
  • The rapid growth of instructional videos repositories and their widespread use as a tool to support education have raised the need of studies to assess the quality of those educational resources and their impact on the quality of learning process that depends on them. Khan Academy (KA) repository is one of the prominent educational videos' repositories. It is famous and widely used by different types of learners, students and teachers. To better understand its characteristics and the impact of such repositories on education, we gathered a huge amount of KA data using its API and different web scraping techniques, then we analyzed them. This paper reports the first quantitative and descriptive analysis of Khan Academy repository (KA repository) of open video lessons. First, we described the structure of repository. Then, we demonstrated some analyses highlighting content-based growth and evolution. Those descriptive analyses spotted the main important findings in KA repository. Finally, we focused on users' interactions with video lessons. Those interactions consisted of questions and answers posted on videos. We developed interaction profiles for those videos based on the number of users' interactions. We conducted regression analysis and statistical tests to mine the relation between those profiles and some quality related proposed metrics. The results of analysis showed that all interaction profiles are highly affected by video length and reuse rate in different subjects. We believe that our study demonstrated in this paper provides valuable information in understanding the logic and the learning mechanism inside learning repositories, which can have major impacts on the education field in general, and particularly on the informal learning process and the instructional design process. This study can be considered as one of the first quantitative studies to shed the light on Khan Academy as an open educational resources (OER) repository. The results presented in this paper are crucial in understanding KA videos repository, its characteristics and its impact on education.

Basic Physicochemical and Mechanical Properties of Domestic Bentonite for Use as a Buffer Material in a High-level Radioactive Waste Repository

  • Cho, W.J.;Lee, J.O.;Chun, K.S.;Hahn, D.S.
    • Nuclear Engineering and Technology
    • /
    • 제31권6호
    • /
    • pp.39-50
    • /
    • 1999
  • The physicochemical, mineralogical, hydraulic, swelling and mechanical properties of a domestic bentonite for use as the buffer material in a high-level waste repository have been measured. The bentonite is identified to be a Ca-bentonite, and the hydraulic conductivity of the compacted bentonite with the dry density higher than 1.4 Mg/㎥ is lower than 10$^{-11}$ m/s When the dry densities are 1.4 to 1.8 Mg/㎥, the swelling pressures are in the range of 6.6 to 143.5 kg/$\textrm{cm}^2$. The unconfined compressive strength is about 94 kg/$\textrm{cm}^2$, and the coefficient of volume change and the coefficient of consolidation are in the range of 0.O0249 to 0.02142 $m^2$/MN and 0.018 to 0.115$m^2$/year, respectively.

  • PDF

A Comparison Study of Classification Algorithms in Data Mining

  • Lee, Seung-Joo;Jun, Sung-Rae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제8권1호
    • /
    • pp.1-5
    • /
    • 2008
  • Generally the analytical tools of data mining have two learning types which are supervised and unsupervised learning algorithms. Classification and prediction are main analysis tools for supervised learning. In this paper, we perform a comparison study of classification algorithms in data mining. We make comparative studies between popular classification algorithms which are LDA, QDA, kernel method, K-nearest neighbor, naive Bayesian, SVM, and CART. Also, we use almost all classification data sets of UCI machine learning repository for our experiments. According to our results, we are able to select proper algorithms for given classification data sets.

데이터 마이닝 질의 처리를 위한 질의 처리기 설계 및 구현 (Design and Implementation of a Data Mining Query Processor)

  • 김충석;김경창
    • 정보처리학회논문지D
    • /
    • 제8D권2호
    • /
    • pp.117-124
    • /
    • 2001
  • 데이터 마이닝 시스템은 기본적으로 요약화, 연관화와 분류화 등 다양한 유형의 데이터 마이닝 기능을 포함한다. 이들 기능을 수행하기 위해서 포괄적으로 표현하기 위한 강력한 데이터 마이닝 질의 언어가 요구되며, 사용자에게 보다 친숙한 마이닝 환경을 제공하기 위해서 그래픽 사용자 인터페이스(GUI)를 이용한 데이터 마이닝 질의 언어의 개발이 중요하게 언급된다. 뿐만 아니라 데이터 마이닝 그 자체로서 독립적인 수행이 아니라 수많은 데이터를 포함하며, 의사결정에 적합한 구조로 설계되어 있는 데이터 웨어하우스와 연관된 데이터 마이닝 질의 처리가 필요하다. 본 논문에서는 먼저 GUI를 통하여 사용자가 쉽게 데이터 마이닝 질의를 수행할 수 있도록 한다. 또한 질의를 처리하기 위한 데이터 마이닝 질의 처리 프레임워크를 제시한다. 데이터마이닝 질의의 대상은 데이터 웨어하우스에 저장되어 있는 데이터이기 때문에 데이터 웨어하우스의 구축이 필요하다. 본 논문에서는 데이터 웨어하우스 구축에 필요한 스키마 생성을 위해서 스키마 생성기를 아울러 개발하여 이용한다. 마지막으로 연관 규칙 발견을 위한 데이터 마이닝 질의를 처리하기 위한 질의 처리기의 구현 내용을 보인다.

  • PDF

대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법 (A Hybrid Clustering Technique for Processing Large Data)

  • 김만선;이상용
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.33-40
    • /
    • 2003
  • 데이터 마이닝은 지식발견 과정에서 중요한 역할을 수행하며, 여러 데이터 마이닝의 알고리즘들은 특정의 목적을 위하여 선택될 수 있다. 대부분의 전통적인 계층적 클러스터링 방법은 적은 양의 데이터 집합을 처리하는데 적합하여 제한된 리소스와 부족한 효율성으로 인하여 대용량의 데이터 집합을 다루기가 곤란하다. 본 연구에서는 대용량의 데이터에 적용되어 알려지지 않은 패턴을 발견할 수 있는 하이브리드형 신경망 클러스터링 기법의 PPC(Pre-Post Clustrering) 기법을 제안한다. PPC 기법은 인공지능적 방법인 자기조직화지도(SOM)와 통계적 방법인 계층적 클러스터링을 결합하여 두 과정에서는 군집의 내부적 특징을 나타내는 응집거리와 군집간의 외부적 거리를 나타내는 인접거리에 따라 유사도를 측정한다. 최종적으로 PPC 기법은 측정된 유사도를 이용하여 대용량 데이터 집합을 군집화한다. PPC 기법은 UCI Repository 데이터를 이용하여 실험해 본 결과, 다른 클러스터링 기법들 보다 우수한 응집도를 보였다.

Improvement of SOM using Stratification

  • Jun, Sung-Hae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제9권1호
    • /
    • pp.36-41
    • /
    • 2009
  • Self organizing map(SOM) is one of the unsupervised methods based on the competitive learning. Many clustering works have been performed using SOM. It has offered the data visualization according to its result. The visualized result has been used for decision process of descriptive data mining as exploratory data analysis. In this paper we propose improvement of SOM using stratified sampling of statistics. The stratification leads to improve the performance of SOM. To verify improvement of our study, we make comparative experiments using the data sets form UCI machine learning repository and simulation data.

Using the PubAnnotation ecosystem to perform agile text mining on Genomics & Informatics: a tutorial review

  • Nam, Hee-Jo;Yamada, Ryota;Park, Hyun-Seok
    • Genomics & Informatics
    • /
    • 제18권2호
    • /
    • pp.13.1-13.6
    • /
    • 2020
  • The prototype version of the full-text corpus of Genomics & Informatics has recently been archived in a GitHub repository. The full-text publications of volumes 10 through 17 are also directly downloadable from PubMed Central (PMC) as XML files. During the Biomedical Linked Annotation Hackathon 6 (BLAH6), we experimented with converting, annotating, and updating 301 PMC full-text articles of Genomics & Informatics using PubAnnotation, a system that provides a convenient way to add PMC publications based on PMCID. Thus, this review aims to provide a tutorial overview of practicing the iterative task of named entity recognition with the PubAnnotation/PubDictionaries/TextAE ecosystem. We also describe developing a conversion tool between the Genia tagger output and the JSON format of PubAnnotation during the hackathon.

자동 군집화를 위한 지능화된 데이터 마이닝 에이전트 (Intelligent Data Mining Agent for Automatic Clustering)

  • 박정은;전성해;오경환
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.370-376
    • /
    • 2002
  • 인터넷 환경에서 발생되는 수많은 데이터를 지능적으로 처리할 수 있는 자동화된 분석 시스템의 필요성이 제기된다. 이러한 시스템의 데이터 분석은 크게 지도 학습과 자율 학습으로 나된다. 본 논문에서는 특히 자율학습 군집화에 대한 자동화된 시스템으로서 지능화된 데이터 마이닝 에이전트를 제안한다. 군집화 과정에서는 데이터를 분석하는 분석가가 군집화의 방법과 결과 해석에 실시간으로 관여하기 어렵기 때문에 이러한 작업을 담당하는 지능화된 에이전트가 자동화된 군집화를 담당하면 효과적인 군집화 전략이 될 수 있다. 본 논문의 자동 군집화를 위한 지능화된 데이터 마이닝 에이전트 시스템은 군집화 수행 에이전트와 군집화 성능 평가 에이전트로 구성된 다중 에이전트로서 두 개의 에이전트가 서로 정보를 교환하면서 최적의 군집화를 수행한다. UCI Machine Repository 데이터를 이용한 실험을 통해 제안 시스템의 성능 평가를 수행하였다.

  • PDF