• 제목/요약/키워드: Distributed data mining

검색결과 111건 처리시간 0.024초

서비스 부문의 기술혁신목적별 정부 지원제도의 활용도 분석 연구 (Data Mining for the Effectiveness of Government Support Strategies for Technology Innovation in Service Sectors)

  • 황두현;김우진;손소영
    • 산업공학
    • /
    • 제21권2호
    • /
    • pp.237-246
    • /
    • 2008
  • In today's competitive global environment, technological innovation is an important issue. Many countries are devising national level strategies to further strengthen industrial capacity in support of innovative companies. South Korea is no exception, and multiple strategies are in place to aid innovative development in the private sector. This study postulates that such national level strategies are applied differently depending on the innovation goal pursued by the service sector in Korea. We use data mining methods to test such research hypothesis. Factor analysis is used for clustering of various service companies, while association rule is used in finding the relationship per each cluster. The results show that national level strategies are underutilized and unequally distributed. This may be attributed to the disparity between the demand and needs of the private sector and the opinion of the government, which lead to underutilized and indistinguishable strategies.

Contribution to Improve Database Classification Algorithms for Multi-Database Mining

  • Miloudi, Salim;Rahal, Sid Ahmed;Khiat, Salim
    • Journal of Information Processing Systems
    • /
    • 제14권3호
    • /
    • pp.709-726
    • /
    • 2018
  • Database classification is an important preprocessing step for the multi-database mining (MDM). In fact, when a multi-branch company needs to explore its distributed data for decision making, it is imperative to classify these multiple databases into similar clusters before analyzing the data. To search for the best classification of a set of n databases, existing algorithms generate from 1 to ($n^2-n$)/2 candidate classifications. Although each candidate classification is included in the next one (i.e., clusters in the current classification are subsets of clusters in the next classification), existing algorithms generate each classification independently, that is, without taking into account the use of clusters from the previous classification. Consequently, existing algorithms are time consuming, especially when the number of candidate classifications increases. To overcome the latter problem, we propose in this paper an efficient approach that represents the problem of classifying the multiple databases as a problem of identifying the connected components of an undirected weighted graph. Theoretical analysis and experiments on public databases confirm the efficiency of our algorithm against existing works and that it overcomes the problem of increase in the execution time.

Probabilistic Models for Local Patterns Analysis

  • Salim, Khiat;Hafida, Belbachir;Ahmed, Rahal Sid
    • Journal of Information Processing Systems
    • /
    • 제10권1호
    • /
    • pp.145-161
    • /
    • 2014
  • Recently, many large organizations have multiple data sources (MDS') distributed over different branches of an interstate company. Local patterns analysis has become an effective strategy for MDS mining in national and international organizations. It consists of mining different datasets in order to obtain frequent patterns, which are forwarded to a centralized place for global pattern analysis. Various synthesizing models [2,3,4,5,6,7,8,26] have been proposed to build global patterns from the forwarded patterns. It is desired that the synthesized rules from such forwarded patterns must closely match with the mono-mining results (i.e., the results that would be obtained if all of the databases are put together and mining has been done). When the pattern is present in the site, but fails to satisfy the minimum support threshold value, it is not allowed to take part in the pattern synthesizing process. Therefore, this process can lose some interesting patterns, which can help the decider to make the right decision. In such situations we propose the application of a probabilistic model in the synthesizing process. An adequate choice for a probabilistic model can improve the quality of patterns that have been discovered. In this paper, we perform a comprehensive study on various probabilistic models that can be applied in the synthesizing process and we choose and improve one of them that works to ameliorate the synthesizing results. Finally, some experiments are presented in public database in order to improve the efficiency of our proposed synthesizing method.

EDF: An Interactive Tool for Event Log Generation for Enabling Process Mining in Small and Medium-sized Enterprises

  • Frans Prathama;Seokrae Won;Iq Reviessay Pulshashi;Riska Asriana Sutrisnowati
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권6호
    • /
    • pp.101-112
    • /
    • 2024
  • 본 논문에서는 프로세스 마이닝을 위한 이벤트 로그 생성을 지원하도록 설계된 대화형 도구인 EDF(Event Data Factory)를 소개한다. EDF는 다양한 데이터 커넥터를 통합하여 사용자가 다양한 데이터 소스에 연결할 수 있도록 지원한다. 이 도구는 그래프 기반 시각화와 함께 로우 코드/노코드 기술을 사용하여 비전문가 사용자가 프로세스 흐름을 이해하도록 돕고, 사용자 경험을 향상시킨다. EDF는 메타데이터 정보를 활용하여 사용자가 case, activity 및 timestamp 속성을 포함하는 이벤트 로그를 효율적으로 생성할 수 있도록 한다. 로그 품질 메트릭을 통해 사용자는 생성된 이벤트 로그의 품질을 평가할 수 있다. 우리는 클라우드 기반 아키텍처에서 EDF를 구현하고 성능평가를 실행했으며, 본 연구와 결과는 EDF의 사용성과 적용 가능성을 보여주었다. 마지막으로 관찰 연구를 통해 EDF가 사용하기 쉽고 유용하여 프로세스 마이닝 애플리케이션에 대한 중소기업(SME)의 접근을 확장한다는 사실을 확인했다.

Design and Implementation of a USN Middleware for Context-Aware and Sensor Stream Mining

  • Jin, Cheng-Hao;Lee, Yang-Koo;Lee, Seong-Ho;Yun, Un-il;Ryu, Keun-Ho
    • Spatial Information Research
    • /
    • 제19권1호
    • /
    • pp.127-133
    • /
    • 2011
  • Recently, with the advances in sensor techniques and net work computing, Ubiquitous Sensor Network (USN) has been received a lot of attentions from various communities. The sensor nodes distributed in the sensor network tend to continuously generate a large amount of data, which is called stream data. Sensor stream data arrives in an online manner so that it is characterized as high-speed, real-time and unbounded and it requires fast data processing to get the up-to-date results. The data stream has many application domains such as traffic analysis, physical distribution, U-healthcare and so on. Therefore, there is an overwhelming need of a USN middleware for processing such online stream data to provide corresponding services to diverse applications. In this paper, we propose a novel USN middleware which can provide users both context-aware service and meaningful sequential patterns. Our proposed USN middleware is mainly focused on location based applications which use stream location data. We also show the implementation of our proposed USN middleware. By using the proposed USN middleware, we can save the developing cost of providing context aware services and stream sequential patterns mainly in location based applications.

새로운 침입 패턴을 위한 데이터 마이닝 침입 탐지 시스템 설계 ((Design of data mining IDS for new intrusion pattern))

  • 편석범;정종근;이윤배
    • 대한전자공학회논문지TE
    • /
    • 제39권1호
    • /
    • pp.77-82
    • /
    • 2002
  • 침입 탐지 시스템은 침입 판정과 감사 데이터(audit data) 수집 분야에서 많은 연구가 진행되고 있다. 침입 판정은 주어진 일련의 행위들이 침입인지 아닌지를 정확히 판정해야 하고 감사 자료 수집에서는 침입판정에 필요한 데이터만을 정확히 수집하는 능력이 필요하다. 최근에 이러한 문제점을 해결하기 위해 규칙 기반 시스템과 신경망 등의 인공지능적인 방법들이 도입되고 있다. 그러나 이러한 방법들은 단일 호스트 구조로 되어있거나 변형된 새로운 침입 패턴이 발생했을 때 탐지하지 못하는 단점이 있다. 따라서, 본 논문에서는 분산된 이기종 간의 호스트에서 사용자의 행위를 추출하여 패턴을 검색, 예측할 수 있는 데이터 마이닝을 적용하여 실시간으로 침입을 탐지하는 방법을 제안하고자 한다.

침입탐지시스템에서 긍정적 결함을 최소화하기 위한 학습 방법 (Learning Method for minimize false positive in IDS)

  • 정종근;김철원
    • 한국정보통신학회논문지
    • /
    • 제7권5호
    • /
    • pp.978-985
    • /
    • 2003
  • 시스템에서 사용 패턴의 다양화 때문에 비정상 행위 탐지 IDS를 구현하는 것은 오용탐지 IDS를 구현하는 것보다 많은 어려움이 있다. 따라서 상용화되어 있는 대부분의 IDS는 오용 탐지 방법에 의한 것이다. 그러나 이러한 오용 탐지 방법에 의한 IDS는 변형된 침입 패턴이 발생할 경우 탐지해내 지 못한다는 단점을 가지고 있다. 본 논문에서는 감사데이터간의 침입 관계를 가지고 침입을 탐지하기 위해 데이터 마이닝 기법을 적용한다. 분산되어 있는 IDS에서의 에이전트는 시스템을 감시할뿐만 아니라 로그데이터까지 수집할 수 있다. 침입탐지시스템의 핵심인 탐지정확도를 높이기 위해 긍정적 결함이 최소화 되어야 한다. 따라서 감사데이터 학습단계에서 변형된 침입 패턴을 예측하기 위해서 데이터 마이닝 알고리즘을 적용한다.

변형 침입 패턴을 위한 데이터 마이닝 침입 탐지 시스템 설계 (Design of data mining IDS for transformed intrusion pattern)

  • 김용호;정종근;이윤배;김판구;염순자
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2001년도 추계종합학술대회
    • /
    • pp.479-482
    • /
    • 2001
  • 침입 탐지 시스템은 침입 판정과 감사 데이터(audit data) 수집 분야에서 많은 연구가 진행되고 있다. 침입 판정은 주어진 일련의 행위들이 침입인지 아닌지를 정확히 판정해야 하고 감사 자료 수집에서는 침입 판정에 필요한 데이터만을 정확히 수집하는 능력이 필요하다 최근에 이러한 문제점을 해결하기 위해 규칙기반 시스템과 신경망 등의 인공지능적인 방법들이 도입되고 있다. 그러나 이러한 방법들은 단일 호스트 구조로 되어있거나 변형된 침입 패턴이 발생했을 때 탐지하지 못하는 단점이 있다. 따라서, 본 논문에서는 분산된 이기종 간의 호스트에서 사용자의 행위를 추출하여 패턴을 검색, 예측할 수 있는 데이터 마이닝을 적용하여 실시간으로 침입을 탐지하는 방법을 제안하고자 한다.

  • PDF

데이터 마이닝 에이전트를 적용한 침입 탐지 시스템 설계 (Design of Intrusion Detection System applying for data mining agent)

  • 정종근;구제영;김용호;오근탁;이윤배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2002년도 춘계종합학술대회
    • /
    • pp.619-622
    • /
    • 2002
  • 침입 탐지 시스템은 침입 판정과 감사 데이터(audit data) 수집 분야에서 많은 연구가 진행되고 있다. 침입 판정은 주어진 일련의 행위들이 침입인지 아닌지를 정확히 판정해야 하고 감사 자료 수집에서는 침입 판정에 필요한 데이터만을 정확히 수집하는 능력이 필요하다. 최근에 이러한 문제점을 해결하기 위해 규칙기반 시스템과 신경망 등의 인공지능적인 방법들이 도입되고 있다. 그러나 이러한 방법들은 단일 호스트 구조로 되어있거나 변형된 침입 패턴이 발생했을 때 탐지하지 못하는 단절이 있다. 따라서, 본 논문에서는 분산된 이기종 간의 호스트에서 사용자의 행위를 추출하여 패턴을 검색, 예측할 수 있는 데이터 마이닝 에이전트를 적용하여 실시간으로 침입을 탈지하는 방범을 제안하고자 한다.

  • PDF

SoFA: 검색 지향 시스템을 위한 분산 파일 시스템 (SoFA: A Distributed File System for Search-Oriented Systems)

  • 최은미;쩐도안타인;비핀 우바디야;파흐릇딘 아지모프;루왕용;장옥향;김상범;김필성
    • 한국시뮬레이션학회논문지
    • /
    • 제17권4호
    • /
    • pp.229-239
    • /
    • 2008
  • 분산 파일 시스템(DFS)은 분산 환경에서 장애와 사본에 대한 투명성을 보장하며 파일을 다수의 물리적인 컴퓨터 노드들에게 저장할 수 있는 메카니즘을 제공한다. 검색엔진, 그리드 컴퓨팅, 데이터 마이닝 어플리케이션등과 같이 많은 양의 데이터를 처리하는 어플리케이션들은 데이터 저장을 위한 백엔드 인프라 구조를 제공할 필요가 있다. 분산 파일 시스템은 이러한 저장 데이터 기반을 위한 주요 구성요소가 된다. 많은 프로젝트의 관심사가 되는 네트워크 컴퓨팅은 이와 같이 설계 및 구현된 분산파일 시스템을 갖추고 있으며, 다양한 아키텍처와 기능들을 시스템의 특성에 따라서 제공하고 있다. 이 논문에서는 대용량의 검색 지향적인 시스템에서 사용되는 SOFA 분산 파일 시스템, 메카니즘들과 성능들을 소개한다.

  • PDF