• Title/Summary/Keyword: 대용량 자료

Search Result 369, Processing Time 0.027 seconds

Introduction to Concept in Association Rule Mining (연관규칙 마이닝에서의 Concept 개요)

  • ;;R. S. Famakrishna
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.100-102
    • /
    • 2002
  • 데이터 마이닝의 대표적인 기법인 연관규칙 마이닝을 위한 다양만 알고리즘들이 제안되었고, 각 알고리즘에 따른 대용량 데이터에 대한 신속한 탐색을 위한 독특한 자료구조가 제안되었다 각 자료구조의 특성에 따른 알고리즘 성능은 데이터의 패턴에 크게 의존한다. 본 논문에서는 Concept을 형성하는 세가지 대표적인 자료구조인 Hash Tree, Lattice. FP-Tree에 대해 비교 분석해보고, 데이터 패턴에 적합한 효율적인 알고리즘의 설계 위한 framework을 제안한다.

  • PDF

A Fast Algorithm for Constructing Suffix Arrays (써픽스 배열을 구축하는 빠른 알고리즘)

  • 조준하;박희진;김동규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.736-738
    • /
    • 2004
  • 써픽스 배열은 정렬된 모든 써픽스들의 인덱스를 저장한 자료구조이며, 긴 문자열에서 임의의 패턴을 효율적으로 검색을 할 수 있는 자료구조이다. 비슷한 자료구조인 써픽스 트리에 비해 적은 공간을 사용하기 때문에 대용량의 텍스트에 대한 처리에 더 적합하다. 본 논문에서는 써픽스 배열을 빠르게 구축하는 방법을 제안하고, 써픽스 배열 구축 알고리즘들 중에서 빠르다고 알려진 Larsson and Sadakane 알고리즘, 대표적인 선형 시간 알고리즘인 Karkkainen and Sanders 알고리즘 및 최근에 발표된 고정길이 문자집합에 효율적인 Kim et al. 알고리즘과 성능을 비교한다. 실험 결과 본 논문에서 제안한 알고리즘이 전반적으로 빠르게 써픽스 배열을 구축하였다.

  • PDF

A Pragmatic Approach for Determining Overfishing and Overfished Condition for Assessing Data-deficient Fisheries (평가자료가 결핍된 어업의 과도어획상태와 자원의 남획여부를 결정하는 실용적인 방법)

  • Zhang, Chang-Ik;Lee, Jae-Min
    • Journal of Fisheries and Marine Sciences Education
    • /
    • v.25 no.5
    • /
    • pp.1009-1019
    • /
    • 2013
  • 본 연구는 어업자원이 건강한 상태에 있는지 아니면 남획된 상태에 있는지를 판단하고, 현재 어업활동이 과도한지 아닌지를 판단하기 위한 간단하고 실용적인 방법을 개발하였다. 자원평가를 수행시에는 고가의 자료와 고도의 기술력이 요구되는 어려움이 있는데, 특히 소규모 어업과 다종어업에서 어려움이 더욱 심하다. 본 연구에서 개발된 방법은 어업자원의 구체적인 상태와 어업활동의 객관적인 상태를 고려해서 어업자원을 보존하고 어업활동을 규제할 수 있는 실용적이고 신뢰할 수 있는 방법이다. 예를 들어, 자원량과 어획사망률을 추정하는데 필요한 자료가 없거나, 추정할 수있는 과학적 능력이 부족한 경우에는, 자원량을 대용해서 단위노력당어획량을 사용하고 어획사망률을 대용해서 어획노력량 자료를 사용할 수 있다. 본 연구에서 제시한 방법의 실현가능성과 유용성을 입증하기 위하여, 복수어종으로 집계된 어획량과 어획노력량 만으로 된 경우나 또는 개체군 특성치 정보와 체장자료 만이 이용 가능한 경우에 대해 적용하였다. 이 방법은 수산자원의 보존이라는 전지구적 목표를 달성하는데 있어서, 필요한 자원상태와 어업상태를 판단해서 어획활동을 규제하고 조정할 수 있는 유용한 방법이 될 수 있을 것으로 보인다.

An Approach of Scalable SHIF Ontology Reasoning using Spark Framework (Spark 프레임워크를 적용한 대용량 SHIF 온톨로지 추론 기법)

  • Kim, Je-Min;Park, Young-Tack
    • Journal of KIISE
    • /
    • v.42 no.10
    • /
    • pp.1195-1206
    • /
    • 2015
  • For the management of a knowledge system, systems that automatically infer and manage scalable knowledge are required. Most of these systems use ontologies in order to exchange knowledge between machines and infer new knowledge. Therefore, approaches are needed that infer new knowledge for scalable ontology. In this paper, we propose an approach to perform rule based reasoning for scalable SHIF ontologies in a spark framework which works similarly to MapReduce in distributed memories on a cluster. For performing efficient reasoning in distributed memories, we focus on three areas. First, we define a data structure for splitting scalable ontology triples into small sets according to each reasoning rule and loading these triple sets in distributed memories. Second, a rule execution order and iteration conditions based on dependencies and correlations among the SHIF rules are defined. Finally, we explain the operations that are adapted to execute the rules, and these operations are based on reasoning algorithms. In order to evaluate the suggested methods in this paper, we perform an experiment with WebPie, which is a representative ontology reasoner based on a cluster using the LUBM set, which is formal data used to evaluate ontology inference and search speed. Consequently, the proposed approach shows that the throughput is improved by 28,400% (157k/sec) from WebPie(553/sec) with LUBM.

Divide and conquer kernel quantile regression for massive dataset (대용량 자료의 분석을 위한 분할정복 커널 분위수 회귀모형)

  • Bang, Sungwan;Kim, Jaeoh
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.5
    • /
    • pp.569-578
    • /
    • 2020
  • By estimating conditional quantile functions of the response, quantile regression (QR) can provide comprehensive information of the relationship between the response and the predictors. In addition, kernel quantile regression (KQR) estimates a nonlinear conditional quantile function in reproducing kernel Hilbert spaces generated by a positive definite kernel function. However, it is infeasible to use the KQR in analysing a massive data due to the limitations of computer primary memory. We propose a divide and conquer based KQR (DC-KQR) method to overcome such a limitation. The proposed DC-KQR divides the entire data into a few subsets, then applies the KQR onto each subsets and derives a final estimator by aggregating all results from subsets. Simulation studies are presented to demonstrate the satisfactory performance of the proposed method.

A Performance Comparison of Distributed Data Processing Frameworks for Large Scale Graph Data (대규모 분산 처리 프레임워크에 따른 대규모 그래프 처리 성능 비교)

  • Bae, Kyung-sook;Kong, Yong-joon;Shim, Tak-kil;Shin, Eui-seob;Seong, Kee-kin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.469-472
    • /
    • 2012
  • 최근 IT 분야의 화두로 '빅 데이터'가 떠오르고 있으며 많은 기업들이 이를 분석하여 이익을 증대하기 위한 노력을 하고 있다. 이에 구글은 초기에 맴리듀스라고 하는 대용량 분산처리 프레임워크 기술을 확보하여 이를 기반으로 한 서비스를 제공하고 있다. 그러나 스마트 단말 및 소설미디어 등의 출현으로 다양한 디지털 정보들이 그래프로 표현되는 추세가 강화되고 있으며 기존의 맵리듀스로 이를 처리하는 데에 한계를 느낀 구글은 Pregel 이라는 그래프 형 자료구조에 최적화된 또 다른 분산 프레임워크를 개발하였다. 본 논문에서는 일반적인 그래프 형 데이터가 갖는 특성을 분석하고, 대용량 그래프 데이터를 처리하는데 있어 맵리듀스가 갖는 한계와 Pregel은 어떤 방식으로 이를 극복하고 있는지를 소개한다. 또한 실험을 통하여 데이터의 특성에 따른 적절한 프레임워크의 선택이 대용량 데이터를 처리하는 데에 있어서 얼마나 큰 영향을 미치는지 확인한다.

Suffix Tree Constructing Algorithm for Large DNA Sequences Analysis (대용량 DNA서열 처리를 위한 서픽스 트리 생성 알고리즘의 개발)

  • Choi, Hae-Won
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.15 no.1
    • /
    • pp.37-46
    • /
    • 2010
  • A Suffix Tree is an efficient data structure that exposes the internal structure of a string and allows efficient solutions to a wide range of complex string problems, in particular, in the area of computational biology. However, as the biological information explodes, it is impossible to construct the suffix trees in main memory. We should find an efficient technique to construct the trees in a secondary storage. In this paper, we present a method for constructing a suffix tree in a disk for large set of DNA strings using new index scheme. We also show a typical application example with a suffix tree in the disk.

Cloud Computing-Based Processing of Large Volume UAV Images Acquired in Disaster Sites (재해/재난 현장에서 취득한 대용량 무인기 영상의 클라우드 컴퓨팅 기반 처리)

  • Han, Soohee
    • Korean Journal of Remote Sensing
    • /
    • v.36 no.5_3
    • /
    • pp.1027-1036
    • /
    • 2020
  • In this study, a cloud-based processing method using Agisoft Metashape, a commercial software, and Amazon web service, a cloud computing service, is introduced and evaluated to quickly generate high-precision 3D realistic data from large volume UAV images acquired in disaster sites. Compared with on-premises method using a local computer and cloud services provided by Agisoft and Pix4D, the processes of aerial triangulation, 3D point cloud and DSM generation, mesh and texture generation, ortho-mosaic image production recorded similar time duration. The cloud method required uploading and downloading time for large volume data, but it showed a clear advantage that in situ processing was practically possible. In both the on-premises and cloud methods, there is a difference in processing time depending on the performance of the CPU and GPU, but notso much asin a performance benchmark. However, it wasfound that a laptop computer equipped with a low-performance GPU takes too much time to apply to in situ processing.

Mining Frequent Pattern from Large Spatial Data (대용량 공간 데이터로 부터 빈발 패턴 마이닝)

  • Lee, Dong-Gyu;Yi, Gyeong-Min;Jung, Suk-Ho;Lee, Seong-Ho;Ryu, Keun-Ho
    • Journal of Korea Spatial Information System Society
    • /
    • v.12 no.1
    • /
    • pp.49-56
    • /
    • 2010
  • Many researches of frequent pattern mining technique for detecting unknown patterns on spatial data have studied actively. Existing data structures have classified into tree-structure and array-structure, and those structures show the weakness of performance on dense or sparse data. Since spatial data have obtained the characteristics of dense and sparse patterns, it is important for us to mine quickly dense and sparse patterns using only single algorithm. In this paper, we propose novel data structure as compressed patricia frequent pattern tree and frequent pattern mining algorithm based on proposed data structure which can detect frequent patterns quickly in terms of both dense and sparse frequent patterns mining. In our experimental result, proposed algorithm proves about 10 times faster than existing FP-Growth algorithm on both dense and sparse data.

User Interface of Data Processing, Design and Construction Techniques of Traffic Database Supporting Archived data (교통정보 이력자료 분석을 위한 통합 교통 데이터베이스의 설계 및 구축과 자료처리 이용자 인터페이스)

  • Lee, Yoon-Kyung;Lee, Min-Soo;NamGung, Sung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.55-59
    • /
    • 2008
  • 분산되어 있는 여러 운영계 시스템에서 대용량의 교통자료를 가져와 교통정보 이력자료를 분석할 수 있는 단일 통합 교통 데이터베이스를 구축한다. 품질 평가, 오류 판단, 결측보정과 평활화 등의 자료처리 과정을 거친 교통자료는 자료의 신뢰도를 판단하고 활용도를 높일 수 있게 해주며 이용자에게 고속도로 통행료 수납자료, 고속도로 전자통행료 수납자료, 차량검지장치자료, 도로전광표지자료, 돌발상황자료, 기상자료, 차량번호인식장치자료 등에 대한 검색 및 자료 처리 기능을 제공한다.

  • PDF