• 제목/요약/키워드: Large data

검색결과 14,050건 처리시간 0.038초

대용량 BIM 형상 데이터 스트리밍을 위한 캐쉬 구조 (BIM Geometry Cache Structure for Data Streaming with Large Volume)

  • 강태욱
    • 한국산학기술학회논문지
    • /
    • 제18권9호
    • /
    • pp.1-8
    • /
    • 2017
  • 본 연구의 목적은 물리적 메모리 할당이 어려운 대용량 BIM(Building Information Modeling) 형상 데이터를 처리하기 위한 캐쉬(cache) 구조를 제안한다. 조달청 등 공공기관에서 BIM 발주가 많아짐에 따라 대용량 BIM 형상 데이터를 가시화하고, 계산해야 하는 경우가 많아지고 있다. 규모가 크고 복합적인 시설물의 경우, 렌더링 및 계산해야하는 형상 수가 많아 사용자가 BIM 모델을 검토하고, 단면을 확인하는 데 어려움을 겪는 경우가 있다. 예를 들어, 설계, 검토 협업 시, 대용량 BIM 데이터를 네트워크를 통해 전달받아야 할 경우, 다운로드에 많은 시간이 걸릴 수 있고, 물리적 여유 메모리 한계를 넘어가면, 에러로 가시화나 형상정보 추출이 불가능할 수도 있다. 물리적 메모리가 부족하거나 대역폭이 적은 네트워크 상에서 대용량 BIM 데이터를 활용하기 위해서는, BIM 형상 렌더링 및 계산 시점에 필요한 데이터만 메모리로 캐쉬(cache) 처리하는 것이 유리하다. 이 연구는 물리적 메모리 할당이 어려운 대용량 BIM 형상 데이터를 효과적으로 렌더링하고 계산하기 위한 BIM 형상 캐쉬 구조를 제안한다.

Training Data Sets Construction from Large Data Set for PCB Character Recognition

  • NDAYISHIMIYE, Fabrice;Gang, Sumyung;Lee, Joon Jae
    • Journal of Multimedia Information System
    • /
    • 제6권4호
    • /
    • pp.225-234
    • /
    • 2019
  • Deep learning has become increasingly popular in both academic and industrial areas nowadays. Various domains including pattern recognition, Computer vision have witnessed the great power of deep neural networks. However, current studies on deep learning mainly focus on quality data sets with balanced class labels, while training on bad and imbalanced data set have been providing great challenges for classification tasks. We propose in this paper a method of data analysis-based data reduction techniques for selecting good and diversity data samples from a large dataset for a deep learning model. Furthermore, data sampling techniques could be applied to decrease the large size of raw data by retrieving its useful knowledge as representatives. Therefore, instead of dealing with large size of raw data, we can use some data reduction techniques to sample data without losing important information. We group PCB characters in classes and train deep learning on the ResNet56 v2 and SENet model in order to improve the classification performance of optical character recognition (OCR) character classifier.

대용량 자료에서 핵심적인 소수의 변수들의 선별과 로지스틱 회귀 모형의 전개 (Screening Vital Few Variables and Development of Logistic Regression Model on a Large Data Set)

  • 임용빈;조재연;엄경아;이선아
    • 품질경영학회지
    • /
    • 제34권2호
    • /
    • pp.129-135
    • /
    • 2006
  • In the advance of computer technology, it is possible to keep all the related informations for monitoring equipments in control and huge amount of real time manufacturing data in a data base. Thus, the statistical analysis of large data sets with hundreds of thousands observations and hundred of independent variables whose some of values are missing at many observations is needed even though it is a formidable computational task. A tree structured approach to classification is capable of screening important independent variables and their interactions. In a Six Sigma project handling large amount of manufacturing data, one of the goals is to screen vital few variables among trivial many variables. In this paper we have reviewed and summarized CART, C4.5 and CHAID algorithms and proposed a simple method of screening vital few variables by selecting common variables screened by all the three algorithms. Also how to develop a logistics regression model on a large data set is discussed and illustrated through a large finance data set collected by a credit bureau for th purpose of predicting the bankruptcy of the company.

ANALYSIS AND INTERCOMPARISON OF VARIOUS GLOBAL EVAPORATION PRODUCTS

  • School of Marine Science and Technology, Tokai University, Tsuyoshi Watabe;School of Marine Science and Technology, Tokai University, Masahisa Kubota
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2008년도 International Symposium on Remote Sensing
    • /
    • pp.285-288
    • /
    • 2008
  • We analyzed evaporation data in the Japanese Ocean Flux Data Sets with Use of Remote Sensing Observations (J-OFURO) Ver.2. There exists huge evaporation in Gulf Stream, Kuroshio Extension, the ocean dessert and the southern part of the Indian Ocean. The temporal variation of evaporation is overwhelmingly large, of which the standard deviation is more than 120(mm), in the Kuroshio Extension region. Also, the result of harmonic analysis gives that this large variation is closely related to annual variation. In addition, the first EOF mode shows long-term variation showing the maximum amplitude between 1992 and 1994 and remarkable decrease after 1994, and large amplitude in the equatorial region and northeast of Australia. The second and third modes were strongly influenced by El Nino. Moreover, we compared J-OFURO2 evaporation product with other products. We used six kinds of data sets (HOAPS3 and GSSTF2 of satellite data, NRA1, NRA2, ERA40 and JRA25 of reanalysis data) for comparison. Most products show underestimation in the most regions, in particular, in the northern North Pacific, mid-latitudes of the eastern South Pacific, and high-latitudes of the South Pacific compared with J-OFUR02. On the other hand, JRA25 and NRA2 show large overestimation in the equatorial regions. RMS difference between NRA2 and J-OFURO2 in the Kuroshio Extension was significantly large, more than 120(mm).

  • PDF

대용량 데이터 처리기술을 배전자동화 시스템에 적용 (Application of Data Processing Technology on Large Clusters to Distribution Automation System)

  • 이성우;하복남;서인용;장문종
    • 전기학회논문지
    • /
    • 제60권2호
    • /
    • pp.245-251
    • /
    • 2011
  • Quantities of data in the DMS (Distribution management system) or SCADA (Supervisory control and data acquisition) system is enormously large as illustrated by the usage of term flooding of data. This enormous quantity of data is transmitted to the status data or event data of the on-site apparatus in real-time. In addition, if GIS (Geographic information system) and AMR (Automatic meter reading), etc are integrated, the quantity of data to be processed in real-time increases unimaginably. Increase in the quantity of data due to addition of system or increase in the on-site facilities cannot be handled through the currently used Single Thread format of data processing technology. However, if Multi Thread technology that utilizes LF-POOL (Leader Follower -POOL) is applied in processing large quantity of data, large quantity of data can be processed in short period of time and the load on the server can be minimized. In this Study, the actual materialization and functions of LF POOL technology are examined.

맵리듀스에서 데이터의 유용성을 이용한 데이터 분할 기법 (Data Partitioning on MapReduce by Leveraging Data Utility)

  • 김종욱
    • 한국멀티미디어학회논문지
    • /
    • 제16권5호
    • /
    • pp.657-666
    • /
    • 2013
  • 현대사회는 소셜 미디어, 비즈니스, 바이오 인포메틱스 같은 다양한 응용프로그램에서 지속적으로 생산되어 지고 있는 수많은 데이터의 빠른 유입으로 특징지어 지고 있다. 이에 따라 폭발적으로 증가하고 있는 대규모 데이터를 보다 효율적으로 분석하고 처리 할 수 있는 방법이 그 어느 때보다 강조 되고 있다. 지난 몇 년간 학계에서는 배치 지향 시스템 (batch oriented system) 환경 내에서 병렬 처리를 효과적으로 지원할 수 있는 맵리듀스 기법이 활발히 연구 되어 왔으며, 맵리듀스 기법은 다양한 분야에서 성공적으로 사용되고 있다. 그러나 이 기법은 데이터의 상대적 유용성 (data utility)을 고려하지 않기 때문에, 멀티미디어 응용프로그램 사용자의 특성 (즉, 높은 혹은 낮은 스코어를 가지는 몇몇 결과물에 관심을 가지는 사용자들의 특성)으로 인하여 효과적인 성능을 보여 주지 못하고 있다. 따라서 본 논문에서는 이러한 문제점을 해소하기 위해, 맵리듀스 상에서의 데이터 분할 방식을 제안한다. 또한, 제안된 분할 방식에 대한 성능 실험을 통하여 우리가 제안하는 데이터 분할 방식이 기존 방식보다 성능 향상을 자져올 수 있음을 보여준다.

CXL 인터커넥트 기술 연구개발 동향 (Trends in Compute Express Link(CXL) Technology)

  • 김선영;안후영;박유미;한우종
    • 전자통신동향분석
    • /
    • 제38권5호
    • /
    • pp.23-33
    • /
    • 2023
  • With the widespread demand from data-intensive tasks such as machine learning and large-scale databases, the amount of data processed in modern computing systems is increasing exponentially. Such data-intensive tasks require large amounts of memory to rapidly process and analyze massive data. However, existing computing system architectures face challenges when building large-scale memory owing to various structural issues such as CPU specifications. Moreover, large-scale memory may cause problems including memory overprovisioning. The Compute Express Link (CXL) allows computing nodes to use large amounts of memory while mitigating related problems. Hence, CXL is attracting great attention in industry and academia. We describe the overarching concepts underlying CXL and explore recent research trends in this technology.

대규모 점군 및 폴리곤 모델의 GLSL 기반 실시간 렌더링 알고리즘 (A Real-Time Rendering Algorithm of Large-Scale Point Clouds or Polygon Meshes Using GLSL)

  • 박상근
    • 한국CDE학회논문집
    • /
    • 제19권3호
    • /
    • pp.294-304
    • /
    • 2014
  • This paper presents a real-time rendering algorithm of large-scale geometric data using GLSL (OpenGL shading language). It details the VAO (vertex array object) and VBO(vertex buffer object) to be used for up-loading the large-scale point clouds and polygon meshes to a graphic video memory, and describes the shader program composed by a vertex shader and a fragment shader, which manipulates those large-scale data to be rendered by GPU. In addition, we explain the global rendering procedure that creates and runs the shader program with the VAO and VBO. Finally, a rendering performance will be measured with application examples, from which it will be demonstrated that the proposed algorithm enables a real-time rendering of large amount of geometric data, almost impossible to carry out by previous techniques.

Removing Large-scale Variations in Regularly and Irregularly Spaced Data

  • 조정연
    • 천문학회보
    • /
    • 제44권1호
    • /
    • pp.43.2-43.2
    • /
    • 2019
  • In many astrophysical systems, smooth large-scale variations coexist with small-scale fluctuations. For example, a large-scale velocity or density gradient can exist in molecular clouds that have small-scale fluctuations by turbulence. In redshifted 21cm observations, we also have two types of signals - the Galactic foreground emissions that change smoothly and the redshifted 21cm signals that fluctuate fast in frequency space. In many cases, the large-scale variations make it difficult to extract information on small-scale fluctuations. We propose a simple technique to remove smooth large-scale variations. Our technique relies on multi-point structure functions and can obtain the magnitudes of small-scale fluctuations. It can also be used to design filters that can remove large-scale variations and retrieve small-scale data. We discuss how to apply our technique to irregularly spaced data, such as rotation measure observations toward extragalactic radio point sources.

  • PDF

대용량 스트리밍 센서데이터 환경에서 RDFS 규칙기반 병렬추론 기법 (RDFS Rule based Parallel Reasoning Scheme for Large-Scale Streaming Sensor Data)

  • 권순현;박영택
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.686-698
    • /
    • 2014
  • 최근 스마트폰의 폭발적인 보급, IoT와 클라우드 컴퓨팅 기술의 고도화, 그리고 IoT 디바이스의 보편화로 대용량 스트리밍 센싱데이터가 출현하였다. 또한 이를 기반으로 데이터의 공유와 매쉬업 통해 새로운 데이터의 가치를 창출하기 위한 요구사항의 증대로 대용량 스트리밍 센싱데이터 환경에서 시맨틱웹 기술과의 접목에 관한 연구가 활발히 진행되고 있다. 하지만 데이터의 대용량성 스트리밍성으로 인해 새로운 지식을 도출하기 위한 지식 추론분야에서 많은 이슈들에 직면하고 있다. 이러한 배경하에, 본 논문에서는 IoT 환경에서 발생하는 대용량 스트리밍 센싱데이터를 시맨틱웹 기술로 처리하여 서비스하기 위해 RDFS 규칙기반 병렬추론 기법을 제시한다. 제안된 기법에서는 기존의 규칙추론 알고리즘인 Rete 알고리즘을 하둡프레임워크 맵리듀스를 통해 병렬로 수행하고, 공용 스토리지로서 하둡 데이터베이스인 HBase를 사용하여 데이터를 공유한다. 이를 위한 시스템을 구현하고, 대용량 스트리밍 센싱데이터인 기상청 AWS 관측데이터를 이용하여 제시된 기법에 대한 성능평가를 진행하고, 이를 입증한다.