• Title/Summary/Keyword: 대용량 데이터

Search Result 2,285, Processing Time 0.048 seconds

Application of Gene Algorithm for the development of efficient clustering system (효율적인 군집화 시스템의 개발을 위해 유전자 알고리즘의 적용)

  • Hong, Gil-Dong;Kim, Cheol-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.277-280
    • /
    • 2003
  • 현재 많은 관심의 대상이 되고 있는 데이터 마이닝은 대용량의 데이터베이스로부터 일정한 패턴을 분류하여 지식의 형태로 추출하는 작업이다. 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고 군집들간의 유사성을 최소화시키도록 데이터 집합을 분할하는 것이다. 데이터 마이닝에서 군집화는 대용량 데이터를 다루기 때문에 원시 데이터에 대한 접근횟수를 줄이고 알고리즘이 다루어야 할 데이터 구조의 크기를 줄이는 군집화 기법이 활발하게 사용된다. 그런데 기존의 군집화 알고리즘은 잡음에 매우 민감하고, local minima에 반응한다. 또한 사전에 군집의 개수를 미리 결정해야 하고, initialization 값에 다라 군집의 성능이 좌우되는 문제점이 있다. 본 연구에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 군집화 알고리즘을 제안하고, 여기서 제시하는 적합도 함수의 최적화된 군집을 찾아내어 조금더 효율적인 알고리즘을 만들어 대용량 데이터를 다루는 데이터 마이닝에 적용해 보려한다.

  • PDF

Cast Study : Visualization of Large Rotor Simulation Data using VTK (사례연구 : VTK를 이용한 대용량 로터 시뮬레이션 데이터의 가시화)

  • Lee, Joong-Youn;Hur, Younju;Kim, MinAh
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.393-394
    • /
    • 2009
  • 최근 컴퓨팅 성능의 급격한 발전으로 이를 통해 생산되는 데이터의 크기 역시 매우 커지고 있다. 이는 로터 시뮬레이션 분야에서도 마찬가지인데, 과거에는 백만개 정도의 격자 데이터 정도만을 다루었던 것에 비해 최근에는 1억개 이상의 격자 데이터를 다루려는 시도가 계속되고 있다. 그러나 이렇게 생산된 대용량의 시변환(time-variant) 유동 데이터는 그 크기가 매우 크기 때문에 일반 PC에서는 실시간으로 가시화하기에 곤란한 경우가 많다. 또, 이러한 로터 시뮬레이션 데이터는 매우 복잡한 구조를 가지고 있기 때문에 초보자가 이 데이터에서 vortex와 같은 중요한 정보를 뽑아서 가시화하는 데에는 많은 어려움이 있어 왔다. 본 논문에서는 일반 PC에서 가시화하기 어려운 대용량 로터 시뮬레이션 데이터를 고성능 가시화 컴퓨터와 VTK를 이용해서 빠르게 가시화하기 위한 방법을 서술한다. 또, 복잡한 데이터 내부의 중요한 정보들을 자동으로 빠르고 간편하게 표출하기 위한 방법을 제안한다.

Modeling on Data Performance for Very Large Database (대용량 데이터베이스를 위한 성능 데이터 모델링에 관한 연구)

  • Lee, Jong-Seok;Lee, Chang-Ho
    • Proceedings of the Safety Management and Science Conference
    • /
    • 2012.04a
    • /
    • pp.383-391
    • /
    • 2012
  • 데이터는 살아 움직이고 있다. 10년 전만 해도 10GB 정도의 데이터라면 대용량 데이터라고 불리던 시절이 있었다. 하지만 지금은 10TB보다 큰 데이터베이스도 흔하다. 결국, 대용량 데이터베이스(VLDB)의 시대가 개막된 것이다. VLDB로 변한 데이터베이스에는 백업, 복구, 관리와 같은 문제점이 있지만 그 중에서도 성능 문제를 빼놓을 수 없다. 데이터베이스에 많은 데이터가 있고 그렇게 많은 데이터 중에서 필요한 몇 건의 데이터만 추출하는 것이 쉬운 일이 아니다. 과거에는 데이터가 적었기 때문에 이러한 것이 큰 문제가 아니었지만 이제는 VLDB가 되면서 성능 최적화는 일상적이고도 중요한 이슈가 되었다. 따라서 VLDB가 된 데이터베이스나 VLDB로 변하고 있는 데이터베이스에서 성능 관리를 하고 최적화할 수 있는 전문기술이 필요하다.

  • PDF

Design and Implementation of Large Tag Data Transmission Protocol for 2.4GHz Multi-Channel Active RFID System (2.4GHz 다중채널 능동형 RFID시스템을 위한 대용량 태그 데이터 전송 프로토콜의 설계 및 구현)

  • Lee, Chae-Suk;Kim, Dong-Hyun;Kim, Jong-Doek
    • Journal of KIISE:Information Networking
    • /
    • v.37 no.3
    • /
    • pp.217-227
    • /
    • 2010
  • To apply active RFID technology in the various kinds of industry, it needs to quickly transmit a large amount of data. ISO/IEC 18000-7 standard uses the 433.92MHz as single channel system and its transmit rate is just 27.8kbps, that is insufficient for a large amount of data transmission. To solve this problem, we designed a new data transmission protocol using 2.4GHz band. The feature of designed protocol is not only making over 255bytes data messages using the Burst Read UDB but also efficiently transmitting it. To implement this protocol, we use Texas Instruments's SmartRF04 develop kit and CC2500 transceiver as RF module. As an evaluation of 63.75kbytes data transmission, we demonstrate that transmission time of Burst Read UDB has improved as 17.95% faster than that of Read UDB in the ISO/IEC 18000-7.

A Pattern Matching Method of Large-Size Text Log Data using In-Memory Relational Database System (인메모리 관계형 데이터베이스 시스템을 이용한 대용량 텍스트 로그 데이터의 패턴 매칭 방법)

  • Han, Hyeok;Choi, Jae-Yong;Jin, Sung-Il
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.837-840
    • /
    • 2017
  • 각종 사이버 범죄가 증가함에 따라 실시간 모니터링을 통한 사전 탐지 기술뿐만 아니라, 사후 원인 분석을 통한 사고 재발 방지 기술의 중요성이 증가하고 있다. 사후 분석은 시스템에서 생산된 다양한 유형의 대용량 로그를 기반으로 분석가가 보안 위협 과정을 규명하는 것으로 이를 지원하는 다양한 상용 및 오픈 소스 SW 존재하나, 대부분 단일 분석가 PC에서 운용되는 파일 기반 SW로 대용량 데이터에 대한 분석 성능 저하, 다수 분석가 간의 데이터 공유 불가, 통계 연관 분석 한계 및 대화형 점진적 내용 분석 불가 등의 문제점을 해결하지 못하고 있다. 이러한 문제점을 해결하기 위하여 고성능 인메모리 관계형 데이터베이스 시스템을 로그 스토리지로 활용하는 대용량 로그 분석 SW 개발하였다. 특히, 기 확보된 공격자 프로파일을 활용하여 공격의 유무를 확인하는 텍스트 패턴 매칭 연산은 전통적인 관계형 데이터베이스 시스템의 FTS(Full-Text Search) 기능 활용이 가능하나, 대용량 전용 색인 생성에 따른 비현실적인 DB 구축 소요 시간과 최소 3배 이상의 DB 용량 증가로 인한 시스템 리소스 추가 요구 등의 단점이 있다. 본 논문에서는 인메모리 관계형 데이터베이스 시스템 기반 효율적인 텍스트 패턴 매칭 연산을 위하여, 고성능의 대용량 로그 DB 적재 방법과 새로운 유형의 패턴 매칭 방법을 제안하였다.

Virtual Workspace on OverlayFS with Filtering layer (필터링 레이어를 추가한 OverlayFS 기반의 가상 워크스페이스)

  • Jin, Duseok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.2-4
    • /
    • 2020
  • 최근 데이터 분석을 위한 연구 환경은 고성능 컴퓨팅자원, 대용량 스토리지, 초고속 네트워크 시스템등 IT 기술이 융합된 사이버 인프라 연구 환경을 기반으로 하고 있다. 또한, 실험의 규모가 커지면서 다수의 연구자들이 협업을 통해 공동의 연구결과를 도출하는 집단연구가 증가하고 있다. 본 논문에서는 이러한 환경에서 연구자들이 대용량 실험데이터를 공유·분석할 수 있는 효율적인 스토리지 작업 공간 모델을 제안한다.

Design and Implementation of Storage Manager for Real-Time Compressed Storing of Large Volume Datastream (대용량 데이터스트림 실시간 압축 저장을 위한 저장관리자 설계 및 구현)

  • Lee, Dong-Wook;Baek, Sung-Ha;Kim, Gyoung-Bae;Bae, Hae-Young
    • Journal of Korea Spatial Information System Society
    • /
    • v.11 no.3
    • /
    • pp.31-39
    • /
    • 2009
  • Requirement level regarding processing and managing real-time datastream in an ubiquitous environment is increased. Especially, due to the unbounded, high frequency and real-time characteristics of datastream, development of specialized stroge manager for DSMS is necessary to process such datastream. Existing DSMS, e.g. Coral8, can support datastream processing but it is not scalable and cannot perform well when handling large-volume real-time datastream, e.g. 100 thousand over per second. In the case of Oracle10g, which is generally used in related field, it supports storing and management processing. However, it does not support real-time datastream processing. In this paper, we propose specialized storage manager of DSMS for real-time compressed storing on semiconductor or LCD production facility of Samsung electronics, Hynix and HP. Hynix and HP. This paper describes the proposed system architecture and major components and show better performance of the proposed system compared with similar systems in the experiment section.

  • PDF

An Efficient Storing Scheme of Real-time Large Data to improve Semiconductor Process Productivities (반도체 공정의 생산성 향상을 위한 실시간 대용량 데이터의 효율적인 저장 기법)

  • Chung, Weon-Il;Kim, Hwan-Koo
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.10 no.11
    • /
    • pp.3207-3212
    • /
    • 2009
  • Automatic semiconductor manufacturing systems are demanded to improve the efficiency of the semiconductor production process. These systems include the functionalities such as the analysis and management schemes for very large real-time data in order to enhance the productivities. So, it requires the efficient storage management system to store very large real-time data. Traditional database management systems(e.g. Oracle, MY-SQL, MS-SQL) are based on disk. However, previous DBMS's have the limitation on the low storing performance. In this paper, we propose a compress-merge storing method of very large real-time data using insert transaction of a block unit. The proposed method shows better processing performances compare to conventional DBMS's. Also compress-merge method makes it possible that it can store large real-time data on low storage cost. Therefore, the proposed method can be applied to an efficient storage management system in the semiconductor production process.

A Design and Implementation of Table Structure and a System Based on Hive for Processing Large RDF Data (대용량 RDF 데이터 처리를 위한 Hive 기반 테이블 구조 및 시스템의 설계 및 구현)

  • Lee, Dae-Hee;Son, Young-Seok;Ha, Young-Guk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.255-257
    • /
    • 2015
  • 시맨틱 웹 기술 분야에서는 데이터를 온톨로지 형태로 표현함으로써 데이터의 의미를 인간뿐만 아니라 컴퓨터와 같은 기계도 이해할 수 있도록 한다. 이러한 온톨로지 데이터의 크기가 지속적으로 증가함에 따라 대용량 온톨로지 데이터 처리에 대한 필요성이 증가하고 있다. 이에 따라 본 논문에서는 대용량 온톨로지 데이터를 저장하고 질의를 할 수 있는 Hive 기반의 시스템을 제안한다. 또한 Hive에서 제공하는 파티셔닝을 이용하여 온톨로지 데이터에 대한 쿼리 반응 속도의 성능 향상을 위한 테이블 설계를 제안한다. 본 논문에서 제안하는 시스템의 성능 평가를 위하여 쿼리에 대한 반응 속도 측정을 수행한다.

Design and Implementation of Multi-Level Spatial DBMS with Snapshot (스냅샷 데이터를 갖는 다중레벨 공간 DBMS 설계 및 구현)

  • Cheon Jong-Hyeon;Eo Sang-Hun;Kim Ho-Seok;Bae Hae-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.217-219
    • /
    • 2005
  • 최근 들어 무선 인터넷 및 모바일 기술이 급속한 발달을 이루면서 이동 객체의 위치에 기반 한 많은 서비스들이 개발되고 있다. 이 서비스에 사용되는 않은 어플리케이션들은 비교적 용량이 큰 공간 정보를 사용하여 최근에는 기존 디스크 기반 데이터베이스 관리 시스템이 제공할 수 있는 처리 속도보다 더욱 빠른 트랜잭션 처리를 요구하고 있다. 따라서 공간 데이터와 같은 대용량 데이터의 효율적인 처리와 폭주 하는 여러 사용자들에게 빠른 응답시간을 제공하여 주는 공간 DBMS가 요구되고 있다. 기존 디스크 기반의 공간 DBMS는 공간데이터와 같은 대용량의 데이터 관리가 가능하지만, 빠른 응답속도를 요구하는 여러 어플리케이션을 지원하기에는 무리가 있다. 반면에 메인 메모리 기반의 공간 DBMS는 불필요한 디스크 I/O를 없앰으로써 더욱 빠른 트랜잭션 처리를 지원하지만, 메인 메모리의 저장 한계로 대용량 처리에는 한계가 있다. 이러한 이유로 디스크 공간 DBMS의 장점과 메인 메모리 공간 DBMS의 장점으로 이루어진 다중레벨 공간 DBMS를 제안한다. 다중레벨 공간 DBMS는 디스크 기반의 공간 DBMS인 GMS시스템에 메인 메모리 데이터베이스와 그와 관련된 여러 컴포넌트들을 추가하여 개발 하였다. 제안된 시스템은 디스크 데이터베이스 기반의 대용량 데이터의 효율적인 관리와 메모리 데이터베이스 기반의 빠른 트랜잭션 처리를 보장한다.

  • PDF