• 제목/요약/키워드: 대용량 데이터

검색결과 2,285건 처리시간 0.053초

효율적인 군집화 시스템의 개발을 위해 유전자 알고리즘의 적용 (Application of Gene Algorithm for the development of efficient clustering system)

  • 이호현;조범준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.277-280
    • /
    • 2003
  • 현재 많은 관심의 대상이 되고 있는 데이터 마이닝은 대용량의 데이터베이스로부터 일정한 패턴을 분류하여 지식의 형태로 추출하는 작업이다. 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고 군집들간의 유사성을 최소화시키도록 데이터 집합을 분할하는 것이다. 데이터 마이닝에서 군집화는 대용량 데이터를 다루기 때문에 원시 데이터에 대한 접근횟수를 줄이고 알고리즘이 다루어야 할 데이터 구조의 크기를 줄이는 군집화 기법이 활발하게 사용된다. 그런데 기존의 군집화 알고리즘은 잡음에 매우 민감하고, local minima에 반응한다. 또한 사전에 군집의 개수를 미리 결정해야 하고, initialization 값에 다라 군집의 성능이 좌우되는 문제점이 있다. 본 연구에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 군집화 알고리즘을 제안하고, 여기서 제시하는 적합도 함수의 최적화된 군집을 찾아내어 조금더 효율적인 알고리즘을 만들어 대용량 데이터를 다루는 데이터 마이닝에 적용해 보려한다.

  • PDF

사례연구 : VTK를 이용한 대용량 로터 시뮬레이션 데이터의 가시화 (Cast Study : Visualization of Large Rotor Simulation Data using VTK)

  • 이중연;허영주;김민아
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.393-394
    • /
    • 2009
  • 최근 컴퓨팅 성능의 급격한 발전으로 이를 통해 생산되는 데이터의 크기 역시 매우 커지고 있다. 이는 로터 시뮬레이션 분야에서도 마찬가지인데, 과거에는 백만개 정도의 격자 데이터 정도만을 다루었던 것에 비해 최근에는 1억개 이상의 격자 데이터를 다루려는 시도가 계속되고 있다. 그러나 이렇게 생산된 대용량의 시변환(time-variant) 유동 데이터는 그 크기가 매우 크기 때문에 일반 PC에서는 실시간으로 가시화하기에 곤란한 경우가 많다. 또, 이러한 로터 시뮬레이션 데이터는 매우 복잡한 구조를 가지고 있기 때문에 초보자가 이 데이터에서 vortex와 같은 중요한 정보를 뽑아서 가시화하는 데에는 많은 어려움이 있어 왔다. 본 논문에서는 일반 PC에서 가시화하기 어려운 대용량 로터 시뮬레이션 데이터를 고성능 가시화 컴퓨터와 VTK를 이용해서 빠르게 가시화하기 위한 방법을 서술한다. 또, 복잡한 데이터 내부의 중요한 정보들을 자동으로 빠르고 간편하게 표출하기 위한 방법을 제안한다.

대용량 데이터베이스를 위한 성능 데이터 모델링에 관한 연구 (Modeling on Data Performance for Very Large Database)

  • 이종석;이창호
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2012년 춘계학술대회
    • /
    • pp.383-391
    • /
    • 2012
  • 데이터는 살아 움직이고 있다. 10년 전만 해도 10GB 정도의 데이터라면 대용량 데이터라고 불리던 시절이 있었다. 하지만 지금은 10TB보다 큰 데이터베이스도 흔하다. 결국, 대용량 데이터베이스(VLDB)의 시대가 개막된 것이다. VLDB로 변한 데이터베이스에는 백업, 복구, 관리와 같은 문제점이 있지만 그 중에서도 성능 문제를 빼놓을 수 없다. 데이터베이스에 많은 데이터가 있고 그렇게 많은 데이터 중에서 필요한 몇 건의 데이터만 추출하는 것이 쉬운 일이 아니다. 과거에는 데이터가 적었기 때문에 이러한 것이 큰 문제가 아니었지만 이제는 VLDB가 되면서 성능 최적화는 일상적이고도 중요한 이슈가 되었다. 따라서 VLDB가 된 데이터베이스나 VLDB로 변하고 있는 데이터베이스에서 성능 관리를 하고 최적화할 수 있는 전문기술이 필요하다.

  • PDF

2.4GHz 다중채널 능동형 RFID시스템을 위한 대용량 태그 데이터 전송 프로토콜의 설계 및 구현 (Design and Implementation of Large Tag Data Transmission Protocol for 2.4GHz Multi-Channel Active RFID System)

  • 이채석;김동현;김종덕
    • 한국정보과학회논문지:정보통신
    • /
    • 제37권3호
    • /
    • pp.217-227
    • /
    • 2010
  • 능동형 RFID가 많은 응용 분야에서 활용되기 위해서 대용량의 태그 데이터를 보다 빠르고 효율적으로 보낼 필요성이 대두되고 있다. ISO/IEC 18000-7 표준은 433MHz대역을 사용하고 있으며 전송 속도는 27.8kbps에 불과하다. 이러한 전송속도는 대용량 데이터를 전송하기에 무리가 있다. 우리는 빠른 대용량 태그 데이터 전송을 위하여 2.4GHz대역을 사용하였고, 보다 효율적인 데이터 전송을 위하여 데이터 전송 프로토콜을 설계하였다. 우리가 설계한 프로토콜은 Burst Read UDB라는 새로운 명령어를 사용하여 255bytes이상의 메시지 데이터를 생성하고, 이를 효과적으로 전송할 수 있도록 이루어져 있다. 프로토콜을 구현하기 위하여 Texas Instruments사에서 개발한 Smart RF04 개발보드를 사용하였으며, 통신모듈로는 CC2500트랜시버를 이용하였다. 구현을 통한 비교실험에서 63.75kbytes의 데이터를 전송할 경우, 기존 표준의 Read UDB보다 Burst Read UDB가 17.95%의 데이터 전송시간이 향상되었음을 확인하였다.

인메모리 관계형 데이터베이스 시스템을 이용한 대용량 텍스트 로그 데이터의 패턴 매칭 방법 (A Pattern Matching Method of Large-Size Text Log Data using In-Memory Relational Database System)

  • 한혁;최재용;진성일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.837-840
    • /
    • 2017
  • 각종 사이버 범죄가 증가함에 따라 실시간 모니터링을 통한 사전 탐지 기술뿐만 아니라, 사후 원인 분석을 통한 사고 재발 방지 기술의 중요성이 증가하고 있다. 사후 분석은 시스템에서 생산된 다양한 유형의 대용량 로그를 기반으로 분석가가 보안 위협 과정을 규명하는 것으로 이를 지원하는 다양한 상용 및 오픈 소스 SW 존재하나, 대부분 단일 분석가 PC에서 운용되는 파일 기반 SW로 대용량 데이터에 대한 분석 성능 저하, 다수 분석가 간의 데이터 공유 불가, 통계 연관 분석 한계 및 대화형 점진적 내용 분석 불가 등의 문제점을 해결하지 못하고 있다. 이러한 문제점을 해결하기 위하여 고성능 인메모리 관계형 데이터베이스 시스템을 로그 스토리지로 활용하는 대용량 로그 분석 SW 개발하였다. 특히, 기 확보된 공격자 프로파일을 활용하여 공격의 유무를 확인하는 텍스트 패턴 매칭 연산은 전통적인 관계형 데이터베이스 시스템의 FTS(Full-Text Search) 기능 활용이 가능하나, 대용량 전용 색인 생성에 따른 비현실적인 DB 구축 소요 시간과 최소 3배 이상의 DB 용량 증가로 인한 시스템 리소스 추가 요구 등의 단점이 있다. 본 논문에서는 인메모리 관계형 데이터베이스 시스템 기반 효율적인 텍스트 패턴 매칭 연산을 위하여, 고성능의 대용량 로그 DB 적재 방법과 새로운 유형의 패턴 매칭 방법을 제안하였다.

필터링 레이어를 추가한 OverlayFS 기반의 가상 워크스페이스 (Virtual Workspace on OverlayFS with Filtering layer)

  • 진두석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.2-4
    • /
    • 2020
  • 최근 데이터 분석을 위한 연구 환경은 고성능 컴퓨팅자원, 대용량 스토리지, 초고속 네트워크 시스템등 IT 기술이 융합된 사이버 인프라 연구 환경을 기반으로 하고 있다. 또한, 실험의 규모가 커지면서 다수의 연구자들이 협업을 통해 공동의 연구결과를 도출하는 집단연구가 증가하고 있다. 본 논문에서는 이러한 환경에서 연구자들이 대용량 실험데이터를 공유·분석할 수 있는 효율적인 스토리지 작업 공간 모델을 제안한다.

대용량 데이터스트림 실시간 압축 저장을 위한 저장관리자 설계 및 구현 (Design and Implementation of Storage Manager for Real-Time Compressed Storing of Large Volume Datastream)

  • 이동욱;백성하;김경배;배해영
    • 한국공간정보시스템학회 논문지
    • /
    • 제11권3호
    • /
    • pp.31-39
    • /
    • 2009
  • 유비쿼터스 환경에서 발생하는 실시간 데이터스트림의 처리 및 관리에 대한 요구사항이 증가되고 있다. 특히 인터넷 보안, 공장 자동화 기기설비 관리 등에서 발생하는 데이터스트림은 대용량 데이터가 실시간으로 발생하는 특징을 가지고 있어 이를 처리하기 위한 특화된 DSMS의 저장관리자의 개발이 요구된다. Coral8과 같은 기존의 DSMS의 경우 일반적인 데이터스트림의 처리가 가능 하지만 초당 10만 건 이상의 대용량의 실시간 데이터스트림이 발생하는 특수한 상황의 경우 이에 대한 처리 성능이 부족하며, 이에 대한 저장이 불가능하다. 관련 분야에서 일반적으로 사용되는 오라클10g의 경우 저장, 관리 성능은 우수하지만 실시간 데이터스트림 처리에 대한 고려가 되어 있지 않다. 본 논문에서는 삼성전자, 하이닉스, HP 등에 반도체, LCD 제조공장의 생산 기계에서 발생하는 대용량 데이터스트림을 실시간 압축 저장이 가능한 DSMS 저장관리자를 설계 및 구현하였다. 본 문에서는 시스템의 구조 및 주요 컴포넌트에 대해 설명하며, 관련시스템과 비교 평가를 통해 제안 시스템의 우수성을 보인다.

  • PDF

반도체 공정의 생산성 향상을 위한 실시간 대용량 데이터의 효율적인 저장 기법 (An Efficient Storing Scheme of Real-time Large Data to improve Semiconductor Process Productivities)

  • 정원일;김환구
    • 한국산학기술학회논문지
    • /
    • 제10권11호
    • /
    • pp.3207-3212
    • /
    • 2009
  • 반도체 산업이 발전함에 따라 생산 효율을 높이기 위해 무인 자동 생산 공정이 요구되고 있다. 이러한 무인자동화 생산 관리 시스템은 생산성 향상을 위해 생산 공정에서 발생하는 대량의 실시간 데이터 분석 및 관리를 필요로 한다. 따라서 실시간으로 발생하는 대용량 데이터를 저장하기 위한 저장 관리 시스템이 요구된다. 기존의 저장 관리 시스템으로 오라클, MY-SQL, MS-SQL 등의 디스크 기반 DBMS가 있다. 하지만 기존의 디스크 기반 DBMS는 반도체 장비로부터 실시간으로 발생하는 대용량 데이터 처리에 한계가 있다. 본 논문에서는 대용량 데이터를 저비용으로 실시간 저장하기 위해 블록 단위 삽입 트랜잭션을 이용한 압축-합병 저장 기법을 제안한다. 제안 기법은 블록 단위 트랜잭션을 이용하여 실시간 데이터를 빠르게 저장하며 데이터를 압축하고 압축된 데이터를 합병하여 저장하기 때문에 보다 적은 디스크 공간을 사용하여 저장할 수 있다. 따라서 반도체 공정에서 빠르게 발생하는 대용량 데이터를 기존 DBMS보다 빠르게 저장이 가능하고 저장 공간 비용을 감소시킨다.

대용량 RDF 데이터 처리를 위한 Hive 기반 테이블 구조 및 시스템의 설계 및 구현 (A Design and Implementation of Table Structure and a System Based on Hive for Processing Large RDF Data)

  • 이대희;손영석;하영국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.255-257
    • /
    • 2015
  • 시맨틱 웹 기술 분야에서는 데이터를 온톨로지 형태로 표현함으로써 데이터의 의미를 인간뿐만 아니라 컴퓨터와 같은 기계도 이해할 수 있도록 한다. 이러한 온톨로지 데이터의 크기가 지속적으로 증가함에 따라 대용량 온톨로지 데이터 처리에 대한 필요성이 증가하고 있다. 이에 따라 본 논문에서는 대용량 온톨로지 데이터를 저장하고 질의를 할 수 있는 Hive 기반의 시스템을 제안한다. 또한 Hive에서 제공하는 파티셔닝을 이용하여 온톨로지 데이터에 대한 쿼리 반응 속도의 성능 향상을 위한 테이블 설계를 제안한다. 본 논문에서 제안하는 시스템의 성능 평가를 위하여 쿼리에 대한 반응 속도 측정을 수행한다.

스냅샷 데이터를 갖는 다중레벨 공간 DBMS 설계 및 구현 (Design and Implementation of Multi-Level Spatial DBMS with Snapshot)

  • 천종현;어상훈;김호석;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.217-219
    • /
    • 2005
  • 최근 들어 무선 인터넷 및 모바일 기술이 급속한 발달을 이루면서 이동 객체의 위치에 기반 한 많은 서비스들이 개발되고 있다. 이 서비스에 사용되는 않은 어플리케이션들은 비교적 용량이 큰 공간 정보를 사용하여 최근에는 기존 디스크 기반 데이터베이스 관리 시스템이 제공할 수 있는 처리 속도보다 더욱 빠른 트랜잭션 처리를 요구하고 있다. 따라서 공간 데이터와 같은 대용량 데이터의 효율적인 처리와 폭주 하는 여러 사용자들에게 빠른 응답시간을 제공하여 주는 공간 DBMS가 요구되고 있다. 기존 디스크 기반의 공간 DBMS는 공간데이터와 같은 대용량의 데이터 관리가 가능하지만, 빠른 응답속도를 요구하는 여러 어플리케이션을 지원하기에는 무리가 있다. 반면에 메인 메모리 기반의 공간 DBMS는 불필요한 디스크 I/O를 없앰으로써 더욱 빠른 트랜잭션 처리를 지원하지만, 메인 메모리의 저장 한계로 대용량 처리에는 한계가 있다. 이러한 이유로 디스크 공간 DBMS의 장점과 메인 메모리 공간 DBMS의 장점으로 이루어진 다중레벨 공간 DBMS를 제안한다. 다중레벨 공간 DBMS는 디스크 기반의 공간 DBMS인 GMS시스템에 메인 메모리 데이터베이스와 그와 관련된 여러 컴포넌트들을 추가하여 개발 하였다. 제안된 시스템은 디스크 데이터베이스 기반의 대용량 데이터의 효율적인 관리와 메모리 데이터베이스 기반의 빠른 트랜잭션 처리를 보장한다.

  • PDF