• 제목/요약/키워드: 데이터 처리

검색결과 17,628건 처리시간 0.058초

Hadoop과 HBase 기반의 빅 데이터 처리 응용을 위한 가상 컴퓨팅 자원 이용률 분석 (An Analysis of Utilization on Virtualized Computing Resource for Hadoop and HBase based Big Data Processing Applications)

  • 조나연;구민오;김바울;;민덕기
    • 정보화연구
    • /
    • 제11권4호
    • /
    • pp.449-462
    • /
    • 2014
  • 빅 데이터 시대에서 데이터를 획득하고 저장하며 실시간으로 유입되거나 저장 된 데이터를 분석하는 처리 시스템은 다양한 부분을 고려해야 한다. 기존의 데이터 처리 시스템들과는 상이하게 빅 데이터 처리 시스템들에서는 시스템 내에서 처리될 데이터들의 포맷, 유입 속도, 크기 등의 특성을 고려해야한다. 이러한 상황에서, 가상화된 컴퓨팅 플랫폼은 가상화 기술로써 컴퓨팅 자원들을 동적이고 신축적으로 관리할 수 있음에 따라, 빅 데이터를 효율적으로 처리하기 위해 급부상하고 있는 플랫폼 중 하나이다. 본 논문에서는 가상화 된 컴퓨팅 플랫폼 상에서 Apache Hadoop과 HBase 기반의 빅 데이터처리 미들웨어를 구동하기 위하여 적합한 배포 모델을 위한 가상 컴퓨팅 자원 이용률을 분석하였다. 본 연구 결과, Task Tracker 서비스는 처리 중 높은 CPU 자원 활용율과 중간 결과물 저장 시점에서는 비교적 높은 디스크 I/O 사용을 보였다. 또한 HRegion 서비스의 경우, DataNode와의 데이터 교환을 위한 네트워크 자원 활용 비율이 높았으며, DataNode 서비스는 I/O 집약적인 처리 패턴을 보였다.

구조구난 로봇을 제어하기 위한 분산처리 기반의 플랫폼 설계 (A Platform Design for Controlling Rescue Robots based on Distributed Processing)

  • 여동현;조성재;박용운;조경은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.735-736
    • /
    • 2016
  • 본 논문에서는 다수의 로봇으로부터 습득한 센서 데이터를 효율적으로 처리하기 위한 플랫폼을 제안한다. Master-Slave 구조의 분산처리 서버를 통해 센서 데이터를 실시간으로 처리하고, 처리된 데이터는 비정형 데이터 형태로 DB 서버를 통해 분산 저장 및 관리한다. 제안하는 설계를 통해 다수의 로봇이 생성한 센서 데이터를 성능 저하 없이 처리할 수 있는 플랫폼을 구축하였고, 다수의 2D 카메라 센서를 활용하여 처리 성능을 실험하였다.

부분 범위 처리를 통한 관계형 데이터베이스 시스템 성능 향상 (Partial Range Scan For Increased Relational Database System Performance)

  • 박경민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.22-25
    • /
    • 2010
  • 관계형 데이터베이스의 데이터와 처리요청이 증가할수록 해당 데이터의 처리속도는 떨어지게 마련이다. 처리해야할 범위가 넓어도 빠른 속도로 결과를 처리할 수 있다면 데이터베이스 시스템의 효용성의 크게 증대될 것이다. 만약 조건에 맞는 데이터가 100만 건이 나왔다고 한다면 굳이 모든 것을 액세스를 한 다음에 그 결과를 출력할 필요는 없기 때문이다. 그러므로 사람의 눈으로 확인할 일부분만 결과를 먼저 제공하고 나머지는 다음 데이터를 원할 때 처리해서 제공하는 방식은 실제로 처리할 데이터는 아주 소량이 되므로 조건 범위와 무관하게 처리량을 크게 줄일 수 있는 장점이 있다. 본 논문에서는, 관계형 데이터베이스 환경에서 부분 범위처리를 통한 성능향상의 개념과 그 분석을 통한 관계형 데이터베이스 성능 향상 모델을 제시한다. 이는 설계에서부터 애플리케이션 개발에 이르기까지 많은 부분에 성능향상을 미치게 될 것으로 보인다.

  • PDF

XML 기반 멀티미디어 데이터의 효율적인 구조 정보 검색 (Effective Structure Information Retrieval of Multimedia Data Based on XML)

  • 임정윤;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.129-132
    • /
    • 2001
  • 웹의 대중화와 컴퓨터 기술의 발달로 멀티미디어 데이터의 사용이 크게 증가하고 있지만, 사용자가 원하는 멀티미디어 데이터의 일부분과 해당 데이터의 구조정보를 검색하는 기능은 제공되고 있지 않다. 본 논문에서는 사용자가 원하는 내용을 포함하고 있는 멀티미디어 데이터를 검색하고, 그 데이터의 구조정보를 XML 문서 형태로 보여주기 위하여, 객체지향 데이터베이스 시스템을 이용하여 대용량의 멀티미디어 데이터와 해당 데이터를 표현한 XML 문서를 저장하고, 사용자의 질의를 처리하기 위한 효율적인 구조정보 검색 방법을 제안한다.

  • PDF

적응적 상관도를 이용한 주성분 분석에 관한 연구 (A Study on PCA using Adaptive Correlation)

  • 고명숙
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.13-14
    • /
    • 2020
  • 고차원의 데이터를 처리하기 위해서는 데이터의 성질을 유지하면서 특징을 잘 반영할 수 있는 특징 추출 방법이 필요하며 주성분분석 방법은 대표적인 특징 추출 방법이다. 본 연구에서는 데이터가 고차원인 경우 데이터 특징 추출을 위한 주성분 분석의 주성분 변수 선정시 적응적 상관도(Correlation)를 기반으로 한 주성분 분석 방법을 제안한다. 제안하는 방법은 입력 데이터간의 상관관계를 기반으로 상관도를 적응적으로 반영하여 데이터의 주성분을 분석함으로써 실제 데이터의 특징을 나타내는 세분화 변수 선정 시 데이터 편향성의 영향을 줄이기 위한 방법이다.

빅데이터 환경에서 MongoDB와 MySQL의 CRUD 연산의 성능 연구 설계 (Performance study design of CRUD operation of MongoDB and MySQL in big data environment)

  • 서정연;전은광;채민수;이화민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.854-856
    • /
    • 2017
  • 최근 들어 모바일 디바이스의 발전으로 인해 생성되는 데이터의 종류는 다양해지고, 양은 방대해지고 있다. 이렇게 생성된 방대한 양의 데이터를 빅데이터라고 한다. 빅데이터들은 기존의 데이터 처리 방법과 다른 방법으로 처리되어야한다. 빅데이터 처리의 대표적인 방법인 관계형데이터베이스시스템(RDBMS)와 NoSQL 방법 중 대표적인 방법인 MySQL과 MongoDB의 데이터를 모델링한다. 설계된 데이터를 바탕으로 보다 편하고 알맞게 데이터베이스시스템 성능평가를 수행한다.

IoT 환경에서 센서 데이터 처리율 향상을 위한 Apriori 기반 빅데이터 처리 시스템 (Apriori Based Big Data Processing System for Improve Sensor Data Throughput in IoT Environments)

  • 송진수;김수진;신용태
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권10호
    • /
    • pp.277-284
    • /
    • 2021
  • 최근 스마트 홈 환경은 무선 정보통신 기술과 융합을 통해서 다양한 데이터를 수집·통합·활용하는 플랫폼이 될 것으로 전망되고 있으며 실제로 스마트 홈 내부에는 다양한 센서를 탑재한 스마트 디바이스 수가 점점 증가하고 있다. 증가된 스마트 디바이스 수만큼 처리해야하는 데이터의 양도 증가하고 있으며 이를 효과적으로 처리하기 위해 빅데이터 처리 시스템이 활발하게 도입되고 있다. 그러나 기존 빅데이터 처리 시스템은 분산 노드에 할당되기 전 모든 요청이 클러스터 드라이버로 향하기 때문에 동시에 많은 요청이 발생하는 경우 분할 작업을 관리하는 클러스터 드라이버에 병목현상이 발생하고, 이는 네트워크를 공유하는 클러스터 전체의 성능감소로 이어진다. 특히 작은 데이터 처리를 지속해서 요청하는 스마트 홈 디바이스에서 지연율이 더 크게 나타난다. 이에 본 논문에서는 동시에 다수의 센서에서 요청이 발생하는 스마트 홈 환경에서 효과적인 데이터 처리를 위한 Apriori 기반 빅데이터 시스템을 설계하였다. 제안하는 시스템의 성능평가 결과에 따르면, 데이터 처리 시간은 기존 시스템에 비해 최소 19.2%에서 최대 38.6% 단축됐다. 이러한 결과가 발생한 이유는 측정되는 데이터의 형태와 관련이 있다. 스마트 홈 환경은 수집되는 데이터의 양은 방대하나 각 데이터의 용량은 작기 때문에 캐시 서버의 사용이 데이터 처리에 큰 역할을 하며, Apriori 알고리즘을 통한 연관도 분석으로 사용자의 행동 습관과 연관도가 높은 센서 데이터를 캐시에 저장하기 때문에 캐시 서버의 활용률이 매우 높다.

하둡 기반 천문 응용 분야 대규모 데이터 분석 기법 연구 (A Study on Large-scale Data Analysis based on Hadoop for Astroinformatics)

  • 곽재혁;윤준원;정용환;함재균;박동인
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(B)
    • /
    • pp.13-16
    • /
    • 2011
  • 과학 응용 분야에서 생성되는 대규모의 데이터를 빠른 시간 내에 효율적으로 처리해야 할 필요성이 대두 되면서 클라우드 컴퓨팅이 주목받고 있다. 하둡(Hadoop)은 대규모 데이터 처리 분석을 위한 소프트웨어 프레임워크를 제공하는 아파치의 오픈소스 프로젝트로서 클라우드 컴퓨팅의 대표적인 기술로서 널리 사용되고 있다. 특히, 하둡은 높은 확장성과 성능을 제공하면서 결함 탐지와 자동 복구 기능이 우수하여 과학 기술 분야에서도 점차적으로 도입 및 활용되고 있다. 본 논문에서는 하둡을 이용하여 천문 응용 분야에서 생성되는 대규모 데이터를 분석하기 위한 방법을 연구하였다. 본 논문에서 관심을 가지는 천문 응용 데이터는 대략 천만개의 작은 크기의 관측 데이터를 처리해야 하지만, 하둡은 대규모 데이터 처리에 특화되어 있어서 많은 개수의 작은 크기를 가지는 관측데이터 처리에는 적합하지 않다. 본 논문에서는 천문 응용 데이터 처리를 위한 입출력 파일을 하둡에서 제공하는 특수화된 데이터 구조를 이용하여 압축하였고, 천문 응용 실행 코드가 하둡에서 실행이 가능하도록 맵리듀스 작업으로 랩핑하여 구현하였다.

맵리듀스의 데이터 로컬리티 향상을 위한 데이터 복제기법 (Data Replication Technique for Improving Data Locality of MapReduce)

  • 이정하;유헌창;이은영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.218-220
    • /
    • 2012
  • 인터넷 활용과 웹 어플리케이션의 개발이 증가함에 따라 처리해야하는 데이터의 양도 또한 증가하고 있다. 대량의 데이터를 효과적으로 처리하기 위한 방법 중 하나로 병렬처리 프로그래밍 모델인 맵리듀스가 있다. 하둡은 맵리듀스의 오픈소스 구현으로 대량의 데이터를 병렬로 처리하는 무료 자바 소프트웨어 프레임워크이다. 분산 파일 시스템을 사용하는 하둡에서는 처리하는 데이터가 다른 노드에 위치하는 데이터 로컬리티 문제가 전체 작업 수행시간의 증가를 야기하는 문제가 있다. 본 논문에서는 하둡에서의 데이터 로컬리티 문제를 해결하기 위한 데이터 복제기법을 제안한다. 제안하는 데이터 복제기법에서는 1) 라그랑지 보간법을 사용하여 과거 접근수를 이용한 미래 접근수를 예측하고, 2) 예측된 값을 Threshold값으로 설정하고, 3) 데이터 로컬리티 문제가 발생하였을 때, 복제사본을 생성할 것인지 캐시를 생성할 것인지를 결정하여 복제 사본의 수를 최적화 한다. 실험을 통해 단순히 복제사본 수를 증가시킴으로써 데이터 로컬리티를 향상을 이루어도 작업 완료시간이 감소하는 것이 아니라는 결과를 볼 수 있었고, 오버 런치로 인한 작업 완료시간 증가를 줄이기 위해 데이터 복제사본 수 최적화의 필요성을 확인할 수 있었다.

다중 전술 데이터링크 데이터 관리에 대한 연구 (A Study on the Multi-Tactical Data Link Data Management)

  • 황정은;이강;정석호
    • 한국전자통신학회논문지
    • /
    • 제15권3호
    • /
    • pp.457-464
    • /
    • 2020
  • 한국군은 Link-11, Link-16 과 Link-K를 적용한 한국형 전술 데이터링크 체계 JTDLS(: Joint Tactical Data Link System)를 운용하고 있다. Link-11에서 Link-22로의 교체 시점이 도래함에 따라 JTDLS 완성형 사업에서는 기존의 전술 데이터링크 외에 Link-22 등의 전술 데이터링크 처리가 추가될 예정이다. 다양한 전술 데이터링크 메시지 처리를 위해 본 논문에서는 Link-K, Link-16, KVMF 등 다중 전술 데이터링크의 데이터를 처리 할 수 있는 데이터 관리 구조를 제안하고, DLP 측면에서 많은 데이터를 빠르게 처리하는 방안을 찾기 위한 Shared Memory, In-Memory DB, 자체개발 DB를 이용하여 모의시험을 진행하고, 그 결과를 확인해 보고자 한다.