• 제목/요약/키워드: NoSQL 데이터베이스

검색결과 59건 처리시간 0.026초

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.

암호화 데이터베이스에서 영역 질의를 위한 기술 (Technique of Range Query in Encrypted Database)

  • 김천식;김형중;홍유식
    • 전자공학회논문지CI
    • /
    • 제45권3호
    • /
    • pp.22-30
    • /
    • 2008
  • 최근 들어 개인 정보 보호의 중요성에 대한 인식이 매우 높아지고 있다. 많은 국가에서 개인정보 보호에 관련한 법규를 새로이 제정하고 있으며 이제 개인 신상에 관련된 데이터를 보호하는 것은 단순한 기업 이미지 관리 차원이 아닌 법적인 의무가 되었다. 대부분의 기업의 세일즈 데이터베이스에는 예외 없이 고객의 이름, 주소, 신용카드번호와 같은 정보가 저장되어 있다. 개인 정보는 개인 신상에 관한 민감한 정보이고, 또한 기업의 전략적인 자산이며, 따라서 기업은 개인 정보를 사전 예방차원에서 안정적으로, 그리고 포괄적으로 보호하기 위한 모든 노력을 다해야 한다. 그러나 만일 데이터베이스 관리자의 패스워드 보안이 뚫린다면 속수무책일 수밖에 없다. 이를 위해서 데이터베이스 암호화는 반드시 필요하다. 그러나 암호화의 결과 데이터베이스의 성능에 문제가 될 수 있고 또한, 암호화로 인하여 기존의 SQL 언어에서의 영역(range) 질의에 제한이 있다. 따라서 이와 같은 문제를 해결하여 암호화된 데이터를 효과적으로 질의하기 위한 방법을 본 논문에서 제안하였다.

빅데이터 플랫폼 환경에서의 워크로드별 암호화 알고리즘 성능 분석 (Analysis of Encryption Algorithm Performance by Workload in BigData Platform)

  • 이선주;허준범
    • 정보보호학회논문지
    • /
    • 제29권6호
    • /
    • pp.1305-1317
    • /
    • 2019
  • 공공기관 및 기업의 빅데이터 플랫폼 환경에서 데이터 보호를 위한 암호화는 필수적인 요소이나 실제 빅데이터 워크로드를 고려한 암호화 알고리즘에 대한 성능 검증 연구는 많이 진행되지 않았다. 본 논문에서는 몽고 DB(MongoDB) 환경에서 데이터와 노드를 추가하여 빅데이터의 6가지 워크로드별로 AES, ARIA, 3DES별로 성능 변화 추이를 분석하였다. 이를 통해 빅데이터 플랫폼 환경에서 각 워크로드 별 최적의 블록기반 암호 알고리즘이 무엇인지 확인하고, NoSQL 데이터베이스 벤치마크(YCSB)를 사용하여 데이터와 노드 구성환경에서 다양한 워크로드별로 테스트를 통해 MongoDB의 성능을 고려한 최적화된 아키텍처를 제안한다.

Celery-MongoDB 를 활용한 센서정보 관리시스템 설계 및 구현 (Design and Implementation of Sensor Information Management System based on Celery-MongoDB)

  • 강윤희
    • Journal of Platform Technology
    • /
    • 제9권2호
    • /
    • pp.3-9
    • /
    • 2021
  • 센서정보 관리를 위해서는 다양하고 수많은 센서의 정보를 신속하게 저장, 수정, 삭제 할 수 있는 기능을 제공해야 한다. 본 연구에서는 Celery 와 MongoDB 를 활용하여 위의 조건에 부합한 센서정보 관리 시스템을 설계 및 구현하였다. Celery 는 파이썬으로 개발된 비동기 통신을 기반으로 하는 큐구조를 제공하고 있다. 그리고 이것은 분산된 작업 큐 구조이고 단순하지만 많은 양의 메시지를 처리하기에 적합한 신뢰성 있는 분산 시스템이다. MongoDB 는 NoSQL 데이터베이스로써 다양한 정보 표현을 저장할 수 있고 검색할 수 있다. 본 연구에서는 개발한 시스템을 활용한 실험을 통해 IoT 환경에서 제공되는 다양한 센서를 관리할 수 있음을 확인할 수 있었다. 센서데이터를 갖는 메시지를 처리하기 위한 성능을 개선하기 위해 본 시스템은 클라우드 하부구조의 에지단에 배치되어 사용한다.

전문용어 정제를 위한 형태소 분석을 이용한 한의학 증상 진단 시스템 개발 (The Development of the Korean Medicine Symptom Diagnosis System Using Morphological Analysis to Refine Difficult Medical Terminology)

  • 이상백;손윤희;장현철;이규철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.77-82
    • /
    • 2016
  • 증상 진단 시스템이라 함은 환자가 자신의 증상을 설명하고, 한의사가 증상에 맞는 질병 진단을 내리는 것을 말한다. 증상 진단 시스템을 자동화하기 위해서는 환자의 자연어로 이루어진 증상 설명에 대한 분석이 필요하다. 이에 본 논문에서는 증상 설명에 대하여 형태소 분석을 수행하고 한의학 병증 데이터와 비교하여 적합한 진단을 내리도록 증상 진단 시스템을 개발하였다. 증상 진단 검색의 효율을 높이기 위해서 Document형 NoSQL인 MongoDB를 이용하여 각각의 병증 데이터를 하나의 도큐먼트로 하고, 그 안의 필드값을 유연하게 관리할 수 있도록 데이터베이스를 구축하였다. 또한, 진단의 근거가 되는 한의사의 병증 설명과 환자의 증상 설명에서 사용되는 용어의 차이를 줄일 수 있도록 환자의 증상 설명을 축적하고 정제하여 일반인에게 친숙한 단어로 구성된 설명데이터를 제공할 수 있게 하였다.

기상 데이터를 활용한 CQRS 패턴의 조회 모델 구현 (Implementation of query model of CQRS pattern using weather data)

  • 서보민;전철호;전현식;안세윤;박현주
    • 한국정보통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.645-651
    • /
    • 2019
  • 대용량 데이터가 쏟아져 나오고 있는 지금, 대용량 데이터의 처리를 위해 데이터 처리 특성상 쓰기 작업보다 읽기작업이 많아 소프트웨어 아키텍처나 데이터 저장 패턴에 많은 변화가 가해지고 있다. 이에 따라 본 논문에서는 명령(Command)과 쿼리(Query)의 책임을 분리하는 CQRS(Command Query Responsibility Segregation) 패턴의 쿼리 모델을 사용해 사용자의 요구사항에 효율적인 대용량 데이터 조회 시스템을 구현한다. 본 논문의 대용량 데이터는 기상청 Open API의 2018년 온도, 습도, 강수 데이터를 활용하여 약 23억 건의 데이터를 RDBMS(PostgreSQL)와 NoSQL(MongoDB)에 알맞게 저장한다. 또한 구현한 웹 서버 (Web Server) 입장에서의 CQRS패턴을 적용한 시스템과 CQRS 패턴을 적용하지 않은 시스템의 성능, 각 데이터베이스의 저장구조 성능, 데이터 처리 특징에 맞는 성능을 비교 및 분석한다.

음원 데이터베이스의 효율적 확장을 지원하는 내용 기반 음원 검색 시스템 (A Content-based Audio Retrieval System Supporting Efficient Expansion of Audio Database)

  • 박지훈;강현철
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권5호
    • /
    • pp.811-820
    • /
    • 2017
  • 음원 서비스의 주요 기능 중 하나인 내용 기반 검색을 위해 음원의 지문을 채취하여 데이타베이스에 저장하고 색인하여 검색에 활용하는 기법이 널리 사용되고 있다. 그런데 지속적으로 추가되는 신규 음원의 지문이 기존의 데이타베이스에 계속 삽입되면 공간 효율 및 음원 검색 성능의 저하가 점차 초래되는 문제점이 있다. 따라서 시스템 운용 비용의 증가를 가져오는 주기적인 데이터 베이스 재구성 없이 효율적인 음원 데이타베이스의 확장을 지원하는 기법이 요구된다. 본 논문에서는 샤잠의 지문 채취 알고리즘을 기반으로 클러스터 컴퓨팅 환경에서 맵리듀스 및 NoSQL 데이타베이스를 사용하여 이러한 문제를 해결하는 내용 기반 음원 검색 시스템의 설계를 제시하고 실제 음원 데이터를 이용한 다양한 실험을 통해 그 성능을 평가한다.

IoT 환경에서 스트리밍 기반의 비정형 데이터 수집 프레임워크 설계 (Design of Streaming based Unstructured-Data Collecting Framework in IoT Environment)

  • 이후영;박구락;김동현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.57-58
    • /
    • 2017
  • 사물인터넷 환경의 다양한 기기에서는 매초마다 시스템 로그 데이터, 온도, 습도, 조도 및 위치 정보 등과 같은 데이터를 지속적으로 생성한다. 이렇게 생성된 데이터는 기기 안에서 대부분 소멸되거나 수집된다 하더라도 시스템 개선의 일부 목적으로 활용하는데 그칠 뿐이다. 본 논문에서는 각각의 사물인터넷 기기에서 발생하는 비정형 데이터를 스트리밍 방식을 통해 수집 서버로 전송하고 이를 유연한 스키마 구조를 가지는 NoSQL 데이터베이스에 적재하는 프레임워크 설계를 제안한다. 이렇게 수많은 장비로부터 수집된 로그 및 센싱 데이터는 빅데이터 분석을 통해 산업의 현장에서 생산성 향상을 위해 사용할 수 있으며 공공의 목적으로 도심지의 교통문제 해소와 재난 및 재해 예측에 활용될 수 있다.

  • PDF

HBase를 이용한 분산 시맨틱 웹 데이터 저장소에 대한 연구 (A Study on Distributed Semantic Web Data Repository Using HBase)

  • 조대웅;김명호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.111-114
    • /
    • 2012
  • 실시간으로 발생되는 대량의 데이터를 효율적으로 저장하기 위한 연구는 분산/병렬 처리를 위한 하둡 및 NoSQL과 관련한 빅 데이터 처리 기술을 통해 진행 중에 있다. 하지만 시맨틱 웹 분야에서 발생되는 대량의 데이터를 처리하기 위한 모델은 현재 연구가 진행되고 있지 않다. 본 논문에서는 시맨틱 웹 환경에서 발생되는 대량의 온톨로지 데이터를 빅 데이터 처리가 가능한 NoSQL 분야인 HBase 데이터베이스에 분산 저장할 수 있는 매핑 규칙을 제안한다. 이와 같은 매핑 규칙을 통해 시맨틱 웹 환경에서도 대량으로 발생될 수 있는 데이터들을 효율적으로 분산 저장 할 수 있다.

패킷제어를 이용한 무부하 데이터베이스 접근보안 (No-load Database Security using Network Packet Control)

  • 신성철;이경석;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.540-543
    • /
    • 2014
  • 수많은 데이터를 사용하는 기업 및 기관들은 전용 데이터베이스를 구축하여 모든 정보들을 저장, 관리하고 있다. 개인정보를 포함하여 비인가된 중요 정보들이 저장되어있음에도 불구하고 대부분의 경우 데이터베이스에 대한 보안적용이 되어있지 않거나 아주 미비한 상태이다. 보안사고의 대부분이 데이터베이스에 저장된 중요 정보가 유출되는 점을 보았을 때 데이터베이스 자체에 대한 보안시스템을 구축하여 예방하는 것이 보안사고의 피해를 막을 수 있는 가장 핵심적인 방법이라 할 수 있다. 이에 본 연구에서는 네트워크 패킷을 모니터링하여 데이터베이스의 성능에 영향을 미치지 않고 보안기능을 수행할 수 있는 Sniffing 을 이용한 방안을 제안한다. 제안 보안시스템은 별도의 하드웨어에서 기능을 수행하며 운영 중인 데이터베이스에 서비스의 중단 없이 보안시스템을 구축할 수 있도록 하였다. Sniffing 방식에서 접근제어 기능을 수행 할 수 있도록 알고리즘 설계를 하였으며 감사 로그를 기록할 때 가장 많은 부분을 차지하는 SQL 에 대해 MD5 해시함수를 적용하여 해당 로그에 대한 데이터크기를 크게 줄일 수 있었다. 운영중인 데이터베이스 환경에 영향을 주지 않으면서 높은 수준의 감사성능을 제공하고 다양한 보안 정책을 간단하게 적용할 수 있도록 구현하였으므로 데이터베이스에 저장된 중요정보의 유출을 예방하고, 보안사고가 일어났을 때 추적 및 증거자료로 활용할 수 있을 것이다.