• 제목/요약/키워드: Storage Schema

검색결과 89건 처리시간 0.024초

RDF 기반의 온톨로지 처리시스템 (A RDF based Ontology Management System)

  • 정준원;정호영;김종남;임동혁;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권4호
    • /
    • pp.381-392
    • /
    • 2005
  • 수많은 종류의 데이타가 발생하는 현재와 같은 상황에서 데이타의 처리속도가 발전함에 따라 원하는 정보를 얻기는 더욱 어려워지고 있다. 이와 같은 상황에서는 데이타를 얼마나 빠르게 처리하는지 보다 얼마나 의미 있는 정보를 얻을 수 있느냐가 중요한 문제이다. 시멘틱웹은 의미적인 정보와 관계를 기술하여 지능적인 정보 처리를 지원하며 이를 통해온톨로지를 구축할 수 있다. 하지만 현재 실질적인 서비스를 고려한 온톨로지 관리 시스템은 부족한 상황이다. 본 논문에서는 온톨로지를 저장, 관리, 검색하는 기본적인 기능은 물론 실질적인 온톨로지 서비스를 수행할 수 있도록 효율적인 데이타 처리에 중점을 두고 온톨로지 관리 시스템을 구현하였다. 먼저 RDF데이타 모델이 저장장치에 독립적인 인터페이스를 가지도록 시스템을 설계하고 RDF데이타를 데이타베이스에 효율적으로 저장, 처리하는 기법을 제안하였다. 연관된 데이타의 빠른 처리를 지원하기 위한 스키마와 시멘틱 정보 기반의 캐쉬기법을 제안하였으며 사용자 중심의 온톨로지 검색 인터페이스를 제안하였다. 그리고 실제 온톨로지데이타를 시스템에 적용해 봄으로써 구축된 시스템이 효율적으로 동작함을 확인하였다.

마이크로어레이 데이터의 구조적 유사성을 이용한 효율적인 저장 구조의 설계 (Design of Efficient Storage Exploiting Structural Similarity in Microarray Data)

  • 윤종한;신동규;신동일
    • 정보처리학회논문지D
    • /
    • 제16D권5호
    • /
    • pp.643-650
    • /
    • 2009
  • 생명정보 대량 획득기술의 하나인 마이크로어레이(microarray)는 DNA와 각종 유전자 연구에 사용되는 도구로 확립되면서, 생명정보학(Bioinformatics)분야의 발전에 크게 기여하였다. 그러나 마이크로어레이는 생명정보학분야의 핵심기술 중 하나로 발전하였음에도 불구하고 실험으로 생성되는 데이터는 형태가 다양하고 매우 복잡한 형태를 갖기 때문에 데이터의 공유나 저장에서 많은 어려움을 겪고 있다. 본 논문에서는 마이크로어레이 데이터의 관리를 원활하게 하기위한 XML 기반의 표준 포맷인 MAGE-ML스키마에서 구조적으로 유사한 엘리먼트가 반복적으로 나타나는 특징과 대다수의 엘리먼트들이 특정 엘리먼트의 자식으로만 온다는 구조적 특징을 이용하여, MAGE-ML의 스키마를 단순화 하고 저장구조를 효율적으로 설계하는 방법을 제안한다. 이 방법에서 인라인 기법(Inlining Technique)을 이용한 스키마의 단순화와 새롭게 제시하는 엘리먼트의 구조적 형태를 기준으로 분류하는 기법을 이용한다. 이를 통하여 데이터베이스 스키마는 간략화 되며 테이블조인의 횟수가 줄어들고 성능은 향상된다.

XQL-SQL 질의 변환을 통한 XQL 질의 처리 시스템의 설계 및 구현 (Design and Implementation of XQL Query Processing System Using XQL-SQL Query Translation)

  • 김천식;김경원;이지훈;장복선;손기락
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.789-800
    • /
    • 2002
  • XML이 웹 문서의 표준이며, 문서교환용 언어로서 사용되고있다. 상업용 데이터는 대부분 관계형 데이터베이스에 저장되어 있고 이들 문서를 교환용 문서로 만들어서 문서교환에 이용하거나 관계형 데이터베이스에 저장된 XML데이터에 XQL로 질의하여 질의결과를 효율적으로 획득하는 것은 매우 중요하다. 따라서, 향후 많은 XML데이터의 보관 및 관리 그리고 XML데이터를 위한 질의어 처리는 필수적이다. 지금까지, XML데이터의 저장 및 검색과 관련한 연구 및 제품개발이 여러 업체에 의해 있어왔고, 지금도 연구 및 개발이 진행되고 있다. 하지만, 효율적인 XML데이터의 저장 및 검색을 위한 시스템은 아직까지 많지 않다. 따라서 본 논문에서는 효율적인 경로 질의를 위한 DFS-Numbering 방식을 사용하며, 효율적인 데이터 저장을 위해서 XML 데이터 저장을 위한 스키마를 설계하였다. 또한, 전통적인 관계형 데이터베이스 엔진을 이용한 효율적인 XQL 질의수행 방법을 설계 및 구현하였다. 즉, 사용자가 시스템에 XQL로 질의를 하면 XQL 처리기에 의해서 XQL이 SQL로 변환되고, SQL로 관계형 데이터베이스에 질의를 수행하면, 결과로 레코드를 반환한다. 이때 XML 생성기에 의해서 사용자에게 n문서를 반환한다.

경로정보의 중복을 제거한 XML 문서의 저장 및 질의처리 기법 (Storage and Retrieval of XML Documents Without Redundant Path Information)

  • 이혜자;정병수;김대호;이영구
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.663-672
    • /
    • 2005
  • 본 논문에서는 대용량 XML 문서를 저장하고 그로부터 원하는 정보를 효율적으로 찾기 위한 방법으로, 경로정보의 중복을 제거하면서 역 인덱스를 함께 이용한 방법을 제안한다. XML 문서는 트리구조에 기반한 노드로 분해되어, 노드 타입에 따라, 루트에서 각 노드까지의 경로정보와 함께 관계형 테이블에 저장된다. 경로정보를 이용한 기존의 U 질의 기법들에서는 모든 엘리먼트 노드들에 대해 경로정보를 저장함에 따라 정보의 양이 증가하여 질의 처리의 성능을 저하시키는 요인이 되고 있다. 제안 방법에서는 경로정보 중 가장 긴 단말 엘리먼트 노드까지의 경로인 단말 엘리먼트 경로(leaf element path)만 저장하고 내부 엘리먼트 노드까지의 경로인 내부 엘리먼트 경로들(internal element paths)은 저장하지 않는다. 단말 엘리먼트 경로만을 대상으로 하여 역 인덱스를 구성함에 따라, 기존의 역 인덱스 이용 기법에 비해 키워드별 포스팅 리스트(posting lists)의 수를 줄이게 된다. 제안 방법에서는 U 문서의 저장과 질의를 위하여 XML 문서에 대한 스키마 정보가 없어도 되며, 관계형 데이터베이스의 어떤 확장도 요구하지 않는다. 실험을 통해 제안 방법은 실험 범위 내에서 기존 기법들에 비해 좋은 성능을 보인다.

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.

미디에이터 시스템의 적응적 구체화 질의 선택방법 (An Adaptive Materialized Query Selection Method in a Mediator System)

  • 주길홍;이원석
    • 정보처리학회논문지D
    • /
    • 제11D권1호
    • /
    • pp.83-94
    • /
    • 2004
  • 다양한 분산정보의 통합을 위하여 전역 사용자들이 요구하는 데이터들을 지역서버의 자치성을 유지하면서 효과적으로 제공하기 위한 미디 에이터 시스템의 연구가 활발하게 진행되고 있다. 그러나, 미디에이터에서의 전역질의를 효율적으로 처리하기 위한 방법의 연구는 상대적으로 매우 미흡한 실정이다. 미디에이터에서 전역질의는 원격지서버의 질의처리 단위인 부분질의의 집합으로 표현되어진다. 따라서, 미디에이터가 부분질의의 결과를 구체화방법으로 관리한다면 관련된 질의의 결과를 사용자에게 신속하게 제공할 수 있다. 그러나, 미디에이터에서는 통합 스키마의 변경이 자유롭고, 사용자의 질의가 자주 변할 수 있기 때문에 최적의 구체화부분질의를 결정하기 위해서 전역질의의 빈발정도를 지속적으로 파악해야 한다. 따라서, 부분질의의 수가 증가할수록 최적화의 수행시간이 매우 길어지기 때문에 부분질의 빈도의 최근의 변화를 적절하게 반영하지 못한다. 따라서 본 논문에서는 미디에이터 시스템의 저장공간의 활용율을 극대화하는 최적의 구체화부분질의 군을 선택하는 방법을 제안한다. 또한 과거와 최근의 부분질의의 활용형태가 다양하게 변할 수 있으므로 시간에 따른 감쇄율을 활용빈도에 적용하여 최근의 활용빈도의 변화에 민감하게 반응하고 활용형태의 변화에 따라 적응적으로 새로운 구체화부분질의 군을 선택할 수 있는 방법을 제안한다.

HBase에 대한 디지털 포렌식 조사 기법 연구 (Digital Forensic Investigation of HBase)

  • 박아란;정두원;이상진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권2호
    • /
    • pp.95-104
    • /
    • 2017
  • 최근 스마트 기기의 발전과 소셜 네트워크 서비스(SNS)의 대중화로 기존 관계형 데이터베이스(RDBMS)에서는 처리하기 어려운 데이터들이 증가하고 있다. 이러한 대용량의 비정형 데이터를 실시간으로 처리하기 위한 대안으로 비관계형 데이터베이스(NoSQL DBMS)가 각광 받고 있다. 데이터베이스 디지털 포렌식 조사 기법은 대부분 관계형 데이터베이스를 대상으로 연구되어왔으나, 최근 NoSQL DBMS를 도입하는 기업이 증가하면서 NoSQL DBMS에 대한 디지털 포렌식 기법의 수요도 증가하고 있다. NoSQL DBMS는 정규화할 스키마가 존재하지 않고, 데이터베이스 종류나 운영환경에 따라 저장방식이 상이하기 때문에 디지털 포렌식 조사 시 이를 고려한 새로운 기법들이 필요하다. NoSQL DBMS 중 문서형 데이터베이스에 대한 연구는 진행되어 왔지만, 이를 다른 종류의 NoSQL DBMS에 그대로 적용하기엔 한계가 있다. 이에 본 논문에서는 NoSQL DBMS 중 컬럼형 데이터베이스인 HBase의 구동 방식과 데이터 모델을 소개하고, 운영환경 파악과 아티팩트 수집 및 분석, 삭제된 데이터의 복구 방안에 대해 제안하여 이를 바탕으로 HBase에 대한 디지털 포렌식 조사 기법에 대해 연구하였다. 또한 실험 시나리오를 통해 제안된 HBase에 대한 디지털 포렌식 조사 기법을 검증한다.

외부참조를 통한 IndoorGML과 CityGML의 결합 (A Linkage between IndoorGML and CityGML using External Reference)

  • 김준석;유성재;이기준
    • Spatial Information Research
    • /
    • 제22권1호
    • /
    • pp.65-73
    • /
    • 2014
  • 최근 대형 실내공간을 대상으로 Indoor Google Map과 같은 실내지도 및 내비게이션 서비스가 부분적으로 제공되고 있다. 이러한 서비스들을 위해서 실내 데이터가 필요하며, 실내를 표현하는 데이터 모델 표준으로 CityGML과 IFC가 널리 사용되고 있다. 이 두 표준들은 실내의 가시화와 건축 구조물의 분석 등에 필요한 기하 정보들을 담고 있는데, 실내공간 내비게이션은 기하정보뿐만 아니라 의미적인 정보, 그리고 네트워크와 같은 위상정보도 필요로 한다. 이러한 요구에 맞춰 실내공간정보의 표현 및 저장, 교환을 위한 데이터 모델이자 GML3의 응용 스키마인 IndoorGML이 OGC의 표준으로 제정되고 있다. IndoorGML은 기하적인 요소들을 직접 표현할 수 있을 뿐만 아니라 다른 문서를 외부 참조하는 것이 가능하다. CityGML이나 IFC로 구축된 데이터가 많이 구축되고 있기 때문에 이를 가공하여 IndoorGML의 생성에 활용한다면 시간과 구축비용 줄여 경제적인 이득을 볼 수 있다. 이러한 이유로 본 논문은 CityGML으로 구축된 실내공간 데이터를 IndoorGML의 데이터로 유도하고 연결하는 방법을 제시한다. CityGML과 IndoorGML의 대응관계에 대해 분석하고, 두 표준으로 만들어진 인스턴스 문서들을 서로 연결할 때 나타나는 문제와 이슈들에 대해 살펴보고, 이에 대한 해결 방안에 대해 논의한다.

비정형 빅데이터의 실시간 복합 이벤트 탐지를 위한 기법 (The Method for Real-time Complex Event Detection of Unstructured Big data)

  • 이준희;백성하;이순조;배해영
    • Spatial Information Research
    • /
    • 제20권5호
    • /
    • pp.99-109
    • /
    • 2012
  • 최근 소셜 미디어의 발달과 스마트폰의 확산으로 SNS(Social Network Service)가 활성화가 되면서 데이터양이 폭발적으로 증가하였다. 이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다. 여러 기업이 보유한 빅데이터의 가치창출을 극대화하기 위해 기존 데이터와의 융합이 필요하며, 물리적, 논리적 저장구조가 다른 이기종 데이터 소스를 통합하고 관리하기 위한 시스템이 필요하다. 빅데이터를 처리하기 위한 시스템인 맵리듀스는 분산처리를 활용하여 빠른게 데이터를 처리한다는 이점이 있으나 모든 키워드에 대해 시스템을 구축하여 저장 및 검색 등의 과정을 거치므로 실시간 처리에 어려움이 따른다. 또한, 이기종 데이터를 처리하는 구조가 없어 복합 이벤트를 처리하는데 추가 비용이 발생할 수 있다. 이를 해결하는 방안으로 기존에 연구된 복합 이벤트 처리 시스템을 활용하여 실시간 복합 이벤트 탐지를 위한 기법을 제안하고자 한다. 복합 이벤트 처리 시스템은 서로 다른 이기종 데이터 소스로부터 각각의 데이터들을 통합하고 이벤트들의 조합이 가능하며 스트림 데이터를 즉시 처리할 수 있어 실시간 처리에 유용하다. 그러나 SNS, 인터넷 기사 등 텍스트 기반의 비정형 데이터를 텍스트형으로 관리하고 있어 빅데이터에 대한 질의가 요청될 때마다 문자열 비교를 해야 하므로 성능저하가 발생할 여지가 있다. 따라서 복합 이벤트 처리 시스템에서 비정형 데이터를 관리하고 질의처리가 가능하도록 문자열의 논리적 스키마를 부여하고 데이터 통합 기능을 제안한다. 그리고 키워드 셋을 이용한 필터링 기능으로 문자열의 키워드를 정수형으로 변환함으로써 반복적인 비교 연산을 줄인다. 또한, 복합 이벤트 처리 시스템을 활용하면 인 메모리(In-memory)에서 실시간 스트림 데이터를 처리함으로써 디스크에 저장하고 불러들이는 시간을 줄여 성능 향상을 가져온다.