• 제목/요약/키워드: 대량 연산

검색결과 79건 처리시간 0.026초

가중치 테이블 기반 안전한 e-비즈니스 데이터 분할 복원 방식 (Secure Sharing and Recovering Scheme of e-Business Data Based on Weight Table)

  • 송유진;김진석
    • 정보처리학회논문지C
    • /
    • 제16C권1호
    • /
    • pp.27-36
    • /
    • 2009
  • 최근의 개인정보 노출의 가장 큰 원인은 정당한 개인정보 관리자 즉, 내부자에 의한 부정 이용이다. 관리자는 사용자의 기밀문서를 몰래 복사하거나 고쳐 쓰는 것도 가능하다. 이러한 민감한 개인 및 기업 데이터의 안전한 관리 대책으로서 기밀정보의 안전한 분산 저장관리 기능이 요구되고 있다. 한편, 개인정보를 제공하는 경우, 정보 소유자가 프라이버시 데이터를 누구에게 얼마만큼 가중치(weight)을 두고 공개할지를 정해야 한다. 따라서 참여자의 중요도에 따라 개인정보 열람에 대한 권한의 가중치를 다르게 지정할 수 있는 구조가 요구된다. 본 논문에서는 개인정보를 권한의 가중치에 따라 안전하게 관리할 수 있는 새로운 데이터 관리 기법을 위한 Digit-independent 알고리즘을 새롭게 제안한다. 제안된 알고리즘을 근거로 데이터의 수집과 단순한 연산만으로 고속 연산처리가 가능하여 대량의 프라이버시 데이터에 적용할 수 있는 데이터 관리기법으로서 가중치 테이블 기반의 Digit-independent 알고리즘을 이용한 데이터 분할 복원 방식을 제안한다. 제안 방식은 유비쿼터스 환경에서 e-비즈니스 데이터의 안전한 관리 및 저장에 활용될 수 있을 것이다.

Spark SQL 기반 고도 분석 지원 프레임워크 설계 (Design of Spark SQL Based Framework for Advanced Analytics)

  • 정재화
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권10호
    • /
    • pp.477-482
    • /
    • 2016
  • 기업의 신속한 의사결정 및 전략적 정책 결정을 위해 빅데이터에 대한 고도 분석이 필수적으로 요구됨에 따라 대량의 데이터를 복수의 노드에 분산하여 처리하는 하둡 또는 스파크와 같은 분산 처리 플랫폼이 주목을 받고 있다. 최근 공개된 Spark SQL은 Spark 환경에서 SQL 기반의 분산 처리 기법을 지원하고 있으나, 기계학습이나 그래프 처리와 같은 반복적 처리가 요구되는 고도 분석 분야에서는 효율적 처리가 불가능한 문제가 있다. 따라서 본 논문은 이러한 문제점을 바탕으로 Spark 환경에서 고도 분석 지원을 위한 SQL 기반의 빅데이터 최적처리 엔진설계와 처리 프레임워크를 제안한다. 복수의 조건과 다수의 조인, 집계, 소팅 연산이 필요한 복합 SQL 질의를 분산/병행적으로 처리할 수 있는 최적화 엔진과 관계형 연산을 지원하는 기계학습 최적화하기 위한 프레임워크를 설계한다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

동형 암호의 데이터 수집 프로토콜 적용 방안 연구 (A Study on Data Collection Protocol with Homomorphic Encryption Algorithm)

  • 이종덕;정명인;유진철
    • 한국콘텐츠학회논문지
    • /
    • 제21권9호
    • /
    • pp.42-50
    • /
    • 2021
  • 인터넷 사용 환경이 발전함에 따라 스마트폰과 각종 센서로부터 발생하는 대량의 데이터를 수집 및 분석하여 활용하는 데이터 기반 애플리케이션의 사용은 지난 10여 년간 폭발적으로 증가하였다. 그러나 이러한 사용자 데이터 기반의 애플리케이션을 사용하는 것은 언제든지 개인정보가 승인되지 않은 제3자에게 유출될 수 있다는 문제점을 내재하고 있다. 이러한 문제를 해결하기 위해 학자들은 데이터 교란과 암호화를 포함한 여러 기법을 사용해 왔다. 동형 암호는 암호화된 데이터를 복호화과정 없이 그대로 연산하더라도 결괏값이 보존되므로 원하는 연산을 수행할 때 개별 데이터를 복호화할 필요가 없어 기존의 방식보다 더 나은 개인정보보호를 제공한다. 본 연구에서는 개인정보를 보호하기 위해 사용되는 두 가지 알고리즘인 데이터 교란 방식과 전통 암호 방식 알고리즘을 구분하여 살펴보고, 두 가지 알고리즘의 단점을 보완할 수 있는 동형 암호를 이용한 데이터 수집 방법을 제안한다.

심층 신경망 병렬 학습 방법 연구 동향 (A survey on parallel training algorithms for deep neural networks)

  • 육동석;이효원;유인철
    • 한국음향학회지
    • /
    • 제39권6호
    • /
    • pp.505-514
    • /
    • 2020
  • 심층 신경망(Deep Neural Network, DNN) 모델을 대량의 학습 데이터로 학습시키기 위해서는 많은 시간이 소요되기 때문에 병렬 학습 방법이 필요하다. DNN의 학습에는 일반적으로 Stochastic Gradient Descent(SGD) 방법이 사용되는데, SGD는 근본적으로 순차적인 처리가 필요하므로 병렬화하기 위해서는 다양한 근사(approximation) 방법을 적용하게 된다. 본 논문에서는 기존의 DNN 병렬 학습 알고리즘들을 소개하고 연산량, 통신량, 근사 방법 등을 분석한다.

실체 뷰와 차원 계층을 이용한 OLAP 질의 재작성 방법 (A Method Rewriting OLAP Queries using Materialized Views and Dimension Hierarchies)

  • 박창섭;김명호;이윤준
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권2호
    • /
    • pp.168-180
    • /
    • 2001
  • 데이터 웨어하우스 시스템에 대한 OLAP 질의들은 대량의 데이터를 대상으로 복잡한 분석 및 집계 연산을 수행한다. 이러한 고비용의 OLAP 질의들을 효율적으로 실행하는 것은 시 스템의 성능 향상을 위해 매우 중요하다. 이를 위해 본 논문에서는 데이터 웨어하우스 시스 템에 존재하는 여러 종류의 실체 집계 뷰들을 이용하여 주어진 OLAP 질의를 재작성하는 방법을 제안한다. 본 논문에서는 차원 계층들로부터 유도되는 그룹 격자를 이용하여 OLAP 질의와 실체 뷰의 선택 단위, 선택 영역, 집계 단위등을 정의하고, 이들로부터 OLAP 질의 와 식체 뷰에 대한 정규을 정의한다. 그리고 정규형으로 표현된 질의와 실체 뷰 사이의 관 계를 이용하여 실체 뷰가 질의의 재작성에 이용 가능하기 위한 조건을 제시한다. 제안하는 질의 재작성 방법은 데이터 웨어하우스의 메타 정보들과 OLAP 질의 및 실체 뷰들의 특성 을 고려하여 다양한 실체 뷰들을 함께 이용할 수 있으므로, 시스템에 존재하는 실체 뷰들의 효용성을 높이고 주어진 질의를 효율적으로 처리할 수 있다.

  • PDF

지식 표현 방식을 이용한 근사 질의응답 기법 (An Approximate Query Answering Method using a Knowledge Representation Approach)

  • 이선영;이종연
    • 한국산학기술학회논문지
    • /
    • 제12권8호
    • /
    • pp.3689-3696
    • /
    • 2011
  • 의사결정 지원시스템에서 작업자들은 대량의 데이터 집계 연산을 요구하며, 데이터에 대한 정확한 응답보다는 경향 분석에 더 많은 관심을 가진다. 그러므로 정확한 응답보다 빠른 근사 질의응답을 제공하는 것이 필요하며 그것을 실현하기 위한 근사질의 응답 기법의 연구가 필요하다. 따라서 본 논문에서는 기존 연구들의 단점을 보안하고 근사 응답의 정확성을 향상시킬 수 있는 Fuzzy C-Means (FCM) 클러스터링 기반 Adaptive Neuro-Fuzzy Inference System (ANFIS)을 이용한 근사 질의응답 기법을 제안한다. FCM-ANFIS을 이용한 근사 질의응답 기법은 다차원 데이터의 지식 표현 모델을 생성함으로써 거대한 다차원 데이터 큐브에 직접적인 접근 없이 집계 질의 수행이 가능하다. 비교실험을 통하여 제안된 기법이 기존의 NMF 기법보다 근사 질의응답의 정확성이 향상되었음을 확인한다.

언어 정보 획득을 위한 한국어 코퍼스 분석 도구 (A Korean Corpus Analysis Tool for Language Information Acquisition)

  • 이호;김진동;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.297-304
    • /
    • 1994
  • 코퍼스는 기계 가독형으로 개장되어 있는 실제 사용 언어의 집합으로 자연어 처리에 필요한 여러 가지 언어 정보를 내재하고 있다. 이들 정보는 코퍼스 분석기를 이용하여 획득할 수 있으며 용례와 각종 통계 정보 및 확률 정보, 연어 목록 등은 코퍼스에서 추출할 수 있는 대표적인 언어 정보들이다. 그러나 기존의 한국어 코퍼스 분석 도구들은 용례 추출 기능만을 보유하여 활용 범위가 제한되어 있었다. 이에 본 논문에서는 대량의 한국어 코퍼스를 분석하여 용례뿐만 아니라 자연어 처리의 제분야에서 필요한 언어 정보들을 추출하는 방법에 대해 연구하였으며 이의 검증을 위해 KCAT(Korean Corpus Analysis Tool)를 구현하였다. KCAT는 코퍼스 색인, 용례 추출, 통계 정보 추출, 연어 추출 부분으로 구성되어 있다. 용례 색인을 위해서는 여러 가지 사전과 용례 색인 구조가 필요한데 KCAT에서는 가변 차수 B-Tree 구조를 이용하여 사전을 구성하며 용례 색인을 위해 버킷 단위의 역 화일 구조를 이용한다. 질 좋은 용례의 추출을 위해 KCAT는 다양한 용례 연산 및 정렬 기능을 제공한다. 또한 통계적 방법의 자연어 처리 분야를 위해 어휘 확률, 상태 전이 확률, 관측 심볼 확률, 상호 정보, T-score 등을 제공하며, 기계 번역 분야에서 필요한 연어를 추출한다.

  • PDF

PCIA 클라우드 서비스 모델링 및 자원 구성에 따른 성능 영향도 분석 (PCIA Cloud Service Modeling and Performance Analysis of Physical & Logical Resource Provisioning)

  • 윤빈풍;곽종욱
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권2호
    • /
    • pp.1-10
    • /
    • 2014
  • 클라우드 컴퓨팅은 융통성 있는 연산능력과 대량의 데이터를 분석하는 효과적인 환경을 제공한다. 본 논문에서는 공용 클라우드를 위한 새로운 타입의 자원 배치 구조를 정의하고 이를 PCIA라고 명명한다. 아울러, PCIA 구조에서 서비스 모델에 대해 소개하며, 이를 위한 클라우드 명명 기법도 제시한다. 제안된 클라우드 시스템은 어플리케이션의 다양한 특징에 따라 사용자의 가상 자원 요구에 기반하는 적절한 물리적 자원을 선택하게 된다. 이를 통해 자원 제공의 변화에 따른 성능 변화의 연관성 및 클라우드 시스템의 효과적 구축을 위한 시스템 구성 요소의 영향도를 분석하며, 클라우드 서비스 제공자와 사용자 양쪽 모두에게 중요한 리소스 프로비져닝의 주요 기준을 제시한다.

PVFS를 위한 I/O Tracer 설계 및 구현 (Design and Implementation of I/O Tracer for PVFS)

  • 조혜영;차광호;김성호;이상동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.966-969
    • /
    • 2008
  • 사용자 프로그램의 I/O 패턴을 분석하거나 파일 시스템의 워크로드를 보다 정확하게 분석하기 위해서 실제 가동중인 파일 시스템의 동적 I/O 로그를 확보하기 위한 연구들이 많이 진행되어 왔다. 그러나 대량의 I/O 트렌젝션(transcation)이 처리되는 파일 시스템에서 동적 I/O 로그를 확보하는 일은 시스템의 부하와 막대한 데이터량 때문에 한계가 많다. 특히 다수의 이용자가 사용하는 대용량 분산/병렬 파일 시스템에서의 I/O Tracing은 로컬 파일 시스템에서 I/O Tracing에 비해 더욱 복잡하고 오버헤드가 크다. 본 논문에서는 기존의 파일 시스템 로깅 방법들을 알아보고, 클러스터 시스템에서 널리 이용되고 있는 분산 파일 시스템인 PVFS(Parallel Virtual File System)에서 동적 I/O 연산들의 로그를 생성할 수 있는 로깅 시스템을 제안하고 설계하였다.