• 제목/요약/키워드: Large Size data Processing

검색결과 246건 처리시간 0.024초

맵리듀스 기반 대량 RDF 데이터셋 압축 변환 및 저장 방법 (Compression Conversion and Storing of Large RDF datasets based on MapReduce)

  • 김인아;이경하;이규철
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.487-494
    • /
    • 2022
  • 최근 데이터를 활용한 분석에 대한 수요와 함께 분석 데이터인 지식 그래프의 크기는 점차 증가하여, 웹에서 수집한 데이터를 지식 그래프로 추출하였을 때 약 820억개의 엣지(Edge)를 가지는 수준까지 도달하였다. 많은 지식 그래프들은 웹 자원에 대한 메타데이터를 표현하기 위한 W3C 표준인 RDF(Resource Description Framework) 형식으로 표현되며, RDF 특성으로 인해 기존의 RDF 저장소들은 대량 RDF 데이터를 압축하고 저장할 때 처리 시간의 오버헤드가 발생하는 문제점을 가진다. 본 논문은 이러한 문제점을 개선하기 위해, 맵리듀스를 사용하여 대량 RDF 데이터를 정수 ID로 압축 변환하고, 수직 분할하여 저장하는 방법을 제안한다. 본 논문에서 제안한 방법은 RDF-3X와 비교하였을 때 최대 25.2배, H2RDF+와 비교하였을 때 최대 3.7배까지의 높은 성능 향상을 보였다.

대규모 동적 그룹에서 안전한 멀티캐스트를 위한 키 분배 프로토콜 (A Key Distribution Protocol for Secure Multicasting in Large Dynamic Groups)

  • 김태연;김영균
    • 정보처리학회논문지C
    • /
    • 제9C권4호
    • /
    • pp.597-604
    • /
    • 2002
  • 멀티캐스트 통신에서 그룹에 새로운 멤버가 가입하거나 기존의 멤버가 탈퇴하는 경우 멤버들이 사용중인 그룹 키는 갱신되어야 한다. 이러한 절차는 완전 전방향과 후방향 비밀성을 보장하기 의해 필요하다(8). 불행하게도, 빈번한 멤버쉽이 변경되는 대규모 그룹에서의 키 갱신은 그룹을 확장하는데 커다란 장애가 된다. 본 논문에서는 대규모 동적 그룹에서 그룹 키를 효율적으로 분배할 수 있는 새로운 방식을 제안한다. 기존의 안전한 멀티캐스트 프로토콜과는 달리, 제안된 프로토콜은 키 갱신의 빈도와 계산에 따른 오버헤드가 전체 그룹의 크기가 아닌 서브그룹의 크기에 따라 영향을 받기 때문에 대규모 그룹으로 확장이 가능하며, 그룹 접근 제어를 수행하는 서브그룹 관리자가 송신자에 의해 전송된 멀티캐스트 데이터에 접근할 수 없도록 하는 메카니즘을 제공한다. 또한 무선 컴퓨팅 환경에서 프라이버시를 보장할 수 있는 보안 서비스를 제공한다.

Efficient K-Anonymization Implementation with Apache Spark

  • Kim, Tae-Su;Kim, Jong Wook
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권11호
    • /
    • pp.17-24
    • /
    • 2018
  • Today, we are living in the era of data and information. With the advent of Internet of Things (IoT), the popularity of social networking sites, and the development of mobile devices, a large amount of data is being produced in diverse areas. The collection of such data generated in various area is called big data. As the importance of big data grows, there has been a growing need to share big data containing information regarding an individual entity. As big data contains sensitive information about individuals, directly releasing it for public use may violate existing privacy requirements. Thus, privacy-preserving data publishing (PPDP) has been actively studied to share big data containing personal information for public use, while preserving the privacy of the individual. K-anonymity, which is the most popular method in the area of PPDP, transforms each record in a table such that at least k records have the same values for the given quasi-identifier attributes, and thus each record is indistinguishable from other records in the same class. As the size of big data continuously getting larger, there is a growing demand for the method which can efficiently anonymize vast amount of dta. Thus, in this paper, we develop an efficient k-anonymity method by using Spark distributed framework. Experimental results show that, through the developed method, significant gains in processing time can be achieved.

소규모 VOD 시스템의 저장 서버로서 디스크 배열 구조의 분석 (Analysis of Disk Array Architecture as a Storage Server of a Small-Sacle VOD Server)

  • 고정국;김길용
    • 한국정보처리학회논문지
    • /
    • 제4권3호
    • /
    • pp.811-820
    • /
    • 1997
  • 대용량의 저장 공간과 고속 통신망을 갖춘 고성능 저장 장치를 필요로 하는 멀티미디어 응용에서는 데이터 전달 속도와 입출력 성능을 향상시키기 위해 디스크 배열이 사용되고 있다. 디스크 배열은 구성 방법및 데이터 할당 방법등에 따라 성능의 차이를 보이므로 디스크 배열을 설계 할 때 해당 응용에 적합한 디스크 배열 특성 변수가 결정되어야 한다. 본 논문에서는 소규모 VOD 시스템의 저장 서버로서 사용될 디스크 배열의 구조를 결정하기 위한 연속 매체 파일 시스템의 데이터 불럭 크기와 입출력 요구의 크기가 주어질 때 디스크 배열 구성 디스크수, 디스크 배열 구성과 디클러스터링 정도를 권장하기 위해 시뮬레이션을 통해 성능을 평가하였다. 시뮬레 이션을 통해 6Mbps의 MPEG-2파일을 제공하는 디스크 배열의 구조는 스트라이핑 단위가 64-KB 이며, 데이터 불럭이 연속 배치되어 있는 5개의 디스크로 구성된 RAID-5가 가장 적합한 것으로 나타났다.

  • PDF

트랜스포머 기반 효율적인 자연어 처리 방안 연구 (A Study on Efficient Natural Language Processing Method based on Transformer)

  • 임승철;윤성구
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.115-119
    • /
    • 2023
  • 현재의 인공지능에서 사용되는 자연어 처리 모델은 거대하여 실시간으로 데이터를 처리하고 분석하는 것은 여러가지 어려움들을 야기하고 있다. 이런 어려움을 해결하기 위한 방법으로 메모리를 적게 사용해 처리의 효율성을 개선하는 방법을 제안하고 제안된 모델의 성능을 확인하였다. 본 논문에서 제안한 모델의 성능평가를 위해 적용한 기법은 BERT[1] 모델의 어텐션 헤드 개수와 임베딩 크기를 작게 조절해 큰 말뭉치를 나눠서 분할 처리 후 출력값의 평균을 통해 결과를 산출하였다. 이 과정에서 입력 데이터의 다양성을 주기위해 매 에폭마다 임의의 오프셋을 문장에 부여하였다. 그리고 모델을 분류가 가능하도록 미세 조정하였다. 말뭉치를 분할 처리한 모델은 그렇지 않은 모델 대비 정확도가 12% 정도 낮았으나, 모델의 파라미터 개수는 56% 정도 절감되는 것을 확인하였다.

PC 클러스터를 위한 정렬 중첩 격자의 병렬처리 (PARALLEL IMPROVEMENT IN STRUCTURED CHIMERA GRID ASSEMBLY FOR PC CLUSTER)

  • 김유진;권장혁
    • 한국전산유체공학회:학술대회논문집
    • /
    • 한국전산유체공학회 2005년도 추계 학술대회논문집
    • /
    • pp.157-162
    • /
    • 2005
  • Parallel implementation and performance assessment of the grid assembly in a structured chimera grid approach is studied. The grid assembly process, involving hole cutting and searching donor, is parallelized on the PC cluster. A message passing programming model based on the MPI library is implemented using the single program multiple data(SPMD) paradigm. The coarse-grained communication is optimized with the minimized memory allocation because that the parallel grid assembly can access the decomposed geometry data in other processors by only message passing in the distributed memory system such as a PC cluster. The grid assembly workload is based on the static load balancing tied to flow solver. A goal of this work is a development of parallelized grid assembly that is suited for handling multiple moving body problems with large grid size.

  • PDF

허프만 코드의 선택적 암호화에 관한 연구 (A Study on Selective Encryption of Huffman Codes)

  • 박상호
    • 융합보안논문지
    • /
    • 제7권2호
    • /
    • pp.57-63
    • /
    • 2007
  • 네트워크에서 데이터의 보안은 암호화에 의해 제공된다. 최근 영상이나 비디오와 같은 대용량의 데이터 파일의 암호화의 비용 및 복잡성을 줄이기 위한 방안으로 선택적 암호화가 제안되었다. 본 논문에서는 허프만 코딩으로 압축된 데이터의 암호화 방안을 제안하고 그 성능에 대해 논한다. 허프만 코드에 적용 가능한 단순한 선택적 암호화 방법을 제안하고 불안전한 채널에서 암호화 방법의 효율성에 대해 논의한다. 암호화 과정과 데이터 압축 과정이 하나로 결합될 수 있으며 그렇게 함으로서 데이터를 압축하고 암호화하는 과정을 간략화 하고 시간을 줄일 수 있다.

  • PDF

WAVELET-BASED FOREST AREAS CLASSIFICATION BY USING HIGH RESOLUTION IMAGERY

  • Yoon Bo-Yeol;Kim Choen
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2005년도 Proceedings of ISRS 2005
    • /
    • pp.698-701
    • /
    • 2005
  • This paper examines that is extracted certain information in forest areas within high resolution imagery based on wavelet transformation. First of all, study areas are selected one more species distributed spots refer to forest type map. Next, study area is cut 256 x 256 pixels size because of image processing problem in large volume data. Prior to wavelet transformation, five texture parameters (contrast, dissimilarity, entropy, homogeneity, Angular Second Moment (ASM≫ calculated by using Gray Level Co-occurrence Matrix (GLCM). Five texture images are set that shifting window size is 3x3, distance .is 1 pixel, and angle is 45 degrees used. Wavelet function is selected Daubechies 4 wavelet basis functions. Result is summarized 3 points; First, Wavelet transformation images derived from contrast, dissimilarity (texture parameters) have on effect on edge elements detection and will have probability used forest road detection. Second, Wavelet fusion images derived from texture parameters and original image can apply to forest area classification because of clustering in Homogeneous forest type structure. Third, for grading evaluation in forest fire damaged area, if data fusion of established classification method, GLCM texture extraction concept and wavelet transformation technique effectively applied forest areas (also other areas), will obtain high accuracy result.

  • PDF

CPU-GPU 메모리 계층을 고려한 고처리율 병렬 KMP 알고리즘 (High Throughput Parallel KMP Algorithm Considering CPU-GPU Memory Hierarchy)

  • 박소은;김대희;이명호;박능수
    • 전기학회논문지
    • /
    • 제67권5호
    • /
    • pp.656-662
    • /
    • 2018
  • Pattern matching algorithm is widely used in many application fields such as bio-informatics, intrusion detection, etc. Among many string matching algorithms, KMP (Knuth-Morris-Pratt) algorithm is commonly used because of its fast execution time when using large texts. However, the processing speed of KMP algorithm is also limited when the text size increases significantly. In this paper, we propose a high throughput parallel KMP algorithm considering CPU-GPU memory hierarchy based on OpenCL in GPGPU (General Purpose computing on Graphic Processing Unit). We focus on the optimization for the allocation of work-times and work-groups, the local memory copy of the pattern data and the failure table, and the overlapping of the data transfer with the string matching operations. The experimental results show that the execution time of the optimized parallel KMP algorithm is about 3.6 times faster than that of the non-optimized parallel KMP algorithm.

멀티스트림을 이용한 비디오 스트림의 평활화 (Video Stream Smoothing Using Multistreams)

  • 강경원;문광석
    • 융합신호처리학회논문지
    • /
    • 제3권1호
    • /
    • pp.21-26
    • /
    • 2002
  • 비디오 스트림들은 사용된 압축 알고리듬의 구조와 화면의 복잡도 등에 따라 다양한 형태의 트래픽이 발생함으로, 송신측과 수신측 사이의 자원할당을 어렵게 할 뿐만 아니라, 현재의 인터넷과 같은 패킷 통신망에서는 연속적인 재생을 어렵게 한다. 따라서, 본 논문에서는 멀티스트림을 이용한 비디오 스트림의 평활화 방법을 제안한다. 제안한 방법은 스트림의 형태에 따라 LDU(logical data unit)를 정의한 후 일정한 크기로 다수의 스트림으로 생성하여 전송함으로써, 평활화와 선반입 과정에서 발생하는 버퍼링 시간을 줄일 수 있을 뿐만 아니라 네트워크의 지터에도 강하면, 클라이언트의 대역폭을 최대한 활용할 수 있는 효율적인 전송 특성을 얻을 수 있다.

  • PDF