• 제목/요약/키워드: Big data processing

검색결과 1,057건 처리시간 0.026초

빅 데이터 환경에서 다중 속성 기반의 데이터 관리 기법 (Multi-Attribute based on Data Management Scheme in Big Data Environment)

  • 정윤수;김용태;박길철
    • 디지털융복합연구
    • /
    • 제13권1호
    • /
    • pp.263-268
    • /
    • 2015
  • IT 기술이 발달함에 따라 센서 모바일을 기반으로 사물에 정보를 담아 네트워크로 상호연계되는 유비쿼터스 정보기술이 발달하고 있다. 그러나 서버에 저장되어 있는 데이터를 손쉽게 사용하기 위한 보안 해결책이 미미한 상태이다. 본 논문에서는 빅 데이터 서비스에서 제공되고 있는 대용량 데이터를 사용자가 안전하게 처리하기 위해서 빅 데이터 서비스에 사용되는 데이터에 다중의 속성을 해쉬 체인 기법에 적용한 데이터 관리 기법을 제안한다. 제안기법은 빅 데이터 서비스에 사용한 데이터의 종류, 기능, 특성에 따라 데이터의 속성을 분류하여 분류된 속성 정보를 해쉬 체인으로 묶어 데이터의 안전성을 향상시켰다. 또한, 제안 기법은 여러 지역에 분산된 데이터를 손쉽게 접근하기 위해서 데이터 속성 정보를 해쉬 체인의 연결 정보로 활용하여 빅 데이터의 접근 제어를 분산 처리하였다.

A Novel Perceptual Hashing for Color Images Using a Full Quaternion Representation

  • Xing, Xiaomei;Zhu, Yuesheng;Mo, Zhiwei;Sun, Ziqiang;Liu, Zhen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권12호
    • /
    • pp.5058-5072
    • /
    • 2015
  • Quaternions have been commonly employed in color image processing, but when the existing pure quaternion representation for color images is used in perceptual hashing, it would degrade the robustness performance since it is sensitive to image manipulations. To improve the robustness in color image perceptual hashing, in this paper a full quaternion representation for color images is proposed by introducing the local image luminance variances. Based on this new representation, a novel Full Quaternion Discrete Cosine Transform (FQDCT)-based hashing is proposed, in which the Quaternion Discrete Cosine Transform (QDCT) is applied to the pseudo-randomly selected regions of the novel full quaternion image to construct two feature matrices. A new hash value in binary is generated from these two matrices. Our experimental results have validated the robustness improvement brought by the proposed full quaternion representation and demonstrated that better performance can be achieved in the proposed FQDCT-based hashing than that in other notable quaternion-based hashing schemes in terms of robustness and discriminability.

빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구 (A Study on Structural Holes of Privacy Protection for Life Logging Service as analyzing/processing of Big-Data)

  • 강장묵;송유진
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.189-193
    • /
    • 2014
  • 네트워크 서비스는 로컬서비스와 결합하면서 생활밀착형 서비스로 발전하고 있다. 생활밀착형 서비스는 기존의 모바일 서비스와는 달리, 위치정보와 로컬정보 그리고 소셜 네트워크서비스 정보 등을 모아 개인화된 서비스를 제공할 것으로 예상된다. 여러 정보를 모아 처리하는 과정에서 빅데이터 기술, 클라우드 기술 등이 필요하다. 이미 이에 대한 효율성 높은 알고리즘이 연구되고 있으나 반면, 생활 밀착형 서비스 모델 또는 빅데이터 환경에서의 프라이버시 보호 모델에 대한 연구는 상대적으로 미흡한 편이다. 이 글은 생활밀착형 서비스에 활용될 빅데이터 기술이 야기하는 프라이버시 문제에 대하여 구조혈 중심으로 다룬다.

클라우드 환경에서의 비용 효율적인 맵리듀스 처리 (Cost-Effective MapReduce Processing in the Cloud)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.114-115
    • /
    • 2018
  • 본 논문에서는 클라우드 환경에서 빅데이터를 비용 효율적으로 분석하기 위한 기법을 연구한다. 전자의무기록의 클라우드 저장이 최근 가능해짐에 따라 중소병원에서의 클라우드 기반 빅데이터 분석 요구가 증가하고 있다. 이에 본 논문에서는 대중적으로 많이 사용되고 있는 아마존 EMR 프레임워크를 분석하고, EMR 환경에서 비용 효율적으로 빅데이터를 분석하기 위한 비용 모델을 제안한다. 제안한 기법을 적용하면 클러스터 비용 대비 처리시간이 가장 효율적인 클러스터 규모를 계산할 수 있으므로, 보다 적은 비용으로 빅데이터 분석을 효과적으로 처리할 수 있다.

  • PDF

빅데이터를 위한 트랜스포머 기반의 언어 인식 기법 (Transformer-based Language Recognition Technique for Big Data)

  • 황치곤;윤창표;이수욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.267-268
    • /
    • 2022
  • 최근, 빅데이터 분석은 기계학습의 발전에 따른 다양한 기법들을 이용할 수 있다. 현실에서 수집된 빅데이터는 단어 간의 관계성에 대한 의미적 분석을 바탕으로 같거나 유사한 용어에 대한 자동화된 정제기법이 부족하다. 빅데이터는 보통 문장의 형태로 구성되어 있고, 이에 대한 형태소 분석이나 문장의 이해가 필요하다. 이에 자연어를 분석하기 위한 기법인 NLP는 단어의 관계성과 문장을 이해할 수 있다. 본 논문에서는 빅데이터를 시계열 접근법인 RNN의 단점을 보완한 기법인 트랜스포머와 리포머의 장단점에 대해 연구한다.

  • PDF

Kerberos 기반 하둡 분산 파일 시스템의 안전성 향상방안 (A Study on Security Improvement in Hadoop Distributed File System Based on Kerberos)

  • 박소현;정익래
    • 정보보호학회논문지
    • /
    • 제23권5호
    • /
    • pp.803-813
    • /
    • 2013
  • 최근 스마트 기기 및 소셜 네트워크 서비스의 발달로 인해 데이터가 폭증하며 세계는 이른바 빅데이터 시대를 맞고 있다. 이에 이러한 데이터를 처리할 수 있는 새로운 기술인 빅데이터 처리기술은 클라우드 컴퓨팅 기술과 함께 주목받고 있으며, 가장 대표적인 기술이 바로 하둡이다. 하둡 분산 파일 시스템은 상용 리눅스 서버에서 실행되도록 설계된 오픈소스 프레임워크로서 수백 테라바이트 크기의 파일을 저장할 수 있다. 초기 하둡은 빅데이터 처리에 초점을 맞추어 보안이 거의 도입되지 않은 상태였으나 사용자가 빠르게 늘어남에 따라 하둡 분산 파일 시스템에 개인정보를 포함한 민감한 데이터가 많이 저장되면서, 2009년 커버로스와 토큰 시스템을 도입한 새로운 버전을 발표하였다. 그러나 이 시스템은 재전송 공격, 가장 공격 등이 가능하다는 취약점을 가진다. 따라서 본 논문에서는 하둡 분산 파일 시스템 보안 취약점을 분석하고, 이러한 취약점을 보완하면서 하둡의 성능을 유지할 수 있는 새로운 프로토콜을 제안한다.

Understanding the Food Hygiene of Cruise through the Big Data Analytics using the Web Crawling and Text Mining

  • Shuting, Tao;Kang, Byongnam;Kim, Hak-Seon
    • 한국조리학회지
    • /
    • 제24권2호
    • /
    • pp.34-43
    • /
    • 2018
  • The objective of this study was to acquire a general and text-based awareness and recognition of cruise food hygiene through big data analytics. For the purpose, this study collected data with conducting the keyword "food hygiene, cruise" on the web pages and news on Google, during October 1st, 2015 to October 1st, 2017 (two years). The data collection was processed by SCTM which is a data collecting and processing program and eventually, 899 kb, approximately 20,000 words were collected. For the data analysis, UCINET 6.0 packaged with visualization tool-Netdraw was utilized. As a result of the data analysis, the words such as jobs, news, showed the high frequency while the results of centrality (Freeman's degree centrality and Eigenvector centrality) and proximity indicated the distinct rank with the frequency. Meanwhile, as for the result of CONCOR analysis, 4 segmentations were created as "food hygiene group", "person group", "location related group" and "brand group". The diagnosis of this study for the food hygiene in cruise industry through big data is expected to provide instrumental implications both for academia research and empirical application.

금융 상품 추천에 관련된 빅 데이터 활용을 위한 개발 방법 (A study on development method for practical use of Big Data related to recommendation to financial item)

  • 김석수
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권8호
    • /
    • pp.73-81
    • /
    • 2014
  • 본 연구에서는 활용 기술로 데이터 저장 레이어, 데이터 처리 레이어, 데이터 분석 레이어, 시각화 레이어 등의 빅 데이터 기술을 활용한 개발 방법을 제안한다, 각 단계에서 저장, 처리, 분석된 데이터는 시각화를 통하여 볼 수 있게 하였다. Hadoop을 통하여 데이터를 처리한 후 처리된 데이터를 Mahout으로 실행하여 분석 결과를 시각화 하였다. 이 과정을 통해서 금융 상품에 가입된 고객의 여러 특성을 파악하였고, 각 고객에 따른 금융 상품의 추천을 적시에 수행할 수 있었다. 본 연구에서는 빅 데이터의 배경 및 문제점을 소개하고, 빅 데이터가 새로운 비즈니스 기회를 어떻게 창출하는지 금융상품 추천 사례를 중심으로 개발 방법과 사례 연구를 논의한다.

카카오톡에서의 텍스트 데이터 마이닝 기반의 사용자별 적합 광고 키워드 도출 (Extracting User-Specific Advertising Keywords Based on Textual Data Mining from KakaoTalk)

  • 전예림;소다영 ;이지민 ;조은진;문지훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.368-369
    • /
    • 2023
  • 대화 데이터 기반 광고 추천은 광고 마케팅에서 고객 맞춤형 광고 제공, 마케팅 효과 극대화 등을 위한 중요한 기술로 주목받고 있다. 본 논문에서는 모바일 인스턴스 메신저인 카카오톡 대화창에서 발생한 텍스트 데이터를 기반으로 대화 내용을 분석하여 대화 주제별 적절한 광고 키워드를 제안한다. 이를 위해 주제별 대화 내용을 미용, 식음료, 상거래로 세분하고 KoNLPy 의 Okt 를 이용하여 텍스트 전처리를 수행하고 키워드별로 빈도수를 뽑아 워드 클라우드를 제시한다. 또한, 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 기반으로 대화 주제를 세분화한 뒤 라벨링을 통해 주제별 대화 키워드를 분석한다. 실험 결과, 대화 주제를 온라인 쇼핑, 헤어, 뷰티 관리, 음식으로 나눌 수 있었으며, 토픽별 상위 키워드를 Word2Vec 을 통해 특정 단어와 유사한 키워드를 도출하여 적절한 광고 키워드를 제시할 수 있었다.

PPNC: Privacy Preserving Scheme for Random Linear Network Coding in Smart Grid

  • He, Shiming;Zeng, Weini;Xie, Kun;Yang, Hongming;Lai, Mingyong;Su, Xin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권3호
    • /
    • pp.1510-1532
    • /
    • 2017
  • In smart grid, privacy implications to individuals and their families are an important issue because of the fine-grained usage data collection. Wireless communications are utilized by many utility companies to obtain information. Network coding is exploited in smart grids, to enhance network performance in terms of throughput, delay, robustness, and energy consumption. However, random linear network coding introduces a new challenge for privacy preserving due to the encoding of data and updating of coefficients in forwarder nodes. We propose a distributed privacy preserving scheme for random linear network coding in smart grid that considers the converged flows character of the smart grid and exploits a homomorphic encryption function to decrease the complexities in the forwarder node. It offers a data confidentiality privacy preserving feature, which can efficiently thwart traffic analysis. The data of the packet is encrypted and the tag of the packet is encrypted by a homomorphic encryption function. The forwarder node random linearly codes the encrypted data and directly processes the cryptotext tags based on the homomorphism feature. Extensive security analysis and performance evaluations demonstrate the validity and efficiency of the proposed scheme.