• Title/Summary/Keyword: Big data Problem

검색결과 574건 처리시간 0.026초

A Technology Analysis Model using Dynamic Time Warping

  • 최준혁;전성해
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.113-120
    • /
    • 2015
  • Technology analysis is to analyze technological data such as patent and paper for a given technology field. From the results of technology analysis, we can get novel knowledge for R&D planing and management. For the technology analysis, we can use diverse methods of statistics. Time series analysis is one of efficient approaches for technology analysis, because most technologies have researched and developed depended on time. So many technological data are time series. Time series data are occurred through time. In this paper, we propose a methodology of technology forecasting using the dynamic time warping (DTW) of time series analysis. To illustrate how to apply our methodology to real problem, we perform a case study of patent documents in target technology field. This research will contribute to R&D planning and technology management.

아웃소싱 데이터베이스에서 집계 질의를 위한 효율적인 인증 기법 (Efficient Authentication of Aggregation Queries for Outsourced Databases)

  • 신종민;심규석
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.703-709
    • /
    • 2017
  • 아웃소싱 데이터베이스란 데이터 관리 및 질의 처리 등의 계산량이 많은 작업을 제 3자 서버에 위탁하는 것이다. 이를 통해 데이터 소유자는 비싼 인프라를 구축하지 않고 빅데이터를 관리할 수 있으며 여러 사용자로부터 받는 질의들을 빠르게 처리할 수 있다. 하지만 보안 위협이 항상 존재하는 네트워크의 특성상 제 3자 서버를 완전히 신뢰하기 어렵고, 그 서버가 처리한 결과도 신뢰하기 어렵다. 이처럼 신뢰할 수 없는 서버가 처리한 질의 결과가 정확한지 확인하는 것을 질의 인증이라고 하며 구간 질의, kNN 질의, 함수 질의 등 다양한 질의에 대한 인증 기법들이 연구되었다. 하지만 빅데이터 분석에 있어 활용도가 높은 집계 질의에 대한 깊이 있는 질의 인증 연구는 이루어지지 않았으며 기존 연구는 고차원이거나 서로 다른 값이 많은 데이터에 대해 비효율적이다. 본 연구에서는 집계 질의 인증을 위한 자료구조를 제안하고 이를 활용한 효율적인 증거 생성 방법과 증명 방법을 제안한다. 그리고 데이터의 상이 값 수, 레코드 개수, 차원 크기 등을 변경하며 진행한 실험 결과를 통해 제안한 기법의 성능이 우수함을 보였다.

AWS를 활용한 분산 웹 크롤러 기반 가스 안전 이슈 분석 (Issue Analysis on Gas Safety Based on a Distributed Web Crawler Using Amazon Web Services)

  • 김용영;김용기;김대식;김미혜
    • 디지털융복합연구
    • /
    • 제16권12호
    • /
    • pp.317-325
    • /
    • 2018
  • 새로운 경제적 가치를 창출하고 국가경쟁력을 강화할 목적으로 세계 각국의 정부와 주요 민간 기업들은 빅데이터에 지속적인 관심과 과감한 투자를 하고 있다. 뉴스와 같이 객관적인 데이터를 수집하기 위해서, 데이터 무결성 및 품질의 확보는 전제되어야 한다. 포털 뉴스와 같이 객관적이고 방대한 데이터를 바탕으로 의사결정이나 트렌드 분석을 하고자 하는 연구자나 실무자의 경우, 기존 크롤러 방식을 이용할 경우 데이터 수집 자체가 차단되는 문제점이 발생한다. 본 연구에서는 Amazon Web Services (AWS)에서 제공하는 클라우드 서비스 플랫폼을 이용하여 기존 크롤러 방식의 문제점을 해결하여 웹 데이터를 수집하는 방법을 구현하였다. 또한 이를 바탕으로 국민의 안전과 직결되는 가스 안전 관련 기사를 수집하여 가스 안전과 관련된 이슈를 분석하였다. 본 연구를 통해 가스 안전을 확보하기 위해 5가지 분류, 즉 사고/발생, 예방, 유지/관리, 정부/정책, 그리고 대상 등을 기준으로 가스 안전을 위한 전략이 수립되고, 체계적으로 운영되어야 함으로 확인하였다.

Big Data Based Dynamic Flow Aggregation over 5G Network Slicing

  • Sun, Guolin;Mareri, Bruce;Liu, Guisong;Fang, Xiufen;Jiang, Wei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권10호
    • /
    • pp.4717-4737
    • /
    • 2017
  • Today, smart grids, smart homes, smart water networks, and intelligent transportation, are infrastructure systems that connect our world more than we ever thought possible and are associated with a single concept, the Internet of Things (IoT). The number of devices connected to the IoT and hence the number of traffic flow increases continuously, as well as the emergence of new applications. Although cutting-edge hardware technology can be employed to achieve a fast implementation to handle this huge data streams, there will always be a limit on size of traffic supported by a given architecture. However, recent cloud-based big data technologies fortunately offer an ideal environment to handle this issue. Moreover, the ever-increasing high volume of traffic created on demand presents great challenges for flow management. As a solution, flow aggregation decreases the number of flows needed to be processed by the network. The previous works in the literature prove that most of aggregation strategies designed for smart grids aim at optimizing system operation performance. They consider a common identifier to aggregate traffic on each device, having its independent static aggregation policy. In this paper, we propose a dynamic approach to aggregate flows based on traffic characteristics and device preferences. Our algorithm runs on a big data platform to provide an end-to-end network visibility of flows, which performs high-speed and high-volume computations to identify the clusters of similar flows and aggregate massive number of mice flows into a few meta-flows. Compared with existing solutions, our approach dynamically aggregates large number of such small flows into fewer flows, based on traffic characteristics and access node preferences. Using this approach, we alleviate the problem of processing a large amount of micro flows, and also significantly improve the accuracy of meeting the access node QoS demands. We conducted experiments, using a dataset of up to 100,000 flows, and studied the performance of our algorithm analytically. The experimental results are presented to show the promising effectiveness and scalability of our proposed approach.

강건한 시차 평면을 위한 다중 파라미터 연산 기법 (Multi-Parameter Operation Method for Robust Disparity Plane)

  • 김현정;원일용;이창훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권5호
    • /
    • pp.241-246
    • /
    • 2015
  • 스테레오 대응 문제(Stereo Correspondent Problem)를 해결하기 위해 다양한 방법들이 시도되고 있지만 정확도의 편차가 심하다. 이 중 입력영상의 세그먼테이션 정보를 이용하여 접근하는 방법은 인간의 인식과 유사하여 많은 연구가 진행되고 있다. 세그먼트 정보와 초기 시차(disparity)값을 이용하여 단일한 해만을 구하는 기존 방법을 본 논문에서는 NP-hard 문제로 시각을 전환하여 해결하는 새로운 방법으로 제안하였다. 제안한 방법의 유용성 검증을 위해 잘 알려진 실험 데이터로 실험하고 그에 따른 결과를 분석하였다. 기존 방식에 비해 제안된 방법은 시간에서는 불이익이 있지만 정확도에서는 어느 정도 유용한 결과를 보여주었다.

미계측 지역에서 토석류 유발강우의 산정을 위한 레이더 강우의 활용에 대한 연구 (A Study on Use of Radar Rainfall for Rainfall-Triggered Mud-Debris Flows at an Ungauged Site)

  • 전환돈;이지호;김수전
    • 한국물환경학회지
    • /
    • 제32권3호
    • /
    • pp.310-317
    • /
    • 2016
  • It has been a big problem to estimate rainfall for the studies of mud-debris flows because the estimated rainfall from the nearest AWS (Automatic Weather Station) can tend to be quite inaccurate at individual sites. This study attempts to improve this problem through accurate rainfall depth estimation by applying an artificial neural network with radar rainfall data. For this, three models were made according to utilizing methodologies of rainfall data. The first model uses the nearest rainfall, observing the site from an ungauged site. The second uses only radar rainfall data and the third model integrates the above two models using both radar and observed rainfall at the sites around the ungauged site. This methodology was applied to the metropolitan area in Korea. It appeared as though the third model improved rainfall estimations by the largest margin. Therefore, the proposed methodology can be applied to forecast mud-debris flows in ungageed sites.

Recommendations Based on Listwise Learning-to-Rank by Incorporating Social Information

  • Fang, Chen;Zhang, Hengwei;Zhang, Ming;Wang, Jindong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권1호
    • /
    • pp.109-134
    • /
    • 2018
  • Collaborative Filtering (CF) is widely used in recommendation field, which can be divided into rating-based CF and learning-to-rank based CF. Although many methods have been proposed based on these two kinds of CF, there still be room for improvement. Firstly, the data sparsity problem still remains a big challenge for CF algorithms. Secondly, the malicious rating given by some illegal users may affect the recommendation accuracy. Existing CF algorithms seldom took both of the two observations into consideration. In this paper, we propose a recommendation method based on listwise learning-to-rank by incorporating users' social information. By taking both ratings and order of items into consideration, the Plackett-Luce model is presented to find more accurate similar users. In order to alleviate the data sparsity problem, the improved matrix factorization model by integrating the influence of similar users is proposed to predict the rating. On the basis of exploring the trust relationship between users according to their social information, a listwise learning-to-rank algorithm is proposed to learn an optimal ranking model, which can output the recommendation list more consistent with the user preference. Comprehensive experiments conducted on two public real-world datasets show that our approach not only achieves high recommendation accuracy in relatively short runtime, but also is able to reduce the impact of malicious ratings.

An Efficient PSI-CA Protocol Under the Malicious Model

  • Jingjie Liu;Suzhen Cao;Caifen Wang;Chenxu Liu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권3호
    • /
    • pp.720-737
    • /
    • 2024
  • Private set intersection cardinality (PSI-CA) is a typical problem in the field of secure multi-party computation, which enables two parties calculate the cardinality of intersection securely without revealing any information about their sets. And it is suitable for private data protection scenarios where only the cardinality of the set intersection needs to be calculated. However, most of the currently available PSI-CA protocols only meet the security under the semi-honest model and can't resist the malicious behaviors of participants. To solve the problems above, by the application of the variant of Elgamal cryptography and Bloom filter, we propose an efficient PSI-CA protocol with high security. We also present two new operations on Bloom filter called IBF and BIBF, which could further enhance the safety of private data. Using zero-knowledge proof to ensure the safety under malicious adversary model. Moreover, in order to minimize the error in the results caused by the false positive problem, we use Garbled Bloom Filter and key-value pair packing creatively and present an improved PSI-CA protocol. Through experimental comparison with several existing representative protocols, our protocol runs with linear time complexity and more excellent characters, which is more suitable for practical application scenarios.

대용량 데이터 처리를 위한 고속 분산 인메모리 플랫폼 기반 재귀적 질의 알고리즘들의 구현 및 비교분석 (A Comparative Analysis of Recursive Query Algorithm Implementations based on High Performance Distributed In-Memory Big Data Processing Platforms)

  • 강민서;김재성;이재길
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.621-626
    • /
    • 2016
  • 재귀적 질의 알고리즘은 소셜네트워크 서비스의 도달가능 질의와 같은 많은 응용프로그램에 사용된다. 하지만 최근에 소셜네트워크 서비스의 규모가 커짐에 따라 그래프 데이터의 크기 또한 커지고 있다. 따라서 재귀적 질의 알고리즘을 싱글 머신에서 가동하는 것이 거의 불가능해졌다. 본 논문에서는 이러한 문제점을 해결하기 위해서 고속 분산 인메모리 플랫폼인 스파크와 트위스터에서 재귀적 질의 알고리즘을 구현하였다. 구현된 알고리즘은 아마존 EC2 머신 50대에서 Real-world 데이터 셋인 LiveJournal과 ClueWeb으로 실험하였다. 실험결과 상대적으로 노드 수는 적고 평균 차수(degree)는 높은 LiveJournal 데이터 셋에서는 스파크에서 구현된 재귀적 알고리즘의 성능이 트위스터의 것보다 좋았다. 그리고 상대적으로 노드 수는 많고 평균 차수는 낮은 ClueWeb 데이터 셋에서는 트위스터에서 구현된 재귀적 알고리즘의 성능이 스파크의 것보다 좋았다.

Medical Image Analysis Using Artificial Intelligence

  • Yoon, Hyun Jin;Jeong, Young Jin;Kang, Hyun;Jeong, Ji Eun;Kang, Do-Young
    • 한국의학물리학회지:의학물리
    • /
    • 제30권2호
    • /
    • pp.49-58
    • /
    • 2019
  • Purpose: Automated analytical systems have begun to emerge as a database system that enables the scanning of medical images to be performed on computers and the construction of big data. Deep-learning artificial intelligence (AI) architectures have been developed and applied to medical images, making high-precision diagnosis possible. Materials and Methods: For diagnosis, the medical images need to be labeled and standardized. After pre-processing the data and entering them into the deep-learning architecture, the final diagnosis results can be obtained quickly and accurately. To solve the problem of overfitting because of an insufficient amount of labeled data, data augmentation is performed through rotation, using left and right flips to artificially increase the amount of data. Because various deep-learning architectures have been developed and publicized over the past few years, the results of the diagnosis can be obtained by entering a medical image. Results: Classification and regression are performed by a supervised machine-learning method and clustering and generation are performed by an unsupervised machine-learning method. When the convolutional neural network (CNN) method is applied to the deep-learning layer, feature extraction can be used to classify diseases very efficiently and thus to diagnose various diseases. Conclusions: AI, using a deep-learning architecture, has expertise in medical image analysis of the nerves, retina, lungs, digital pathology, breast, heart, abdomen, and musculo-skeletal system.