• 제목/요약/키워드: Big data Problem

검색결과 574건 처리시간 0.028초

Big Data Smoothing and Outlier Removal for Patent Big Data Analysis

  • Choi, JunHyeog;Jun, Sunghae
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권8호
    • /
    • pp.77-84
    • /
    • 2016
  • In general statistical analysis, we need to make a normal assumption. If this assumption is not satisfied, we cannot expect a good result of statistical data analysis. Most of statistical methods processing the outlier and noise also need to the assumption. But the assumption is not satisfied in big data because of its large volume and heterogeneity. So we propose a methodology based on box-plot and data smoothing for controling outlier and noise in big data analysis. The proposed methodology is not dependent upon the normal assumption. In addition, we select patent documents as target domain of big data because patent big data analysis is a important issue in management of technology. We analyze patent documents using big data learning methods for technology analysis. The collected patent data from patent databases on the world are preprocessed and analyzed by text mining and statistics. But the most researches about patent big data analysis did not consider the outlier and noise problem. This problem decreases the accuracy of prediction and increases the variance of parameter estimation. In this paper, we check the existence of the outlier and noise in patent big data. To know whether the outlier is or not in the patent big data, we use box-plot and smoothing visualization. We use the patent documents related to three dimensional printing technology to illustrate how the proposed methodology can be used for finding the existence of noise in the searched patent big data.

Toward a Policy for the Big Data-Based Social Problem-Solving Ecosystem: the Korean Context

  • Park, Sung-Uk;Park, Moon-Soo
    • Asian Journal of Innovation and Policy
    • /
    • 제8권1호
    • /
    • pp.58-72
    • /
    • 2019
  • The wave of the 4th Industrial Revolution was announced by Schwab Klaus at the 2016 World Economic Forum in Davos, and prospects and measures with the future society in mind have been put in place. With the launch of the Moon Jae-in administration in May 2017, Korea has shifted all of its interest to Big Data, which is one of the most important features of the 4th Industrial Revolution. In this regard, this study focuses on the role of the public sector, explores related issues, and identifies an agenda for determining the demand for ways to foster Big Data ecosystem, from an objective perspective. Furthermore, this study seeks to establish priorities for key Big Data issues from various areas based on importance and urgency using a Delphi analysis. It also specifies the agenda by which Korea should exert national and social efforts based on these priorities in order to demonstrate the role of the public sector in reinforcing the Big Data ecosystem.

빅데이터의 효과적인 처리 및 활용을 위한 클라이언트-서버 모델 설계 (Design of Client-Server Model For Effective Processing and Utilization of Bigdata)

  • 박대서;김화종
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.109-122
    • /
    • 2016
  • 최근 빅데이터 분석은 기업과 전문가뿐만 아니라 개인이나 비전문가들도 큰 관심을 갖는 분야로 발전하였다. 그에 따라 현재 공개된 데이터 또는 직접 수집한 이터를 분석하여 마케팅, 사회적 문제 해결 등에 활용되고 있다. 국내에서도 다양한 기업들과 개인이 빅데이터 분석에 도전하고 있지만 빅데이터 공개의 제한과 수집의 어려움으로 분석 초기 단계에서부터 어려움을 겪고 있다. 본 논문에서는 빅데이터 공유를 방해하는 개인정보, 빅트래픽 등의 요소들에 대한 기존 연구와 사례들을 살펴보고 정책기반의 해결책이 아닌 시스템을 통해서 빅데이터 공유 제한 문제를 해결 할 수 있는 클라이언트-서버 모델을 이용해 빅데이터를 공개 및 사용 할 때 발생하는 문제점들을 해소하고 공유와 분석 활성화를 도울 수 있는 방안에 대해 기술한다. 클라이언트-서버 모델은 SPARK를 활용해 빠른 분석과 사용자 요청을 처리하며 Server Agent와 Client Agent로 구분해 데이터 제공자가 데이터를 공개할 때 서버 측의 프로세스와 데이터 사용자가 데이터를 사용하기 위한 클라이언트 측의 프로세스로 구분하여 설명한다. 특히, 빅데이터 공유, 분산 빅데이터 처리, 빅트래픽 문제에 초점을 맞추어 클라이언트-서버 모델의 세부 모듈을 구성하고 각 모듈의 설계 방법에 대해 제시하고자 한다. 클라이언트-서버 모델을 통해서 빅데이터 공유문제를 해결하고 자유로운 공유 환경을 구성하여 안전하게 빅데이터를 공개하고 쉽게 빅데이터를 찾는 이상적인 공유 서비스를 제공할 수 있다.

A Big Data-Driven Business Data Analysis System: Applications of Artificial Intelligence Techniques in Problem Solving

  • Donggeun Kim;Sangjin Kim;Juyong Ko;Jai Woo Lee
    • 한국빅데이터학회지
    • /
    • 제8권1호
    • /
    • pp.35-47
    • /
    • 2023
  • It is crucial to develop effective and efficient big data analytics methods for problem-solving in the field of business in order to improve the performance of data analytics and reduce costs and risks in the analysis of customer data. In this study, a big data-driven data analysis system using artificial intelligence techniques is designed to increase the accuracy of big data analytics along with the rapid growth of the field of data science. We present a key direction for big data analysis systems through missing value imputation, outlier detection, feature extraction, utilization of explainable artificial intelligence techniques, and exploratory data analysis. Our objective is not only to develop big data analysis techniques with complex structures of business data but also to bridge the gap between the theoretical ideas in artificial intelligence methods and the analysis of real-world data in the field of business.

Building Smarter City through Big Data - Best Practices in Seoul Metropolitan Gov.

  • Kim, Ki-Byoung
    • 국제학술발표논문집
    • /
    • The 6th International Conference on Construction Engineering and Project Management
    • /
    • pp.19-20
    • /
    • 2015
  • Since 2013, Seoul Metropolitan Government (SMG) has introduced big data initiatively in administration and put into practices in transportation, safety, welfare in order to overcome limited resources and conflicting interests. For establishing a new midnight bus service, SMG prepared optimized midnight bus routes by analyzing big data from mobile phone Call Data Record (CDR) through collaboration with a telecommunication company. Despite of limited budget and resources, newly identified routes can cover over 42% of the citizen with 9 routes and less than 1% of buses compare with day time operation. In addition to solve transportation problem, SMG utilizes big data to resolve location selection problem for choosing new facility locations such as life double cropping centers and senior citizen leisure centers. As results, SMG demonstrates big data as a good tool to make policies and to build smarter city by overcome space-time limitation of resources, mediation of conflicts, and maximizes benefit of the citizen.

  • PDF

개인정보보호법에 기반한 빅데이터 활용 방안 연구 (A study on Utilization of Big Data Based on the Personal Information Protection Act)

  • 김병철
    • 디지털융복합연구
    • /
    • 제12권12호
    • /
    • pp.87-92
    • /
    • 2014
  • 최근 대규모 데이터 처리와 다양한 형태의 데이터 처리 기술이 진화함에 따라 사회문제 진단 및 현안 해결 도구로써 빅데이터의 잠재력에 주목하고 있다. 동시에 빅데이터의 위험요소로 프라이버시 문제가 강력하게 제기되고 있기도 하다. 빅데이터의 적극적인 활용과 프라이버시 문제는 서로 상충되는 관례로써 본 논문에서는 이와 관련한 당면한 문제점을 지적하고, 해외 선진국의 사례분석을 통해 우리나라의 개인정보보호에 기반한 빅데이터 활용방안을 제안하고자 한다.

효과적인 빅데이터분석 기획 접근법에 대한 융합적 고찰 (A Study on the Effective Approaches to Big Data Planning)

  • 남수현;노규성
    • 디지털융복합연구
    • /
    • 제13권1호
    • /
    • pp.227-235
    • /
    • 2015
  • 빅데이터분석은 조직의 문제해결을 위한 융합적 수단이다. 효과적인 문제해결을 위해서는 문제의 형태, 데이터의 유형 및 존재여부, 데이터 분석역량, 분석을 위한 기반정보기술의 수준 등 다양한 요인을 융합적으로 고려하여 문제해결의 접근법이 결정되어야 한다. 본 연구에서는 기획 접근법으로 논리적인 하향식 접근법, 데이터기반의 상향식 접근법, 그리고 문제해결 환경의 불확실성을 극복하기 위한 프로토타이핑 접근법 등 세 가지 유형을 제안한다. 특히, 이 유형 중에서 창의적 문제해결과 상향식 접근법이 어떤 연관성을 갖는지 살펴본다. 또한 데이터 거버넌스와 데이터 분석역량을 융합적으로 고려하여 조직의 빅데이터분석의 소싱과 관련한 주요 전략적 이슈를 도출한다.

빅데이터 환경에서 미국 커버로스 인증 적용 정책 (Kerberos Authentication Deployment Policy of US in Big data Environment)

  • 홍진근
    • 디지털융복합연구
    • /
    • 제11권11호
    • /
    • pp.435-441
    • /
    • 2013
  • 본 논문은 빅데이터 서비스를 위한 커버로스 보안 인증 방안과 정책에 대해 살펴보았다. 빅데이터 서비스 환경에서 하둡 기반의 보안기술에 대한 문제점에 대해 분석하였다. 또한 커버로스 보안 인증체계의 적용 문제를 고려할 때 미국의 상용 분야에서 발생하고 있는 주요 내용을 중심으로 적용 정책을 분석하였다. 커버로스 정책 적용과 관련하여, 미국은 크로스플랫폼 상호운용성 지원, 자동화된 커버로스 설정, 통합 이슈, OTP인증, 싱글사인온, ID 등 다양한 적용에 대한 연구가 이루어지고 있다.

A Study on Policy and System Improvement Plan of Geo-Spatial Big Data Services in Korea

  • Park, Joon Min;Yu, Seon Cheol;Ahn, Jong Wook;Shin, Dong Bin
    • 한국측량학회지
    • /
    • 제34권6호
    • /
    • pp.579-589
    • /
    • 2016
  • This research focuses on accomplishing analysis problems and issues by examining the policies and systems related to geo-spatial big data which have recently arisen, and suggests political and systemic improvement plan for service activation. To do this, problems and probable issues concerning geo-spatial big data service activation should be analyzed through the examination of precedent studies, policies and planning, pilot projects, the current legislative situation regarding geo-spatial big data, both domestic and abroad. Therefore, eight political and systematical improvement plan proposals are suggested for geo-spatial big data service activation: legislative-related issues regarding geo-spatial big data, establishing an exclusive organization in charge of geospatial big data, setting up systems for cooperative governance, establishing subsequent systems, preparing non-identifying standards for personal information, providing measures for activating civil information, data standardization on geo-spatial big data analysis, developing analysis techniques for geo-spatial big data, etc. Consistent governmental problem-solving approaches should be required to make these suggestions effectively proceed.

Agriculture Big Data Analysis System Based on Korean Market Information

  • Chuluunsaikhan, Tserenpurev;Song, Jin-Hyun;Yoo, Kwan-Hee;Rah, Hyung-Chul;Nasridinov, Aziz
    • Journal of Multimedia Information System
    • /
    • 제6권4호
    • /
    • pp.217-224
    • /
    • 2019
  • As the world's population grows, how to maintain the food supply is becoming a bigger problem. Now and in the future, big data will play a major role in decision making in the agriculture industry. The challenge is how to obtain valuable information to help us make future decisions. Big data helps us to see history clearer, to obtain hidden values, and make the right decisions for the government and farmers. To contribute to solving this challenge, we developed the Agriculture Big Data Analysis System. The system consists of agricultural big data collection, big data analysis, and big data visualization. First, we collected structured data like price, climate, yield, etc., and unstructured data, such as news, blogs, TV programs, etc. Using the data that we collected, we implement prediction algorithms like ARIMA, Decision Tree, LDA, and LSTM to show the results in data visualizations.