• Title/Summary/Keyword: 정형데이터

Search Result 713, Processing Time 0.03 seconds

Design of Distributed Hadoop Full Stack Platform for Big Data Collection and Processing (빅데이터 수집 처리를 위한 분산 하둡 풀스택 플랫폼의 설계)

  • Lee, Myeong-Ho
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.7
    • /
    • pp.45-51
    • /
    • 2021
  • In accordance with the rapid non-face-to-face environment and mobile first strategy, the explosive increase and creation of many structured/unstructured data every year demands new decision making and services using big data in all fields. However, there have been few reference cases of using the Hadoop Ecosystem, which uses the rapidly increasing big data every year to collect and load big data into a standard platform that can be applied in a practical environment, and then store and process well-established big data in a relational database. Therefore, in this study, after collecting unstructured data searched by keywords from social network services based on Hadoop 2.0 through three virtual machine servers in the Spring Framework environment, the collected unstructured data is loaded into Hadoop Distributed File System and HBase based on the loaded unstructured data, it was designed and implemented to store standardized big data in a relational database using a morpheme analyzer. In the future, research on clustering and classification and analysis using machine learning using Hive or Mahout for deep data analysis should be continued.

A Normalization Matrics for Computational Processing of Crime Dataset (범죄 데이터의 전산처리를 위한 정규화 메트릭 설정 방안)

  • Ihm, Sun-Young;Park, Eun-Young;Park, Young-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.932-933
    • /
    • 2015
  • 최근 데이터의 양이 급격하게 증가하면서 빅데이터의 시대가 도래했다. 빅데이터는 형식이 없는 비정형 데이터이므로 기존의 정형 데이터 처리 방법으로는 분석 및 데이터 처리가 불가능해졌다. 또한, 범죄예방에 대한 관심이 증가하면서, 범죄 데이터 분석의 수요가 증가하고 있다. 본 연구에서는 비정형 범죄 데이터를 분석, 예측 등의 전산처리를 하기 위한 정규화 메트릭을 설정하는 방안을 제안하고자 한다.

Mathematical Algorithms for the Automatic Generation of Production Data of Free-Form Concrete Panels (비정형 콘크리트 패널의 생산데이터 자동생성을 위한 수학적 알고리즘)

  • Kim, Doyeong;Kim, Sunkuk;Son, Seunghyun
    • Journal of the Korea Institute of Building Construction
    • /
    • v.22 no.6
    • /
    • pp.565-575
    • /
    • 2022
  • Thanks to the latest developments in digital architectural technologies, free-form designs that maximize the creativity of architects have rapidly increased. However, there are a lot of difficulties in forming various free-form curved surfaces. In panelizing to produce free forms, the methods of mesh, developable surface, tessellation and subdivision are applied. The process of applying such panelizing methods when producing free-form panels is complex, time-consuming and requires a vast amount of manpower when extracting production data. Therefore, algorithms are needed to quickly and systematically extract production data that are needed for panel production after a free-form building is designed. In this respect, the purpose of this study is to propose mathematical algorithms for the automatic generation of production data of free-form panels in consideration of the building model, performance of production equipment and pattern information. To accomplish this, mathematical algorithms were suggested upon panelizing, and production data for a CNC machine were extracted by mapping as free-form curved surfaces. The study's findings may contribute to improved productivity and reduced cost by realizing the automatic generation of data for production of free-form concrete panels.

Design and Implementation of Input and Output System for Unstructured Big Data (비정형 대용량 데이터 입력 및 출력 시스템 설계 및 구현)

  • Kim, Chang-Su;Shim, Kyu-Chul;Kang, Byoung-Jun;Kim, Kyung-Hwan;Jung, Hoe-Kyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.2
    • /
    • pp.387-393
    • /
    • 2014
  • In recent years, the spread of computers is increasing, and efficient processing effort for unstructured Big Data is required. In this paper, we are proposed a system to extract the data typed in a word processor quickly by user creating and XML mapping file after converting XML data that has been entered in the office file(HWP, MS-office). In addition, we proposed a system is able to lookup the necessary data from a database by entered form in advance and convert word processor document to office files by the application program. The unstructured big data will be available to be used.

Schema Processor and Query Link Generator for supporting Structured Data in Virtual Documents (가상문서에서 정형 데이터 지원을 위한 스키마처리기와 질의링크 생성기)

  • 김철수;강지훈;강민구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.172-174
    • /
    • 2002
  • XML을 기반으로 하는 가상문서는 다양한 데이터의 공유를 가능하게 하여 새로운 지식을 생성할 수 있도록 한다. 가상 문서를 지원하는 디지털 도서관 시스템에서 질의 링크는 인터넷 상의 정형데이터 공유를 가능하게 한다. 본 연구에서는 질의링크를 포함하는 XML- 기반 가상문서를 효과적으로 생성하기 위해 질의링크 생성기와 스키마 처리기를 설계하고 구현하였으며 이를 지원하기 위해 디지털 도서관 시스템과 가상문서 저작시스템에서 서비스 관리기, 메타 검색기, 데이터베이스 관리기와 저작도구를 확장하였다.

  • PDF

MPIL: Market prediction through image learning of unstructured and structured data (비정형, 정형 데이터의 이미지 학습을 활용한 시장예측)

  • Lee, Yoon Seon;Lee, Ju Hong;Choi, Bum Ghi;Song, Jae Won
    • Smart Media Journal
    • /
    • v.10 no.2
    • /
    • pp.16-21
    • /
    • 2021
  • Financial time series analysis plays a very important role economically and socially in modern society and is an important task affecting global development, but due to difficulties such as a lot of noise and uncertainty, financial time series analysis prediction is a difficult research topic. In this paper, we propose a market prediction method (MPIL) by converting unstructured data and structured data into images. For market prediction, it analyzes SNS and news data, which is unstructured data for n days, and converts the market data, which is structured data, to an image with the GADF algorithm, and predicts an ultra-short market that predicts the price of n+1 days through image learning. MPIL has an average accuracy of 56%, which is higher than the 50% average accuracy of the model that predicts the market with LSTM by using sentiment analysis used for existing market forecasting.

Analysis of Trend for BigData Processing Technology by DW Appliance (DW 어플라이언스를 통한 빅데이터 처리 기술 동향 분석)

  • Choi, Ro-Hwan;Park, Seok-Cheon;Sim, Bong-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.904-907
    • /
    • 2013
  • 최근 정보통신기술이 하루가 다르게 발전함에 따라 하루에도 수많은 데이터가 흘러나오는 최근의 추세이다. 정형 데이터 뿐 아니라 비정형 데이터 분석까지 진행하는 최근의 추세에 맞춰 현 빅데이터 기술 동향을 분석한다. 빅데이터 시대를 맞아 기존의 데이터웨어하우스(DW)와 발전된 데이터웨어하우스(DW) 어플라이언스에 대해 분석하고 향후 발전 전망과 방향을 제시한다.

Design of Streaming based Unstructured-Data Collecting Framework in IoT Environment (IoT 환경에서 스트리밍 기반의 비정형 데이터 수집 프레임워크 설계)

  • Lee, Hoo-Young;Park, Koo-Rack;Kim, Dong-Hyun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2017.01a
    • /
    • pp.57-58
    • /
    • 2017
  • 사물인터넷 환경의 다양한 기기에서는 매초마다 시스템 로그 데이터, 온도, 습도, 조도 및 위치 정보 등과 같은 데이터를 지속적으로 생성한다. 이렇게 생성된 데이터는 기기 안에서 대부분 소멸되거나 수집된다 하더라도 시스템 개선의 일부 목적으로 활용하는데 그칠 뿐이다. 본 논문에서는 각각의 사물인터넷 기기에서 발생하는 비정형 데이터를 스트리밍 방식을 통해 수집 서버로 전송하고 이를 유연한 스키마 구조를 가지는 NoSQL 데이터베이스에 적재하는 프레임워크 설계를 제안한다. 이렇게 수많은 장비로부터 수집된 로그 및 센싱 데이터는 빅데이터 분석을 통해 산업의 현장에서 생산성 향상을 위해 사용할 수 있으며 공공의 목적으로 도심지의 교통문제 해소와 재난 및 재해 예측에 활용될 수 있다.

  • PDF

Formal Method for Meaning Analysis of Behavior on Mobile Process Algebra (이동 프로세스 대수에서 행위의 의미 분석을 위한 정형기법)

  • U, Su-Jeong;On, Jin-Ho;Lee, Moon-Kun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06b
    • /
    • pp.16-21
    • /
    • 2010
  • 분산 이동 실시간 시스템의 명세, 개발 및 검증을 위해 ${\pi}$-calculus, bigraph, Mobile Ambient, CARDMI 등의 정형기법이 존재한다. 이러한 정형기법은 이동하는 에이전트 혹은 프로세스에 대한 명세 및 시스템의 안전성과 검증에 대한 분석을 지원하지만, 행위의 의미적 관점에서 분석 및 검증 방법을 제시하고 있지 않다. 본 논문에서는 정형기법으로 명세 된 시스템의 실행 데이터인 원시 데이터를 행위의 의미적 관점에서 시스템을 분석 및 검증이 가능한 Prism Analyzer를 제안한다. 제안된 Prism Analyzer는 특정 시스템에 대해 발생할 수 있는 다양한 행위를 온톨로지와 속성문법으로 정규화한 다양한 행위모델을 지닌다. 이러한 Prism Analyzer는 원시 데이터를 행위의 의미적 측면에서 개별적, 연속적, 복합적으로 분석 및 검증이 가능하고, Prism Analyzer에 정의된 다양한 행위 모델을 바탕으로 동일한 원시 데이터에 대해 행위 모델에 따른 다양한 분석 결과를 도출해 낼 수 있다.

  • PDF

Cost Performance Evaluation Framework through Analysis of Unstructured Construction Supervision Documents using Binomial Logistic Regression (비정형 공사감리문서 정보와 이항 로지스틱 회귀분석을 이용한 건축 현장 비용성과 평가 프레임워크 개발)

  • Kim, Chang-Won;Song, Taegeun;Lee, Kiseok;Yoo, Wi Sung
    • Journal of the Korea Institute of Building Construction
    • /
    • v.24 no.1
    • /
    • pp.121-131
    • /
    • 2024
  • This research explores the potential of leveraging unstructured data from construction supervision documents, which contain detailed inspection insights from independent third-party monitors of building construction processes. With the evolution of analytical methodologies, such unstructured data has been recognized as a valuable source of information, offering diverse insights. The study introduces a framework designed to assess cost performance by applying advanced analytical methods to the unstructured data found in final construction supervision reports. Specifically, key phrases were identified using text mining and social network analysis techniques, and these phrases were then analyzed through binomial logistic regression to assess cost performance. The study found that predictions of cost performance based on unstructured data from supervision documents achieved an accuracy rate of approximately 73%. The findings of this research are anticipated to serve as a foundational resource for analyzing various forms of unstructured data generated within the construction sector in future projects.