• Title/Summary/Keyword: 정형데이터

Search Result 713, Processing Time 0.027 seconds

A Study on the Prediction of River Water Level Using Artificial Neural Network Theory and Unstructured Data (인공신경망 이론과 비정형데이터를 활용한 하천수위 예측에 관한 연구)

  • Lee, Jeongha;Hwang, SeokHwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.388-388
    • /
    • 2020
  • 매년 국지성호우 및 태풍으로 인해 하천 범람이나 저지대침수가 발생하고 있으며 이는 인명 피해 사례로 이어지기도 한다. 피해 발생을 최소화시키기 위해 강우와 유량과 같은 정형데이터로 홍수예보가 이뤄지고 있으나 기존의 정형데이터만 사용하다보니 도심지역이나 소규모 하천에서 인명 피해 예측에 어려움이 있다. 이를 보완하기 위해서는 인구의 유동성을 고려한 비정형데이터를 활용해야 한다. 최근 소셜 네트워크 서비스(SNS)의 사용자가 증가됨에 따라 텍스트나 사진과 같은 다양한 비정형데이터가 생성되고 있다. 이렇게 생성된 데이터는 다양한 분야에서 활용되고 있으며 특히 지진이나 홍수와 같은 재난 발생 시 유용한 데이터로 활용된 사례가 증가하고 있다. 이는 사람들이 GIS와 같은 위치정보나 시간 등을 포함한 다양한 정보를 포함하기 때문이다. 하지만 이렇게 생산된 비정형데이터를 기존 물리적 기반의 수문모형의 데이터로 활용하기에는 많은 한계점이 있다. 따라서 본 연구에서는 SNS 채널을 통해 생성된 비정형 데이터들을 인공신경망모형에 적용하여 하천수위를 예측하였다.

  • PDF

Prediction of Agricultural Purchases Using Structured and Unstructured Data: Focusing on Paprika (정형 및 비정형 데이터를 이용한 농산물 구매량 예측: 파프리카를 중심으로)

  • Somakhamixay Oui;Kyung-Hee Lee;HyungChul Rah;Eun-Seon Choi;Wan-Sup Cho
    • The Journal of Bigdata
    • /
    • v.6 no.2
    • /
    • pp.169-179
    • /
    • 2021
  • Consumers' food consumption behavior is likely to be affected not only by structured data such as consumer panel data but also by unstructured data such as mass media and social media. In this study, a deep learning-based consumption prediction model is generated and verified for the fusion data set linking structured data and unstructured data related to food consumption. The results of the study showed that model accuracy was improved when combining structured data and unstructured data. In addition, unstructured data were found to improve model predictability. As a result of using the SHAP technique to identify the importance of variables, it was found that variables related to blog and video data were on the top list and had a positive correlation with the amount of paprika purchased. In addition, according to the experimental results, it was confirmed that the machine learning model showed higher accuracy than the deep learning model and could be an efficient alternative to the existing time series analysis modeling.

Flood monitoring and prediction using online unstructured data (비정형데이터를 활용한 홍수 모니터링 및 예측)

  • Lee, Jeong Ha;Hwang, Seok Hwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.118-118
    • /
    • 2019
  • 현재 홍수예보는 정형데이터인 유량 및 수위 등을 활용하여 이뤄지고 있다. 하지만 실제 사람들이 체감하는 홍수에 대한 위험도는 홍수예보 발령과는 달라 홍수예보가 이뤄지지 않은 지역에서 인명사고가 발생하기도 한다. 이는 수위 측정이 이뤄지지 않는 소규모 하천이나 사람들의 유동성이 큰 도심지역에서 빈번하게 발생한다. 이를 보완하기 위해서는 사람들의 체감 정도 및 인구의 유동성을 고려한 비정형데이터를 활용해야 한다. 특히 소셜 네트워크 서비스(Social Network Commuinty, SNS)를 사용하는 사람들이 많아지면서 기존에 사용되어 왔던 정형데이터 센서 이외의 데이터를 제공한다. 또한 개개인이 작성하는 글은 실시간으로 활용이 가능하여 인구의 유동성 및 시 공간적 데이터를 얻기에 유용하여 활용성이 매우 높은 비정형데이터이다. 따라서 본 연구에서는 SNS 데이터를 추출하고 이를 분석하여 2018년에 발생했던 강우사상과의 패턴을 비교하여 홍수예보에서의 활용성을 분석하였다. 홍수와 관련한 키워드를 중심으로 시 공간적 정보 및 추출이 가능한 웹 크롤러(Web Crawler) 프로그램을 작성하였으며 이를 토대로 데이터를 수집하였다. 수집한 데이터와 실제 홍수사상을 비교 분석을 한 결과 강우량 및 수위와 해당 지역에 대한 데이터의 양이 유사한 패턴을 보인 것으로 확인되었다. 실시간으로 데이터를 수집하고 이를 분석하여 리드타임을 충분히 확보한다면 홍수예측에 활용 가능할 것이라 생각된다. 본 연구는 한국건설기술연구원 19주요-대4-시드사업인 '커뮤니티 빅데이터 패턴 해석을 통한 수난(水難) 발생 및 규모 예측 기술 개발(20190126-001) '로 수행되었습니다.

  • PDF

Analysis of similarity between industries based on unstructured data using topic modeling (토픽 모델링을 이용한 비정형 데이터 기반 산업간 유사도 분석)

  • Kim, Kyungwon;Park, Jongbin;Jung, Jongjin;Yoon, Kyoungro
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.180-182
    • /
    • 2018
  • 최근 빠르게 변화하는 산업 환경에서 뉴스 기사와 같은 비정형 데이터를 기반으로 산업 트랜드를 분석하기 위한 연구가 진행되고 있다. 뉴스와 같은 비정형 데이터를 기반으로 산업별 트랜드를 분석하기 위해서는 분석 대상 산업에 대한 많은 양의 시계열 데이터가 요구된다. 하지만, 수집된 비정형 데이터를 분류하면 산업별/기간별 일정하지 않은 데이터 분포를 보이거나, 특정 산업에 대해서는 특정 기간에 데이터가 존재하지 않은 경우가 발생하여 산업별 시계열 분석이 어려운 경우가 발생할 수 있다. 이에, 본 논문에서는 산업별/기간별 균일하지 못한 비정형 데이터의 분포를 보정하기 위한 방법으로 비정형 데이터 기반 산업간 유사도를 분석 기법을 제안한다. 산업별 유사도 분석을 위해 각 산업별 주요 키워드를 도출하고 토픽 모델링 기법을 이용하여 산업간 유사도 분석을 통해 산업별/기간별 비정형 데이터 부족현상을 보완하는 방법을 제시한다.

  • PDF

A Study of improving reliability on prediction model by analyzing method Big data (빅데이터 분석방법을 이용한 예측모형의 신뢰도 향상에 관한 연구)

  • Song, Min-Gu;Kim, Sun-Bae
    • Journal of Digital Convergence
    • /
    • v.11 no.6
    • /
    • pp.103-112
    • /
    • 2013
  • Traditional method of establishing prediction model is usually using formal data stored in Data Base. However, nowadays advent of "smart" era brought by ground-breaking development of communication system makes informal data to dominate overall data, such 80% in total. Therefore, conventional method using formal data as establishing predicting model would be untrustworthy means in present. In other words, it is indispensible to make prediction model credible including informal data(SNS, image, video) and semi-formal data(log data). In this study, we increase credibility of predicting model adapting Bigdata method and comparing reliability of conventional measurement to real-data.

A Design and Implementation for processing Query Links in Virtual Documents (가상문서에서 질의 링크 처리를 위한 설계 및 구현)

  • 강민구;김철수;강지훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.169-171
    • /
    • 2001
  • XML을 기반으로 하는 가상문서는 인터넷 상의 정보 공유를 가능하게 하여 새로운 지식을 생성할 수 있도록 한다. 가상문서에서는 비정형(텍스트, 이미지, 멀티미디어 데이터)과 준정형(HTML, XML) 데이터를 링크로 연결하여 정보를 제공하고 있다. HTML과 같은 기존의 웹 문서에서는 스크립트나 CGI 같은 것을 통하여 정형 데이터(데이터베이스)의 정보를 제공하고 있으므로 가상문서에서도 자연스럽게 정형 데이터를 연결하여 사용이 가능하다. 본 논문에서는 디지털 도서관 시스템에서 정형 데이터를 지원하기 위해 질의 링크를 포함하는 가상문서를 효율적으로 처리할 수 있도록 데이터베이스를 설계 및 구현하며, 데이터베이스 스키마 정보를 관리하여 필요한 데이터베이스를 검색하여 질의 링크의 생성을 돕도록 하였다.

  • PDF

Study on the Application Methods of Big Data at a Corporation -Cases of A and Y corporation Big Data System Projects- (기업의 빅데이터 적용방안 연구 -A사, Y사 빅데이터 시스템 적용 사례-)

  • Lee, Jae Sung;Hong, Sung Chan
    • Journal of Internet Computing and Services
    • /
    • v.15 no.1
    • /
    • pp.103-112
    • /
    • 2014
  • In recent years, the rapid diffusion of smart devices and growth of internet usage and social media has led to a constant production of huge amount of valuable data set that includes personal information, buying patterns, location information and other things. IT and Production Infrastructure has also started to produce its own data with the vitalization of M2M (Machine-to-Machine) and IoT (Internet of Things). This analysis study researches the applicable effects of Structured and Unstructured Big Data in various business circumstances, and purposes to find out the value creation method for a corporation through the Structured and Unstructured Big Data case studies. The result demonstrates that corporations looking for the optimized big data utilization plan could maximize their creative values by utilizing Unstructured and Structured Big Data generated interior and exterior of corporations.

A Machine Learning-Based Vocational Training Dropout Prediction Model Considering Structured and Unstructured Data (정형 데이터와 비정형 데이터를 동시에 고려하는 기계학습 기반의 직업훈련 중도탈락 예측 모형)

  • Ha, Manseok;Ahn, Hyunchul
    • The Journal of the Korea Contents Association
    • /
    • v.19 no.1
    • /
    • pp.1-15
    • /
    • 2019
  • One of the biggest difficulties in the vocational training field is the dropout problem. A large number of students drop out during the training process, which hampers the waste of the state budget and the improvement of the youth employment rate. Previous studies have mainly analyzed the cause of dropouts. The purpose of this study is to propose a machine learning based model that predicts dropout in advance by using various information of learners. In particular, this study aimed to improve the accuracy of the prediction model by taking into consideration not only structured data but also unstructured data. Analysis of unstructured data was performed using Word2vec and Convolutional Neural Network(CNN), which are the most popular text analysis technologies. We could find that application of the proposed model to the actual data of a domestic vocational training institute improved the prediction accuracy by up to 20%. In addition, the support vector machine-based prediction model using both structured and unstructured data showed high prediction accuracy of the latter half of 90%.

Methods of Korean Text Data Quality Assessment (한국어 텍스트 데이터의 품질 평가 요소 및 방법)

  • Kim, Jung-Wook;Hong, Cho-hee;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF

Performance comparison between Decision tree model and TabNet for loan repayment prediction (대출 상환 예측을 위한 의사결정나무모델과 TabNet 간 성능 비교)

  • Sujin Han;Hyeoncheol Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.453-455
    • /
    • 2023
  • 본 연구는 은행에서 리스크 관리 자동화를 위해 고객의 대출 상환 여부 예측 모델을 제안하고자 한다. 예측 모델로 금융 데이터 같은 정형데이터에서 전통적으로 높은 성능을 보인 의사결정나무기반 모델 LightGBM, CatBoost, XGB 와 최근 제안된 정형데이터에서 사용할 수 있는 설명 가능한 딥러닝 기반 모델 TabNet 간의 성능 비교를 진행한다. 다만, 대출 상환 여부 데이터는 불균형 클래스 데이터로 구성되어있어 샘플링을 진행한다. SMOTE, Random Under Sampling, 혼합 방식을 비교해 가장 높은 성능의 샘플링 기법을 제안한다. 대출 상환 여부 예측 결과 TabNet 모델이 의사결정나무모델들보다 좋은 성능을 보여 정형데이터에서 의사결정나무 기반 모델을 딥러닝 모델이 대체 할 수 있는 가능성을 확인했다.