• 제목/요약/키워드: 비정형데이터

검색결과 580건 처리시간 0.03초

인공신경망 이론과 비정형데이터를 활용한 하천수위 예측에 관한 연구 (A Study on the Prediction of River Water Level Using Artificial Neural Network Theory and Unstructured Data)

  • 이정하;황석환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.388-388
    • /
    • 2020
  • 매년 국지성호우 및 태풍으로 인해 하천 범람이나 저지대침수가 발생하고 있으며 이는 인명 피해 사례로 이어지기도 한다. 피해 발생을 최소화시키기 위해 강우와 유량과 같은 정형데이터로 홍수예보가 이뤄지고 있으나 기존의 정형데이터만 사용하다보니 도심지역이나 소규모 하천에서 인명 피해 예측에 어려움이 있다. 이를 보완하기 위해서는 인구의 유동성을 고려한 비정형데이터를 활용해야 한다. 최근 소셜 네트워크 서비스(SNS)의 사용자가 증가됨에 따라 텍스트나 사진과 같은 다양한 비정형데이터가 생성되고 있다. 이렇게 생성된 데이터는 다양한 분야에서 활용되고 있으며 특히 지진이나 홍수와 같은 재난 발생 시 유용한 데이터로 활용된 사례가 증가하고 있다. 이는 사람들이 GIS와 같은 위치정보나 시간 등을 포함한 다양한 정보를 포함하기 때문이다. 하지만 이렇게 생산된 비정형데이터를 기존 물리적 기반의 수문모형의 데이터로 활용하기에는 많은 한계점이 있다. 따라서 본 연구에서는 SNS 채널을 통해 생성된 비정형 데이터들을 인공신경망모형에 적용하여 하천수위를 예측하였다.

  • PDF

토픽 모델링을 이용한 비정형 데이터 기반 산업간 유사도 분석 (Analysis of similarity between industries based on unstructured data using topic modeling)

  • 김경원;박종빈;정종진;윤경로
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.180-182
    • /
    • 2018
  • 최근 빠르게 변화하는 산업 환경에서 뉴스 기사와 같은 비정형 데이터를 기반으로 산업 트랜드를 분석하기 위한 연구가 진행되고 있다. 뉴스와 같은 비정형 데이터를 기반으로 산업별 트랜드를 분석하기 위해서는 분석 대상 산업에 대한 많은 양의 시계열 데이터가 요구된다. 하지만, 수집된 비정형 데이터를 분류하면 산업별/기간별 일정하지 않은 데이터 분포를 보이거나, 특정 산업에 대해서는 특정 기간에 데이터가 존재하지 않은 경우가 발생하여 산업별 시계열 분석이 어려운 경우가 발생할 수 있다. 이에, 본 논문에서는 산업별/기간별 균일하지 못한 비정형 데이터의 분포를 보정하기 위한 방법으로 비정형 데이터 기반 산업간 유사도를 분석 기법을 제안한다. 산업별 유사도 분석을 위해 각 산업별 주요 키워드를 도출하고 토픽 모델링 기법을 이용하여 산업간 유사도 분석을 통해 산업별/기간별 비정형 데이터 부족현상을 보완하는 방법을 제시한다.

  • PDF

정형 및 비정형 데이터를 이용한 농산물 구매량 예측: 파프리카를 중심으로 (Prediction of Agricultural Purchases Using Structured and Unstructured Data: Focusing on Paprika)

  • ;이경희;라형철;최은선;조완섭
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.169-179
    • /
    • 2021
  • 소비자의 식품소비행동은 소비자 패널 데이터와 같은 정형 데이터 뿐 아니라 매스미디어와 소셜미디어(SNS) 등 비정형 데이터로부터 영향을 받을 가능성이 높아지고 있다. 본 연구에서는 식품소비 관련된 정형 데이터와 비정형 데이터를 연계한 융합데이터 셋에 대하여 딥러닝 기반의 소비예측 모델을 생성하고 이를 검증한다. 연구의 결과는 정형 데이터와 비정형 데이터를 결합할 때 모델 정확도가 향상되었음을 보여주었다. 또한 비정형 데이터가 모델 예측 가능성을 향상시키는 것으로 나타났다. 변수들의 중요도를 식별하기 위해 SHAP 기법을 사용한 결과 블로그 및 비디오 데이터 관련 변수가 상위 목록에 있었고, 파프리카 구매 금액과 양의 상관관계가 있음을 알 수 있었다. 또한 실험 결과에 따르면 머신러닝 모델이 딥러닝 모델보다 높은 정확도를 보였고, 기존의 시계열 분석 모델링에 대한 효율적인 대안이 될 수 있음을 확인하였다.

비정형데이터를 활용한 홍수 모니터링 및 예측 (Flood monitoring and prediction using online unstructured data)

  • 이정하;황석환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.118-118
    • /
    • 2019
  • 현재 홍수예보는 정형데이터인 유량 및 수위 등을 활용하여 이뤄지고 있다. 하지만 실제 사람들이 체감하는 홍수에 대한 위험도는 홍수예보 발령과는 달라 홍수예보가 이뤄지지 않은 지역에서 인명사고가 발생하기도 한다. 이는 수위 측정이 이뤄지지 않는 소규모 하천이나 사람들의 유동성이 큰 도심지역에서 빈번하게 발생한다. 이를 보완하기 위해서는 사람들의 체감 정도 및 인구의 유동성을 고려한 비정형데이터를 활용해야 한다. 특히 소셜 네트워크 서비스(Social Network Commuinty, SNS)를 사용하는 사람들이 많아지면서 기존에 사용되어 왔던 정형데이터 센서 이외의 데이터를 제공한다. 또한 개개인이 작성하는 글은 실시간으로 활용이 가능하여 인구의 유동성 및 시 공간적 데이터를 얻기에 유용하여 활용성이 매우 높은 비정형데이터이다. 따라서 본 연구에서는 SNS 데이터를 추출하고 이를 분석하여 2018년에 발생했던 강우사상과의 패턴을 비교하여 홍수예보에서의 활용성을 분석하였다. 홍수와 관련한 키워드를 중심으로 시 공간적 정보 및 추출이 가능한 웹 크롤러(Web Crawler) 프로그램을 작성하였으며 이를 토대로 데이터를 수집하였다. 수집한 데이터와 실제 홍수사상을 비교 분석을 한 결과 강우량 및 수위와 해당 지역에 대한 데이터의 양이 유사한 패턴을 보인 것으로 확인되었다. 실시간으로 데이터를 수집하고 이를 분석하여 리드타임을 충분히 확보한다면 홍수예측에 활용 가능할 것이라 생각된다. 본 연구는 한국건설기술연구원 19주요-대4-시드사업인 '커뮤니티 빅데이터 패턴 해석을 통한 수난(水難) 발생 및 규모 예측 기술 개발(20190126-001) '로 수행되었습니다.

  • PDF

한국어 텍스트 데이터의 품질 평가 요소 및 방법 (Methods of Korean Text Data Quality Assessment)

  • 김정욱;홍초희;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF

비정형 데이터를 위한 다차원 색인구조 (A Multi-Dimensional Index Structure for Unformatted Data)

  • 송석일;파준일;이석희;유재수;조기형
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.67-69
    • /
    • 2001
  • 최근 이미지나 멀티미디어 데이터와 같은 비정형 데이터의 검색을 보다 효과적으로 수행하기 위한 연구가 활발하게 진행되어 왔다. 비정형 데이터를 검색하기 위해서는 비정형 데이터를 다차원의 특징 벡터로 변환하고, 그것을 다차원 색인구조를 이용해 색인한다. 따라서 이러한 비정형 데이터를 효율적으로 색인 할 수 있는 다차원 색인구조가 요구되고 있다. 이 논문에서는 데이터를 벡터 근사치로 표현한 후 이를 트리 형태로 구성하여 검색이 효율을 높이는 다차원 데이터를 위한 색인구조 VA(Vector Approximate)-트리를 제안한다. 이 논문에서 제안하는 VA-트리는 VA-파일과 K-D-B-트리 구조를 기반으로 하고 있다. VA-트리는 적은 비트를 이용하여 다차원 공간을 표현하기 위해 노드내의 모든 정보를 비트로 표현한다. 중간노드의 비트 형태 엔트리는 하위노드에 포함된 정보를 의미하고 있어 탐색을 효율적으로 수행할 수 있도록 한다. 실험을 통한 성능평가를 수행하여 제안된 색인구조의 우수함을 보인다.

  • PDF

의료 데이터 산업을 위한 비정형 데이터 비식별화 정책에 관한 연구 (A study on the policy of de-identifying unstructured data for the medical data industry)

  • 이선진;박태림;김소희;오영은;이일구
    • 융합보안논문지
    • /
    • 제22권4호
    • /
    • pp.85-97
    • /
    • 2022
  • 빅데이터 기술이 발전하면서 데이터가 전 산업의 혁신 성장을 가속하는 초연결 지능화 사회로 빠르게 진입하고 있다. 고품질의 다양한 데이터를 보유하고 활용하는 융복합 산업이 새로운 성장 동력으로 자리매김하고 있으며, 다양한 전통 산업군에 빅데이터가 융합되어 데이터 기반의 혁신을 통해 디지털 전환이 이루어지고 있다. 특히 의료 분야에서는 전자의무기록 데이터와 같은 정형 데이터와 CT, MRI 등의 비정형 의료 데이터를 함께 활용함으로써, 질병 예측 및 진단의 정확도를 높이고 있다. 현재 의료 산업에서 비정형 데이터의 중요성과 규모는 나날이 증가하고 있지만, 종래의 데이터 보안 기술과 정책은 정형 데이터 중심이며, 비정형 데이터의 보안성과 활용성에 대한 고려는 미비하다. 향후 빅데이터를 활용한 진료가 활성화되려면 데이터의 다양성과 보안성이 데이터 구축, 유통, 활용 단계에서 내재화되고 유기적으로 연계되어야 한다. 본 논문에서는 국내외 데이터 보안 제도와 기술 현황을 분석한다. 이후 의료 분야에서 비정형 데이터가 활발히 사용될 수 있도록 비식별조치 가이드라인에 비정형 데이터 중심의 비식별 기술과 산업에서의 기술 적용 사례를 추가하고, 비정형 데이터에 대한 개인정보 판단 기준을 수립할 것을 제안한다. 더 나아가 개인정보를 침해하지 않고, 비정형 데이터에 활용할 수 있는 객체 특징 기반의 식별 ID를 제안한다.

정형/비정형 데이터 기반 산업 평가 정보 분석 및 시각화 서비스 구현 (Development of Structured/Unstructured data-based Industry Evaluation Information Analysis and Visualization Service)

  • 김경원;정승경;조대근;윤경로
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.177-179
    • /
    • 2018
  • 기존 산업평가 방법은 산업별로 분류된 기업의 재무, 비재무 관련 정형 데이터를 기반으로 통계적 기법을 이용하여 각 산업을 평가하고 있다. 이러한 정형 데이터 기반의 산업 평가 방법은 산업별 재무 정보의 집계 및 통계에 오랜 시간이 소요된다. 따라서, 현재 시장 상황을 반영하기 어려운 현실이다. 최근에는 빠르게 변화하는 산업 환경을 반영하기 위해 뉴스 기사와 같은 비정형 데이터를 통해 산업 트랜드를 분석하기 위한 연구가 이루어 지고 있다. 이에, 본 논문에서는 실시간으로 변화하는 산업 트렌드를 반영하여 적시에 산업 분석 정보를 제공하기 위해 정형/비정형 데이터 기반의 산업평가 정보 분석 엔진을 구현하고, 산업별로 분석된 산업평가 정보를 활용하여 사용자가 직관적인 판단을 할 수 있도록 산업평가 정보 시각화 서비스를 제안한다.

  • PDF

비정형 빅데이터 수집 모듈의 구현 및 비교 (Implementation and Comparison of Atypical Big-Data Collecting Modules)

  • 김정기;천요섭;김우생
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.631-634
    • /
    • 2014
  • 최근 스마트폰의 보급으로 블로그, SNS 등에서 방대한 양의 데이터가 발생함에 따라 이를 수집하고 분석하는 작업의 중요성이 커지고 있다. 이러한 데이터는 크게 정형 데이터와 비정형 데이터로 나눌 수 있는데, 특히 비정형 데이터는 전체 데이터의 약 80%를 차지할 정도로 그 양과 가치가 매우 크다. 이 논문에서는 빅데이터 환경에서 발생하는 이러한 비정형 데이터를 수집하는 모듈 중 가장 널리 알려진 Chukwa와 Flume에 대한 개발 및 비교 분석을 시도 하였다.

기업내 비정형 데이터의 가치 평가 모델에 관한 연구 (A Study on the Value Evaluation of the Unstructured Data within Enterprise)

  • 장만철;김정수;김종희;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.367-369
    • /
    • 2014
  • 디지털 데이터에는 TEXT 파일, OFFICE 파일, 이미지 파일, 동영상 파일, 도면 파일 등과 같은 비정형 데이터가 대부분을 차지하고 있다. 최근 기업 내에서 생성되고 활용되는 디지털 데이터는 그 양이 급격히 증가하고 있다. 한편, 이들 디지털 데이터는 디지털 자산으로서의 중요성이 부각되고 있으나, 그 자산의 가치에 대한 평가는 제대로 이루어지지 않고 있는 실정이다. 따라서, 본 연구에서는 기업 내 디지털 자산으로서의 비정형 데이터의 가치 평가 모델을 제시한다. 또한, 이를 통해 자산으로서의 비정형 데이터에 대한 차별적 관리 방안을 제시한다.

  • PDF