• 제목/요약/키워드: 비정형 데이터

검색결과 585건 처리시간 0.029초

토픽 모델링을 이용한 비정형 데이터 기반 산업간 유사도 분석 (Analysis of similarity between industries based on unstructured data using topic modeling)

  • 김경원;박종빈;정종진;윤경로
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.180-182
    • /
    • 2018
  • 최근 빠르게 변화하는 산업 환경에서 뉴스 기사와 같은 비정형 데이터를 기반으로 산업 트랜드를 분석하기 위한 연구가 진행되고 있다. 뉴스와 같은 비정형 데이터를 기반으로 산업별 트랜드를 분석하기 위해서는 분석 대상 산업에 대한 많은 양의 시계열 데이터가 요구된다. 하지만, 수집된 비정형 데이터를 분류하면 산업별/기간별 일정하지 않은 데이터 분포를 보이거나, 특정 산업에 대해서는 특정 기간에 데이터가 존재하지 않은 경우가 발생하여 산업별 시계열 분석이 어려운 경우가 발생할 수 있다. 이에, 본 논문에서는 산업별/기간별 균일하지 못한 비정형 데이터의 분포를 보정하기 위한 방법으로 비정형 데이터 기반 산업간 유사도를 분석 기법을 제안한다. 산업별 유사도 분석을 위해 각 산업별 주요 키워드를 도출하고 토픽 모델링 기법을 이용하여 산업간 유사도 분석을 통해 산업별/기간별 비정형 데이터 부족현상을 보완하는 방법을 제시한다.

  • PDF

인공신경망 이론과 비정형데이터를 활용한 하천수위 예측에 관한 연구 (A Study on the Prediction of River Water Level Using Artificial Neural Network Theory and Unstructured Data)

  • 이정하;황석환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.388-388
    • /
    • 2020
  • 매년 국지성호우 및 태풍으로 인해 하천 범람이나 저지대침수가 발생하고 있으며 이는 인명 피해 사례로 이어지기도 한다. 피해 발생을 최소화시키기 위해 강우와 유량과 같은 정형데이터로 홍수예보가 이뤄지고 있으나 기존의 정형데이터만 사용하다보니 도심지역이나 소규모 하천에서 인명 피해 예측에 어려움이 있다. 이를 보완하기 위해서는 인구의 유동성을 고려한 비정형데이터를 활용해야 한다. 최근 소셜 네트워크 서비스(SNS)의 사용자가 증가됨에 따라 텍스트나 사진과 같은 다양한 비정형데이터가 생성되고 있다. 이렇게 생성된 데이터는 다양한 분야에서 활용되고 있으며 특히 지진이나 홍수와 같은 재난 발생 시 유용한 데이터로 활용된 사례가 증가하고 있다. 이는 사람들이 GIS와 같은 위치정보나 시간 등을 포함한 다양한 정보를 포함하기 때문이다. 하지만 이렇게 생산된 비정형데이터를 기존 물리적 기반의 수문모형의 데이터로 활용하기에는 많은 한계점이 있다. 따라서 본 연구에서는 SNS 채널을 통해 생성된 비정형 데이터들을 인공신경망모형에 적용하여 하천수위를 예측하였다.

  • PDF

정형 및 비정형 데이터를 이용한 농산물 구매량 예측: 파프리카를 중심으로 (Prediction of Agricultural Purchases Using Structured and Unstructured Data: Focusing on Paprika)

  • ;이경희;라형철;최은선;조완섭
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.169-179
    • /
    • 2021
  • 소비자의 식품소비행동은 소비자 패널 데이터와 같은 정형 데이터 뿐 아니라 매스미디어와 소셜미디어(SNS) 등 비정형 데이터로부터 영향을 받을 가능성이 높아지고 있다. 본 연구에서는 식품소비 관련된 정형 데이터와 비정형 데이터를 연계한 융합데이터 셋에 대하여 딥러닝 기반의 소비예측 모델을 생성하고 이를 검증한다. 연구의 결과는 정형 데이터와 비정형 데이터를 결합할 때 모델 정확도가 향상되었음을 보여주었다. 또한 비정형 데이터가 모델 예측 가능성을 향상시키는 것으로 나타났다. 변수들의 중요도를 식별하기 위해 SHAP 기법을 사용한 결과 블로그 및 비디오 데이터 관련 변수가 상위 목록에 있었고, 파프리카 구매 금액과 양의 상관관계가 있음을 알 수 있었다. 또한 실험 결과에 따르면 머신러닝 모델이 딥러닝 모델보다 높은 정확도를 보였고, 기존의 시계열 분석 모델링에 대한 효율적인 대안이 될 수 있음을 확인하였다.

한국어 텍스트 데이터의 품질 평가 요소 및 방법 (Methods of Korean Text Data Quality Assessment)

  • 김정욱;홍초희;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF

비정형 데이터를 위한 다차원 색인구조 (A Multi-Dimensional Index Structure for Unformatted Data)

  • 송석일;파준일;이석희;유재수;조기형
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.67-69
    • /
    • 2001
  • 최근 이미지나 멀티미디어 데이터와 같은 비정형 데이터의 검색을 보다 효과적으로 수행하기 위한 연구가 활발하게 진행되어 왔다. 비정형 데이터를 검색하기 위해서는 비정형 데이터를 다차원의 특징 벡터로 변환하고, 그것을 다차원 색인구조를 이용해 색인한다. 따라서 이러한 비정형 데이터를 효율적으로 색인 할 수 있는 다차원 색인구조가 요구되고 있다. 이 논문에서는 데이터를 벡터 근사치로 표현한 후 이를 트리 형태로 구성하여 검색이 효율을 높이는 다차원 데이터를 위한 색인구조 VA(Vector Approximate)-트리를 제안한다. 이 논문에서 제안하는 VA-트리는 VA-파일과 K-D-B-트리 구조를 기반으로 하고 있다. VA-트리는 적은 비트를 이용하여 다차원 공간을 표현하기 위해 노드내의 모든 정보를 비트로 표현한다. 중간노드의 비트 형태 엔트리는 하위노드에 포함된 정보를 의미하고 있어 탐색을 효율적으로 수행할 수 있도록 한다. 실험을 통한 성능평가를 수행하여 제안된 색인구조의 우수함을 보인다.

  • PDF

비정형 빅데이터 수집 모듈의 구현 및 비교 (Implementation and Comparison of Atypical Big-Data Collecting Modules)

  • 김정기;천요섭;김우생
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.631-634
    • /
    • 2014
  • 최근 스마트폰의 보급으로 블로그, SNS 등에서 방대한 양의 데이터가 발생함에 따라 이를 수집하고 분석하는 작업의 중요성이 커지고 있다. 이러한 데이터는 크게 정형 데이터와 비정형 데이터로 나눌 수 있는데, 특히 비정형 데이터는 전체 데이터의 약 80%를 차지할 정도로 그 양과 가치가 매우 크다. 이 논문에서는 빅데이터 환경에서 발생하는 이러한 비정형 데이터를 수집하는 모듈 중 가장 널리 알려진 Chukwa와 Flume에 대한 개발 및 비교 분석을 시도 하였다.

의료 데이터 산업을 위한 비정형 데이터 비식별화 정책에 관한 연구 (A study on the policy of de-identifying unstructured data for the medical data industry)

  • 이선진;박태림;김소희;오영은;이일구
    • 융합보안논문지
    • /
    • 제22권4호
    • /
    • pp.85-97
    • /
    • 2022
  • 빅데이터 기술이 발전하면서 데이터가 전 산업의 혁신 성장을 가속하는 초연결 지능화 사회로 빠르게 진입하고 있다. 고품질의 다양한 데이터를 보유하고 활용하는 융복합 산업이 새로운 성장 동력으로 자리매김하고 있으며, 다양한 전통 산업군에 빅데이터가 융합되어 데이터 기반의 혁신을 통해 디지털 전환이 이루어지고 있다. 특히 의료 분야에서는 전자의무기록 데이터와 같은 정형 데이터와 CT, MRI 등의 비정형 의료 데이터를 함께 활용함으로써, 질병 예측 및 진단의 정확도를 높이고 있다. 현재 의료 산업에서 비정형 데이터의 중요성과 규모는 나날이 증가하고 있지만, 종래의 데이터 보안 기술과 정책은 정형 데이터 중심이며, 비정형 데이터의 보안성과 활용성에 대한 고려는 미비하다. 향후 빅데이터를 활용한 진료가 활성화되려면 데이터의 다양성과 보안성이 데이터 구축, 유통, 활용 단계에서 내재화되고 유기적으로 연계되어야 한다. 본 논문에서는 국내외 데이터 보안 제도와 기술 현황을 분석한다. 이후 의료 분야에서 비정형 데이터가 활발히 사용될 수 있도록 비식별조치 가이드라인에 비정형 데이터 중심의 비식별 기술과 산업에서의 기술 적용 사례를 추가하고, 비정형 데이터에 대한 개인정보 판단 기준을 수립할 것을 제안한다. 더 나아가 개인정보를 침해하지 않고, 비정형 데이터에 활용할 수 있는 객체 특징 기반의 식별 ID를 제안한다.

정형/비정형 데이터 기반 산업 평가 정보 분석 및 시각화 서비스 구현 (Development of Structured/Unstructured data-based Industry Evaluation Information Analysis and Visualization Service)

  • 김경원;정승경;조대근;윤경로
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.177-179
    • /
    • 2018
  • 기존 산업평가 방법은 산업별로 분류된 기업의 재무, 비재무 관련 정형 데이터를 기반으로 통계적 기법을 이용하여 각 산업을 평가하고 있다. 이러한 정형 데이터 기반의 산업 평가 방법은 산업별 재무 정보의 집계 및 통계에 오랜 시간이 소요된다. 따라서, 현재 시장 상황을 반영하기 어려운 현실이다. 최근에는 빠르게 변화하는 산업 환경을 반영하기 위해 뉴스 기사와 같은 비정형 데이터를 통해 산업 트랜드를 분석하기 위한 연구가 이루어 지고 있다. 이에, 본 논문에서는 실시간으로 변화하는 산업 트렌드를 반영하여 적시에 산업 분석 정보를 제공하기 위해 정형/비정형 데이터 기반의 산업평가 정보 분석 엔진을 구현하고, 산업별로 분석된 산업평가 정보를 활용하여 사용자가 직관적인 판단을 할 수 있도록 산업평가 정보 시각화 서비스를 제안한다.

  • PDF

정형 데이터와 비정형 데이터를 동시에 고려하는 기계학습 기반의 직업훈련 중도탈락 예측 모형 (A Machine Learning-Based Vocational Training Dropout Prediction Model Considering Structured and Unstructured Data)

  • 하만석;안현철
    • 한국콘텐츠학회논문지
    • /
    • 제19권1호
    • /
    • pp.1-15
    • /
    • 2019
  • 직업훈련 교육 현장에서 느끼는 가장 큰 어려움 중 하나는 중도탈락 문제이다. 훈련과정마다 많은 수의 학생들이 중도탈락을 하게 되어 국가 예산 낭비 및 청년 취업률 개선에 장애 요인이 되고 있다. 본 연구에서는 중도탈락의 원인을 주로 분석한 기존 연구들과 달리, 각종 수강생 정보를 활용하여 사전에 중도탈락을 예측할 수 있는 기계학습 기반 모형을 제안하고자 한다. 특히 본 연구의 제안모형은 수강생 관련 정형 데이터 뿐 아니라 비정형 데이터인 강사의 상담일지 정보까지 동시에 고려하여 모형의 예측정확도를 제고하고자 하였다. 이 때 비정형 데이터에 대한 분석은 최근 주목받고 있는 텍스트 분석 기술인 Word2vec과 합성곱 신경망을 이용해 수행하였다. 국내 한 직업훈련기관의 실제 데이터에 제안모형을 적용해 본 결과, 정형데이터만을 사용하여 중도탈락을 예측할 때보다 비정형 데이터를 함께 고려했을 때 예측의 정확도가 최대 20%까지 향상됨을 확인할 수 있었다. 아울러, Support Vector Machine을 기반으로 정형 데이터와 비정형 데이터를 결합해 분석했을 때, 검증용 데이터셋 기준으로 90% 후반대의 높은 예측 정확도를 나타냄을 확인하였다.

기업내 비정형 데이터의 가치 평가 모델에 관한 연구 (A Study on the Value Evaluation of the Unstructured Data within Enterprise)

  • 장만철;김정수;김종희;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.367-369
    • /
    • 2014
  • 디지털 데이터에는 TEXT 파일, OFFICE 파일, 이미지 파일, 동영상 파일, 도면 파일 등과 같은 비정형 데이터가 대부분을 차지하고 있다. 최근 기업 내에서 생성되고 활용되는 디지털 데이터는 그 양이 급격히 증가하고 있다. 한편, 이들 디지털 데이터는 디지털 자산으로서의 중요성이 부각되고 있으나, 그 자산의 가치에 대한 평가는 제대로 이루어지지 않고 있는 실정이다. 따라서, 본 연구에서는 기업 내 디지털 자산으로서의 비정형 데이터의 가치 평가 모델을 제시한다. 또한, 이를 통해 자산으로서의 비정형 데이터에 대한 차별적 관리 방안을 제시한다.

  • PDF