• 제목/요약/키워드: 데이터모델

검색결과 12,456건 처리시간 0.044초

다차원 하천 정보 체계 구축 위한 하천네트워크 기반 표준 하천 데이터 모델 개발 (A Standardized River Data Model Based on River Network for Building Multi-dimensional River Information System)

  • 최승수;김동수;유호준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.177-177
    • /
    • 2017
  • 최근 ADCP 등 첨단장비를 활용한 유량 및 하상측정, 각종 하천기본계획 수립 시 확보되는 횡단측정 자료, 식생 및 서식처 등 하천환경과 생태자료, 드론 등을 활용한 영상자료 등 방대한 하천 정보가 확보되고 있으며, 다기능보 등 다양한 하천구조물 및 친수구역이 증가하는 등 이전과 비교하여 괄목할만한 수준으로 정보의 양이 증가하고 있다. 이에 따라 다양한 하천정보를 체계적으로 저장, 관리, 공유하기 위하여 표준화된 데이터 모델(Data Model)의 수립이 필요하다. 하천 정보의 경우 하천 시설물, 하천 단면측량 자료, 하천 시계열 측정 자료 등이 특정 하천을 중심으로 관리되는 반면, 기존 데이터 모델 연구에서는 특정 주제도에 기반하여 하천 정보가 레이어 형식으로 제공되어 상호 연계되지 않아 하천 정보의 효율적 관리측면에서 적합하지 않았다. 또한 신규 정보를 추가 시 기존 데이터 모델의 과다한 수정이 필요하고, 기존의 데이터 모델의 경우 표준화되지 않아 활용성이 매우 낮고, 유역중심으로 구성되어 특정 조건에 해당되는 하천 정보 검색이 어려운 단점이 존재하였다. 본 연구에서는 기존의 주제도 및 레이어 형식으로 구성되어 있던 데이터 모델 형식에서 벗어나 하천흐름선을 기준으로 데이터모델을 구축하는 방안을 제시하였으며, 하천흐름선과 하천 시설물, 단면 측량 자료, 계측 자료를 순차적으로 수용하고, 기존에 존재하지 않던 하천 정보의 추가 시 기존 데이터 모델의 형식을 수정하지 않고 유연하게 대응할 수 있는 관계형 데이터 모델을 구상하였다. 또한, 하천과 유역의 논리적 저장방안 고려하여 한 개의 하천을 다수의 세그먼트(Reach)로 구분하여 코드(Reach Code)를 부여하는 방안을 제시하였으며, 구상한 데이터모델을 통하여 국가하천과 지방하천 등 유역의 다양성을 포함하는 한강권역의 섬강유역을 시범하천으로 구축하였다. 제시된 하천 정보 데이터 모델을 활용하여 DB를 구축한다면 하천망을 기준으로 하천 정보가 저장되고, 기존의 유역단위의 하천 정보 제공 방식에서 하천과 유역을 모두 포함하여 검색 가능한 시스템을 구축하여 하천 정보의 관리와 제공이 수월해질 것으로 기대된다.

  • PDF

인공신경망 모델을 이용한 지천유입이 있는 대하천의 수질예측 (Prediction of Water Quality in Large Rivers with Tributary Input using Artificial Neural Network Model)

  • 서일원;윤세훈;정성현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.45-45
    • /
    • 2018
  • 오염물의 혼합거동을 해석하기 위해 물리기반 모델을 이용하는 경우 모델을 구축하고 운용하는데 많은 시간과 재정이 소요되며 현장검증을 통한 검증이 반드시 필요하다. 하지만 데이터 기반 모델의 경우 축적된 데이터만으로도 예측을 수행할 수 있으며 물리기반모델에 비해 결정해야할 입력인자가 적어 모델운용이 용이하다는 장점이 있다. 다양한 데이터 모델 중 인공신경망(ANN) 모델은 데이터가 가지는 불확실성 및 비정상성, 복잡한 상호관련성에 효과적으로 대응할 수 있는 모델로 수자원 및 환경 분야에서 자주 사용되고 있다. 본 연구에서는 인공신경망 모델을 이용하여 지천유입이 있는 대하천의 수질인자 (pH, 전기전도도, DO, chl-a)를 예측하였다. 다른 데이터기반 모델과 같이 인공신경망 모델 또한 수집된 데이터 질에 크게 영향을 받으며, 내부 입력인자의 선택이 모델의 예측 결과에 큰 영향을 미친다. 이러한 인공신경망 모델의 특성을 바탕으로 예측모형의 정확도를 향상하기 위해서는 크게 데이터 처리부분과 모델구축 부분에서의 접근이 필요하다. 본 연구에서는 데이터 처리 과정에서 연구대상지점의 각각의 수질인자가 가지는 분포 특성을 유지하기 위해 층화표츨추출법을 이용하여 데이터를 구성하였다. 모델의 구축 과정에서는 초기가중치 값의 영향을 줄이기 위해 앙상블기법을 사용하였으며, 좀 더 견고하고 정확한 결과를 예측하기 위해 탄력적 역전파알고리즘을 추가하였다. 추가적으로 합류 후 본류의 미 계측지역 수질 예측 정확도 향상을 위해 본류의 수질인자뿐만 아니라 지류의 수질인자를 입력자료로 사용하여 모의를 수행하였다. 또한 동일 구간에서 수행한 현장추적자실험 자료를 이용하여 수질인자의 분포특성을 비교, 검증하였다. 개발된 모델을 이용하여 낙동강과 금호강 합류부 하류의 수질인자를 예측한 결과 지류의 수질인자를 입력자료로 추가한 경우 예측의 정확도가 증가하였으며, 현장실험 자료를 통해 밝혀진 오염물의 거동현상을 인공신경망 모델로도 동일하게 재현하는 것으로 나타났다. 본 연구에서 제안한 인공신경모델을 이용한다면 물리기반 수치모델을 대체하여 지천으로 유입된 오염물의 거동을 정확하고 효율적으로 파악할 수 있을 것이다.

  • PDF

수치지도 데이터의 논리적 모델에 관한 연구 (A Study on Logical Data Model for National Topographic Basedata)

  • 조우석
    • 한국측량학회지
    • /
    • 제16권1호
    • /
    • pp.139-147
    • /
    • 1998
  • 국토에 대한 공간정보의 기본도로서 다양한 사용자의 요구사항을 충족시킬 수 있는 수치지도를 효율적으로 제작 및 유지관리하기 위해서는 수치지도의 데이터 모델과 구조 등 수치지도 데이터 구축에 대한 연구가 중점적으로 이루어져야 한다. 본 연구에서는 단순 지도제작을 목적으로 구축된 기존 수치지도의 데이터 모델에 대한 문제점을 파악하여, 개선된 수치지도 데이터 모델의 개념적ㆍ논리적 모델을 제시하였다. 제시된 수치지도 데이터 모델은 기존에 제작된 수치지도 데이터의 사용을 전제로 설계되었으며, 다양한 사용자의 요구사항을 반영하기 위해서 데이터 모델의 유연성에 중점을 두었고, 필요에 따라서 수정이 용이하도록 단계별 접근방법에 의해 설계되었다. 또한 제시된 수치지도 데이터 모델은 향후 객체 지향형 모델로 나아가기 위한 중간 단계의 데이터 모델이다.

  • PDF

토지 보상비 추정 모델 개발 - 건설CALS데이터와 공공데이터 중심으로 (Development of Land Compensation Cost Estimation Model : The Use of the Construction CALS Data and Linked Open Data)

  • 이상규;김진욱;서명배
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.375-378
    • /
    • 2020
  • 본 연구는 토지 보상비의 추정 모델 개발을 위해서 건설 CALS (Continuous Acquisition & Life-cycle Support) 시스템의 내부데이터와 개별공시지가 및 표준지 공시지가 등의 외부데이터, 그리고 개발된 추정 모델의 고도화를 위한 개별공시가 데이터를 기반으로 생성된 데이터를 활용하였다. 이렇게 수집된 3가지 유형의 데이터를 분석하기 위해서 기존 선형 모델 또는 의사결정나무 (Tree) 기반의 모델상 과적합 오류를 제거할 경우 매우 유용한 알고리즘으로 Decision Tree 기반의 Xgboost 알고리즘을 데이터 분석 방법론으로 토지 보상비 추정 모델 개발에 활용하였다. Xgboost 알고리즘의 고도화를 위해 하이퍼파라미터 튜닝을 적용한 결과, 실제 보상비와 개발된 보상비 추정 모델의 MAPE(Mean Absolute Percentage Error) 범위는 19.5%로 확인하였다.

  • PDF

텐서 기반 데이터 생성 모델을 이용한 생체데이터 분류 (Bio-Data Classification Using Tensor-based Data Generation Model)

  • 윤동우;박혜영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.7-8
    • /
    • 2007
  • 생체데이터란 인간개체로부터 얻을 수 있는 고유의 생체신호를 통틀어 일컫는 것이다. 본 연구에서는 생체데이터를 위한 팩터 분석 모델에 텐서 개념을 적용하여, 2차 텐서로 표현된 데이터를 위한 생성모델을 제안한다. 이 모델을 바탕으로 데이터로부터 분류에 핵심이 되는 정보를 안정적으로 추출하여 유사도 함수를 만들고 분류를 수행하는 방법을 제안한다. 실험을 통해 제안하는 방법이 기존의 벡터형태의 데이터에 대한 생성 모델을 사용한 경우보다 우수한 성능을 가짐을 확인할 수 있었다.

연구데이터 품질관리를 위한 프로세스 모델 제안 (Proposal of Process Model for Research Data Quality Management)

  • 한나은
    • 정보관리학회지
    • /
    • 제40권1호
    • /
    • pp.51-71
    • /
    • 2023
  • 본 연구는 공공데이터 품질관리 모델, 빅데이터 품질관리 모델, 그리고 연구데이터 관리를 위한 데이터 생애주기 모델을 분석하여 각 품질관리 모델에서 공통적으로 나타나는 구성 요인을 분석하였다. 품질관리 모델은 품질관리를 수행하는 객체인 대상 데이터의 특성에 따라 생애주기에 맞추어 혹은 PDCA 모델을 바탕으로 구축되고 제안되는데 공통적으로 계획, 수집 및 구축, 운영 및 활용, 보존 및 폐기의 구성요소가 포함된다. 이를 바탕으로 본 연구는 연구데이터를 대상으로 한 품질관리 프로세스 모델을 제안하였는데, 특히 연구데이터를 대상 데이터로 하여 서비스를 제공하는 연구데이터 서비스 플랫폼에서 데이터를 수집하여 서비스하는 일련의 과정에서 수행해야하는 품질관리에 대해 계획, 구축 및 운영, 활용단계로 나누어 논의하였다. 본 연구는 연구데이터 품질관리 수행 방안을 위한 지식 기반을 제공하는데 의의를 갖는다.

생성모델의 시각적 최적화를 위한 학습데이터 제작기법 (Learning data production technique for visual optimization of generative models)

  • 조형래;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.13-14
    • /
    • 2021
  • 본 논문은 생성모델의 학습데이터 제작기법에 대한 실험 및 결과와 향후 관련 연구의 방향을 기술한다. GAN으로 대표되는 생성모델이 아티스트에게 얼마만큼의 만족도와 영감을 주는지를 비교 실험 및 평가하기 위해서는 정제된 학습데이터가 필요하다. 하지만 현실적으로 아티스트의 작품은 데이터 세트를 만들기에는 그 수가 적고 인공지능이 학습하기에도 정제되어있지 않다. 2차 가공작업을 통하여 아티스트의 원본 작업과 유사한 데이터 세트의 구축은 생성모델의 성능향상을 위해 매우 중요하다. 연구의 결과 생성모델이 표현하기 어려운 스타일의 작가 작품을 선정한 뒤 최적의 학습데이터를 만들기 위한 다양한 실험과 기법을 통해 구축한 데이터 세트를 생성모델 알고리즘에 적용하고 실험을 통해 창작자의 작품제작 의도인 작가 진술에 최대한 유사한 이미지의 생성과 더 나아가 작가가 생각하지 못했던 창조적 모방의 결과물을 도출하였고 작가평가를 통해 높은 만족도를 얻었다.

  • PDF

대출 상환 예측을 위한 의사결정나무모델과 TabNet 간 성능 비교 (Performance comparison between Decision tree model and TabNet for loan repayment prediction)

  • 한수진 ;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.453-455
    • /
    • 2023
  • 본 연구는 은행에서 리스크 관리 자동화를 위해 고객의 대출 상환 여부 예측 모델을 제안하고자 한다. 예측 모델로 금융 데이터 같은 정형데이터에서 전통적으로 높은 성능을 보인 의사결정나무기반 모델 LightGBM, CatBoost, XGB 와 최근 제안된 정형데이터에서 사용할 수 있는 설명 가능한 딥러닝 기반 모델 TabNet 간의 성능 비교를 진행한다. 다만, 대출 상환 여부 데이터는 불균형 클래스 데이터로 구성되어있어 샘플링을 진행한다. SMOTE, Random Under Sampling, 혼합 방식을 비교해 가장 높은 성능의 샘플링 기법을 제안한다. 대출 상환 여부 예측 결과 TabNet 모델이 의사결정나무모델들보다 좋은 성능을 보여 정형데이터에서 의사결정나무 기반 모델을 딥러닝 모델이 대체 할 수 있는 가능성을 확인했다.

과학 응용 데이터베이스 관리를 위한 시간지원 데이터 모델 (A Temporal Data Model for Managing Scientific Database)

  • 김진호;옥수호
    • 정보기술과데이타베이스저널
    • /
    • 제4권1호
    • /
    • pp.51-64
    • /
    • 1997
  • 최근 컴퓨터 응용이 우주 항공, 천체 기상, 환경 관리, 공장 자동화(FA) 등의 분야로 확산되면서 물리, 화학, 생물, 기계 등의 과학 응용에서 생성되는 자료를 처리하는 기법에 대한 요구가 늘어나고 있다. 이들 과학 응용에서는 물리적 실험 장치나 측정 기계, 또는 시뮬레이션으로부터 데이터를 시간별로 측정(또는 수집)하므로 이들 과학 데이터는 시간에 종속된 데이터이다. 많은 과학 응용의 시간 지원 데이터는 과학 분야의 특성에 따라 매우 정밀한 시간 단위로 수집하기도 하고 실험 시작부터 경과된 상대적인 시간에 따라 데이터를 수집한다. 달력상의 시간을 사용하는 기존의 시간지원 데이터베이스는 과학 응용의 이러한 특징을 지원하지 못한다. 따라서 이 논문에서는 과학 실험 응용에서 요구하는 시간에 대한 특징과 요구 사항을 분석하고, 이들 과학 응용의 요구 사항을 만족하도록 확장한 새로운 시간 지원 데이터 모델을 제안한다. 이 모델에서는 실험이 경과된 상대적인 시간에 대한 데이터의 이력을 확장형 집합 개념을 사용하여 표현한다. 기존의 관계 데이터 모델과 유사하게, 이 모델은 집합 개념에 바탕을 두고 있으므로 데이터 모델과 그 연산의 의미를 쉽게 이해하고 사용할 수 있다는 장점이 있다.

  • PDF

DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구 (DART: Data Augmentation using Retrieval Technique)

  • 이승준;서재형;이정섭;강명훈;문현석;박찬준;정다현;이재욱;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF