• Title/Summary/Keyword: 데이터모델

Search Result 12,303, Processing Time 0.044 seconds

Development of fecal coliform prediction model using random forest method (랜덤포레스트기법을 이용한 분변성대장균 예측모델 개발)

  • Seo, Il Won;Choi, Soo Yeon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.124-124
    • /
    • 2016
  • 하천에서의 분변성대장균은 분변성 오염 정도를 나타내는 지표로서, 이 농도가 높을수록 오염된 하천수와의 접촉을 통한 호흡기, 소화기 및 피부 관련 질병의 발발 확률이 높다고 알려져 있다. 따라서 하천에서의 수영, 수상스키 등과 같은 입수형 친수활동을 할 때, 분변성대장균 농도가 농도 기준 이하인지를 확인하고 이러한 정보를 친수활동에 이용할 필요가 있다. 그러나 분변성대장균의 경우, 현재 자동수질측정망에서 측정되고 있는 다른 수질인자들과는 달리 실시간 측정이 불가능하다고 알려져 있다. 분변성대장균을 측정하는데 있어 최소 18시간 이상이 필요하며, 이러한 분변성대장균 측정 방식은 하천 이용자들이 안전한 친수활동을 영위하는데 있어 적절한 수질 정보를 제공하지 못한다. 그러므로 분변성대장균을 예측하는 모델을 개발하고, 이를 이용하여 실시간 분변성대장균 정보를 생성하여 하천 이용자들에게 제공할 필요가 있다. 본 연구에서는 친수활동이 활발하게 이루어지는 곳 중 하나인 북한강의 대성리 지점에 대해 데이터 기반 모델을 이용하여 분변성대장균을 예측하였다. 데이터 기반 모델은 물리 기반 모델에서 필요한 지형데이터나 비점오염원 등의 초기 오염물의 양에 대한 데이터를 필요로 하지 않고, 대신 독립변수로 사용되는 기상 및 수질데이터를 필요로 한다. 이러한 기상 및 수질데이터는 기존 기상관측소, 수질관측소에서 매일 자동으로 측정되기 때문에 데이터 기반 모델은 물리 기반 모델에 비해 입력데이터를 구성하기가 쉽다는 장점을 지닌다. 이러한 데이터 기반 모델 중 분류 모델은 회귀 모델과 달리 분변성대장균 농도가 일정 수질기준 이상을 넘는지를 바로 예측할 수 있다. 본 연구에서는 분류 모델 중 높은 예측력을 가진다고 알려진 랜덤포레스트(random forest) 기법을 이용하여 분변성대장균 예측 모델을 개발하였다. 분변성대장균 예측 모델은 주어진 기상 및 수질 조건에 대해 분변성대장균이 200 CFU/100ml가 넘는지를 예측하였다. 예측된 분변성대장균이 기준을 넘는 경우를 2등급, 넘지 않는 경우를 1등급으로 명명하였다. 모델을 개발하기 위하여 북한강 대성리 인근 측정소에서 2010년부터 2015년까지 측정된 기상 및 수질데이터를 수집하였다. 수집한 데이터를 훈련 및 검증데이터로 샘플링하였으며, 이 때 샘플링한 데이터가 기존 데이터가 가지고 있던 등급별 비율을 유지하기 위하여 층화샘플링을 하였다. 본 연구에서는 샘플링에 의한 불확실성을 줄이기 위하여 랜덤하게 50번 샘플링된 각각의 훈련데이터에 대해 모델을 개발하였다. 50개의 모델의 검증 결과를 종합한 결과, 전체 예측률은 0.139로 나타났다.

  • PDF

The Development of Prediction Models for the Number of People for Meal at University Cafeteria (대학교 교내식당을 위한 식사 인원 예측 모델 개발)

  • Kwangwon Jung;Taegeun Jo;Keewon Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.535-536
    • /
    • 2023
  • 본 논문에서는 대학교 교내 식당의 실제 데이터를 사용해 식사 인원 예측 모델을 개발하여 교내식당에서 발생하는 적자, 음식 품절, 대량 잔반 발생을 경감 시키고자 한다. 모델 개발에 사용되는 데이터는 2018년도, 2019년도 학기 중 식당 데이터와 기상청 날씨 데이터를 사용하였다. 2018년도, 2019년도 데이터를 이용해 EDA 분석 및 전처리를 통해 필요한 변수를 추출하였다. 전체 데이터의 70%를 기반으로 GridSearch와 XGBoostRegressor를 사용해 평일과 주말에 대한 식사 인원 예측 모델을 생성하였다. 그리고 나머지 데이터의 30%를 사용해 생성한 두 모델의 성능을 평가한다. 평일 식사 인원 예측 모델에 대한 MAE값이 조식 16명, 중식 23명, 석식 25명으로 준수한 결과를 보였고 주말 식사 인원 예측 모델에 대한 MAE값은 조식 16명, 중식 23명, 석식 25명으로 좋은 성능을 보였다.

  • PDF

Performance Analysis of Data Consistency Model Using Bluetooth (블루투스를 이용한 데이터 일치성 모델의 성능 분석)

  • 한국희;김찬우;김재훈;고영배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04d
    • /
    • pp.292-294
    • /
    • 2003
  • 인터넷의 보급과 활용이 증대되고 있고, 이동 통신에 대한 관심과 함께 분산 환경을 통한 컴퓨팅의 성능 향상이 중요시되고 있다. 분산 환경에서 데이터 사용의 성능을 향상시키기 위하여 데이터 중복 기법을 사용하는데, 서로 다른 복사본 사이의 데이터 일치성 유지가 필요하다. 본 논문에서는 데이터 일치성의 대표적인 모델을 Eager, Lazy, Periodic 세 가지로 구분하고. 각 모델의 특징을 알아보고 비용을 분석하여 사용자가 적절한 모델을 사용할 수 있도록 하였다. 또한 무선 컴퓨팅 환경에서의 데이터 일치성에 대한 테스트 베드를 블루투스를 이용하여 구축한 후 실제 성능을 측정하여 비용분석 모델의 유용성을 검증하였다.

  • PDF

Integration of Nuclear Power Plant Operation and Maintenance Data Model to Generic Product Model Class Library (원자력 발전소 유지보수 데이터 모델의 범용 제품 모델 클래스 라이브러리로의 통합)

  • Hyoung Jean Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.730-733
    • /
    • 2008
  • 원자력 발전소 정보 관리 시스템인 GPM 시스템에서 원자력 발전소 유지보수 프로세스에서 발생하는 도면, 문서 등 데이터와 비즈니스 프로세스를 모델링한 데이터 모델을 범용 제품 모델 (GPM, Generic Product Model) 클래스 라이브러리에 통합하였다. 이를 통해 제시하는 표준 데이터 모델은 지능적 P&ID 시스템의 기본 데이터 모델로 사용될 수 있으며, 이를 기반으로 향후에는 지식화된 정보 서비스 제공이 가능하게 된다.

Numerical Reasoning Dataset Augmentation Using Large Language Model and In-Context Learning (대규모 언어 모델 및 인컨텍스트 러닝을 활용한 수치 추론 데이터셋 증강)

  • Yechan Hwang;Jinsu Lim;Young-Jun Lee;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.203-208
    • /
    • 2023
  • 본 논문에서는 대규모 언어 모델의 인컨텍스트 러닝과 프롬프팅을 활용하여 수치 추론 태스크 데이터셋을 효과적으로 증강시킬 수 있는 방법론을 제안한다. 또한 모델로 하여금 수치 추론 데이터의 이해를 도울 수 있는 전처리와 요구사항을 만족하지 못하는 결과물을 필터링 하는 검증 단계를 추가하여 생성되는 데이터의 퀄리티를 보장하고자 하였다. 이렇게 얻어진 증강 절차를 거쳐 증강을 진행한 뒤 추론용 모델 학습을 통해 다른 증강 방법론보다 우리의 방법론으로 증강된 데이터셋으로 학습된 모델이 더 높은 성능을 낼 수 있음을 보였다. 실험 결과 우리의 증강 데이터로 학습된 모델은 원본 데이터로 학습된 모델보다 모든 지표에서 2%p 이상의 성능 향상을 보였으며 다양한 케이스를 통해 우리의 모델이 수치 추론 학습 데이터의 다양성을 크게 향상시킬 수 있음을 확인하였다.

  • PDF

Building of cyanobacteria forecasting model using transformer (Transformer를 이용한 유해남조 발생 예측 모델 구축)

  • Hankyu Lee;Jin Hwi Kim;Seohyun Byeon;Jae-Ki Shin;Yongeun Park
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.515-515
    • /
    • 2023
  • 팔당호는 북한강과 남한강이 합류하여 생성된 호소로 수도인 서울과 수도권인 경기도 동부지역의 물 공급을 담당하는 중요한 상수원이다. 이러한 팔당호에서 유해남조 발생은 상수원수 활용과 직접적으로 연관되어 있어 신속하고 정확한 관리 및 예측이 필요하다. 본 연구에서는 안전한 상수원 활용을 위해, 딥러닝 기법을 이용하여 유해남조 사전 예측 모델을 구축하고자 하였다. 모델 입력 변수는 2012년부터 2021년까지 10년 동안의 주간 팔당호 수질(수온, DO, BOD, COD, Chl-a, TN, TP, pH, 전기전도도, TDN, NH4N, NO3N, TDP, PO4P, 부유물질)과 수문(유입량, 총방류량), 기상 정보(평균기온, 최저기온, 최고기온, 일 강수량, 평균풍속, 평균 상대습도, 합계일조량), 그리고 북한강과 남한강 유입지점의 남조 세포 수를 사용하였다. 모델 출력 변수는 수질, 수문, 기상 요인으로 인한 남조의 성장 발현 시기를 고려하여 1주 후의 댐앞 남조 세포수를 사용하였다. 사용한 딥러닝 기법은 최근 주목받고 있는 Temporal Fusion Transformer (TFT)를 사용하였다. 모델 훈련용 데이터와 테스트용 데이터는 각각 8:2의 비율로 나누었으며, 검증용 데이터는 훈련용 데이터 내에서 훈련 데이터와 검증 데이터를 6:4 비율로 분배하였다. Lookback은 5로 설정하였고, 이는 주단위 데이터로 구성된 데이터세트의 특성을 반영한 것이다. 모델의 성능은 실측값과 예측값을 토대로 R-square와 Root Mean Squared Error (RMSE)를 계산하여 평가하였다. 모델학습은 총 154번 반복 진행되었으며, 이 중 성능이 가장 준수한 시점은 54번째 반복 시점으로 훈련손실 대비 검증손실이 가장 양호한 값을 나타냈다(훈련손실:0.443, 검증손실 0.380). R-square는 훈련단계에서 0.681, 검증단계에서 0.654였고, 테스트 단계에서 0.606으로 산출되었다. RMSE는 훈련단계에서 0.614(㎍/L), 검증단계에서 0.617(㎍/L), 테스트 단계에서 0.773(㎍/L)였다. 모델에 사용한 데이터세트가 주간 데이터라는 특성을 고려하면, 소규모 데이터를 사용하였음에도 본 연구에서 구축한 모델의 성능은 양호하다고 평가할 수 있다. 향후 연구에서 데이터세트를 보강하고 모델을 업데이트한다면, 모델의 성능을 더욱더 개선할 수 있을 것으로 기대된다.

  • PDF

Schema Class Inheritance Model for Research Data Management and Search (연구데이터 관리 및 검색을 위한 스키마 클래스 상속 모델)

  • Kim, Suntae
    • Journal of the Korean Society for information Management
    • /
    • v.31 no.2
    • /
    • pp.41-56
    • /
    • 2014
  • The necessity of the raw data management and reuse is issued by diffusion of the recognition that research data is a national asset. In this paper, a metadata design model by schema class inheritance and a metadata integrated search model by schema objects are suggested for a structural management of the data. A data architecture in which an schema object has an 1 : 1 relation to the data collection was designed. A suggested model was testified by creation of a virtual schema class and objects which inherit the schema class. It showed the possibility of implement systematically. A suggested model can be used to manage the data which are produced by government agencies because schema inheritance and integrated search model present way to overcome the weak points of the 'Top-dow Hierarchy model' which is being used to design the metadata schema.

Data Fusion of Network and System Call Data For Efficient Intrusion Detection (효율적인 침입탐지를 위한 네트워크 정보와 시스템 콜 정보융합 방법개발)

  • 문규원;김은주;류정우;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.208-210
    • /
    • 2004
  • 최근 인터넷, 인트라넷과 같은 통신 기술 발전에 따라 거의 모든 시스템이 서로 연결되었고, 사용자들은 손쉽게 정보를 공유할 수 있게 되었다. 따라서 시스템 침입을 통한 데이터의 변형과 인증 받지 않은 접근과 같은 컴퓨터 범죄가 급속도로 증가하고 있다. 그러므로 이러한 컴퓨터 범죄를 막기 위한 침입 탐지 기술 개발은 매우 중요하다. 전통적인 침입 탐지 모델은 단지 네트워크 패킷 데이터만을 사용하고 있으며. 침입탐지 시스템의 성능을 높이기 위해 서로 다른 분류 알고리즘을 결합하는 방법을 사용해왔다. 그러나 이러한 모델은 일반적으로 성능향상에 있어서 제한적이다. 본 논문에서는 침입탐지 시스템의 성능을 개선하기 위해 네트워크 데이터와 시스템 콜 데이터를 융합하는 방법을 제안하였으며. 데이터 융합 모델로서 Multi-Layer Perceptron (MLP)를 사용하였다. 그리고 DARPA 에서 생성한 네트워크 데이터와 본 논문에서 가상으로 생성한 시스템 콜 데이터를 함께 결합하여 모델을 생성 한 뒤 실험을 수행하였다. 본 논문에서의 실험결과로. 단순히 네트워크 데이터만을 사용한 모델에 비해 시스템 콜 데이터를 함께 결합한 모델이 훨씬 더 놓은 인식률을 보인다는 것을 확인할 수 있다

  • PDF

KMSS: Korean Media Script Dataset for Dialogue Summarization (대화 요약 생성을 위한 한국어 방송 대본 데이터셋 )

  • Bong-Su Kim;Hye-Jin Jun;Hyun-Kyu Jeon;Hye-in Jung;Jung-Hoon Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF

The Development of Property Prediction Model in Consideration of Biodegradable Fiber Spinning Process Data Characteristics (생분해성 섬유 방사 공정 데이터 특성을 고려한 물성 예측 모델 개발)

  • Park, SeChan;Kim, Deok Yeop;Seo, Kang Bok;Lee, Woo Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.362-365
    • /
    • 2022
  • 최근 노동 집약적인 성격의 섬유 산업에서는 AI를 통해 공정에 들어가는 시간과 비용을 줄이고 품질을 최적화 하려는 시도를 하고 있다. 그러나 섬유 방사 공정은 데이터 수집에 필요한 비용이 크고 체계적인 데이터 처리 시스템이 부족하여 축적된 데이터양이 적다. 또 방사 목적에 따라 특정 변수 위주의 조합에 대한 데이터만을 우선적으로 수집하여 데이터 불균형이 발생하며, 물성 측정환경 차이로 인해 동일 방사조건에서 수집된 샘플 간에도 오차가 존재한다. 이러한 데이터 특성들을 고려하지 않고 AI 모델에 활용할 경우 과적합과 성능 저하 등의 문제가 발생할 수 있다. 따라서 본 논문에서는 물성 단위 및 허용오차를 고려한 이상치 처리 기법과 데이터 불균형 정도 및 물성과의 상관성을 고려한 오버샘플링 기법을 물성 예측 모델에 적용한다. 두 기법들을 모델에 적용한 결과 그렇지 않은 모델에 비해 물성 예측 오차와 방사 공정 데이터에 대한 모델의 적합도가 개선됨을 보인다.