• Title/Summary/Keyword: 데이터기반모형

Search Result 1,067, Processing Time 0.045 seconds

A Study on Design of Data Literacy Model Based on Digital Humanities (인문학 기반 데이터 리터러시 모형 설계에 관한 연구)

  • Han, Sang Woo
    • Journal of the Korean Society for information Management
    • /
    • v.37 no.1
    • /
    • pp.179-195
    • /
    • 2020
  • As data becomes more important, data literacy has recently emerged as an significant term. The purpose of this study is to design data literacy model based on digital humanities. To attain this end, data literacy model was designed by combining the main contents derived from the digital humanities education program with specific capabilities extracted from research related to data literacy. By applying the data literacy model, which is the result of this study, it will be applicable to the data literacy courses in universities, and I would like to propose a follow-up study to evaluate the effectiveness of data literacy in the future.

Comparison of Regression Model Approaches fined to Complex Survey Data (복합표본조사 데이터 분석을 위한 회귀모형 접근법의 비교: 소규모사업체조사 데이터 분석을 중심으로)

  • 이기재
    • Survey Research
    • /
    • v.2 no.1
    • /
    • pp.73-86
    • /
    • 2001
  • In this paper. we conducted an empirical study to investigate the design and weighting effects on descriptive and analytic statistics. We compared the regression models using the design-based approach and the generalized estimating equations (GEEs) approach with the model-based approach through the design and weighting effects analysis.

  • PDF

Analyzing the internal parameters of a deep learning-based distributed hydrologic model to discern similarities and differences with a physics-based model (딥러닝 기반 격자형 수문모형의 내부 파라메터 분석을 통한 물리기반 모형과의 유사점 및 차별성 판독하기)

  • Dongkyun Kim
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.92-92
    • /
    • 2023
  • 본 연구에서는 대한민국 도시 유역에 대하여 딥러닝 네트워크 기반의 분산형 수문 모형을 개발하였다. 개발된 모형은 완전연결계층(Fully Connected Layer)으로 연결된 여러 개의 장단기 메모리(LSTM-Long Short-Term Memory) 은닉 유닛(Hidden Unit)으로 구성되었다. 개발된 모형을 사용하여 연구 지역인 중랑천 유역을 분석하기 위해 1km2 해상도의 239개 모델 격자 셀에서 10분 단위 레이더-지상 합성 강수량과 10분 단위 기온의 시계열을 입력으로 사용하여 10분 단위 하도 유량을 모의하였다. 모형은 보정과(2013~2016년)과 검증 기간(2017~2019년)에 대한 NSE 계수는각각 0.99와 0.67로 높은 정확도를 보였다. 본 연구는 모형을 추가적으로 심층 분석하여 다음과 같은 결론을 도출하였다: (1) 모형을 기반으로 생성된 유출-강수 비율 지도는 토지 피복 데이터에서 얻은 연구 지역의 불투수율 지도와 유사하며, 이는 모형이 수문학에 대한 선험적 정보에 의존하지 않고 입력 및 출력 데이터만으로 강우-유출 분할과정을 성공적으로 학습하였음을 의미한다. (2) 모형은 연속 수문 모형의 필수 전제 조건인 토양 수분 의존 유출 프로세스를 성공적으로 재현하였다; (3) 각 LSTM 은닉 유닛은 강수 자극에 대한 시간적 민감도가 다르며, 응답이 빠른 LSTM 은닉 유닛은 유역 출구 근처에서 더 큰 출력 가중치 계수를 가졌는데, 이는 모형이 강수 입력에 대한 직접 유출과 지하수가 주도하는 기저 흐름과 같이 응답 시간의 차이가 뚜렷한 수문순환의 구성 요소를 별도로 고려하는 메커니즘을 가지고 있음을 의미한다.

  • PDF

A Study on the Naming Rules of Metadata based on Ontology (온톨로지 기반 메타데이터 명명 규칙에 관한 연구)

  • Ko, Young-Man;Seo, Tae-Sul
    • Journal of the Korean Society for information Management
    • /
    • v.22 no.4 s.58
    • /
    • pp.97-109
    • /
    • 2005
  • To build the consistency among different metadata systems and to increase the interoperability of that systems even among different domains, naming rules and glossaries for the data elements are necessary. This study provides discussion of naming and identification of the data element concept, data element, conceptual domain, value domain, and its meta model. This study also describes example naming conventions based on ontology derived from the combination with object, properties, and representation of data elements. The naming principles and rules described in this study use I-R analysis, DC metadata set, and SHOE 1.0 as an example of the scientific documents. This study would be a guideline to build the naming rules of metadata based on ontology in various domains.

Performance Evaluation between Models for Smoker Classification Based on Health Examination Data (건강검진 데이터 기반 흡연자 분류를 위한 모형별 성능 분석)

  • Yun, Jisun;Yu, Heonchang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.648-651
    • /
    • 2018
  • 흡연여부를 감별하는 지표가 있지만 반감기 등 여러 가지 요인에 따라 결과가 변한다는 단점이 있다. 그렇기 때문에 흡연여부 감별 시 외부요인에 영향을 덜 받는 지표가 필요하게 되었다. 그래서 흡연 여부 감별하는데 적합한 모형을 찾아 외부요인에 영향이 적은 지표를 개발에 도움이 될 것을 기대하며 연구를 진행하였다. 실험은 국민건강보험공단에서 제공한 건강검진정보데이터를 기반으로, SVM, Logistic Regression, KNN 등의 머신러닝 모델을 이용하여 흡연 여부를 감별하는 것을 진행한다. 이 실험은 속성에 따른 모형의 성능변화와 학습데이터 수에 따른 모형의 성능변화에 대한 2가지 측면에서 모델의 성능을 측정하였다. 모델의 평가는 정확도(accuracy), 정밀도(precision), 재현율(recall), 조화 평균(f1-score)으로 진행하였으며, 약 70퍼센트 정도의 정확도와, 60퍼센트 대의 재현율을 보인다. 실험 결과, SVM이 속성에 따른 모형의 성능 변화 실험에서는 63%의 재현율, 학습데이터 수에 따른 성능 변화 실험에서는 68%의 재현율을 보여, 흡연자 판별에 가장 좋은 성능을 보였다. 또한 재현율을 기준으로 실험 차수별로 가장 좋은 성능을 보인 모델과 가장 저조한 성능을 보인 모델의 차이를 비교한 결과, '속성에 따른 모형의 성능 변화 실험'에서는 최고 36%의 차이를 보였으며, '학습데이터 수에 따른 성능 변화 실험'에서 최고 42%의 차이를 보여 주었다. 이에 판별을 위한 속성도 중요하지만, 적합한 모형 선택 또한 중요하다는 것을 확인하였다.

A Delta- and Attention-based Long Short-Term Memory (LSTM) Architecture model for Rainfall-runoff Modeling

  • Ahn, Kuk-Hyun;Yoon, Sunghyun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.35-35
    • /
    • 2022
  • 최근에 딥 러닝(Deep learning) 기반의 많은 방법들이 수문학적 모형 및 예측에서 의미있는 결과를 보여주고 있지만 더 많은 연구가 요구되고 있다. 본 연구에서는 수자원의 가장 대표적인 모델링 구조인 강우유출의 관계의 규명에 대한 모형을 Long Short-Term Memory (LSTM) 기반의 변형 된 방법으로 제시하고자 한다. 구체적으로 본 연구에서는 반응변수인 유출량에 대한 직접적인 고려가 아니라 그의 1차 도함수 (First derivative)로 정의되는 Delta기반으로 모형을 구축하였다. 또한, Attention 메카니즘 기반의 모형을 사용함으로써 강우유출의 관계의 규명에 있어 정확성을 향상시키고자 하였다. 마지막으로 확률 기반의 예측를 생성하고 이에 대한 불확실성의 고려를 위하여 Denisty 기반의 모형을 포함시켰고 이를 통하여 Epistemic uncertainty와 Aleatory uncertainty에 대한 상대적 정량화를 수행하였다. 본 연구에서 제시되는 모형의 효용성 및 적용성을 평가하기 위하여 미국 전역에 위치하는 총 507개의 유역의 일별 데이터를 기반으로 모형을 평가하였다. 결과적으로 본 연구에서 제시한 모형이 기존의 대표적인 딥 러닝 기반의 모형인 LSTM 모형과 비교하였을 때 높은 정확성뿐만 아니라 불확실성의 표현과 정량화에 대한 유용한 것으로 확인되었다.

  • PDF

A Machine Learning-Based Vocational Training Dropout Prediction Model Considering Structured and Unstructured Data (정형 데이터와 비정형 데이터를 동시에 고려하는 기계학습 기반의 직업훈련 중도탈락 예측 모형)

  • Ha, Manseok;Ahn, Hyunchul
    • The Journal of the Korea Contents Association
    • /
    • v.19 no.1
    • /
    • pp.1-15
    • /
    • 2019
  • One of the biggest difficulties in the vocational training field is the dropout problem. A large number of students drop out during the training process, which hampers the waste of the state budget and the improvement of the youth employment rate. Previous studies have mainly analyzed the cause of dropouts. The purpose of this study is to propose a machine learning based model that predicts dropout in advance by using various information of learners. In particular, this study aimed to improve the accuracy of the prediction model by taking into consideration not only structured data but also unstructured data. Analysis of unstructured data was performed using Word2vec and Convolutional Neural Network(CNN), which are the most popular text analysis technologies. We could find that application of the proposed model to the actual data of a domestic vocational training institute improved the prediction accuracy by up to 20%. In addition, the support vector machine-based prediction model using both structured and unstructured data showed high prediction accuracy of the latter half of 90%.

A Hybrid Approach for Rainfall-Runoff Prediction in Yongdam Dam Basin in Korea (용담댐 유역의 강우-유출 예측을 위한 하이브리드 접근법)

  • Yeoung Rok Oh;Kyung Soo Jun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.70-70
    • /
    • 2023
  • 강우 발생 중 용담댐 상류로부터 용담댐으로 유입되는 유입량을 정확하게 예측하는 것은 하류 지역의 홍수 피해를 최소화하기 위한 댐의 적절한 운영에 필수적이다. 물리 기반 강우-유출 시뮬레이션 모형은 물리적 과정의 이해를 바탕으로 홍수 예측 분야에 광범위하게 사용되고 있다. 그러나 복잡한 물리 과정을 완벽히 이해하는 것은 거의 불가능하므로 다양한 가정 조건들을 이용해 복잡한 과정을 단순화하여 계산해야 하는 한계가 존재한다. 최근에는 방대한 데이터의 축적과 컴퓨터 능력의 향상으로 인해 데이터 기반 모형이 다양한 실무 문제를 해결하는 데 강력한 도구로 활용되고 있을 뿐 아니라 시뮬레이션 및 예측 등에도 다양하게 이용되고 있다. 그러나 예측 시간이 늘어날수록 입력자료로 이용되는 과거 자료와 출력자료로 이용되는 미래자료와의 상관관계가 줄어들어 모형의 성능이 저하된다. 따라서 본 연구에서는 용담댐의 시간당 유입량을 예측하기 위해 물리 기반 강우-유출 모형과 오차 보정 모형을 결합한 하이브리드 접근 방식을 제안한다. 물리 기반 강우-유출 모형으로는 HEC-HMS 모형을 사용하였으며, 오차 보정 모형에는 기계학습 모형인 인공신경망(Artificial Neural Network, ANN) 모형을 사용하였다. HEC-HMS 모형, ANN 및 하이브리드 모형(HEC-HMS + ANN)의 성능을 비교하기 위해 20 개의 홍수 사상을 모형 구축 및 검증에 사용하였다. 그 결과 하이브리드 모형은 예측 시간이 늘어날수록 HEC-HMS 및 ANN 모형보다 우수한 성능을 나타냈다. 물리모형에 기계학습을 이용한 오차 보정 절차를 통합한 경우 홍수 유출 예측의 정확성이 향상되었다. 다양한 모형의 비교 결과 본 연구에서 적용한 하이브리드 모형이 물리기반 강우-유출 모형 및 순수 기계학습 모형보다 우수한 성능을 보여줌으로써, 하이브리드 모형은 물리모형과 순수 기계학습 모형의 단점들을 보완하는데 이용할 수 있음을 나타낸다. 이 연구의 주요 목적은 강우-유출 시물레이션 모형의 오차 보정 기술에 대한 더 깊은 이해를 제공하는데 있다.

  • PDF

Comparative study of data augmentation methods for fake audio detection (음성위조 탐지에 있어서 데이터 증강 기법의 성능에 관한 비교 연구)

  • KwanYeol Park;Il-Youp Kwak
    • The Korean Journal of Applied Statistics
    • /
    • v.36 no.2
    • /
    • pp.101-114
    • /
    • 2023
  • The data augmentation technique is effectively used to solve the problem of overfitting the model by allowing the training dataset to be viewed from various perspectives. In addition to image augmentation techniques such as rotation, cropping, horizontal flip, and vertical flip, occlusion-based data augmentation methods such as Cutmix and Cutout have been proposed. For models based on speech data, it is possible to use an occlusion-based data-based augmentation technique after converting a 1D speech signal into a 2D spectrogram. In particular, SpecAugment is an occlusion-based augmentation technique for speech spectrograms. In this study, we intend to compare and study data augmentation techniques that can be used in the problem of false-voice detection. Using data from the ASVspoof2017 and ASVspoof2019 competitions held to detect fake audio, a dataset applied with Cutout, Cutmix, and SpecAugment, an occlusion-based data augmentation method, was trained through an LCNN model. All three augmentation techniques, Cutout, Cutmix, and SpecAugment, generally improved the performance of the model. In ASVspoof2017, Cutmix, in ASVspoof2019 LA, Mixup, and in ASVspoof2019 PA, SpecAugment showed the best performance. In addition, increasing the number of masks for SpecAugment helps to improve performance. In conclusion, it is understood that the appropriate augmentation technique differs depending on the situation and data.

A Study on the Application of Spatial Big Data from Social Networking Service for the Operation of Activity-Based Traffic Model (활동기반 교통모형 분석자료 구축을 위한 소셜네트워크 공간빅데이터 활용방안 연구)

  • Kim, Seung-Hyun;Kim, Joo-Young;Lee, Seung-Jae
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.15 no.4
    • /
    • pp.44-53
    • /
    • 2016
  • The era of Big Data has come and the importance of Big Data has been rapidly growing. The part of transportation, the Four-Step Travel Demand Model(FSTDM), a traditional Trip-Based Model(TBM) reaches its limit. In recent years, a traffic demand forecasting method using the Activity-Based Model(ABM) emerged as a new paradigm. Given that transportation means the spatial movement of people and goods in a certain period of time, transportation could be very closely associated with spatial data. So, I mined Spatial Big Data from SNS. After that, I analyzed the character of these data from SNS and test the reliability of the data through compared with the attributes of TBM. Finally, I built a database from SNS for the operation of ABM and manipulate an ABM simulator, then I consider the result. Through this research, I was successfully able to create a spatial database from SNS and I found possibilities to overcome technical limitations on using Spatial Big Data in the transportation planning process. Moreover, it was an opportunity to seek ways of further research development.