• 제목/요약/키워드: 머신 데이터

검색결과 1,180건 처리시간 0.028초

다중선형회귀경험식과 머신러닝모델의 2차원 횡 분산계수 예측성능 평가 (Performance Evaluation of Multilinear Regression Empirical Formula and Machine Learning Model for Prediction of Two-dimensional Transverse Dispersion Coefficient)

  • 이선미;박인환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.172-172
    • /
    • 2022
  • 분산계수는 하천에서 오염물질의 혼합능을 파악할 수 있는 대표적인 인자이다. 특히 하수처리장 방류수 혼합예측과 같이 횡 방향 혼합에 대한 예측이 중요한 경우, 하천의 지형적, 수리학적 특성을 고려한 2차원 횡 분산계수의 결정이 필요하다. 2차원 횡 분산계수의 결정을 위해 기존 연구에서는 추적자실험결과로부터 경험식을 만들어 횡 분산계수 산정에 사용해왔다. 회귀분석을 통한 경험식 산정을 위해서는 충분한 데이터가 필요하지만, 2차원 추적자 실험 건수가 충분치 않아 신뢰성 높은 경험식 산정이 어려운 상황이다. 따라서 본 연구에서는 SMOTE기법을 이용하여 횡분산계수 실험데이터를 증폭시켜 이로부터 횡 분산계수 경험식을 산정하고자 한다. 또한 다중선형회귀분석을 통해 도출된 경험식의 한계를 보완하기 위해 다양한 머신러닝 기법을 적용하고, 횡 분산계수 산정에 적합한 머신러닝 기법을 제안하고자 한다. 기존 추적자실험 데이터로부터 하폭 대 수심비, 유속 대 마찰유속비, 횡 분산계수 데이터 셋을 수집하였으며, SMOTE 알고리즘의 적용을 통해 회귀분석과 머신러닝 기법 적용에 필요한 데이터그룹을 생성했다. 새롭게 생성된 데이터 셋을 포함하여 다중선형회귀분석을 통해 횡 분산계수 경험식을 결정하였으며, 새로 제안한 경험식과 기존 경험식에 대한 정확도를 비교했다. 또한 다중선형회귀분석을 통해 결정된 경험식은 횡 분산계수 예측범위에 한계를 보였기 때문에 머신러닝기법을 적용하여 다중선형회귀분석에 대한 예측성능을 평가했다. 이를 위해 머신러닝 기법으로서 서포트 벡터 머신 회귀(SVR), K근접이웃 회귀(KNN-R), 랜덤 포레스트 회귀(RFR)를 활용했다. 세 가지 머신러닝 기법을 통해 도출된 횡 분산계수와 경험식으로부터 결정된 횡 분산계수를 비교하여 예측 성능을 비교했다. 이를 통해 제한된 실험데이터 셋으로부터 2차원 횡 분산계수 산정을 위한 데이터 전처리 기법 및 횡 분산계수 산정에 적합한 머신러닝 절차와 최적 학습기법을 도출했다.

  • PDF

머신러닝 기반 보안데이터 분석 연구

  • 이식;김동훈;조영훈;명준우;문다민;이재구;윤명근
    • 정보보호학회지
    • /
    • 제29권3호
    • /
    • pp.6-13
    • /
    • 2019
  • 최근 머신러닝 기술이 비약적으로 발전하고 있다. 하드웨어 성능이 향상되고 머신러닝 활용 도구가 오픈소스로 사용 편리하게 개발되어 대중화됨으로써 보안데이터 분석 분야에서도 머신러닝을 이용한 기술 개발이 활발히 진행되고 있다. 본 논문에서는 보안 분야의 악성코드 데이터와 보안관제 로그 데이터를 주요 대상으로 머신러닝 기술을 적용할 때 고려되어야 할 기술적 사항들과 최신 연구 동향, 데이터 셋 특징, 그리고 머신러닝 기반의 보안데이터 분석 기술의 기대 효과 및 현재 기술의 한계점 등을 다루도록 한다.

머신러닝을 위한 불균형 데이터 처리 방법 : 샘플링을 위주로 (Handling Method of Imbalance Data for Machine Learning : Focused on Sampling)

  • 이규남;임종태;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제19권11호
    • /
    • pp.567-577
    • /
    • 2019
  • 최근 학계, 산업계 등에서 접하는 기존의 문제를 머신러닝을 통해 해결하려는 시도가 증가하고 있다. 이에 따라 이탈, 사기탐지, 장애탐지 등 일반적이지 않은 상황을 머신러닝으로 해결하기 위한 다양한 연구가 이어지고 있다. 대부분의 일반적이지 않은 환경에서는 데이터가 불균형하게 분포하며, 이러한 불균형한 데이터는 머신러닝의 수행과정에서 오류를 야기하므로 이를 해결하기 위한 불균형 데이터 처리 기법이 필요하다. 본 논문에서는 머신러닝을 위한 불균형 데이터 처리 방법을 제안한다. 제안하는 방법은 샘플링 방법을 중심으로 다수 클래스(Major Class)의 모집단 분포를 효율적으로 추출하도록 검증하여 머신 러닝을 위한 불균형 데이터 문제를 해결한다. 본 논문에서는 성능평가를 통해 제안하는 기법이 기존 기법에 비해 성능이 우수함을 보인다.

Apache Spark와 OpenCV를 활용한 분산 클러스터 컴퓨팅 환경 대용량 이미지 머신러닝 시스템 (Image Machine Learning System using Apache Spark and OpenCV on Distributed Cluster)

  • 김하윤;김원집;이협건;김영운
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.33-34
    • /
    • 2023
  • 성장하는 빅 데이터 시장과 빅 데이터 수의 기하급수적인 증가는 기존 컴퓨팅 환경에서 데이터 처리의 어려움을 야기한다. 특히 이미지 데이터 처리 속도는 데이터양이 많을수록 현저하게 느려진다. 이에 본 논문에서는 Apache Spark와 OpenCV를 활용한 분산 클러스터 컴퓨팅 환경의 대용량 이미지 머신러닝 시스템을 제안한다. 제안하는 시스템은 Apache Spark를 통해 분산 클러스터를 구성하며, OpenCV의 이미지 처리 알고리즘과 Spark MLlib의 머신러닝 알고리즘을 활용하여 작업을 수행한다. 제안하는 시스템을 통해 본 논문은 대용량 이미지 데이터 처리 및 머신러닝 작업 속도 향상 방법을 제시한다.

머신러닝 기법을 활용한 공장 에너지 사용량 데이터 분석 (Machine Learning Approach for Pattern Analysis of Energy Consumption in Factory)

  • 성종훈;조영식
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권4호
    • /
    • pp.87-92
    • /
    • 2019
  • 본 연구에서는 머신 러닝 기법을 활용하여 공장에서 발생하는 에너지 사용량에 대한 데이터 분석 및 패턴 추출에 대해 다룬다. 통계학이나 기존의 방법들은 몇 가지 물리적 특성을 반영하는 수학적 모델을 구축하는 반면, 머신 러닝을 통한 접근방법은 데이터 학습을 통하여 모델의 계수들을 결정하게 된다. 기존의 방법들은 특정한 구조를 갖는 수학적 모델을 구축해야 한다는 어려움이 있으며 과연 데이터의 특징들을 잘 반영하는지에 대한 의문이 존재했다. 그러나 머신 러닝을 통한 방법은 사람이 구축하기 어려운 작업들을 용이하게 구축한다는 장점을 가지고 있기 때문에 데이터 간의 관계를 파악하기에 더 효율적이라는 장점을 가지고 있다. 공장의 에너지 소비에 직접적으로 영향을 끼치는 요소들이 존재하며 이러한 전력 소비는 시간에 따른 데이터로 나타나게 된다. 각 요소들로부터 발생하는 소비 전력을 계측하고 데이터 베이스를 구축하기 위해 각 요소에 센서를 장착하였다. 취득된 데이터에 대해 전처리 과정 및 통계적인 분석을 거친 뒤, 머신 러닝을 통해 패턴을 분석하는 과정을 거쳤다. 이를 통해 공장에서 발생하는 소비 전력 데이터에 대한 패턴 분석을 진행하였다.

머신러닝 기법을 통한 토석류 흐름 구현 알고리즘 (The Algorithm For The Flow Of Debris Through Machine Learning)

  • 문주환;윤홍식
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2017년 정기학술대회
    • /
    • pp.366-368
    • /
    • 2017
  • 본 연구는 국내 산사태 발생 데이터를 기반으로 시뮬레이션 모델을 머신러닝 기법을 통해 학습시켜 산사태의 토석류 흐름을 구현하는 알고리즘에 대한 연구이다. 전통적인 프로그래밍을 통한 산사태 시뮬레이션 모델 개발을 해당 시스템에 더 많은 고도의 물리학 법칙을 통합 적용시켜 토석류의 흐름을 공학적으로 재현해내는데 중점을 두고 개발이 진행되지만, 본 연구에서 다루는 머신러닝 기법을 통한 산사태 시뮬레이션 모델 개발의 경우 시스템에 입력되는 데이터를 기반으로한 학습을 통하여 토석류 흐름에 영향을 미치는 변수와 파라메터를 산출하고 정의는데 중점을 두고 개발이 진행된다. 본 연구에서 산사태 시뮬레이션 모델 개발에 활용하는 머신러닝 알고리즘은 강화학습 알고리즘으로 기존 산사태 발생 지점을 기반으로 에이전트를 설정해 시간에 따라 시뮬레이션의 각 스텝에서 토석류의 흐름 즉 액션을 환경에 따른 가중치를 기준으로 산정하게 된다. 여기서 환경에 따른 가중치는 시뮬레이션 모델에 정의된 메서드에 따라 산정된다. 시간이 목표값에 도달하여 결과가 출력되면 출력된 결과와 해당 산사태 발생 지점의 실제 산사태 피해 지역 데이터 즉 시뮬레이션 결과 이상치와의 비교를 통하여 시뮬레이션을 평가하게 된다. 이러한 평가는 시뮬레이션 데이터와 실제 데이터간의 유사도 비교를 통해 손실률을 도출하게 되고 이러한 손실률을 경사하강법등의 최적화 알고리즘을 통해 최소화 하여 입력된 데이터를 기반으로한 최적의 토석류 흐름 구현 알고리즘을 도출한다.

  • PDF

머신러닝 알고리즘을 이용한 결측 강우 데이터 추정에 관한 연구 (Imputation of missing precipitation data using machine learning algorithms)

  • 한희찬
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.320-320
    • /
    • 2023
  • 강우 데이터는 수문기상, 환경, 농업, 자연재해, 그리고 수자원 시스템 분야에서 가장 필수적인 기본 요소 중 하나이다. 또한 강우 데이터는 수문학적 분석에서 활용되는 필수 입력 자료 중 하나로 관측 데이터의 품질에 따라 수문 모형을 이용한 모의 결과물의 정확도가 결정된다고 할 수 있다. 따라서, 강우 관측소별로 강우 데이터의 품질을 어떻게 관리하느냐에 따라 수문 모형의 활용 범위 및 수자원 관리의 효율성이 결정될 수 있다. 강우의 시공간적 변동성은 수 많은 인자들과 직간접적으로 연계되어 있기 때문에 미계측 강우 자료에 대해 직접 관측이 아닌 수치 모형을 이용하여 강우의 발생과 강우량을 산정하는 것은 매우 복잡한 과제 중 하나이다. 현재 국내에서 운용되고 있는 강우 관측소의 경우에도 미계측 된 강우 데이터가 존재함으로써 강우 데이터의 활용에 제한이 생기는 경우가 있다. 따라서, 이러한 미계측 데이터의 추정 및 보완은 보다 효과적인 수재해 방지, 수자원 관리를 위한 필수 과제 중 하나이다. 일반적으로, 미계측 강우를 산정하기 위해서 Kriging, Thiessen, 등우선법, 그리고 역거리 관측법 등 다양한 수문학적 방법들이 적용되고 있다. 이러한 방법들은 산악효과나 강우 관측소의 분포 상태 등을 고려하지 못하기 때문에 측정하는 지역에 따라 강우 추정 오차가 커질 수 있다는 한계가 있다. 최근에는 데이터 관측 시스템과 빅데이터 기술의 발전과 활용 가능한 데이터의 양이 증가함에 따라 머신러닝을 활용한 사례가 증가하고 있다. 머신러닝은 데이터 사이의 관계를 기반으로 분류, 회귀, 그리고 예측 문제에 주로 사용되는 기법 중 하나이다. 따라서, 본 연구에서는 광주광역시 지역에 위치한 주요 강우 관측 지점들을 대상으로 미계측 된 시강우 데이터를 추정 및 복원하고자 한다. 여기서 데이터 추정 기술이란 미계측 강우의 발생 유무 및 강우량을 추정할 수 있는 기술을 의미한다. 이를 위해 대표적인 머신러닝 알고리즘인 인공신경망(Artificial Neural Network) 및 랜덤포레스트(Random Forest)를 적용하였다.

  • PDF

머신러닝 기법을 이용한 유량 자료 생산 방법 (Estimation of River Flow Data Using Machine Learning)

  • 강노을;이지훈;이정훈;이충대
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.261-261
    • /
    • 2020
  • 물관리의 기본이 되는 연속적인 유량 자료 확보를 위해서는 정확도 높은 수위-유량 관계 곡선식 개발이 필수적이다. 수위-유량 관계곡선식은 모든 수문시설 설계의 기초가 되며 홍수, 가뭄 등 물재해 대응을 위해서도 중요한 의미를 가지고 있다. 그러나 일반적으로 유량 측정은 많은 비용과 시간이 들고, 식생성장, 단면변화 등의 통제특성(control)이 변함에 따라 구간분리, 기간분리와 같은 비선형적인 양상이 나타나 자료 해석에 어려움이 존재한다. 특히, 국내 하천의 경우 자연적 및 인위적인 환경 변화가 다양하여 지점 및 기간에 따라 세밀한 분석이 요구된다. 머신러닝(Machine Learning)이란 데이터를 통해 컴퓨터가 스스로 학습하여 모델을 구축하고 성능을 향상시키는 일련의 과정을 뜻한다. 기존의 수위-유량 관계곡선식은 개발자의 판단에 의해 데이터의 종류와 기간 등을 설정하여 회귀식의 파라미터를 산출한다면, 머신러닝은 유효한 전체 데이터를 이용해 스스로 학습하여 자료 간 상관성을 찾아내 모델을 구축하고 성능을 지속적으로 향상 시킬 수 있다. 머신러닝은 충분한 수문자료가 확보되었다는 전제 하에 복잡하고 가변적인 수자원 환경을 반영하여 유량 추정의 정확도를 지속적으로 향상시킬 수 있다는 이점을 가지고 있다. 본 연구는 머신러닝의 대표적인 알고리즘들을 활용하여 유량을 추정하는 모델을 구축하고 성능을 비교·분석하였다. 대상지역은 안정적인 수량을 확보하고 있는 한강수계의 거운교 지점이며, 사용자료는 2010~2018년의 시간, 수위, 유량, 수면폭 등 이다. 프로그램은 파이썬을 기반으로 한 머신러닝 라이브러리인 사이킷런(sklearn)을 사용하였고 알고리즘은 랜덤포레스트 회귀, 의사결정트리, KNN(K-Nearest Neighbor), rgboost을 적용하였다. 학습(train) 데이터는 입력자료 종류별로 조합하여 6개의 세트로 구분하여 모델을 구축하였고, 이를 적용해 검증(test) 데이터를 RMSE(Roog Mean Square Error)로 평가하였다. 그 결과 모델 및 입력 자료의 조합에 따라 3.67~171.46로 다소 넓은 범위의 값이 도출되었다. 그 중 가장 우수한 유형은 수위, 연도, 수면폭 3개의 입력자료를 조합하여 랜덤포레스트 회귀 모델에 적용한 경우이다. 비교를 위해 동일한 검증 데이터를 한국수문조사연보(2018년) 내거운교 지점의 수위별 수위-유량 곡선식을 이용해 유량을 추정한 결과 RMSE가 3.76이 산출되어, 머신러닝이 세분화된 수위-유량 곡선식과 비슷한 수준까지 성능을 내는 것으로 확인되었다. 본 연구는 양질의 유량자료 생산을 위해 기 구축된 수문자료를 기반으로 머신러닝 기법의 적용 가능성을 검토한 기초 연구로써, 국내 효율적인 수문자료 측정 및 수위-유량 곡선 산출에 도움이 될 수 있을 것으로 판단된다. 향후 수자원 환경 및 통제특성에 영향을 미치는 다양한 영향변수를 파악하기 위해 기상자료, 취수량 등의 입력 자료를 적용할 필요가 있으며, 머신러닝 내 비지도학습인 딥러닝과 같은 보다 정교한 모델에 대한 추가적인 연구도 수행되어야 할 것이다.

  • PDF

머신러닝 기반 메모리 성능 개선 연구 (Study on Memory Performance Improvement based on Machine Learning)

  • 조두산
    • 문화기술의 융합
    • /
    • 제7권1호
    • /
    • pp.615-619
    • /
    • 2021
  • 이 연구는 사물인터넷, 클라우드 컴퓨팅 그리고 에지 컴퓨팅 등 많은 임베디드 시스템에서 성능 및 에너지 효율을 높이고자 최적화하는 메모리 시스템에 초점을 맞추어 그 성능 개선 기법을 제안한다. 제안하는 기법은 최근 많이 이용되고 있는 머신 러닝 알고리즘을 기반으로 메모리 시스템 성능을 도모한다. 머신 러닝 기법은 학습을 통하여 다양한 응용에 사용될 수 있는데, 메모리 시스템 성능 개선에서 사용되는 데이터의 분류 태스크에 적용될 수 있다. 정확도 높은 머신 러닝 기법 기반 데이터 분류는 데이터의 사용 패턴에 따라 데이터를 적절하게 배치할 수 있게 하여 전체 시스템 성능 개선을 도모할 수 있게 한다.

분산메모리 머신에서의 병렬 윤곽선 랭킹 (Parallel Contour Ranking in a Distributed-Memory Machine)

  • 정용화;박진원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (3)
    • /
    • pp.741-743
    • /
    • 1998
  • 본 논문에서는 분산메모리 머신에서 병렬 이미지 윤곽선 랭킹 문제를 해결하는 새로운 알고리즘을 제안한다. 윤곽선 랭킹 문제는 주어진 이미지의 에지 윤곽선으로부터 에지 윤곽선의 선형적 표현 방식을 생성시키는 것으로, 에지점간의 순차적인 데이터 종속관계를 갖는 이 문제를 분산메모리 머신에서 수행하려면 입력 이미지에 의한 데이터의 불균형 분포와 불규칙적인 프로세서간 데이터 종속 문제를 해결해야 한다. 본 논문에서는 이 두 가지 문제를 동시에 해결할 수 있는 병렬 알고리즘을 제안하고, 제안된 알고리즘을 IBM SP2에 구현하였으며, 그 결과 윤곽선 랭킹 문제가 효과적으로 해결되었음을 확인하였다.

  • PDF