• 제목/요약/키워드: 분산 데이터 분석

검색결과 1,176건 처리시간 0.032초

다중선형회귀경험식과 머신러닝모델의 2차원 횡 분산계수 예측성능 평가 (Performance Evaluation of Multilinear Regression Empirical Formula and Machine Learning Model for Prediction of Two-dimensional Transverse Dispersion Coefficient)

  • 이선미;박인환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.172-172
    • /
    • 2022
  • 분산계수는 하천에서 오염물질의 혼합능을 파악할 수 있는 대표적인 인자이다. 특히 하수처리장 방류수 혼합예측과 같이 횡 방향 혼합에 대한 예측이 중요한 경우, 하천의 지형적, 수리학적 특성을 고려한 2차원 횡 분산계수의 결정이 필요하다. 2차원 횡 분산계수의 결정을 위해 기존 연구에서는 추적자실험결과로부터 경험식을 만들어 횡 분산계수 산정에 사용해왔다. 회귀분석을 통한 경험식 산정을 위해서는 충분한 데이터가 필요하지만, 2차원 추적자 실험 건수가 충분치 않아 신뢰성 높은 경험식 산정이 어려운 상황이다. 따라서 본 연구에서는 SMOTE기법을 이용하여 횡분산계수 실험데이터를 증폭시켜 이로부터 횡 분산계수 경험식을 산정하고자 한다. 또한 다중선형회귀분석을 통해 도출된 경험식의 한계를 보완하기 위해 다양한 머신러닝 기법을 적용하고, 횡 분산계수 산정에 적합한 머신러닝 기법을 제안하고자 한다. 기존 추적자실험 데이터로부터 하폭 대 수심비, 유속 대 마찰유속비, 횡 분산계수 데이터 셋을 수집하였으며, SMOTE 알고리즘의 적용을 통해 회귀분석과 머신러닝 기법 적용에 필요한 데이터그룹을 생성했다. 새롭게 생성된 데이터 셋을 포함하여 다중선형회귀분석을 통해 횡 분산계수 경험식을 결정하였으며, 새로 제안한 경험식과 기존 경험식에 대한 정확도를 비교했다. 또한 다중선형회귀분석을 통해 결정된 경험식은 횡 분산계수 예측범위에 한계를 보였기 때문에 머신러닝기법을 적용하여 다중선형회귀분석에 대한 예측성능을 평가했다. 이를 위해 머신러닝 기법으로서 서포트 벡터 머신 회귀(SVR), K근접이웃 회귀(KNN-R), 랜덤 포레스트 회귀(RFR)를 활용했다. 세 가지 머신러닝 기법을 통해 도출된 횡 분산계수와 경험식으로부터 결정된 횡 분산계수를 비교하여 예측 성능을 비교했다. 이를 통해 제한된 실험데이터 셋으로부터 2차원 횡 분산계수 산정을 위한 데이터 전처리 기법 및 횡 분산계수 산정에 적합한 머신러닝 절차와 최적 학습기법을 도출했다.

  • PDF

단변량 및 다변량 함수 데이터에 대한 분산분석의 활용 (Application of functional ANOVA and functional MANOVA)

  • 김미정
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.579-591
    • /
    • 2022
  • 함수 데이터는 다양한 분야에서 수집되고 있으며, 집단 간의 함수 데이터를 비교해야하는 경우가 종종 발생한다. 이럴 경우 점별 분산분석 방법을 이용하여 설명하기에는 무리가 있으며, 통합된 결과를 제시할 필요가 있다. 이에 대한 다양한 연구가 제안되었으며, 최근에 R 패키지 fdANOVA로 구현되었다. 이 논문에서 우선 분산분석 및 다변량 분산분석을 설명하고, 최근에 제안된 다양한 단변량 및 다변량 함수 데이터 분산분석을 설명하고자 한다. 또한 R 패키지 fdANOVA의 사용 방법을 설명하고, 이 패키지를 이용하여 서울과 부산 지역의 주별 기온을 단변량 함수 데이터 분산분석을 통해 비교하고, 손글씨 이미지를 다변량 함수 데이터로 변환하여 다변량 함수 데이터 분산분석을 이용하여 비교하고자 한다.

분산 스트림 컴퓨팅 기술 동향 (Technology of Distributed Stream Computing)

  • 이미영
    • 전자통신동향분석
    • /
    • 제26권1호
    • /
    • pp.80-88
    • /
    • 2011
  • 데이터의 효과적인 활용이 경쟁력 확보에 주요한 요인이나, 데이터 폭증은 유용한 정보를 얻는데 필요한 처리 시간의 지연을 야기하고 있다. 개인 맞춤형 서비스, 방범 방재 서비스 등 모니터링 & 대응 서비스를 위해 분석할 데이터의 양이 급증하고 있으며, 텍스트, 영상, 오디오 등 비정형 데이터에 대한 실시간 분석 필요성이 증대하고 있다. 대량의 폭증하는 데이터에 대한 실시간 분석 처리 환경을 제공하기 위해 분산 병렬 컴퓨팅 기술과 데이터 스트림 연속 처리 기술이 활용되고 있다. 본고에서는 폭증하는 데이터 스트림 처리를 위하여 확장성 및 유연한 처리 환경을 제공하는 분산 스트림 컴퓨팅 기술에 대해 소개한다.

  • PDF

클라우드 컴퓨팅에서의 대규모 데이터를 위한 분산 병렬 처리 기법의 성능분석 (Performance Analysis of Distributed Parallel Processing Schemes for Large Data in Cloud Computing)

  • 홍승태;장재우
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2010년도 추계학술대회
    • /
    • pp.111-118
    • /
    • 2010
  • 최근 IT 분야에서 인터넷을 기반으로 IT 자원들을 서비스 형태로 제공하는 클라우드 컴퓨팅에 대한 연구가 활발히 진행되고 있다. 한편, 효율적인 클라우드 컴퓨팅을 제공하기 위해서는, 막대한 양의 데이터를 수많은 서버들에 분산 처장하고 관리하기 위한 분산 데이터 처장 기법 빛 분산 병렬 처리 기법에 대한 연구가 필수적이다. 이를 위해 본 논문에서는 대표적인 분산 병렬 처리 기법에 대해 살펴보고, 이를 비교 분석한다. 마지막으로 Hadoop 기반 클러스터를 구축하고 이를 통해서 대규모 데이터를 위한 분산 병렬 처리 기법에 대한 성능평가를 수행한다.

  • PDF

워게임 시뮬레이션 환경에 맞는 빅데이터 분석을 위한 분산처리기술 (Distributed Data Processing for Bigdata Analysis in War Game Simulation Environment)

  • 배민수
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.73-83
    • /
    • 2019
  • 4차 산업혁명의 기술 등장 이후 대규모 데이터 시대에서 새로운 가치 창출을 위한 데이터 정보 분석은 다양한 분야에서 시도되고 있다. 대용량 데이터를 빠르게 처리하는데 있어서 분산 데이터 처리는 이미 필수적이다. 하지만 아직 국방 분야에서 운용하고 있는 시뮬레이션들은 쌓여 있는 비정형 데이터를 활용할 수 있는 시스템이 미비하다. 이에 본 연구에서는 훈련간 발생하는 문제에 대응하기 위한 지휘결심에 가시화된 데이터를 제공하기 위해서 대대급 규모의 시뮬레이션 모델에 적용 가능한 분산 처리 플랫폼을 제안한다. 전략게임 데이터 50만개를 분석하는 과정으로, 데이터가 가지고 있는 여러 요인들 중 승리요인에 영향을 미치는 요소들을 분석할 수 있게 구현하였다. 결과적으로 상위 10%에 있는 팀들의 데이터를 분석하는 과정에서의 분산처리 사용한 결과를 측정 및 비교 하였다.

  • PDF

웹 서비스를 이용한 분산 이 기종 통합 시스템 성능분석 (Performance Evaluation of Distributed Heterogeneous Integration System Using Web Service)

  • 안영헌;박성준;김영국
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (3)
    • /
    • pp.166-168
    • /
    • 2004
  • 본 논문에서는 분산 이기종 환경에서 웹 서비스를 이용한 데이터 처리 방식과 기존의 분산 처리 기술들과의 성능을 비교 분석하였다. 성능분석을 위한 시스템으로 분산 이기종 환경으로 825 e-Marketplace를 설계 구현하였다 본 논문에서 테스트한 성능분석은 B2B e-Marketplace에서 JWSDP 기반의 웹 서비스와 Java-RMI, CORBA를 대상으로 한다 성능분석 결과 분산 이기종 시스템에서 대량의 데이터를 처리하는 경우 웹 서비스를 이용하는 방법이 효과적적임을 보여준다.

  • PDF

신뢰성을 고려한 빅데이터 기반 실시간 증권정보 분석 기법 (Real Time Stock Information Analysis Method Based on Big Data considering Reliability)

  • 김윤기;조창우;정창성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.146-147
    • /
    • 2013
  • 소셜 미디어와 스마트폰의 확산으로 인터넷상의 사용자간 교류되는 정보의 양이 대폭 늘어남에 따라 대규모의 데이터를 처리해야할 필요성이 높아졌다. 이러한 빅데이터는 뉴스, 소셜미디어, 웹사이트 등의 다양한 분산 서버에서 발생한다. 증권정보를 분석하기 위해서도 실시간으로 발생되는 거래량, 시가와 더불어 상장회사의 공시 정보 등의 데이터를 여러 분산된 서버에서 데이터를 가져와야 한다. 기존의 빅데이터 분석기법은 각 분산된 서버로부터 가져온 데이터가 동일한 신뢰성을 가지고 있다고 가정하고 분석을 한다. 이는 부문별한 정보를 포함한 데이터를 효율적으로 분석하지 못하는 한계를 지니고 있다. 본 논문에서는 가져오는 데이터에 신뢰성 가중치를 부여하여 신뢰성 있는 증권정보 분석을 가능하게 한다.

분산 데이터베이스 환경에서 고객관리를 위한 실체화된 뷰 유지 방법론 (AMaterialized View Maintenance Methodology for Customer Management in a Distributed Database Environment)

  • 이현창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1851-1854
    • /
    • 2002
  • 일반적으로 고객 관리를 위한 고객 데이터는 운영 시스템 환경 여건상 다양한 분산 데이터베이스 시스템에 저장되어 있다. 이와 같이 분산 저장된 데이터들로부터 고객들의 향후 경향이나 추세 분석 등 의사 결정에 필요한 데이터로 활용하고자 할 때는 데이터베이스에 저장된 대량의 데이터가 고객 분석에 적합한 형태로 구성되어 서비스되어야 한다. 이에 적절한 구조가 데이터 웨어하우스 구조이며, 데이터 웨어하우스는 분산 저장된 각각의 소스들로부터 발생된 변경 정보들을 실시간으로 데이터 웨어하우스에 반영되어야한다. 이렇게 함으로써 정확한 의사 결정을 수행할 수 있게 된다. 이에 본 논문에서는 분산 컴퓨팅 환경에서 고객 관리를 정확하고 효과적으로 이루어질 수 있도록 기본 소스에서 발생된 데이터 변경을 웨어하우스에 실시간으로 전달하여 정확한 데이터를 유지할 수 있는 방법론을 제시하고자 한다. 또한 제시된 방법의 실험 평가 결과를 간략하게 도시하여 나타내었다.

  • PDF

중소병원에서의 빅데이터 분석을 위한 분산 노드 관리 방안 (Management of Distributed Nodes for Big Data Analysis in Small-and-Medium Sized Hospital)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.376-377
    • /
    • 2016
  • 빅데이터 분석을 위한 분산 데이터 처리 기술인 하둡 프레임워크의 성능은 데이터를 저장하고 맵리듀스를 수행하는 분산 노드 각각의 성능 및 네트워크의 성능 등의 요소에 영향을 받는다. 본 논문에서는 기존 하둡에서의 분산 노드 관리 기법을 분석하고, 중소병원의 전산 시스템 환경을 고려하여 중소규모의 병원에서 하둡을 도입하기 위해 필요한 분산 노드 관리 기법을 제시한다.

  • PDF

분산 인 메모리 DBMS 기반 병렬 K-Means의 In-database 분석 함수로의 설계와 구현 (Design and Implementation of Distributed In-Memory DBMS-based Parallel K-Means as In-database Analytics Function)

  • 구해모;남창민;이우현;이용재;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.105-112
    • /
    • 2018
  • 데이터의 양이 증가하면서 단일 노드 데이터베이스로는 저장과 처리를 동시에 수행하기에는 부족하다. 따라서, 데이터를 분산시켜 복수 노드로 구성된 분산 데이터베이스에 저장되고 있으며 분석 역시 효율성을 위해 병렬 기능을 제공해야한다. 전통적인 분석 방식은 데이터베이스에서 분석 노드로 데이터를 이동시킨 후 분석을 수행하기 때문에 네트워크의 비용이 발생하며 사용자가 분석을 위해 분석 프레임 워크도 다를 수 있어야한다. 본 연구는 군집화 분석 기법인 K-Means 군집화 알고리즘을 관계형 데이터 베이스와 칼럼 기반 데이터베이스를 이용한 분산 데이터베이스 환경에서 SQL로 구현하는 In-database 분석 함수로의 설계와 구현 그리고 관계형 데이터베이스에서의 성능 최적화 방법을 제안한다.