• 제목/요약/키워드: Distributed/Parallel System

검색결과 384건 처리시간 0.025초

Hadoop기반의 공개의료정보 빅 데이터 분석을 통한 한국여성암 검진 요인분석 서비스 (Analysis of Factors for Korean Women's Cancer Screening through Hadoop-Based Public Medical Information Big Data Analysis)

  • 박민희;조영복;김소영;박종배;박종혁
    • 한국정보통신학회논문지
    • /
    • 제22권10호
    • /
    • pp.1277-1286
    • /
    • 2018
  • 본 논문에서는 공개의료정보 빅데이터 분석을 위해 클라우드 환경에서 아파치 하둡 기반의 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하고 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함했다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 빅데이터 분석을 위해 빈도분석과 카이제곱검정을 수행하고 유의 수준 0.05를 기준으로 단변량 로지스틱 회귀분석과 모델별 의미 있는 변수들의 다변량 로지스틱 회귀분석을 시행 하였다. (p<0.05) 의미 있는 변수들을 모델별로 나누어 다변량 로지스틱 회귀 분석한 결과 Model 3으로 갈수록 적합도가 높아졌다.

분포형 모형을 이용한 소유역 연계 낙동강 홍수해석시스템 구축 (Construction of a Sub-catchment Connected Nakdong-gang Flood Analysis System Using Distributed Model)

  • 최윤석;원영진;김경탁
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.202-202
    • /
    • 2018
  • 본 논문에서는 분포형 강우-유출 모형인 GRM(Grid based Rainfall-runoff Model)(최윤석, 김경탁, 2017)을 이용해서 낙동강 유역을 대상으로 대유역 홍수해석시스템을 구축하고, 유출해석을 위한 실행시간을 평가하였다. 유출모형은 낙동강의 주요 지류와 본류를 소유역으로 구분하여 모형을 구축하고, 각 소유역의 유출해석 결과를 실시간으로 연계할 수 있도록 하여 낙동강 전체 유역의 유출모형을 구축하였다. 이와 같이 하나의 대유역을 다수의 소유역시스템으로 분할하여 모형을 구축할 경우, 유출해석시스템 구성이 복잡해지는 단점이 있으나, 소유역별로 각기 다른 자료를 이용하여 다양한 해상도로 유출해석을 할 수 있으므로, 소유역별 특성에 맞는 유출모형 구축이 가능한 장점이 있다. 또한 각 소유역시스템은 별도의 프로세스로 계산이 진행되므로, 대유역을 고해상도로 해석하는 경우에도 계산시간을 단축할 수 있다. 본 연구에서는 낙동강 유역을 20개(본류 구간 3개, 1차 지류 13개, 댐상류 4개)의 소유역으로 분할하여 계산 시간을 검토하였으며, 최종적으로 21개(본류 구간 3개, 1차 지류 13개, 댐상류 5개)의 소유역으로 분할하여 유출해석시스템을 구축하였다. 댐 상류 유역은 댐하류와 유량전달이 없이 독립적으로 모의되고, 댐과 연결된 하류 유역은 관측 방류량을 상류단 하천의 경계조건으로 적용한다. 지류 유역은 본류 구간과 연결되고, 지류의 계산 유량은 본류와의 연결지점에 유량조건으로 실시간으로 입력된다. 이때 본류와 지류의 유량 연계는 데이터베이스를 매개로 하였다. 유출해석시스템의 성능을 평가하기 위해서 Microsoft 클라우드 서비스인 Azure를 이용하였다. 낙동강 유역을 20개 소유역으로 구성한 경우에서의 유출해석시스템의 속도 평가 결과 Azure virtual machine instance DS15 v2(OS : Windows Server 2012 R2, CPU : 2.4 GHz Intel $Xeon^{(R)}$ E5-2673 v3 20 cores)에서 1.5분이 소요 되었다. 계산시간 평가시 GRM은 'IsParallel=false' 옵션을 적용하였으며, 모의 기간은 24시간을 기준으로 하였다. 연구결과 분포형 모형을 이용한 대유역 유출해석시스템 구축이 가능했으며, 계산시간도 충분히 단축할 수 있었다. 또한 추가적인 CPU와 병렬계산을 적용할 경우, 계산시간은 더 단축될 수 있으며, 이러한 기법들은 분포형 모형을 이용한 대유역 유출해석시스템 구축시 유용하게 활용될 수 있을 것으로 판단된다.

  • PDF

한반도 서남부 하천 하구역의 수질 및 부착돌말 군집 특성 (Water Quality and Epilithic Diatom Community in the Lower Stream near the South Harbor System of Korean Peninsula)

  • 김하경;이민혁;김용재;원두희;황순진;황수옥;김상훈;김백호
    • 생태와환경
    • /
    • 제46권4호
    • /
    • pp.551-560
    • /
    • 2013
  • 한반도 서남부 하천을 대상으로 2013년 5월(몬순의 영향이 없었던 시기)에 환경요인 및 부착돌말 군집을 각각 조사하였다. 조사는 상류에 1개 이상의 댐이나 인공보가 형성된 조절하천(19개 지점)과 설치되어 있지 않은 비조절하천(19개 지점)으로 나누어 수질 및 부착돌말 군집조사를 실시하였다. 조사결과, 부착돌말 출현특성에 따라 한반도 서남부 하천은 비조절하천(G1), 혼합 형하천(G2), 조절하천(G3) 등 3개 유형으로 구분되었다. G1은 수질이 양호하고 다양한 부착돌말류가 출현한 반면, G3은 비록 수질은 불량하였으나 부착돌말 현존량이 크게 증가하거나 감소하지 않았다. 또한 G2의 경우 조절하천에 비해 수질은 양호하였지만 부착돌말의 종수는 가장 낮게 나타났다. 본 조사에서 출현한 부착돌말 우점종은 생태범위가 비교적 넓은 담수와 기수 보편종들로서 G1에서 Nitzschia palea (17%), Navicula seminuloides (11%), G2에서 Nitzschia inconspicua (19%), Navicula perminuta (9%), G3에서 Nitzschia inconspicua (15%), Nitzschia palea (14%)으로 수질환경에 큰 영향을 보이지 않았으나 종수의 감소를 가져왔다. 그러나 G2와 G3과 같은 조절하천에서 비록 부착돌말 현존량은 높지 않았으나 부영양 상태(높은 영양염 및 엽록소량 등)를 나타내 하구역의 정확한 수환경 상태파악을 위하여 국내 연안에서 종종 조류발생을 일으킬 수 있는 부유성 돌말류에 대한 조사도 반드시 병행되어야 할 것으로 판단되었다.

FCA 기반 계층적 구조를 이용한 문서 통합 기법 (Methods for Integration of Documents using Hierarchical Structure based on the Formal Concept Analysis)

  • 김태환;전호철;최종민
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.63-77
    • /
    • 2011
  • 월드와이드웹(World Wide Web)은 인터넷에 연결된 컴퓨터를 통해 사람들이 정보를 공유할 수 있는 매우 큰 분산된 정보 공간이다. 웹은 1991년에 시작되어 개인 홈페이지, 온라인 도서관, 가상 박물관 등 다양한 정보 자원들을 웹으로 표현하면서 성장하였다. 이러한 웹은 현재 5천억 페이지 이상 존재할 것이라고 추정한다. 대용량 정보에서 정보를 효과적이며 효율적으로 검색하는 기술을 적용할 수 있다. 현재 존재하는 몇몇 검색 도구들은 초 단위로 gigabyte 크기의 웹을 검사하여 사용자에게 검색 정보를 제공한다. 그러나 검색의 효율성은 검색 시간과는 다른 문제이다. 현재 검색 도구들은 사용자의 질의에 적합한 정보가 적음에도 불구하고 많은 문서들을 사용자에게 검색해준다. 그러므로 대부분의 적합한 문서들은 검색 상위에 존재하지 않는다. 또한 현재 검색 도구들은 사용자가 찾은 문서와 관련된 문서를 찾을 수 없다. 현재 많은 검색 시스템들의 가장 중요한 문제는 검색의 질을 증가 시키는 것이다. 그것은 검색된 결과로 관련 있는 문서를 증가시키고, 관련 없는 문서를 감소시켜 사용자에게 제공하는 것이다. 이러한 문제를 해결하기 위해 CiteSeer는 월드와이드웹에 존재하는 논문에 대해 한정하여 ACI(Autonomous Citation Indexing)기법을 제안하였다. "Citaion Index"는 연구자가 자신의 논문에 다른 논문을 인용한 정보를 기술하는데 이렇게 기술된 논문과 자신의 논문을 연결하여 색인한다. "Citation Index"는 논문 검색이나 논문 분석 등에 매우 유용하다. 그러나 "Citation Index"는 논문의 저자가 다른 논문을 인용한 논문에 대해서만 자신의 논문을 연결하여 색인했기 때문에 논문의 저자가 다른 논문을 인용하지 않은 논문에 대해서는 관련 있는 논문이라 할지 라도 저자의 논문과 연결하여 색인할 수 없다. 또한 인용되지 않은 다른 논문과 연결하여 색인할 수 없기 때문에 확장성이 용이하지 못하다. 이러한 문제를 해결하기 위해 본 논문에서는 검색된 문서에서 단락별 명사와 동사 및 목적어를 추출하여 해당 동사가 명사 및 목적어를 취할 수 있는 가능한 값을 고려하여 하나의 문서를 formal context 형태로 변환한다. 이 표를 이용하여 문서의 계층적 그래프를 구성하고, 문서의 그래프를 이용하여 문서 간 그래프를 통합한다. 이렇게 만들어진 문서의 그래프들은 그래프의 구조를 보고 각각의 문서의 영역을 구하고 그 영역에 포함관계를 계산하여 문서와 문서간의 관계를 표시할 수 있다. 또한 검색된 문서를 트리 형식으로 보여주어 사용자가 원하는 정보를 보다 쉽게 검색할 수 있는 문서의 구조적 통합 방법에 대해 제안한다. 제안한 방법은 루씬 검색엔진이 가지고 있는 순위 계산 공식을 이용하여 문서가 가지는 중요한 단어를 문서의 참조 관계에 적용하여 비교하였다. 제안한 방법이 루씬 검색엔진보다15% 정도 높은 성능을 나타내었다.