• 제목/요약/키워드: Parallel and distributed system

검색결과 374건 처리시간 0.022초

Hadoop기반의 공개의료정보 빅 데이터 분석을 통한 한국여성암 검진 요인분석 서비스 (Analysis of Factors for Korean Women's Cancer Screening through Hadoop-Based Public Medical Information Big Data Analysis)

  • 박민희;조영복;김소영;박종배;박종혁
    • 한국정보통신학회논문지
    • /
    • 제22권10호
    • /
    • pp.1277-1286
    • /
    • 2018
  • 본 논문에서는 공개의료정보 빅데이터 분석을 위해 클라우드 환경에서 아파치 하둡 기반의 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하고 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함했다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 빅데이터 분석을 위해 빈도분석과 카이제곱검정을 수행하고 유의 수준 0.05를 기준으로 단변량 로지스틱 회귀분석과 모델별 의미 있는 변수들의 다변량 로지스틱 회귀분석을 시행 하였다. (p<0.05) 의미 있는 변수들을 모델별로 나누어 다변량 로지스틱 회귀 분석한 결과 Model 3으로 갈수록 적합도가 높아졌다.

분산 공유 메모리 시스템에서 거짓 공유를 줄이는 호출지 추적 기반 공유 메모리 할당 기법 (Call-Site Tracing-based Shared Memory Allocator for False Sharing Reduction in DSM Systems)

  • 이종우
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권7호
    • /
    • pp.349-358
    • /
    • 2005
  • 거짓 공유는 공유 메모리 다중 처리기 시스템에서 여러 처리기들이 일관성 유지의 단위 메모리 영역을 공유함으로 인해 발생하는 현상으로써, 메모리 일관성 유지의 정확성에는 아무런 도움을 주지 못하면서 그 비용만 증가시키는 주요 요인이다. 특히 메모리 일관성 유지의 단위가 커질수록 그 피해가 더 커진다고 할 수 있다. 페이지-기반 분산 공유 메모리 시스템에서 거짓 공유를 줄이기 위해서는 공유 페이지에 할당되는 객체들의 특성을 미리 예측하여 참조 패턴이 상이한 객체들이 하나의 공유 페이지에 섞이는 것을 방지하는 것이 필수적이다. 본 논문에서는 병렬 응용 프로그램의 코드 내에서 공유 메모리 할당자를 호출한 위치를 추적하여 서로 다른 호출지에서 요청된 공유 객체가 같은 공유 페이지에 할당되는 것을 방지하는 호출지-추적 기반 거짓 공유 감소 기법(CSTallocator)을 제시한다. CSTallocator는 서로 다른 코드 위치에서 할당 요청된 공유 객체들은 각각 상이한 참조 패턴을 보일 것이라는 가정에 기반하고 있다 이 기법의 효용성을 검증하기 위해 기존 거짓 공유 감소 할당 기법들의 성능과 비교한 결과 기존 방식에 비해 훨씬 더 많은 거짓 공유 폴트를 감소시킨다는 것을 알 수 있었다. 실험은 실제 병렬 응용에 기반한 실행-기반 시뮬레이션 기법을 사용하였다.

한반도 서남부 하천 하구역의 수질 및 부착돌말 군집 특성 (Water Quality and Epilithic Diatom Community in the Lower Stream near the South Harbor System of Korean Peninsula)

  • 김하경;이민혁;김용재;원두희;황순진;황수옥;김상훈;김백호
    • 생태와환경
    • /
    • 제46권4호
    • /
    • pp.551-560
    • /
    • 2013
  • 한반도 서남부 하천을 대상으로 2013년 5월(몬순의 영향이 없었던 시기)에 환경요인 및 부착돌말 군집을 각각 조사하였다. 조사는 상류에 1개 이상의 댐이나 인공보가 형성된 조절하천(19개 지점)과 설치되어 있지 않은 비조절하천(19개 지점)으로 나누어 수질 및 부착돌말 군집조사를 실시하였다. 조사결과, 부착돌말 출현특성에 따라 한반도 서남부 하천은 비조절하천(G1), 혼합 형하천(G2), 조절하천(G3) 등 3개 유형으로 구분되었다. G1은 수질이 양호하고 다양한 부착돌말류가 출현한 반면, G3은 비록 수질은 불량하였으나 부착돌말 현존량이 크게 증가하거나 감소하지 않았다. 또한 G2의 경우 조절하천에 비해 수질은 양호하였지만 부착돌말의 종수는 가장 낮게 나타났다. 본 조사에서 출현한 부착돌말 우점종은 생태범위가 비교적 넓은 담수와 기수 보편종들로서 G1에서 Nitzschia palea (17%), Navicula seminuloides (11%), G2에서 Nitzschia inconspicua (19%), Navicula perminuta (9%), G3에서 Nitzschia inconspicua (15%), Nitzschia palea (14%)으로 수질환경에 큰 영향을 보이지 않았으나 종수의 감소를 가져왔다. 그러나 G2와 G3과 같은 조절하천에서 비록 부착돌말 현존량은 높지 않았으나 부영양 상태(높은 영양염 및 엽록소량 등)를 나타내 하구역의 정확한 수환경 상태파악을 위하여 국내 연안에서 종종 조류발생을 일으킬 수 있는 부유성 돌말류에 대한 조사도 반드시 병행되어야 할 것으로 판단되었다.

FCA 기반 계층적 구조를 이용한 문서 통합 기법 (Methods for Integration of Documents using Hierarchical Structure based on the Formal Concept Analysis)

  • 김태환;전호철;최종민
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.63-77
    • /
    • 2011
  • 월드와이드웹(World Wide Web)은 인터넷에 연결된 컴퓨터를 통해 사람들이 정보를 공유할 수 있는 매우 큰 분산된 정보 공간이다. 웹은 1991년에 시작되어 개인 홈페이지, 온라인 도서관, 가상 박물관 등 다양한 정보 자원들을 웹으로 표현하면서 성장하였다. 이러한 웹은 현재 5천억 페이지 이상 존재할 것이라고 추정한다. 대용량 정보에서 정보를 효과적이며 효율적으로 검색하는 기술을 적용할 수 있다. 현재 존재하는 몇몇 검색 도구들은 초 단위로 gigabyte 크기의 웹을 검사하여 사용자에게 검색 정보를 제공한다. 그러나 검색의 효율성은 검색 시간과는 다른 문제이다. 현재 검색 도구들은 사용자의 질의에 적합한 정보가 적음에도 불구하고 많은 문서들을 사용자에게 검색해준다. 그러므로 대부분의 적합한 문서들은 검색 상위에 존재하지 않는다. 또한 현재 검색 도구들은 사용자가 찾은 문서와 관련된 문서를 찾을 수 없다. 현재 많은 검색 시스템들의 가장 중요한 문제는 검색의 질을 증가 시키는 것이다. 그것은 검색된 결과로 관련 있는 문서를 증가시키고, 관련 없는 문서를 감소시켜 사용자에게 제공하는 것이다. 이러한 문제를 해결하기 위해 CiteSeer는 월드와이드웹에 존재하는 논문에 대해 한정하여 ACI(Autonomous Citation Indexing)기법을 제안하였다. "Citaion Index"는 연구자가 자신의 논문에 다른 논문을 인용한 정보를 기술하는데 이렇게 기술된 논문과 자신의 논문을 연결하여 색인한다. "Citation Index"는 논문 검색이나 논문 분석 등에 매우 유용하다. 그러나 "Citation Index"는 논문의 저자가 다른 논문을 인용한 논문에 대해서만 자신의 논문을 연결하여 색인했기 때문에 논문의 저자가 다른 논문을 인용하지 않은 논문에 대해서는 관련 있는 논문이라 할지 라도 저자의 논문과 연결하여 색인할 수 없다. 또한 인용되지 않은 다른 논문과 연결하여 색인할 수 없기 때문에 확장성이 용이하지 못하다. 이러한 문제를 해결하기 위해 본 논문에서는 검색된 문서에서 단락별 명사와 동사 및 목적어를 추출하여 해당 동사가 명사 및 목적어를 취할 수 있는 가능한 값을 고려하여 하나의 문서를 formal context 형태로 변환한다. 이 표를 이용하여 문서의 계층적 그래프를 구성하고, 문서의 그래프를 이용하여 문서 간 그래프를 통합한다. 이렇게 만들어진 문서의 그래프들은 그래프의 구조를 보고 각각의 문서의 영역을 구하고 그 영역에 포함관계를 계산하여 문서와 문서간의 관계를 표시할 수 있다. 또한 검색된 문서를 트리 형식으로 보여주어 사용자가 원하는 정보를 보다 쉽게 검색할 수 있는 문서의 구조적 통합 방법에 대해 제안한다. 제안한 방법은 루씬 검색엔진이 가지고 있는 순위 계산 공식을 이용하여 문서가 가지는 중요한 단어를 문서의 참조 관계에 적용하여 비교하였다. 제안한 방법이 루씬 검색엔진보다15% 정도 높은 성능을 나타내었다.