• 제목/요약/키워드: File Cluster

검색결과 114건 처리시간 0.029초

타키온 클러스터 시스템의 병렬 분산 파일 시스템 워크로드 분석 (Analysis of Parallel and Distributed File System Workloads on Tachyon Cluster System)

  • 조혜영;김성호;이식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.113-114
    • /
    • 2009
  • 클러스터 시스템의 응용 분야가 다양화되고 복잡해짐에 따라, 대규모 클러스터 시스템을 보다 효율적으로 사용하기 위해서 실제 사용자의 이용 패턴을 예측할 수 있는 워크로드 분석의 필요성이 높아지고 있다. 이에 본 논문에서는 현재 가동중인 188개의 계산 노드, 3008개 CPU 자원을 보유한 대규모 클러스터 시스템에서 병렬 분산 파일 시스템에 대한 워크로드를 분석하였다.

클라우드 컴퓨팅에 적합한 LDPC 부호 복제 기법 (An LDPC Code Replication Scheme Suitable for Cloud Computing)

  • 김세회;이원주;전창호
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.134-142
    • /
    • 2012
  • 본 논문에서는 클라우드 컴퓨팅에 적합한 LDPC 부호 복제 기법을 제안한다. 이를 위해 먼저 파일 가용성과 스토리지 오버헤드 분석을 통해 클라우드 컴퓨팅에 적합한 블록 수와 LDPC 부호 종류를 결정한다. 그리고 LDPC 부호를 정의하는 Tanner 그래프의 무작위 생성 방법과 생성한 LDPC 부호들의 반복적인 복호화 과정을 통한 성능 비교 방법을 제시한다. 또한 실험을 통하여 클라우드 컴퓨팅에 적합한 LDPC 부호 복제 기법의 그래프 정규성과 총 간선 수에 따른 성능 변화를 분석하였다. 이를 통해 LDPC 부호의 그래프 정규성이 좌-정규와 약 좌-정규 일 때와 총 간선 수가 최소이거나 최소에 근접한 값을 가질 때 가장 성능이 좋음을 확인할 수 있었다.

선제 대응을 위한 의심 도메인 추론 방안 (A Proactive Inference Method of Suspicious Domains)

  • 강병호;양지수;소재현;김창엽
    • 정보보호학회논문지
    • /
    • 제26권2호
    • /
    • pp.405-413
    • /
    • 2016
  • 본 논문에서는 선제 대응을 위한 의심 도메인 추론 방안을 제시한다. TLD Zone 파일과 WHOIS 정보를 이용하여 의심 도메인을 추론하며, 후보 도메인 탐색, 기계 학습, 의심 도메인 집단 추론의 세 과정으로 구성되어 있다. 첫 번째 과정에서는 씨앗 도메인과 동일한 네임 서버와 업데이트 시간을 가진 다른 도메인을 TLD Zone 파일로부터 추출하여 후보 도메인을 형성하며, 두 번째 과정에서는 후보 도메인의 WHOIS 정보를 정량화하여 유사한 집단끼리 군집화 한다. 마지막 과정에서는 씨앗 도메인을 포함하는 클러스터에 속한 도메인을 의심 도메인 집단으로 추론한다. 실험에서는 .COM과 .NET의 TLD Zone 파일을 사용하였으며, 10개의 알려진 악성 도메인을 씨앗 도메인으로 이용하였다. 실험 결과, 제안하는 방안은 55개의 도메인을 의심 도메인으로 추론하였으며, 그 중 52개는 적중하였다. F1은 0.91을 기록하였으며, 정밀도는 0.95을 보였다. 본 논문에서 제안하는 방안을 통해 악성 도메인을 추론하여 사전에 차단할 수 있을 것으로 기대한다.

잠재 부하 정보와 HTTP 연결의 에이징을 통한 HTTP 연결 스케줄링 알고리즘 (Load Distribution Policy of Web Server using Subsequent Load and HTTP Connection Time)

  • 김시연;김성천
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.717-721
    • /
    • 2005
  • HTTP/l.0과 새로운 HTTP/1.1이 함께 사용됨으로써 단일 HTTP 연결이 단일 사용자 요청을 의미하던 환경에서 연구되었던 웹 서버 부하 분산 정책은 수정이 불가피하게 되었다. HTTP/l.0 환경에서는 사용자의 단일 요청만을 가지고 서버를 할당하였으나, 지속적인 HTTP 연결을 지원하게 되면서 하나의 HTTP 연결을 통해 여러 개의 요청을 서버에게 요구할 수 있으므로, 첫 번째로 도착한 요청 하나만으로는 앞으로 그 HTTP 연결을 통해 전송될 사용자의 요청이 서버의 자원을 얼마나 소비하게 될 것인지 전혀 예상할 수 없게 된다. 본 논문에서는 HTTP/1.1을 효율적으로 지원하는 부하 분산 정책을 제안하고자 한다. 이 정책은 사용자의 첫 번째 요청이 전달되면 그 요청의 내장 객체 정보와 현재 살아있는 HTTP 연결의 에이징(aging)을 고려하여 서버를 선택하는 알고리즘이다. 그리고 디스패처의 잘못된 분산 결정으로 인해 시스템의 성능에 누적되는 악영향을 최소화하기 위한 기법도 제시한다.

Automatic real-time system of the global 3-D MHD model: Description and initial tests

  • Park, Geun-Seok;Choi, Seong-Hwan;Cho, Il-Hyun;Baek, Ji-Hye;Park, Kyung-Sun;Cho, Kyung-Suk;Choe, Gwang-Son
    • 한국우주과학회:학술대회논문집(한국우주과학회보)
    • /
    • 한국우주과학회 2009년도 한국우주과학회보 제18권2호
    • /
    • pp.26.2-26.2
    • /
    • 2009
  • The Solar and Space Weather Research Group (SOS) in Korea Astronomy and Space Science Institute (KASI) is constructing the Space Weather Prediction Center since 2007. As a part of the project, we are developing automatic real-time system of the global 3-D magnetohydrodynamics (MHD) simulation. The MHD simulation model of earth's magnetosphere is designed as modified leap-frog scheme by T. Ogino, and it was parallelized by using message passing interface (MPI). Our work focuses on the automatic processing about simulation of 3-D MHD model and visualization of the simulation results. We used PC cluster to compute, and virtual reality modeling language (VRML) file format to visualize the MHD simulation. The system can show the variation of earth's magnetosphere by the solar wind in quasi real time. For data assimilation we used four parameters from ACE data; density, pressure, velocity of solar wind, and z component of interplanetary magnetic field (IMF). In this paper, we performed some initial tests and made a animation. The automatic real-time system will be valuable tool to understand the configuration of the solar-terrestrial environment for space weather research.

  • PDF

『동의보감사전』 편찬을 위한 표제어 추출에 관한 연구 - 코퍼스 분석방법을 바탕으로 - (Study on Extraction of Headwords for Compilation of 「Donguibogam Dictionary」 - Based on Corpus-based Analysis -)

  • 정지훈;김도훈;김동율
    • 한국의사학회지
    • /
    • 제29권1호
    • /
    • pp.47-54
    • /
    • 2016
  • This article attempts to extract headwords for complication of "Donguibogam Dictionary" with Corpus-based Analysis. The computerized original text of Donguibogam is changed into a text file by a program 'EM Editor'. Chinese characters of high frequency of exposure among Chinese characters of Donguibogam are extracted by a Corpus-based analytical program 'AntConc'. Two-syllable, three-syllable, four-syllable, and five-syllable words including each Chinese characters of high frequency are extracted through n-cluster, one of functions of AntConc. Lastly, The output that is meaningful as a word is sorted. As a result, words that often appear in Donguibogam can be sorted in this article, and the names of books, medical herbs, disease symptoms, and prescriptions often appear especially. This way to extract headwords by this Corpus-based Analysis can suggest better headwords list for "Donguibogam Dictionary" in the future.

도커 기반의 실시간 데이터 연계 및 처리 환경을 고려한 빅데이터 관리 플랫폼 개발 (Development of Big-data Management Platform Considering Docker Based Real Time Data Connecting and Processing Environments)

  • 김동길;박용순;정태윤
    • 대한임베디드공학회논문지
    • /
    • 제16권4호
    • /
    • pp.153-161
    • /
    • 2021
  • Real-time access is required to handle continuous and unstructured data and should be flexible in management under dynamic state. Platform can be built to allow data collection, storage, and processing from local-server or multi-server. Although the former centralize method is easy to control, it creates an overload problem because it proceeds all the processing in one unit, and the latter distributed method performs parallel processing, so it is fast to respond and can easily scale system capacity, but the design is complex. This paper provides data collection and processing on one platform to derive significant insights from various data held by an enterprise or agency in the latter manner, which is intuitively available on dashboards and utilizes Spark to improve distributed processing performance. All service utilize dockers to distribute and management. The data used in this study was 100% collected from Kafka, showing that when the file size is 4.4 gigabytes, the data processing speed in spark cluster mode is 2 minute 15 seconds, about 3 minutes 19 seconds faster than the local mode.

버추얼 인터페이스 아키텍처 및 인터벌 캐쉬에 기반한 분산 VOD 서버 (A Distributed VOD Server Based on Virtual Interface Architecture and Interval Cache)

  • 오수철;정상화
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권10호
    • /
    • pp.734-745
    • /
    • 2006
  • 본 논문에서는 VIA(Virtual Interface Architecture) 통신 프로토콜과 인터벌 캐쉬 기법을 적용하여 서버 내부 통신망의 부하를 감소시킨 PC 클러스터 기반 분산 VOD 서버를 제안한다. 분산 VOD 서버의 각 노드는 클러스터상에 분산 저장된 비디오 데이타를 서버 내부 통신망을 사용하여 전송받아 사용자에게 제공한다. 이 때, 대량의 비디오 데이타가 서버 내부 통신망을 통하여 전송됨으로 서버 내부 통신망에 부하가 증가한다. 본 논문에서는 TCP/IP의 통신 오버헤드를 제거한 사용자 수준 통신 프로토콜인 VIA에 기반한 분산 VOD 파일 시스템을 개발함으로써, 원격 디스크를 접근하는데 소요되는 내부 통신망 비용을 최소화하려고 하였다. 또한, VIA의 최대 전송 크기를 VOD 시스템에 맞게 확장함으로써 내부 통신망의 성능을 향상시키려고 하였다. 추가로 본 논문은 인터벌 캐쉬 기법을 적용하여 원격 서버 노드에서 전송 받은 비디오 데이타를 지역 노드의 메인 메모리에 캐쉬함으로써, 서버 내부 통신망에 발생하는 통신량을 감소시켰다. 실험을 통하여 분산 VOD 서버의 성능을 측정하였으며, TCP/IP에 기반하고 인터벌 캐쉬를 지원하지 않는 기존의 분산 VOD 서버와 성능을 비교하였다. 실험결과, VIA 적용으로 약 11.3%의 성능 향상, 그리고 인터벌 캐쉬 기법을 적용하여 추가로 약 10%의 성능 향상이 생겨 총 21.3%의 성능 향상을 얻을 수 있었다.

대용량 유전체 분석을 위한 고성능 컴퓨팅 시스템 MAHA (Design of MAHA Supercomputing System for Human Genome Analysis)

  • 김영우;김홍연;배승조;김학영;우영춘;박수준;최완
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.81-90
    • /
    • 2013
  • 지난 10여년 동안 컴퓨팅 분야는 다양한 연구와 변화를 통하여 눈부신 발전을 이루어오고 있다. 반도체 기술의 발전은 프로세서 및 시스템 아키텍처, 프로그래밍 환경 등에 새로운 패러다임의 변화를 야기하고 있다. 특히 고성능컴퓨팅(HPC)분야는 첨단 기술이 집적된 분야로써, 한 국가의 경쟁력으로 간주되고 있다. 2000년대 후반부터 선진 국가들은 Exascale의 슈퍼컴퓨팅 기술의 개발에 박차를 가하고 있으나, 한국의 경우 ICT 분야에 집중하여 관련 핵심기술의 확보가 시급한 상황이다. 본 논문에서는 슈퍼컴퓨팅 기술을 확보하고 대규모 유전체 분석 및 단백질 구조 분석을 위한 고성능 컴퓨팅 시스템인 MAHA 슈퍼컴퓨팅 시스템의 아키텍쳐를 제시하고 설계 및 구현에 관하여 서술한다. MAHA 슈퍼컴퓨팅 시스템은 컴퓨팅 하드웨어, 파일 시스템, 시스템 소프트웨어 및 바이오 응용으로 구성되며, 성능/$, 성능/면적 및 성능/전력을 향상시키기 위한 이종 매니코어 연산장치에 기반 한 고성능 컴퓨팅 구조를 설계하였다. 대규모 데이터에 대한 빠른 처리를 위하여 SSD 및 MAID시스템에 기반 한 고성능 저전력 파일시스템과 사용자 편의성 및 이종 매니코어 자원의 효과적인 활용을 통한 바이오 응용 성능 향상을 위한 시스템 소프트웨어를 설계하였다. 2011년 12월 MAHA 슈퍼컴퓨팅 시스템은 32개의 컴퓨팅 노드에 기반 하여 이론 성능 50 테라 플롭스, 실측 성능 30.3 테라 플롭스(시스템 효율 56.2%)로 설계, 구축 되었으며, 2013년 100 테라 플롭스 규모로 확장될 예정이다.

DEVS 형식론 기반의 재겨냥성 하둡 시뮬레이션 환경 개발 (Development of Retargetable Hadoop Simulation Environment Based on DEVS Formalism)

  • 김병수;강봉구;김탁곤;송해상
    • 한국시뮬레이션학회논문지
    • /
    • 제26권4호
    • /
    • pp.51-61
    • /
    • 2017
  • 최근 빅 데이터가 증가하는 추세에 따라 이를 분석 및 처리하고 활용하는 방안에 대한 관심도 증대되고 있다. 이러한 빅 데이터를 저장, 관리하기 위한 대표적인 플랫폼으로 분산 컴퓨팅 프레임워크인 맵리듀스와 분산 파일 시스템인 HDFS로 구성된 하둡 플랫폼이 있다. 하둡은 일반적으로 수백 수천 대 이상의 클러스터로 구축되는데, 이 때 실제 클러스터 구성이나 파라미터에 따라 하둡 플랫폼이 가지는 효과도를 분석하는 것이 중요하다. 하지만 수천 대 이상의 클러스터 구축하여 이를 분석하는 것이 실질적으로 어렵기 때문에 모델링 및 시뮬레이션 기법을 통해 분석하는 것이 필요하다. 본 논문은 계층적이고 모듈러한 모델링이 가능한 DEVS 형식론을 기반으로 하둡 시뮬레이션 환경을 제안한다. 제안하는 시뮬레이션 환경은 하둡 실행 결과를 이용한 입력 모델 설계를 통해 어플리케이션의 특성을 잘 반영할 수 있으며, 파라미터/알고리즘/모델들을 다양하게 변경하여 실험할 수 있는 재겨냥성 환경을 제공한다. 또한 사용자 편의성의 극대화를 위해 사용자 인터페이스, 실시간 모델 뷰어, 입력 시나리오 편집기를 제공한다. 본 논문에서는 어플리케이션 실행 결과와의 비교를 통해 하둡 시뮬레이터를 검증하고, 다양한 파라미터에 대한 실험을 진행한다.