• 제목/요약/키워드: Parallel Computing

검색결과 807건 처리시간 0.03초

몬데카를로 기반 치료계획시스템의 성능평가 (Benchmark Results of a Monte Carlo Treatment Planning system)

  • Cho, Byung-Chul
    • 한국의학물리학회지:의학물리
    • /
    • 제13권3호
    • /
    • pp.149-155
    • /
    • 2002
  • 최근 들어 방사선 수송이론, 컴퓨터 하드웨어 성능, 및 병렬 연산 기법의 발전에 힘입어, 몬테카를로 기반의 선량계산 기법을 임상에 적용할 수 있게 되었다. 임상적용을 위해 개발된 몬테카를로 기반 선량계산 코드간의 계산 소요 시간과 정확도를 비교할 목적으로 제13차 ICCR (International Conference on the use of Computers in Radiation Therapy, Heidelberg, Germany, 2000) 학술대회에서 벤치마킹 절차서가 제안되었다. 최근, 본원에서도 임상적용을 목표로 28개의 인텔 펜티움 프로세서로 구성된 Linux cluster 시스템을 구축하고, 여기에 몬테카를로 선량계산을 위한 BEAMnrc 코드를 설치하였다. 본 연구의 목적은 위에서 제안된 벤치마킹 절차를 수행하여 본원에서 구축한 몬테카를로 선량계산 시스템의 정량적 성능 평가를 시도하고자 하는 것이었다. 벤치마킹 절차는 크게 다음의 세 과정으로 구성되어 있다. a) 30.5 cm $\times$ 39.5 cm $\times$ 30 cm 의 팬톰(5 ㎣ voxels) 에 대한 통계적 불확정도 2%이내 결과를 얻기 위한 광자선 선량계산 속도. b) 위 팬톰에 대한 전자선의 선량계산 속도. c) 비균질 평판 매질로 구성된 팬톰내 광자선 및 전자선의 선량계산 결과를 EGSr/PRESTA 계산 결과와 비교 제시. 18 MV 광자선에 대해 선량계산 속도 평가 결과 5.5분이 소용되었다. 전자선의 경우, 실제 계산 시간은 광자선에 비해 약 10배 정도 빨랐으나, 병렬 연산을 처리하기 위해 소용되는 추가 시간 때문에 전체 계산에 소요되는 시간은 광자선과 비슷하였다. 본 원에서 사용한 몬테카를로 코드는 EGSnrc로써 EGS4의 개선 버전으로 이들 간의 정확도 비교는 큰 의미가 없을 것으로 판단된다. 하지만 두 계산 결과가 기대했던 바와 같이 매우 잘 일치하였다. 결론적으로, 본원에서 구축한 몬테카를로 치료계획시스템은 임상적용에 무리가 없을 것으로 판단하였다. 추후 본 시스템을 본원에서 사용하는 상용 치료계획시스템과 인터페이스를 개발하여, 통합환경을 구축함으로써, 몬테카를로 기반의 치료계획시스템의 임상적용과 관련된 연구들을 수행해 나갈 계획이다.

  • PDF

정형 사각 격자 기반의 2차원 지표면 침수해석 모형 개발 및 평가 (Development and evaluation of a 2-dimensional land surface flood analysis model using uniform square grid)

  • 최윤석;김주훈;최천규;김경탁
    • 한국수자원학회논문집
    • /
    • 제52권5호
    • /
    • pp.361-372
    • /
    • 2019
  • 본 연구의 목적은 운동량방정식에서 이송가속도항을 제외한 지배방정식을 이용하여 정형 사각 격자 기반의 2차원 지표면 침수해석 모형을 개발하는 것이다. 공간적 이산화는 유한체적법을 이용하였으며, 시간적 이산화는 음해법을 적용하였다. 모형의 실행시간을 단축하기 위해서 CPU를 이용한 병렬계산 기법을 적용하였다. 개발된 모형의 검증을 위해서 해석해와 비교하고, 가상 도메인에서 수치실험을 통해 모형의 거동을 평가하였다. 또한 국내의 장호원 지역과 모로코의 Sebou 강 지역에 대해서 각기 다른 공간해상도로 침수해석을 수행하고, 그 결과를 CAESER-LISFLOOD (CLF) 모형을 이용한 해석 결과와 비교하였다. 모형의 검증 결과 해석해와 잘 일치된 모의 결과를 나타내었고, 가상 도메인에서의 흐름 해석도 타당한 것으로 평가되었다. 장호원 지역과 Sebou 강 지역에 대한 본 연구와 CLF 모형의 침수모의 결과는 침수심과 침수범위에서 서로 유사하게 나타났으며, 장호원 지역의 경우 홍수위험지도의 침수범위와도 유사한 값을 보였다. 본 연구와 CLF 모형의 모의결과에서 상이한 부분에 대해서는 각각의 모의결과를 비교 평가하였다. 연구결과 본 연구에서 제시된 모형은 홍수터에서의 침수 양상을 잘 모의할 수 있는 것으로 평가되었다. 그러나 본 연구에서 제시된 모형을 이용하여 침수해석을 할 경우에는 도메인 구성 방법과 지배방정식 및 해석 방법에 의한 모형의 특징과 한계점을 충분히 고려해야 할 것이다.

U.K. 지구시스템모델 UM의 리눅스 클러스터 설치와 성능 평가 (An Installation and Model Assessment of the UM, U.K. Earth System Model, in a Linux Cluster)

  • 윤대옥;송형규;박성수
    • 한국지구과학회지
    • /
    • 제43권6호
    • /
    • pp.691-711
    • /
    • 2022
  • 지구 대기에 영향을 주는 거의 모든 인간활동과 자연현상을 수치적으로 담아내는 지구시스템모델은 기후 위기의 시대에 활용될 가장 진보한 과학적 도구이다. 특히 우리나라 기상청이 도입한 지구시스템모델인 Unified Model (UM)은 지구 대기 연구의 과학적 도구로써 매우 활용성이 높다. 하지만 UM은 수치 적분과 자료 저장에 방대한 자원이 필요하여 개별 연구자들은 최근까지도 기상청 슈퍼컴퓨터에만 UM을 가동하는 상황이다. 외부와 차단된 기상청 슈퍼컴퓨터만을 이용하여 모델 연구를 수행하는 것은 UM을 이용한 모형 개선과 수치 실험의 원활한 수행에 있어 효율성이 떨어진다. 본 연구는 이러한 한계점을 극복할 수 있도록 개별 연구자가 보유한 고성능 병렬 컴퓨터(리눅스 클러스터) 에서 최신 버전 UM을 원활하게 설치하여 활용할 수 있도록 UM 시스템 환경 구축 과정과 UM 모델 설치 과정을 구체적으로 제시하였다. 또한 UM이 성공적으로 설치된 리눅스 클러스터 상에서 N96L85과 N48L70의 두 가지 모형 해상도에 대하여 UM 가동 성능을 평가하였다. 256코어를 사용하였을 때, 수평으로 1.875° ×1.25° (위도×경도)와 수직으로 약 85 km까지 85층 해상도를 가진 N96L85 해상도에 대한 UM의 AMIP과 CMIP 타입 한 달 적분 실험은 각각 169분과 205분이 소요되었다. 저해상도인 3.75° ×2.5° 와 70층 N48L70 해상도에 대해 AMIP 한달 적분은 252코어를 사용하여 33분이 소요되는 적분 성능을 보였다. 또한 적분을 위해 사용된 코어의 개수에 비례하여 적분 성능이 향상되었다. 성능 평가 외에 29년 간의 장기 적분을 수행하여 과거 지상 2-m 온도와 강수 강도를 ERA5 재분석자료와 비교하였고, 해상도에 따른 차이도 정성적으로 살펴보았다. 재분석자료와 비교할 때, 공간 분포가 유사하였고, 해상도와 대기-해양 접합에 따라 모의 결과에서 차이가 나타났다. 본 연구를 통해 슈퍼컴퓨터가 아닌 개별 연구자의 고성능 리눅스 클러스터 상에서도 UM이 성공적으로 구동됨을 확인하였다.

운영 체제와 컴파일러에 따른 Geospatial Data Abstraction Library의 Hierarchical Data Format 형식 원격 탐사 자료 추출 속도 비교 (Comparison of the wall clock time for extracting remote sensing data in Hierarchical Data Format using Geospatial Data Abstraction Library by operating system and compiler)

  • 유병현;김광수;이지혜
    • 한국농림기상학회지
    • /
    • 제21권1호
    • /
    • pp.65-73
    • /
    • 2019
  • 지역이나 전구 규모의 농업 생태계를 감시하기 위해 HDF 형식으로 제공되는 MODIS 원격 탐사자료가 사용되어 왔다. 대개의 경우, 다량의 영상자료들이 처리되어야 하기 때문에, 이들 자료의 처리 성능을 향상시키는 것이 유리하다. 본 연구는 HDF 파일을 처리할 수 있는 GDAL과 같은 라이브러리가 운영 체제나 배포 방식 등에 따른 처리속도의 차이를 확인하여 원격 탐사 자료 처리 시스템 구축을 지원하고자 하였다. 이를 위해, GDAL이 시스템에 설치되는 주요 조건들에 따라 MODIS 영상자료 처리 시간을 측정하고 비교하였다. 운영 체제(Ubuntu 및 openSUSE), 컴파일러(GNU 및 Intel), 설치 옵션 및 바이너리 패키지 조건을 조합하여 GDAL성능 비교가 이루어졌다. 각 조건에 따라 설치된 GDAL을 사용하여 MODIS 영상 중 대기측정 자료(MOD07)의 2차원 변수와 3차원 변수에 해당하는 총 10 종의 자료를 추출하였다. 자료처리에 소요된 구동 시간은 각 변수 값을 시스템 메모리에 저장하는 작업이 끝난 직후 측정되었다. 가장 좋은 성능을 보인 설치 조건은 Ubuntu에서 Intel Compiler를 사용하여 컴파일 된 GDAL을 사용하는 것이었다. OpenSUSE에서는 GNU와 Intel 컴파일러가 각각 2차원 자료와 3차원 자료를 처리하기 위한 작업에 효과적인 것으로 나타났다. 한편 "--with-hdf4=no" 옵션으로 컴파일 된 GDAL과 RPM package manager 버전의 GDAL의 경우, 다른 조건에 비해 상당히 낮은 성능을 보였다. 이러한 결과는 운영 체제나 컴파일러, 설치 옵션 등을 조정하여 원격 탐사자료 처리 도구의 속도를 개선할 수 있다는 것을 암시하였다. 특히, 원격 탐사 자료의 경우 다양한 형식으로 배포되므로, 이를 처리하는 라이브러리들이 최고의 성능을 발휘할 수 있는 조건을 탐색하고 이러한 결과의 공유가 후속연구에서 진행되어야 할 것으로 보인다.

그래픽 하드웨어 가속을 이용한 실시간 색상 인식 (Real-time Color Recognition Based on Graphic Hardware Acceleration)

  • 김구진;윤지영;최유주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권1호
    • /
    • pp.1-12
    • /
    • 2008
  • 본 논문에서는 야외 및 실내에서 촬영된 차량 영상에 대해 실시간으로 차량 색상을 인식할 수 있는 GPU(Graphics Processing Unit) 기반의 알고리즘을 제시한다. 전처리 과정에서는 차량 색상의 표본 영상들로부터 특징벡터를 계산한 뒤, 이들을 색상 별로 조합하여 GPU에서 사용할 참조 텍스쳐(Reference texture)로 저장한다. 차량 영상이 입력되면, 특징벡터를 계산한 뒤 GPU로 전송하고, GPU에서는 참조 텍스쳐 내의 표본 특징리터들과 비교하여 색상 별 유사도를 측정한 뒤 CPU로 전송하여 해당 색상명을 인식한다. 분류의 대상이 되는 색상은 가장 흔히 발견되는 차량 색상들 중에서 선택한 7가지 색상이며, 검정색, 은색, 흰색과 같은 3가지의 무채색과 빨강색, 노랑색, 파랑색, 녹색과 같은 4가지의 유채색으로 구성된다. 차량 영상에 대한 특징벡터는 차량 영상에 대해 HSI(Hue-Saturation-Intensity) 색상모델을 적용하여 색조-채도 조합과 색조-명도 조합으로 색상 히스토램을 구성하고, 이 중의 채도 값에 가중치를 부여함으로써 구성한다. 본 논문에서 제시하는 알고리즘은 다양한 환경에서 촬영된 많은 수의 표본 특징벡터를 사용하고, 색상 별 특성을 뚜렷이 반영하는 특징벡터를 구성하였으며, 적합한 유사도 측정함수(likelihood function)를 적용함으로써, 94.67%에 이르는 색상 인식 성공률을 보였다. 또한, GPU를 이용함으로써 대량의 표본 특징벡터의 집합과 입력 영상에 대한 특징벡터 간의 유사도 측정 및 색상 인식과정을 병렬로 처리하였다. 실험에서는, 색상 별로 1,024장씩, 총 7,168장의 차량 표본 영상을 이용하여 GPU에서 사용하는 참조 텍스쳐를 구성하였다. 특징벡터의 구성에 소요되는 시간은 입력 영상의 크기에 따라 다르지만, 해상도 $150{\times}113$의 입력 영상에 대해 측정한 결과 평균 0.509ms가 소요된다. 계산된 특징벡터를 이용하여 색상 인식의 수행시간을 계산한 결과 평균 2.316ms의 시간이 소요되었고, 이는 같은 알고리즘을 CPU 상에서 수행한 결과에 비해 5.47배 빠른 속도이다. 본 연구에서는 차량만을 대상으로 하여 색상 인식을 실험하였으나, 일반적인 피사체의 색상 인식에 대해서도 제시된 알고리즘을 확장하여 적용할 수 있다.

삼차원 불연속면 연결망을 이용한 암반의 등가수리전도도 결정에 대한 연구 (Determination of Equivalent Hydraulic Conductivity of Rock Mass Using Three-Dimensional Discontinuity Network)

  • 방상혁;전석원;최종근
    • 터널과지하공간
    • /
    • 제13권1호
    • /
    • pp.52-63
    • /
    • 2003
  • 단층, 균열, 절리 등의 암반 내에 존재하는 수많은 불연속면은 암반의 역학적\ulcorner수리적 특성을 좌우하는 중요한 요소이다. 암반 내 지하수 유동에 큰 영향을 미치는 요소는 불연속면의 발생빈도와 기하학적 특성 그리고 불연속면 상호간의 연결성이라고 할 수 있다. 이 연구에서는 불연속면의 특성인 발생빈도, 크기, 방향, 간극의 크기 등의 분포함수를 가정하여 3차원 불연속면 연결망 내에서 지하수 유동 해석을 실시하는 프로그램을 작성하였다. 이 프로그램은 3차원 상에 불연속면을 발생시키고 불연속면간 연결성을 분석하여 수리해석을 실시한다. 이 프로그램을 통해 수리해석을 실시한 결과, 컴퓨터 메모리의 한계로 인해 대상지역의 대표요소체적을 정확하게 결정할 수는 없었지만, 대략 25$\times$25$\times$25 ㎥ 이상에서 결정될 것으로 추정할 수 있었다. 지하수 유동해석에 영향을 미치는 간극의 범위를 계산한 결과, 불연속면 평균 간극의 30% 이하의 간극을 갖는 불연속면은 지하수 유동에 미치는 영향이 미미한 것으로 나타났다. 또, 경계효과를 고려한 경우와 그렇지 않은 경우의 등가수리전도도의 차이는 거의 없었으며 이는 대상지역에서 간극이 큰 일부의 불연속면을 통한 유동이 전체적인 지하수 유동에 크게 영향을 주기 때문인 것으로 판단되었다. 입력자료 중에서 암반의 등가수리전도도에 영향을 미치는 요소의 중요도는 불연속면의 길이, 간극, 방향의 순서로 나타났다. 대상 암반에 단층면이 존재할 경우, 등가수리전도도는 단층면에 평행한 방향의 요소는 증가하며 이에 수직인 방향의 요소는 약간 증가하다 수렴하는 경향을 보였다.openyl methyl disulfide와 (E)-propenyl methyl disulfide 또한 동결건조 양파에서 증가되어 짐을 확인하였다. 올그루밀이 가장 많았다. Niacin함량은 탑동밀이 2.81 mg%로 가장 높은 함량을 보였고, 다음으로 알찬밀, 올그루밀 순이었다. 지방산 조성은 보리와 밀에서 Cl8:2>Cl6:0>Cl8:1 순으로 보리는 전체의 90%, 밀은 92%를 차지하였다. 단일 불포화지방산은 보리가 11∼13%, 밀이 21∼27%이며, 다중불포화지방산은 보리가 57∼59%, 밀은 36∼50%로 보리가 더 많은 것으로 나타났다. PUFA/SFA 비율은 보리의 경우 2.1로 품종별로 지방산 조성에 차이를 나타내지 않은 반면 밀은 1.0∼1.9 범위로 품종별로 지방산 조성에 차이를 나타내었다. 보리와 밀의 아미노산 함량은 glutamic acid를 가장 많이 함유하는 것으로 분석되었다. 보리 품종별 필수아미노산 함량을 살펴보면 Lysine, valine, tryptophan 함량은 두산8호에서, phenylalanine 함량은 서둔찰보리에 많이 함유되어 있는 것으로 분석되었다. 밀 품종별 Iysine, isoleucine 함량은 탑동밀에서 다소 낮았다.) 보였다. 체질량지수와 비만지수는 각각 HDL-콜레스테롤과는 부의 (각 P<0.05), 적혈구수와는 정의(각 p<0.05) 상관관계를 보였다. 허리엉덩이둘레비는 혈청 GPT, glucose, MCV와 각각 유의한 정의 상관관계를 보였다(각 p<0.05). 이상의 연구결과를 종합할 때 남녀 비만 중학생 모두 총 열량 섭취량 중 지질로 인한 열량 섭취비율이 높았고 비만도가 증가할수록 콜레스테롤의

Hardware Approach to Fuzzy Inference―ASIC and RISC―

  • Watanabe, Hiroyuki
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.975-976
    • /
    • 1993
  • This talk presents the overview of the author's research and development activities on fuzzy inference hardware. We involved it with two distinct approaches. The first approach is to use application specific integrated circuits (ASIC) technology. The fuzzy inference method is directly implemented in silicon. The second approach, which is in its preliminary stage, is to use more conventional microprocessor architecture. Here, we use a quantitative technique used by designer of reduced instruction set computer (RISC) to modify an architecture of a microprocessor. In the ASIC approach, we implemented the most widely used fuzzy inference mechanism directly on silicon. The mechanism is beaded on a max-min compositional rule of inference, and Mandami's method of fuzzy implication. The two VLSI fuzzy inference chips are designed, fabricated, and fully tested. Both used a full-custom CMOS technology. The second and more claborate chip was designed at the University of North Carolina(U C) in cooperation with MCNC. Both VLSI chips had muliple datapaths for rule digital fuzzy inference chips had multiple datapaths for rule evaluation, and they executed multiple fuzzy if-then rules in parallel. The AT & T chip is the first digital fuzzy inference chip in the world. It ran with a 20 MHz clock cycle and achieved an approximately 80.000 Fuzzy Logical inferences Per Second (FLIPS). It stored and executed 16 fuzzy if-then rules. Since it was designed as a proof of concept prototype chip, it had minimal amount of peripheral logic for system integration. UNC/MCNC chip consists of 688,131 transistors of which 476,160 are used for RAM memory. It ran with a 10 MHz clock cycle. The chip has a 3-staged pipeline and initiates a computation of new inference every 64 cycle. This chip achieved an approximately 160,000 FLIPS. The new architecture have the following important improvements from the AT & T chip: Programmable rule set memory (RAM). On-chip fuzzification operation by a table lookup method. On-chip defuzzification operation by a centroid method. Reconfigurable architecture for processing two rule formats. RAM/datapath redundancy for higher yield It can store and execute 51 if-then rule of the following format: IF A and B and C and D Then Do E, and Then Do F. With this format, the chip takes four inputs and produces two outputs. By software reconfiguration, it can store and execute 102 if-then rules of the following simpler format using the same datapath: IF A and B Then Do E. With this format the chip takes two inputs and produces one outputs. We have built two VME-bus board systems based on this chip for Oak Ridge National Laboratory (ORNL). The board is now installed in a robot at ORNL. Researchers uses this board for experiment in autonomous robot navigation. The Fuzzy Logic system board places the Fuzzy chip into a VMEbus environment. High level C language functions hide the operational details of the board from the applications programme . The programmer treats rule memories and fuzzification function memories as local structures passed as parameters to the C functions. ASIC fuzzy inference hardware is extremely fast, but they are limited in generality. Many aspects of the design are limited or fixed. We have proposed to designing a are limited or fixed. We have proposed to designing a fuzzy information processor as an application specific processor using a quantitative approach. The quantitative approach was developed by RISC designers. In effect, we are interested in evaluating the effectiveness of a specialized RISC processor for fuzzy information processing. As the first step, we measured the possible speed-up of a fuzzy inference program based on if-then rules by an introduction of specialized instructions, i.e., min and max instructions. The minimum and maximum operations are heavily used in fuzzy logic applications as fuzzy intersection and union. We performed measurements using a MIPS R3000 as a base micropro essor. The initial result is encouraging. We can achieve as high as a 2.5 increase in inference speed if the R3000 had min and max instructions. Also, they are useful for speeding up other fuzzy operations such as bounded product and bounded sum. The embedded processor's main task is to control some device or process. It usually runs a single or a embedded processer to create an embedded processor for fuzzy control is very effective. Table I shows the measured speed of the inference by a MIPS R3000 microprocessor, a fictitious MIPS R3000 microprocessor with min and max instructions, and a UNC/MCNC ASIC fuzzy inference chip. The software that used on microprocessors is a simulator of the ASIC chip. The first row is the computation time in seconds of 6000 inferences using 51 rules where each fuzzy set is represented by an array of 64 elements. The second row is the time required to perform a single inference. The last row is the fuzzy logical inferences per second (FLIPS) measured for ach device. There is a large gap in run time between the ASIC and software approaches even if we resort to a specialized fuzzy microprocessor. As for design time and cost, these two approaches represent two extremes. An ASIC approach is extremely expensive. It is, therefore, an important research topic to design a specialized computing architecture for fuzzy applications that falls between these two extremes both in run time and design time/cost. TABLEI INFERENCE TIME BY 51 RULES {{{{Time }}{{MIPS R3000 }}{{ASIC }}{{Regular }}{{With min/mix }}{{6000 inference 1 inference FLIPS }}{{125s 20.8ms 48 }}{{49s 8.2ms 122 }}{{0.0038s 6.4㎲ 156,250 }} }}

  • PDF