• 제목/요약/키워드: shared parallel systems

검색결과 68건 처리시간 0.026초

Study of an In-order SMT Architecture and Grouping Schemes

  • Moon, Byung-In;Kim, Moon-Gyung;Hong, In-Pyo;Kim, Ki-Chang;Lee, Yong-Surk
    • International Journal of Control, Automation, and Systems
    • /
    • 제1권3호
    • /
    • pp.339-350
    • /
    • 2003
  • In this paper, we propose a simultaneous multithreading (SMT) architecture that improves instruction throughput by exploiting instruction level parallelism (ILP) and thread level parallelism (TLP). The proposed architecture issues and completes instructions belonging to the same thread in exact program order. The issue and completion policy greatly reduces the design complexity and hardware cost of our architecture, compared with others that employ out-of-order issue and completion. On the other hand, when the instructions belong to different threads, the issue and completion orders for those instructions may not necessarily be identical to the fetch order. The processor issues instructions simultaneously from multiple threads to functional units by exploiting ILP and TLP, and by dynamic resource sharing. That parallel execution notably improves performance and resource utilization with minimal additional hardware cost over the conventional superscalar processors. This paper proposes an SMT architecture with grouping as well as one without grouping. Without grouping, all threads dynamically and flexibly share most resources. On the other hand, in the SMT architecture with grouping, in which resources and threads are divided into several groups for design simplification, resources are shared only among threads belonging to the same group as those resources. Simulation results show that our processors with four and eight threads improve performance by three or more times over the conventional superscalar processor with comparable execution resources and policies, and that reasonable grouping reduces the design complexity of SMT processors with little negative effect on performance.

광통신 시스템을 위한 40Gb/s Forward Error Correction 구조 설계 (40Gb/s Foward Error Correction Architecture for Optical Communication System)

  • 이승범;이한호
    • 대한전자공학회논문지SD
    • /
    • 제45권2호
    • /
    • pp.101-111
    • /
    • 2008
  • 본 논문은 40Gb/s급 광통신 시스템에서 사용되는 고속 리드-솔로몬(RS) 복호기의 하드웨어 면적을 줄인 새로운 구조를 소개하고 RS 복호기 기반의 고속 FEC구조를 제안한다. 특히 높은 데이터처리율과 적은 하드웨어 복잡도를 가지고 있는 차수 연산 블록이 제거된 pDCME 알고리즘 구조를 소개한다. 제안된 16채널 RS FEC구조는 8개의 신드롬 계산 블록이 1개의 KES 블록을 공유하는 8 채널 RS FEC구조 2개로 구성되어 있다. 따라서 4개의 신드롬 계산 블록에 1개의 KES블록을 공유하는 기존의 16채널 3-병렬 FEC 구조와 비교하여 하드웨어 복잡도를 약 30%정도 줄일 수 있다. 제안된 FEC 구조는 1.8V의 공급전압과 $0.18-{\mu}m$ CMOS 기술을 사용하여 구현하였고 총 250K개의 게이트수와 5.1Gbit/s의 데이터 처리율을 가지고 400MHz의 클럭 주파수에서 동작함을 보여준다. 제안된 면적 효율적인 FEC 구조는 초고속 광통신뿐만 아니라 무선통신을 위한 차세대 FEC 구조 등에 바로 적용될 수 있을 것이다.

적응적 중복 객체 알고리즘을 이용한 객체 복제본 관리 연구 (The Study of the Object Replication Management using Adaptive Duplication Object Algorithm)

  • 박종선;장용철;오수열
    • 한국컴퓨터정보학회논문지
    • /
    • 제8권1호
    • /
    • pp.51-59
    • /
    • 2003
  • 분산 객체 복제 시스템에서 노드들이 공유하는 객체는 동일 내용을 복수 노드에 위치시키는 것이 효율적이다. 노드들은 시스템에 접근시 접근 정보를 자신의 지역 캐시에 저장해 두었다가 필요시에 인출해서 사용한다. 그러나 시간이 지나감에 따라 다른 노드들에 의해서 데이터의 갱신이 이루어지기 때문에 일관성 문제가 발생한다. 따라서 시스템의 일관성 유지를 통해 성능 및 가용성을 높이기 위해서는 객체를 효율적으로 관리하는 메커니즘이 필요하다. 본 논문에서는 공유 메모리 환경에서 일관성 유지를 위해 객체 관리시 기존의 중복 기법에서 사용하는 일관성 비용 외에 부가 비용이 없이도 제한적으로 병렬 수행의 효과를 얻으며, 또한 중복 기법에서 가장 큰 오버헤드로 알려진 일관성 유지비용을 최소화시키기 위하여 이 비용을 결정하는 가장 핵심적인 요소인 객체 복제본의 수와 위치 그리고 각 객체 사이의 상관도를 고려하여 객체를 효율적으로 관리하고, 전체 수행 시간을 개선시키는 적응적 중복 객체 관리 메커니즘을 연구한다.

  • PDF

임플란트 피개의치에서 지대주와 골의 변형률에 관한 연구 (Strains of abutment and bones on implant overdentures)

  • 김명석;허성주;곽재영;김성균
    • 대한치과보철학회지
    • /
    • 제47권2호
    • /
    • pp.222-231
    • /
    • 2009
  • 연구목적: 임플란트 피개의치에서 연결고정형과 비연결고정형 보철물 지대주와 골의 변형률을 비교하고 임플란트 식립 경사에 따른 변형률을 비교 분석하고자 하였다. 연구 재료 및 방법: 2개의 아크릴릭 레진 모형의 좌측과 우측 견치 부위에 2개의 외부연결형 임플란트를 각각의 모형에 식립하였다. 한 모형에는 두 개의 임플란트를 평행하게 식립하였고, 다른 모형에는 순측과 설측으로 10도의 이개도(divergence)를 가지게 임플란트를 식립하였다. 모형에서 바를 이용한 연결고정형 지대주와 볼을 이용한 비연결고정형 지대주를 고정체에 번갈아 연결하고, 각각의 경우 대응하는 유지장치가 부착된 피개의치를 제작하여 지대주 상에 안착시켰다. 전기저항 스트레인 게이지(strain gauge)를 이용하여 피개의치에 100 N에서 200 N의 부하를 가하였을 때 지대주와 가상골 표면의 변형률(strain)을 측정하였다. 결과 및 결론: 측정된 값들을 통계분석하여 얻은 결과는 다음과 같다. 바를 이용한 연결고정형 보철물은 비연결형 보철물 보다 높은 변형률 값을 보였다. 그러나 방향은 주로 압축력이었으며 부하는 분산되었다(P<.05). 볼을 이용한 비연결고정형 보철물은 연결고정형보다 낮은 변형률 값을 보였다(P<.05). 순측경사된 임플란트에서는 비연결고정형 보철물이 연결고정형 보철물보다 더 높은 변형률 값을 보였다. 설측경사된 임플란트는 순측경사된 임플란트보다 낮은 변형률을 보였다(P<.05). 임플란트가 평행하게 식립된 경우보다 평행하지 않게 식립된 경우 지대주와 가상골의 변형률 값이 더 높았다(P<.05).

메모리 상주 DBMS 기반의 OLTP 응용을 위한 다중프로세서 시스템 캐쉬 성능 분석 (Cache Performance Analysis of Multiprocessor Systems for OLTP Applications based on a Memory-Resident DBMS)

  • 정용화;한우종;윤석한;박진원;이강우;김양우
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권4호
    • /
    • pp.383-392
    • /
    • 2000
  • 다중프로세서 시스템에 대한 대부분의 기존 연구는 과학계산용 응용을 중심으로 수행되어 왔으며, 또 다른 응용 분야인 상용 응용을 이용한 연구는 아직까지 초보 단계에 머물고 있는 실정이다. 이는 상용 DBMS의 소스 프로그램을 액세스하기가 쉽지 않으며, POSTGRES와 같은 공개된 소스 프로그램을 액세스 할 수 있더라도 컴퓨터 구조 설계자가 수십만 라인의 그 소스 프로그램을 이해하여 의미있는 성능분석을 수행하기는 사실상 불가능하기 때문이다. 본 연구에서는 상용 응용을 이용하여 다중프로세서 시스템을 분석하기 위하여, SQL로 작성된 병렬 프로그램을 아키텍처 시뮬레이터 상에서 수행할 수 있는 EZDB라는 병렬 DBMS를 자체 개발하였다. EZDB가 POSTGRES와 다른점은 그 목적이 다중프로세서 시스템에서 상용 응용을 수행시키고 그 성능을 쉽게 분석할 수 있다는 점이다. EZDB의 유용함을 확인하기 위해, 본 논문에서는 다중프로세서 시스템에서 TPC-B 작업부하를 수행시켰을 때의 캐쉬 성능을 분석한다. 구축된 작업부하를 기반으로 프로그램 구동 시뮬레이션을 수행한 결과, 상용 응용에서 데이터 구조의 공유 특성이 매우 특별하며 국부성 및 작업 세트가 과학계산 응용의 경우와 매우 상이함을 확인하였다.

  • PDF

플래시 저장장치 컨트롤러 시스템을 위한 동적 낸드 오퍼레이션 스케줄링 (Dynamic NAND Operation Scheduling for Flash Storage Controller Systems)

  • 정재형;송용호
    • 전자공학회논문지
    • /
    • 제50권6호
    • /
    • pp.188-198
    • /
    • 2013
  • 낸드 플래시 메모리 기반 저장장치는 성능을 높이기 위하여 내부에 다수의 플래시 메모리가 공유하는 데이터 버스들을 구성하고, 이 구조를 이용하여 다수의 플래시 메모리 오퍼레이션을 동시에 수행하는 병렬 기법을 사용한다. 저장장치의 성능은 개별 데이터 버스의 성능에 의하여 많은 영향을 받기 때문에, 저장장치 컨트롤러가 오퍼레이션을 효과적으로 스케줄링 함으로써 버스의 성능을 높이는 것이 중요하다. 그러나 오퍼레이션 별로 상이한 동작시간과 버스사용 특성으로 인하여 시시각각 변화하는 버스의 상황은 스케줄링을 어렵게 만든다. 또한 단순히 버스 사용효율을 높이기 위한 스케줄링 기법은 예상하지 못한 오퍼레이션의 지연과 저장장치의 자원 낭비를 초래할 수 있다. 본 논문에서는 데이터 버스의 성능과 저장장치의 자원 효율을 고려한 동적인 오퍼레이션 스케줄링 기법들을 제안한다. 제안하는 기법들은 오퍼레이션을 세 단계로 구분한 후 오퍼레이션의 특성과 데이터 버스의 상황에 따라 이들을 스케줄링 한다. 제안된 기법들을 컨트롤러에 적용하여 FPGA 플랫폼에서 검증한 결과, 제안된 기법을 적용한 컨트롤러는 정적인 스케줄링 기법을 사용하는 컨트롤러에 비하여 쓰기 오퍼레이션의 수가 1.9% 줄어들었으며 4-7% 높은 버스 사용효율과 4-19% 높은 처리량을 보였다.

효율적 자원 탐색을 위한 소셜 웹 태그들을 이용한 동적 가상 온톨로지 생성 연구 (Dynamic Virtual Ontology using Tags with Semantic Relationship on Social-web to Support Effective Search)

  • 이현정;손미애
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.19-33
    • /
    • 2013
  • 본 논문에서는 네트워크 기반 대용량의 자원들을 효율적으로 검색하기 위해 사용자의 요구사항에 기반해 검색에 요구되는 태그들 간의 의미론에 기반한 동적 가상 온톨로지(Dynamic Virtual Ontology using Tags: DyVOT)를 추출하고 이를 이용한 동적 검색 방법론을 제안한다. 태그는 소셜 네트워크 서비스를 지원하거나 이로부터 생성되는 정형 및 비정형의 다양한 자원들에 대한 자원을 대표하는 특성을 포함하는 메타적 정보들로 구성된다. 따라서 본 연구에서는 이러한 태그들을 이용해 자원의 관계를 정의하고 이를 검색 등에 활용하고자 한다. 관계 등의 정의를 위해 태그들의 속성을 정의하는 것이 요구되며, 이를 위해 태그에 연결된 자원들을 이용하였다. 즉, 태그가 어떠한 자원들을 대표하고 있는 지를 추출하여 태그의 성격을 정의하고자 하였고, 태그를 포함하는 자원들이 무엇인지에 의해 태그간의 의미론적인 관계의 설정도 가능하다고 보았다. 즉, 본 연구에서 제안하는 검색 등의 활용을 목적으로 하는 DyVOT는 태그에 연결된 자원에 근거해 태그들 간의 의미론적 관계를 추출하고 이에 기반 하여 가상 동적 온톨로지를 추출한다. 생성된 DyVOT는 대용량의 데이터 처리를 위해 대표적인 예로 검색에 활용될 수 있으며, 태그들 간의 의미적 관계에 기반해 검색 자원의 뷰를 효과적으로 좁혀나가 효율적으로 자원을 탐색하는 것을 가능하도록 한다. 이를 위해 태그들 간의 상하 계층관계가 이미 정의된 시맨틱 태그 클라우드인 정적 온톨로지를 이용한다. 이에 더해, 태그들 간의 연관관계를 정의하고 이에 동적으로 온톨로지를 정의하여 자원 검색을 위한 동적 가상 온톨로지 DyVOT를 생성한다. DyVOT 생성은 먼저 정적온톨로지로부터 사용자 요구사항을 포함하는 태그를 포함한 부분-온톨로지들을 추출하고, 이들이 공유하는 자원의 정도에 따라 부분-온톨로지들 간의 새로운 연관관계 여부를 결정하여 검색에 요구되는 최소한의 동적 가상 온톨로지를 구축한다. 즉, 태그들이 공유하는 자원이 무엇인가에 의해 연관관계가 높은 태그들 간에는 이들의 관계를 설명하는 새로운 클래스를 가진 생성된 동적 가상 온톨로지를 이용하여 검색에 활용한다. 온톨로지의 인스턴스는 자원으로 정의되고, 즉 이는 사용자가 검색하고자 하는 해로서 정의된다. 태그들 간의 관계에 의해 생성된 DyVOT를 이용해 기존 정적 온톨로지나 키워드 기반 탐색에 비해 검색해야 할 자원의 량을 줄여 검색의 정확성과 신속성을 향상 시킨다.

방출단층촬영 시스템을 위한 GPU 기반 반복적 기댓값 최대화 재구성 알고리즘 연구 (A Study on GPU-based Iterative ML-EM Reconstruction Algorithm for Emission Computed Tomographic Imaging Systems)

  • 하우석;김수미;박민재;이동수;이재성
    • Nuclear Medicine and Molecular Imaging
    • /
    • 제43권5호
    • /
    • pp.459-467
    • /
    • 2009
  • 목적: ML-EM (The maximum likelihood-expectation maximization) 기법은 방출과 검출 과정에 대한 통계학적 모델에 기반한 재구성 알고리즘이다. ML-EM은 결과 영상의 정확성과 유용성에 있어 많은 이점이 있는 반면 반복적인 계산과 방대한 작업량 때문에 CPU(central processing unit)로 처리할 때 상당한 연산시간이 소요되었다. 본 연구에서는 GPU(graphic processing unit)의 병렬 처리 기술을 ML-EM 알고리즘에 적용하여 영상을 재구성하였다. 대상 및 방법: 엔비디아사(社)의 CUDA 기술을 이용하여 ML-EM 알고리즘의 투사 및 역투사 과정을 병렬화 전략을 구상하였으며 Geforce 9800 GTX+ 그래픽 카드를 이용하여 병렬화 연산을 수행하여 기존의 단일 CPU기반 연산법과 비교하였다. 각 반복횟수마다 투사 및 역투사 과정에 걸리는 총 지연 시간과 퍼센트 오차(percent error)를 측정하였다. 총 지연 시간에는 RAM과 GPU 메모리 간의 데이터 전송 지연 시간도 포함하였다. 결과: 모든 반복횟수에 대해 CPU 기반 ML-EM 알고리즘보다 GPU 기반 알고리즘이 더 빠른 성능을 나타내는 것을 확인하였다. 단일 CPU 및 GPU 기반 ML-EM의 32번 반복연산에 있어 각각 3.83초와 0.26초가 걸렸으며 GPU의 병렬연산의 경우 15배 정도의 개선된 성능을 보였다. 반복횟수가 1024까지 증가하였을 경우, CPU와 GPU 기반 알고리즘은 각각 18분과 8초의 연산시간이 걸렸다. GPU 기반 알고리즘이 약 135배 빠른 처리속도를 보였는데 이는 단일 CPU 계산이 특정 반복횟수 이후 나타나는 시간 지연에 따른 것이다. 결과적으로, GPU 기반 계산이 더 작은 편차와 빠른 속도를 보였다. 결론: ML-EM 알고리즘에 기초한 GPU기반 병렬 계산이 처리 속도와 안정성을 더 증진시킴을 확인하였으며 이를 활용해 다른 영상 재구성 알고리즘에도 적용시킬 수 있을 것으로 기대한다.