• 제목/요약/키워드: single clock

검색결과 245건 처리시간 0.03초

분기 선예측과 개선된 BTB 구조를 사용한 분기 예측 지연시간 은폐 기법 (Branch Prediction Latency Hiding Scheme using Branch Pre-Prediction and Modified BTB)

  • 김주환;곽종욱;전주식
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.1-10
    • /
    • 2009
  • 현대의 프로세서 아키텍처에서 정확한 분기 예측은 시스템의 성능에 지대한 영향을 끼친다. 최근의 연구들은 예측 정확도뿐만 아니라, 예측 지연시간 또한 성능에 막대한 영향을 끼친다는 것을 보여준다. 하지만, 예측 지연시간은 간과되는 경향이 있다. 본 논문에서는 분기 예측지연시간을 극복하기 위한 분기 선예측 기법을 제안한다. 이 기법은 분기장치를 인출 단계에서 분리함으로써, 분기 예측기가 명령어 인출 장치로부터의 아무런 정보도 없이 스스로 분기 예측을 진행 가능하게 한다. 또한, 제안된 기법을 지원하기 위해, BTB의 구조를 새롭게 개선하였다. 실험 결과는 제안된 기법이 동일한수준의 분기 예측정확도를 유지하면서, 대부분의 예측지연시간을 은폐한다는 것을 보여준다. 더욱이 제안된 기법은 항상 1 싸이클의 예측 지연시간을 가지는 이상적인 분기 예측기를 사용한 경우보다도 더 나은 성능을 보여준다. 본 논문의 실험 결과에 따르면, 기존의 방식과 비교했을 때, 최대 11.92% 평균 5.15%의 IPC 향상을 가져온다.

단일집진법(單一集塵法)에 의(依)한 라돈 붕괴생성물(崩壞生成物)의 농도측정(濃度測定) (Measurement of Radon Daughters' Radioactivities by Using Single Filtering Method)

  • 장시영;노성기;홍종숙
    • Journal of Radiation Protection and Research
    • /
    • 제6권1호
    • /
    • pp.25-30
    • /
    • 1981
  • 단일집진법(單一集塵法)을 써서 공기부유진중(空氣浮游塵中)에 존재(存在)하는 라돈 붕괴생성물(崩壞生成物), 즉, RaA, RaB 및 RaC 의 방사능(放射能)(또는 농도(濃度))을 측정(測定)하였다. 이것은 단일집진장치(單一集塵裝置)를 이용하여 평균공격(平均孔隔)(mean pore size)이 $0.8{\mu}m$인 membrane 노지(瀘紙)에 채취(採取)한 시료(試料)의 전(全) 알파방사능(放射能)을 시차별(時差別)로 측정(測定)한 후 그 결과(結果)로부터 라돈 붕괴생성물(崩壞生成物)의 농도(濃度)를 Ci 또는 WL(working level) 단위(單位)로 산출(算出)하는 방법(方法)이다. 여기서는 농도외(濃度外)에도 농도치(濃度値)의 표준편차(標準偏差) 및 라돈 붕괴생성물(崩壞生成物)의 방사평형상태(放射平衡狀態)를 나타내는 방사평형인자(放射平衡因子)와 방사평형비(放射平衡比)를 구(求)하였다. Ci 및 WL단위(單位)로 주어진 라돈 붕괴생성물(崩壞生成物)의 농도(濃度)는 실험기간중(實驗期間中) 각각 $0.30{\sim}2.36pCi/l$$0.89{\times}10^{-3}{\sim}6.57{\times}10^{-3}WL$로서 시간적(時間的) 요동이 심하였는데 대개 하루중(中) 오전(午前)에 높고 오후(午後)에 낮은 현상을 보여 주었다. RaA, RaB 및 RaC의 농도산출(濃度算出)에 따른 표준편차(標準偏差)는 각각 ${\pm}57.75%,\;{\pm}22.32%$${\pm}31.29%$였으며 방사평형인자(放射平衡因子)는 평균(平均) 0.322였다. 그리고 RaA를 모핵종(母核種)으로 가정(假定)했을 때 각핵종간(各核種間)의 방사평형비(放射平衡比)는 대개 $C_1>C_2>C_3$인 것으로 나타났다. 여기서 $C_1,\;C_2$$C_3$는 각각 RaA, RaB 및 RaC의 농도(濃度)를 나타낸다.

  • PDF

자가 슬괵건을 이용한 전방 십자 인대 이준 다발 재건술 - 수술 술기 - (Anterior Cruciate Ligament Double Bundle Reconstruction with Hamstring Tendon Autografts - Technical Notes)

  • 안진환;이상학;안형권;강홍제
    • 대한관절경학회지
    • /
    • 제9권2호
    • /
    • pp.222-231
    • /
    • 2005
  • 목적: 저자들은 5가닥의 자가 슬괵건을 이용하여 기존의 전내측 다발에 부가적인 후외측 다발을 통한 전방 십자인대 이중 다발 재건술을 소개하고자 한다. 수술 술기: 경골 터널은 기존의 단일 터널 방법을 사용하였고, 대퇴 터널은 전내측과 후외측 다발을 위한 이중 터널 방법을 사용하였다. 전내측 대퇴 터널은 최소한의 대퇴 과간 절흔 성형술 후 기존의 방법과 동일하게 11시 혹은 1시 방향에 대퇴과 절흔의 후방 경계(over-the-top)에서 후방 피질골이 1 mm 두께로 남아 있게 만든다. 또한 후 외측 대퇴 터널은 outside-in 방법을 사용하여 관절 내 터널 위치는 슬관절 90도 굴곡 상태에서 외측 반월상 연골 후각의 경골 부착부 내연(inner margin)에서 외측 대퇴과 내측벽의 상방 $5{\sim}7mm$ 부위에 4.5 mm reamer 이용하여 만들어 준다. 이중 다발을 위한 이식건으로 전내측 다발은 기존의 4가닥 슬괵건을 사용하고 후외측 다발은 반건양건 단일 가닥으로 만든다. 대퇴 터널 고정 방법으로 전내측 다발은 rigid fix system으로 고정하며 후외측 다발은 관절 밖에 miniplate를 이용하여 endobutton 방식으로 결찰로 고정한다. 이 후 경골 터널 고정은 슬관절을 $10{\sim}20$도 굴곡 상태에서 이중 다발을 함께 인장 강도를 주고 간섭 나사못으로 고정하고 post tie로 보강한다. 결론: 저자들은 비교적 우수한 결과를 보여주었던 기존의 전내측 다발에 회전 안정성을 위한 부가적인 후외측 다발을 통해 5가닥(경우에 따라 6가닥)의 자가 슬괵건을 이용한 이중 다발 재건술을 시행함으로써 좋은 결과가 기대된다.

  • PDF

Hardware Approach to Fuzzy Inference―ASIC and RISC―

  • Watanabe, Hiroyuki
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.975-976
    • /
    • 1993
  • This talk presents the overview of the author's research and development activities on fuzzy inference hardware. We involved it with two distinct approaches. The first approach is to use application specific integrated circuits (ASIC) technology. The fuzzy inference method is directly implemented in silicon. The second approach, which is in its preliminary stage, is to use more conventional microprocessor architecture. Here, we use a quantitative technique used by designer of reduced instruction set computer (RISC) to modify an architecture of a microprocessor. In the ASIC approach, we implemented the most widely used fuzzy inference mechanism directly on silicon. The mechanism is beaded on a max-min compositional rule of inference, and Mandami's method of fuzzy implication. The two VLSI fuzzy inference chips are designed, fabricated, and fully tested. Both used a full-custom CMOS technology. The second and more claborate chip was designed at the University of North Carolina(U C) in cooperation with MCNC. Both VLSI chips had muliple datapaths for rule digital fuzzy inference chips had multiple datapaths for rule evaluation, and they executed multiple fuzzy if-then rules in parallel. The AT & T chip is the first digital fuzzy inference chip in the world. It ran with a 20 MHz clock cycle and achieved an approximately 80.000 Fuzzy Logical inferences Per Second (FLIPS). It stored and executed 16 fuzzy if-then rules. Since it was designed as a proof of concept prototype chip, it had minimal amount of peripheral logic for system integration. UNC/MCNC chip consists of 688,131 transistors of which 476,160 are used for RAM memory. It ran with a 10 MHz clock cycle. The chip has a 3-staged pipeline and initiates a computation of new inference every 64 cycle. This chip achieved an approximately 160,000 FLIPS. The new architecture have the following important improvements from the AT & T chip: Programmable rule set memory (RAM). On-chip fuzzification operation by a table lookup method. On-chip defuzzification operation by a centroid method. Reconfigurable architecture for processing two rule formats. RAM/datapath redundancy for higher yield It can store and execute 51 if-then rule of the following format: IF A and B and C and D Then Do E, and Then Do F. With this format, the chip takes four inputs and produces two outputs. By software reconfiguration, it can store and execute 102 if-then rules of the following simpler format using the same datapath: IF A and B Then Do E. With this format the chip takes two inputs and produces one outputs. We have built two VME-bus board systems based on this chip for Oak Ridge National Laboratory (ORNL). The board is now installed in a robot at ORNL. Researchers uses this board for experiment in autonomous robot navigation. The Fuzzy Logic system board places the Fuzzy chip into a VMEbus environment. High level C language functions hide the operational details of the board from the applications programme . The programmer treats rule memories and fuzzification function memories as local structures passed as parameters to the C functions. ASIC fuzzy inference hardware is extremely fast, but they are limited in generality. Many aspects of the design are limited or fixed. We have proposed to designing a are limited or fixed. We have proposed to designing a fuzzy information processor as an application specific processor using a quantitative approach. The quantitative approach was developed by RISC designers. In effect, we are interested in evaluating the effectiveness of a specialized RISC processor for fuzzy information processing. As the first step, we measured the possible speed-up of a fuzzy inference program based on if-then rules by an introduction of specialized instructions, i.e., min and max instructions. The minimum and maximum operations are heavily used in fuzzy logic applications as fuzzy intersection and union. We performed measurements using a MIPS R3000 as a base micropro essor. The initial result is encouraging. We can achieve as high as a 2.5 increase in inference speed if the R3000 had min and max instructions. Also, they are useful for speeding up other fuzzy operations such as bounded product and bounded sum. The embedded processor's main task is to control some device or process. It usually runs a single or a embedded processer to create an embedded processor for fuzzy control is very effective. Table I shows the measured speed of the inference by a MIPS R3000 microprocessor, a fictitious MIPS R3000 microprocessor with min and max instructions, and a UNC/MCNC ASIC fuzzy inference chip. The software that used on microprocessors is a simulator of the ASIC chip. The first row is the computation time in seconds of 6000 inferences using 51 rules where each fuzzy set is represented by an array of 64 elements. The second row is the time required to perform a single inference. The last row is the fuzzy logical inferences per second (FLIPS) measured for ach device. There is a large gap in run time between the ASIC and software approaches even if we resort to a specialized fuzzy microprocessor. As for design time and cost, these two approaches represent two extremes. An ASIC approach is extremely expensive. It is, therefore, an important research topic to design a specialized computing architecture for fuzzy applications that falls between these two extremes both in run time and design time/cost. TABLEI INFERENCE TIME BY 51 RULES {{{{Time }}{{MIPS R3000 }}{{ASIC }}{{Regular }}{{With min/mix }}{{6000 inference 1 inference FLIPS }}{{125s 20.8ms 48 }}{{49s 8.2ms 122 }}{{0.0038s 6.4㎲ 156,250 }} }}

  • PDF

QoS 개선과 서비스 커버리지 확장을 위한 단일 주파수망 지상파 DMB 최적화 배치 (Optimum Configuration of Single Frequency Network DMB to enhance the QoS and Service coverage)

  • 조영훈;원충호;서종수
    • 방송공학회논문지
    • /
    • 제19권4호
    • /
    • pp.439-452
    • /
    • 2014
  • 본 논문에서는 지상파 DMB 단일 주파수 망(SFN) 설계에서 GPS를 기준 시각으로 모든 사이트의 송출 동기를 일치시키는 기존의 운용방식과 병행하여, 각 사이트의 지형적 특징을 반영한 송신 offset delay를 추가 적용함으로써 동일한 송신 제원으로 기존 대비 서비스 영역을 확장시키는 방법을 연구하였다. 실험결과 미약한 수신 전계강도 지역에서 송신 offset delay가 수신 신호품질을 개선시켰으며 방송 통신위원회가 권고하는 최소 수신 전계강도($45dB{\mu}V/m$) 지점을 기준으로 4~8 km 서비스 영역이 확장됨을 확인하였다. 각 사이트 별 고유한 송신 offset delay를 계산하기 위해서 서비스 영역 내 지리적 특징, 인접 사이트 간 전계강도 분포, 그리고 사이트별 서비스 목표 영역 등 여러 사항을 고려하였으며 본 연구에 대한 검증 실험은 수도권 DMB 서비스 영역으로 한정하였다. 또한 산출된 송신 offset delay가 단일 주파수망에 미치는 영향을 분석하기위해 수신 전계강도와 delay 간의 상관관계를 실험을 통해 분석함으로써, 송신 offset delay의 적용이 서비스 영역을 얼마나 확장시킬 수 있는지 확인하였다.

광통신 시스템을 위한 40Gb/s Forward Error Correction 구조 설계 (40Gb/s Foward Error Correction Architecture for Optical Communication System)

  • 이승범;이한호
    • 대한전자공학회논문지SD
    • /
    • 제45권2호
    • /
    • pp.101-111
    • /
    • 2008
  • 본 논문은 40Gb/s급 광통신 시스템에서 사용되는 고속 리드-솔로몬(RS) 복호기의 하드웨어 면적을 줄인 새로운 구조를 소개하고 RS 복호기 기반의 고속 FEC구조를 제안한다. 특히 높은 데이터처리율과 적은 하드웨어 복잡도를 가지고 있는 차수 연산 블록이 제거된 pDCME 알고리즘 구조를 소개한다. 제안된 16채널 RS FEC구조는 8개의 신드롬 계산 블록이 1개의 KES 블록을 공유하는 8 채널 RS FEC구조 2개로 구성되어 있다. 따라서 4개의 신드롬 계산 블록에 1개의 KES블록을 공유하는 기존의 16채널 3-병렬 FEC 구조와 비교하여 하드웨어 복잡도를 약 30%정도 줄일 수 있다. 제안된 FEC 구조는 1.8V의 공급전압과 $0.18-{\mu}m$ CMOS 기술을 사용하여 구현하였고 총 250K개의 게이트수와 5.1Gbit/s의 데이터 처리율을 가지고 400MHz의 클럭 주파수에서 동작함을 보여준다. 제안된 면적 효율적인 FEC 구조는 초고속 광통신뿐만 아니라 무선통신을 위한 차세대 FEC 구조 등에 바로 적용될 수 있을 것이다.

Delayed LMS와 Redundant Binary 복소수 필터구조를 이용한 파이프라인 적응 결정귀환 등화기 설계 (A Design of Pipelined Adaptive Decision-Feedback Equalized using Delayed LMS and Redundant Binary Complex Filter Structure)

  • 안병규;이종남;신경욱
    • 대한전자공학회논문지SD
    • /
    • 제37권12호
    • /
    • pp.60-69
    • /
    • 2000
  • 광대역 무선 디지털 통신 시스템용 파이프라인 적응 결정귀환 등화기(pipelined adaptive decision-feedback equalizer; PADFE)를 0,25-${\mu}m$ CMOS 공정을 사용하여 full custom 단일 칩으로 설계하였다. ADFE의 동작속도를 향상시키기 위해 DLMS(delayed least-mean-square)을 적용한 2-stage 파이프라인 구조로 설계하였다. PADFE의 필터와 계수갱신 블록 등 모든 연산을 redundant binary(RB) 수치계로 처리하였으며, 2의 보수 수치계를 사용하는 기존의 방식에 비해 연산량의 감소와 동작속도의 향상이 얻어졌으며, 또한 전체적인 구조의 단순화에 의해 VLSI 구현이 용이하다는 장점을 갖는다. COSSAP을 이용한 알고리듬 레벨 시뮬레이션을 통해 파이프라인 stage 수, 필터 tap 수, 계수 및 내부 비트 수 등의 설계 파라메터 결정과 bit error rate(BER), 수렴속도 등을 분석하였다. 설계된 PADFE는 약 205,000개의 트랜지스터로 구성되며, 코어의 면적은 41.96\times1.35-mm^2$이다. 시뮬레이션 결과, 2.5-V 전원전압에서 200-MHz의 클록 주파수로 동작 가능할 것으로 예상되며, 평균 전력소모는 약 890-mW로 예측되었다. 제작된 칩의 테스트 결과로부터 기능이 정상적으로 동작함을 확인하였다.

  • PDF

UHD 영상을 위한 고성능 HEVC 디블록킹 필터 설계 (Hardware Design of High Performance HEVC Deblocking Filter for UHD Videos)

  • 박재하;류광기
    • 한국정보통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.178-184
    • /
    • 2015
  • 본 논문에서는 UHD(Ultra High Definition) 영상을 위한 고성능 HEVC(High Efficiency Video Coding) 디블록킹 필터 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 필터링 수행시간 단축을 위해 두 개의 필터로 구성된 4단 파이프라인 구조를 가지며 경계강도 모듈을 병렬 구조로 설계하였다. 또한 저전력 하드웨어 구조를 위해 파이프라인의 단계를 클록 게이팅으로 설계하였고, 파이프라인 과정에서 단일 포트 SRAM에 접근할 때 발생하는 해저드 문제를 해결하기 위해 분할된 메모리 구조로 설계하였다. 전처리 단계에서 단일 포트 SRAM에 데이터를 저장할 때 발생하는 지연시간을 감소하기 위해 새로운 필터링 순서를 제안하였다. 본 논문에서 제안하는 디블록킹 필터 하드웨어 구조는 Verilog HDL로 설계 하였으며, TSMC 0.18um CMOS 표준 셀 라이브러리를 이용하여 합성한 결과 22k 개의 로직 게이트로 구현되었다. 또한, 동작 주파수는 150MHz에서 UHD급 8K 해상도인 $7680{\times}4320@60fps$ 처리가 가능하고 최대 동작 주파수는 285MHz이다. 제안하는 하드웨어 구조의 기본 처리단위 당 사이클 수를 비교 분석한 결과, 처리율이 기존 구조 대비 32% 향상된 결과를 얻었다.

HEVC 부호기를 위한 효율적인 디블록킹 하드웨어 설계 (The Hardware Design of Effective Deblocking Filter for HEVC Encoder)

  • 박재하;박승용;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.755-758
    • /
    • 2014
  • 본 논문에서는 고해상도를 위한 고성능 HEVC(High Efficiency Video Coding) 디블록킹 필터 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 필터링 수행시간 단축과 게이트 수 감소를 위한 효율적인 필터링 순서 및 메모리 구조를 가진다. 제안하는 필터링 순서는 전처리 단계에서 단일 포트 SRAM에 데이터를 저장할 때 발생하는 지연시간을 감소시켰고, 고해상도 영상의 실시간 처리를 위해 4단 파이프라인 구조와 10개의 메모리 구조로 설계하였다. 제안하는 메모리 구조는 단일 포트 SRAM을 접근하면서 발생하는 해저드 문제를 해결하였다. 또한 필터링 수행시간을 단축하기 위해 두개의 필터를 사용하여 병렬처리 구조로 구현하였으며, 저전력 하드웨어 구조를 위해 클록 게이팅 구조로 설계하였다. 본 논문에서 제안하는 디블록킹 필터 부호화기 하드웨어는 Verilog HDL로 설계 하였으며, TSMC $0.18{\mu}m$ CMOS 표준 셀 라이브러리를 이용하여 합성한 결과 100k개의 로직 게이트로 구현되었다. 또한, 동작 주파수는 150MHz에서 4K 해상도인 $4096{\times}2160@30$ 처리가 가능하다.

  • PDF

대규모 AC/DC 전력 시스템 실시간 EMP 시뮬레이션의 부하 분산 연구 (Analysis of Distributed Computational Loads in Large-scale AC/DC Power System using Real-Time EMT Simulation)

  • 박인권;이종후;이장;구현근;권용한
    • KEPCO Journal on Electric Power and Energy
    • /
    • 제8권2호
    • /
    • pp.159-179
    • /
    • 2022
  • Often a network becomes complex, and multiple entities would get in charge of managing part of the whole network. An example is a utility grid. While the entire grid would go under a single utility company's responsibility, the network is often split into multiple subsections. Subsequently, each subsection would be given as the responsibility area to the corresponding sub-organization in the utility company. The issue of how to make subsystems of adequate size and minimum number of interconnections between subsystems becomes more critical, especially in real-time simulations. Because the computation capability limit of a single computation unit, regardless of whether it is a high-speed conventional CPU core or an FPGA computational engine, it comes with a maximum limit that can be completed within a given amount of execution time. The issue becomes worsened in real time simulation, in which the computation needs to be in precise synchronization with the real-world clock. When the subject of the computation allows for a longer execution time, i.e., a larger time step size, a larger portion of the network can be put on a computation unit. This translates into a larger margin of the difference between the worst and the best. In other words, even though the worst (or the largest) computational burden is orders of magnitude larger than the best (or the smallest) computational burden, all the necessary computation can still be completed within the given amount of time. However, the requirement of real-time makes the margin much smaller. In other words, the difference between the worst and the best should be as small as possible in order to ensure the even distribution of the computational load. Besides, data exchange/communication is essential in parallel computation, affecting the overall performance. However, the exchange of data takes time. Therefore, the corresponding consideration needs to be with the computational load distribution among multiple calculation units. If it turns out in a satisfactory way, such distribution will raise the possibility of completing the necessary computation in a given amount of time, which might come down in the level of microsecond order. This paper presents an effective way to split a given electrical network, according to multiple criteria, for the purpose of distributing the entire computational load into a set of even (or close to even) sized computational loads. Based on the proposed system splitting method, heavy computation burdens of large-scale electrical networks can be distributed to multiple calculation units, such as an RTDS real time simulator, achieving either more efficient usage of the calculation units, a reduction of the necessary size of the simulation time step, or both.