Transactions on Semiconductor Engineering (반도체공학회 논문지)
The Institute of Semiconductor Engineers (ICE)
- Quarterly
- /
- 3022-2028(eISSN)
Aim & Scope
1946년 트랜지스터의 발명 이후 반도체 기술과 산업은 현대 기술의 핵심적인 요소로 발전하였으며 향후 더 큰 도약을 기대하고 있습니다. (사)반도체공학회에서 발간하는 반도체공학회 논문지 (TSE)는 반도체 분야의 동반 성장을 목표로 하고 있으며 3개의 주요 연구 분야 (반도체 소자, 아날로그 및 디지털 회로, 시스템)뿐 아니라 반도체 관련 모든 내용을 주제로 다루고 있습니다. 또한 반도체공학회 논문지는 반도체 분야의 학제간 연구 에 중점을 두고 있으며 그 연구 성과를 공유하여 지속적으로 경쟁이 심화되는 반도체 연구 환경에서 최신의 정보를 독자들에게 제공하고자 합니다.
Volume 2 Issue 4
-
본 논문은 고정밀 비교기의 설계 및 검증을 위한 방법론을 분석적 접근을 통해 제시한다. 비교기의 성능 요구사항을 충족하기 위해, 이론적 수식을 바탕으로 도출된 파라미터 값을 기반으로 트랜지스터의 초기 설계를 수행하고, 과도 (transient) 몬테 카를로 (Monte Carlo) 시뮬레이션을 통해 오프셋 등의 성능 지표를 분석적으로 검증한다. 이후 파라미터 간의 트레이드-오프 관계를 고려하여 트랜지스터 크기를 최적화함으로써 최종적으로 성능 요구사양을 만족하는 비교기를 설계할 수 있다. 해당 방법론에서는 과도 몬테 카를로 시뮬레이션을 통해 소자 크기와 임계 전압 부정합 및 입력 오프셋 전압 간의 상관관계를 분석적 결과로 확인하고, 비교기 성능의 신뢰도를 검증하여 설계의 타당성을 입증하였다. 본 연구는 비교기 설계 시의 분석적 설계기법을 제시하며, 성능 및 신뢰도를 평가하는 데 기여할 것으로 기대된다.
-
이 논문은 DRAM 인메모리 컴퓨팅을 위한 소프트웨어-하드웨어 공동 최적화 기법을 제시하며, 2T1C 셀 시스템에서 센스 증폭기의 읽기 전력을 크게 감소시킨다. 2 의 보수 표현(2's complement)에서 부호 절대값 표현(signed magnitude)으로 전환함으로써, 데이터 '0'의 발생률을 52%에서 73%로 증가시킨다. 이로 인해 읽기 전력을 13%까지 감소시킬 수 있다. 가변 기준 전압을 포함하는 새로운 센스 증폭기를 설계하여 추가로 15%의 전력 감소에 기여하였다. 이러한 공동 최적화 전략은 기존 대비 총 읽기 전력을 26% 감소시켰으며, 메모리 집약적 컴퓨팅 환경에서 에너지 효율성의 상당한 개선을 보인다.
-
개선된 게이트 바이어스 전압 구조를 갖춘 교차 결합 차동 정류기(Cross-Coupled Differential Rectifier, CCDR)를 제안한다. 제안된 정류기는 주요 정류 트랜지스터에 출력 연결 바이어스를 구현하여 도통 스윙을 증대시키는 추가적인 바이어스를 생성한다. 또한 게이트 단자는 정류기의 가장 낮은 노드와 병렬로 연결되어, 입력 전압을 제안된 게이트 바이어스 노드에 있는 특정 트랜지스터로 제어할 수 있게 한다. 이 설계는 이상적인 안테나를 사용하여 다양한 부하 및 매칭 네트워크 조건에서 시뮬레이션되어 정류기의 입력 임피던스를 맞추고 성능을 극대화한다. 제안된 기술은 28nm 공정을 사용하여 구현되었으며, 65.14%의 피크 변환 효율(PCE)을 달성하고, 다양한 부하에서 21 dBm 의 전체 동적 범위를 갖는다. 이 설계는 10㏀과 100pF 부하에서 0.8 V 의 출력을 생성하며, 동적 범위 내에서 최대 1.5 V 까지 확장될 수 있다.
-
본 논문에서는 High-Level Synthesis(HLS)을 이용하여 차세대 양자내성암호인 ML-DSA 를 하드웨어 가속기로 설계하고 FPGA 에 구현하였으며, 성능 분석 결과 그 우수성을 제시한다. Vitis HLS 에서 제공하는 다양한 Directive 를 활용하여 ML-DSA 알고리즘의 최적화 설계를 수행하고, AXI Interface 를 구성하여 FPGA-기반 양자내성암호 하드웨어 가속기를 설계하였다. Vivado 툴을 이용해서 IP Block Design 을 수행하고 ZYNQ ZCU104 FPGA 에 구현하였다. 최종적으로 PYNQ 프레임워크에서 Python 코드를 사용하여 저장된 동영상 및 문서를 FPGA 에 구현된 ML-DSA 하드웨어 가속기로 처리하여 영상 데이터의 전자서명 생성 및 검증 속도를 가속화하였다.
-
본 논문은 discrete Time-of-Flight Light detection and ranging(dToF LiDAR)의 oscillation frequency 를 안정화하기 위한 아날로그 phase-locked loop(PLL)을 제시한다. Time-to-Digital Converter(TDC)의 고해상도와 정확도를 보장하기 위해 PLL 은 TDC 의 oscillation frequency 를 안정화하도록 빠른 locking 시간과 위상잡음을 줄임으로써 설계되었다. TDC 의 목표 시간 분해능은 200 ps 이지만 공정 후 기생 구성요소의 변화를 고려하여 PLL 과 TDC 모두 8.8 GHz 의 주파수에서 작동하도록 설계하였다. 2.4 us 미만의 locking time 은 TDC 의 빠른 안정화에 기여를 하며 전체 시스템의 안정적인 동작을 실현한다. 1 MHz 오프셋에서 위상 잡음이 -82.57 dBc/Hz 이며, 8.8GHz 의 reference spur 는 -46.24 dBc 를 보인다.
-
최신 메모리 내 연산 (CIM) 기술은 전하 도메인 연산과 다중 비트 입력 구동 방식을 통해 높은 에너지 효율을 달성한다. 하지만 기존 연구들은 여전히 높은 전력 소모를 요구 하며, 에너지 효율을 높이기 위해 계산 신호 대 잡음 비율(SNR)을 희생하는 경우가 많다. 본 연구에서는 에너지 효율적이고 정확한 다중 비트 입력/가중치 병렬 CIM 프로세서를 제안하며, 주요 기능은 다음과 같다: (1) 5 비트 아날로그 입력을 위해 두 단계의 전원 전압만으로 전압-커패시턴스 비율(VCR) 디코딩을 사용하는 10T2C 부호-크기 셀, (2) 입력 드라이버 전력 요구를 줄이기 위한 계산 워드 라인(CWL) 전하 재사용 기술, (3) SNR 을 향상시키기 위한 신호 증폭 잡음 제거 전압-시간 변환기(SANC-VTC), (4) ADC 전력 소비를 줄이기 위한 분포 인식 시간-디지털 변환기(DA-TDC). 제안된 CIM 프로세서는 28 nm CMOS 기술로 1.25 mm2 면적을 차지하며, 전력 소비 4.44 mW, 에너지 효율 332 TOPS/W, 그리고 72.43%의 벤치마크 정확도(이미지넷 기준, ResNet50, 5 비트 입력/5 비트 가중치)를 달성하였다.
-
Hongseok Lee;Wonhoon Park ;Sanghyuk Ahn;Minsung Kim;Hoi-Jun Yoo 41
3D 가우시안 스플래팅 렌더링은 AR/VR 등의 3D 환경 렌더링 기술쪽의 SOTA 이다. 빠른 렌더링과 적은 훈련 데이터로도 고품질의 이미지를 렌더링 하지만, 엣지 디바이스에서 3D 가우시안 렌더링을 달성하는건 각 연산 과정에서 독립적으로 생기는 문제로 인해 제한이 있다. 본 논문에서는 계층적 정렬 연산, 재구성 가능한 연산코어와 중요도 기반 구면조화 함수 변환을 활용해 엣지(FPGA)에서 빠르고 고품질의 렌더링을 달성했다. -
심층 강화학습(Deep Reinforcement Learning, DRL)은 순차적 의사결정 문제에서 인간 수준의 성능을 발휘하며, 엣지 디바이스가 알 수 없는 환경에 스스로 적응할 수 있는 능력을 제공한다. 그러나 대규모 데이터 처리와 방대한 DNN 연산량 요구로 인해 DRL 의 적응 구현은 여전히 어려운 과제다. 기존의 FPGA 기반 DRL 가속기는 계산 가속화에만 초점을 맞춘 탓에 적응 시간이 길어지는 한계를 가진다. 본 논문에서는 빠른 온라인 DRL 적용을 실현하기 위해 에너지 효율적인 FPGA 가속기를 제안한다. 제안된 가속기는 다음과 같은 핵심 기술을 통해 기존 한계를 극복한다: 1) 학습 반복 횟수를 최대 90%까지 줄이는 이기종 리플레이 버퍼(HRB), 2) 계산량을 12% 줄이고, 32 비트 부동소수점 연산의 27.2%를 16 비트 고정소수점 연산으로 대체하는 혼합 정밀도를 적용한 선택적 재학습(MP-SELRET), 3)FPGA 자원의 활용도를 극대화하며 처리량을 39.8% 향상시키는 혼합 정밀도 이기종 아키텍처(MPHA).
-
RISC-V 는 UC 버클리에서 개발된 무료 개방형 ISA 로, 확장성과 효율성을 바탕으로 다양한 설계에 적용될 수 있다. RISC-V 의 기본 명령어 집합인 RV32I 를 기반으로 한 확장 ISA 중 하나인 RV64I 는 64 비트 아키텍처를 지원하며, 고성능 시스템 설계에 적합하다. 본 논문에서는 5 단계 파이프라인 구조를 적용한 RV64I 프로세서를 설계하고, 이를 Intel DE2-115 FPGA 보드에 구현 및 검증하였다. FPGA 합성 결과, 제안된 64 비트 RV64I 프로세서는 최대 동작 주파수 48.83MHz 를 달성하였다. 또한 RV32I 프로세서와 비교를 통해 Total Logic Elements 와 Total Registers 를 포함한 하드웨어 자원 사용량을 분석하였으며, Dhrystone 벤치마크 프로그램의 코드 크기 측면에서 32 비트 RV32I 프로세서 대비 최대 10.35%의 메모리 절감 효과를 확인하였다. 본 연구는 RISC-V 기반 64 비트 아키텍처의 성능과 효율성을 평가하고, 향후 확장 가능성을 제시한다.
-
근사 컴퓨팅은 하드웨어 요소를 최적화하고 정확도 손실을 허용하는 유망한 접근 방식이다. 특히, 근사 곱셈은 고성능과 저전력을 동시에 요구하는 컴퓨팅에서 핵심적인 연산으로 널리 활용되고 있다. 이 중 근사 4-2 컴프레서는 저전력 소모, 처리 속도 향상, 회로 단순화 등의 이점을 통해 근사 곱셈기의 성능과 효율성을 크게 향상시킬 수 있는 기술로 주목받고 있다. n 비트의 두 수를 곱하는 곱셈기는 부분 곱 생성, 부분 곱 축소, 그리고 가산기 세 가지 단계로 구성된다. 근사 4-2 컴프레서를 사용하여 부분 곱 축소 단계를 단순화하거나, 오류 수정 모듈을 통해 근사로 인한 오류를 보상할 수 있다. 또한, 상수 수정 기법을 통해 오류를 줄이는 방법도 활용된다. 본 논문에서는 근사 4-2 컴프레서의 특성과 여러 모델을 비교하고 이를 바탕으로 8×8 근사 곱셈기에 대한 다양한 에러 지표와 합성 결과를 분석한다. 또한, 이미지 프로세싱을 적용한 결과를 통해 비교 분석을 수행한다.
-
본 논문에서는 High-Level Synthesis(HLS)를 이용하여 미국 NIST 에서 차세대 양자내성암호로 표준화된 SLH-DSA 알고리즘을 하드웨어 가속기로 설계하고 FPGA 에 구현하였으며, 성능 분석 결과 그 우수성을 제시한다. HLS(High-Level Synthesis) 기술을 활용하여 SLH-DSA 알고리즘의 최적화 설계를 수행하고, 전자 서명 및 검증 시스템의 하드웨어 가속기를 설계하였다. ZYNQ UltraScale+ MPSoC ZCU104 FPGA 를 사용하여 구현 및 검증을 진행하였다. 최종적으로 FPGA 에 구현된 SLH-DSA 하드웨어 가속기의 성능을 CPU 기반 구현과 비교한 결과, 알고리즘의 수행 시간이 약 596% 향상되어 하드웨어 가속의 효과성을 입증하였다.
-
최근 여러 시스템이 하나의 칩에 통합되는 온칩에서 버스 전력 소비가 증가함에 따라 이를 줄이기 위한 방안의 필요성이 제기된다. 반면 버스에서의 에너지 소비 감소를 필요하는 오프칩 환경에서는 주로 DBI(Data Bus Inversion)기법이 활용된다. DBI 기법은 스위칭 횟수를 줄이도록 데이터를 인코딩하는 기법으로 오프칩에서 사용시 스위칭 활동을 평균적으로 18.25% 감소시키고 총 에너지를 효과적으로 감소시킨다. 그러나 온칩에서 기존 DBI 를 적용하게 될 경우 에너지 오버헤드 문제를 야기하기 때문에 온칩에 적합한 새로운 DBI 인코더가 요구된다. 본 논문에서는 에너지 오버헤드를 해결하기 위해 DBI 인코더의 구성요소인 과반수 판정회로에 근사 연산을 도입하여 근사 DBI 인코더를 제안한다. 두개의 제안된 근사-과반수 판정회로를 사용한 DBI 는 평균적인 스위칭 활동을 각각 5.75%, 10.50% 감소한다. 근사 연산으로 인해 기존 DBI 보다 스위칭 활동이 소폭 증가하지만 지연시간이 평균적으로 약 20% 감소하고 전력 소모 또한 약 56% 감소한다.