• 제목/요약/키워드: Bit operation

검색결과 750건 처리시간 0.037초

GPU 가속기를 통한 비트 연산 최적화 및 DNN 응용 (Bit Operation Optimization and DNN Application using GPU Acceleration)

  • 김상혁;이재흥
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1314-1320
    • /
    • 2019
  • 본 논문에서는 소프트웨어 환경에서 비트연산을 최적화 하고 DNN으로 응용하는 방법을 제안한다. 이를 위해 비트연산 최적화를 위한 패킹 함수와 DNN으로 응용을 위한 마스킹 행렬 곱 연산을 제안한다. 패킹 함수의 경우는 32bit의 실제 가중치값을 2bit로 변환하는 연산을 수행한다. 연산을 수행할 땐, 임계값 비교 연산을 통해 2bit 값으로 변환한다. 이 연산을 수행하면 4개의 32bit값이 1개의 8bit 메모리에 들어가게 된다. 마스킹 행렬 곱 연산의 경우 패킹된 가중치 값과 일반 입력 값을 곱하기 위한 특수한 연산으로 이루어져 있다. 그리고 각각의 연산은 GPU 가속기를 이용해 병렬로 처리되게 하였다. 그 결과 HandWritten 데이터 셋에 환경에서 32bit DNN 모델에 비해 약 16배의 메모리 절약을 볼 수 있었다. 그럼에도 정확도는 32bit 모델과 비슷한 1% 이내의 차이를 보였다.

SONOS two-bit 메모리의 측면확산에 영향을 주는 programming 조건 연구 (A study on the programming conditions suppressing the lateral diffusion of charges for the SONOS two-bit memory)

  • 이명식;안호명;서광열;고중혁;김병철;김주연
    • 한국전기전자재료학회:학술대회논문집
    • /
    • 한국전기전자재료학회 2005년도 추계학술대회 논문집 Vol.18
    • /
    • pp.117-120
    • /
    • 2005
  • The SONOS devices have been fabricated by the conventional $0.35{\mu}m$ complementary metal-oxide-semiconductor (CMOS) process with NOR array. Two-bit operation using conventional process achieve the high density memory compare with other two-bit memory. Lateral diffusion phenomenon in the two-bit operation cause soft error in the memory. In this study, the programming conditions arc investigated in order to reduce lateral diffusion for two-bit operation of CSL-NOR type SONOS flash cell.

  • PDF

SONOS 구조를 갖는 멀티 비트 소자의 프로그래밍 특성 (Programming Characteristics of the Multi-bit Devices Based on SONOS Structure)

  • 김주연
    • 한국전기전자재료학회논문지
    • /
    • 제16권9호
    • /
    • pp.771-774
    • /
    • 2003
  • In this paper, the programming characteristics of the multi-bit devices based on SONOS structure are investigated. Our devices have been fabricated by 0.35 $\mu\textrm{m}$ complementary metal-oxide-semiconductor (CMOS) process with LOCOS isolation. In order to achieve the multi-bit operation per cell, charges must be locally frapped in the nitride layer above the channel near the source-drain junction. Programming method is selected by Channel Hot Electron (CUE) injection which is available for localized trap in nitride film. To demonstrate CHE injection, substrate current (Isub) and one-shot programming curve are investigated. The multi-bit operation which stores two-bit per cell is investigated. Also, Hot Hole(HH) injection for fast erasing is used. The fabricated SONOS devices have ultra-thinner gate dielectrics and then have lower programming voltage, simpler process and better scalability compared to any other multi-bit storage Flash memory. Our programming characteristics are shown to be the most promising for the multi-bit flash memory.

Realization of Two-bit Operation by Bulk-biased Programming Technique in SONOS NOR Array with Common Source Lines

  • An, Ho-Myoung;Seo, Kwang-Yell;Kim, Joo-Yeon;Kim, Byung-Cheul
    • Transactions on Electrical and Electronic Materials
    • /
    • 제7권4호
    • /
    • pp.180-183
    • /
    • 2006
  • We report for the first time two-bit operational characteristics of a high-density NOR-type polysilicon-oxide-nitride-oxide-silicon (SONOS) array with common source line (CSL). An undesired disturbance, especially drain disturbance, in the NOR array with CSL comes from the two-bit-per-cell operation. To solve this problem, we propose an efficient bulk-biased programming technique. In this technique, a bulk bias is additionally applied to the substrate of memory cell for decreasing the electric field between nitride layer and drain region. The proposed programming technique shows free of drain disturbance characteristics. As a result, we have accomplished reliable two-bit SONOS array by employing the proposed programming technique.

Ad-hoc 네트워크의 Throughput 향상을 위한 적응적 MCS 레벨 기반의 분산형 전력 제어 알고리즘 (Distributed Bit Loading and Power Control Algorithm to Increase System Throughput of Ad-hoc Network)

  • 김영범;왕우붕;장경희;윤창호;박종원;임용곤
    • 한국통신학회논문지
    • /
    • 제35권4A호
    • /
    • pp.315-321
    • /
    • 2010
  • Ad-hoc 네트워크에서는 전력을 제어할 기지국의 부재로 시스템의 성능을 최적화 시키는 중앙 전력 제어가 불가능하여, 각 노드들은 독립적이고 자동적인 방식으로 분산형 전력 제어 알고리즘을 수행해야 한다. 기존의 분산형 전력 제어 알고리즘은 수신 신호의 SINR (signal to interference and noise ratio)에 따라 MCS (modulation and coding scheme) 레벨을 변화 시키는 adaptive bit loading operation을 고려하지 않기 때문에, 전체 throughput 향상에 제한이 있다. 본 논문에서는 Ad-hoc 환경에서 전체 throughput 을 향상시키고, outage 확률을 낮추기 위해 MCS 레벨에 따라 adaptive bit loading operation을 고려한 분산형 전력 제어 알고리즘을 제안한다. 컴퓨터 모의실험 결과 매우 큰 throughput 향상과 outage 확률 감소의 성능 향상을 확인할 수 있다.

1-Bit 합성곱 신경망을 위한 정확도 향상 기법 (Accuracy Improvement Method for 1-Bit Convolutional Neural Network)

  • 임성훈;이재흥
    • 전기전자학회논문지
    • /
    • 제22권4호
    • /
    • pp.1115-1122
    • /
    • 2018
  • 본 논문에서는 기존 1-Bit 합성곱 신경망의 성능 하락에 대한 분석과 이를 완화하기 위한 방안을 제시한다. 기존의 연구는 첫 번째 층과 마지막 층만 32-Bit 연산을 적용하고 나머지 연산은 1-Bit 연산을 적용한 것과 달리 본 논문에서는 두 번째 층도 32-Bit로 연산한다. 또한 입력과 가중치를 이진화하고 1-Bit 연산을 적용한 후에는 비선형 활성화 함수를 제거할 수 있음을 제시한다. 본 논문에서 제시한 방법을 검증하기 위해 차량 번호판 검출을 위한 객체 검출 신경망을 실험하였다. 기존의 방법으로 학습한 결과보다 정확도가 74%에서 96.1%로 상승하였다.

RTOS 기반의 소프트웨어 2D BitBLT 엔진의 설계 (A design of Software 2D BitBLT Engine based on RTOS)

  • 김봉주;홍지만
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.35-41
    • /
    • 2014
  • 본 논문은 소프트웨어 기반의 2D BitBLT 엔진을 pSOS 운영체제에서 구현하는 것을 제안하였으며, 제안된 BitBLT엔진을 환자감시장치에서 동작을 검증하였다. 본 논문에서 제안한 방법의 검증을 위해, 환자감시장치 보드를 기반으로 하는 별도의 프로토 타입 PCB 보드를 제작하고, 동작을 검증하였다. 메인 보드는 ARM9 기반의 CPU로 설계하였으며, 하드웨어 기반의 BitBLT 모듈을 소프트웨어 기반의 모듈로 동작하면서 가중되는 CPU의 부하문제의 해결을 위해 200Mhz 프로세서 대신 400Mhz 프로세서로 변경하였다. 본 논문에서는 환자감시장치에서 GUI를 구현하는데 있어 그래픽 콘트롤러의 핵심요소 중의 하나인 2D BitBLT 모듈을 커널의 디바이스 드라이버로 구현하였다.

32-Bit RISC-V상에서의 LEA 경량 블록 암호 GCM 운용 모드 구현 (Implementation of LEA Lightwegiht Block Cipher GCM Operation Mode on 32-Bit RISC-V)

  • 엄시우;권혁동;김현지;양유진;서화정
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.163-170
    • /
    • 2022
  • LEA는 2013년 국내에서 개발된 경량 블록암호이다. 본 논문에서는 블록 암호 운용 방식 중 CTR 운용 모드와 CTR 운용 모드를 활용하며 기밀성과 무결성을 제공하는 GCM 운용 모드의 구현을 진행한다. LEA-CTR의 최적화 구현은 CTR 운용 모드의 고정된 Nonce 값의 특성을 활용하여 사전 연산을 통한 연산 생략과 State 고정을 통해 State 간의 이동을 생략한 최적화 구현을 제안한다. 또한 제안 기법을 GCM 운용 모드에 적용 가능함을 보여주며, Galois Field(2128) 곱셈 연산을 사용하는 GHASH 함수 구현을 통해 GCM 구현을 진행한다. 결과적으로 32-bit RISC-V상에서 제안하는 기법을 적용한 LEA-CTR의 경우 기존 연구 대비 2%의 성능 향상을 확인하였으며, 추후 다른 연구에서 성능 지표로 사용될 수 있도록 GCM 운용 모드의 성능을 제시한다.

Efficient Implementation of Single Error Correction and Double Error Detection Code with Check Bit Pre-computation for Memories

  • Cha, Sanguhn;Yoon, Hongil
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제12권4호
    • /
    • pp.418-425
    • /
    • 2012
  • In this paper, efficient implementation of error correction code (ECC) processing circuits based on single error correction and double error detection (SEC-DED) code with check bit pre-computation is proposed for memories. During the write operation of memory, check bit pre-computation eliminates the overall bits computation required to detect a double error, thereby reducing the complexity of the ECC processing circuits. In order to implement the ECC processing circuits using the check bit pre-computation more efficiently, the proper SEC-DED codes are proposed. The H-matrix of the proposed SEC-DED code is the same as that of the odd-weight-column code during the write operation and is designed by replacing 0's with 1's at the last row of the H-matrix of the odd-weight-column code during the read operation. When compared with a conventional implementation utilizing the odd-weight- column code, the implementation based on the proposed SEC-DED code with check bit pre-computation achieves reductions in the number of gates, latency, and power consumption of the ECC processing circuits by up to 9.3%, 18.4%, and 14.1% for 64 data bits in a word.

SOC 설계를 위한 저전력 32-비트 RISC 프로세서의 재사용 가능한 설계 (Resuable Design of 32-Bit RISC Processor for System On-A Chip)

  • 이세환;곽승호;양훈모;이문기
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(2)
    • /
    • pp.105-108
    • /
    • 2001
  • 4 32-bit RISC core is designed for embedded application and DSP. This processor offers low power consumption by fully static operation and compact code size by efficient instruction set. Processor performance is improved by wing conditional instruction execution, block data transfer instruction, multiplication instruction, bunked register file structure. To support compact code size of embedded application, It is capable cf executing both 16-bit instructions and 32-bit instruction through mixed mode instruction conversion Furthermore, for fast MAC operation for DSP applications, the processor has a dedicated hardware multiplier, which can complete a 32-bit by 32-bit integer multiplication within seven clock cycles. These result in high instruction throughput and real-time interrupt response. This chip is implemented with 0.35${\mu}{\textrm}{m}$, 4- metal CMOS technology and consists of about 50K gate equivalents.

  • PDF