• 제목/요약/키워드: PE(Processing Element

검색결과 72건 처리시간 0.027초

다중연산구조기반의 고밀도 성능향상을 위한 움직임추정의 디인터레이싱 방법 (Deinterlacing Method for improving Motion Estimator based on multi arithmetic Architecture)

  • 이강환
    • 대한전자공학회논문지SP
    • /
    • 제44권1호
    • /
    • pp.49-55
    • /
    • 2007
  • 본 논문에서는 필드/프레임의 공간적, 시간적 움직임 특성을 활용한 디인터레이스드 기법을 이용해 재구성된 영상프레임으로부터 넓은 탐색영역에서의 움직임추정이 가능한 이중연산구조 기반의 다해상도 계층적 움직임 추정 방식(multi- resolution hierarchical motion estimation, MHME)의 효율적인 다중연산구조 기반의 움직임 추정을 제안한다. 공간적, 시간적 움직임 특성으로부터 디인터레이스드 기법을 적용하여 재구성된 영상프레임으로부터는 계층적 움직임 추정방식을 적용하여 빠른 움직임 영역에서도 화질의 열화가 거의 없는 다해상도 계층적 움직임 추정(MHME) 영상처리를 구현하였고, 비교적 높은 PSNR을 얻을 수 있었다. 다양한 모드 M=2 또는 M=3의 여러 가지 모의실험을 통해 제안된 구조가 전역탐색 블록정합 알고리듬(Full-search Block Matching Algorithm, FBMA)에 대하여 예측성능에 있어 최고 1.49dB(CAR), 최저0.421dB(Mobile & Calendar)의 모의실험결과 평균 -0.7dB 정도의 미소한 평균 PSNR 저하를 나타내었다. 이의 구현을 위해 제안된 전역/후역 탐색방식의 연산처리방식은 하나의 처리기소자(Processor Element, PE)에 이중연산처리기(DAPE) 구조를 채택하여 제한된 PE로부터 넓은 탐색영역에서의 움직임 추정이 가능한 전역/후역 탐색방식(Foreground & Background Search Algorithm, FBSA)의 비트 처리열 탐색 알고리듬을 제안 적용하여 움직임추정 연산의 성능을 구조적으로 향상시키는 다중프로세서 어레이 구조(Multiple Processor Array Unit, MPAU)를 개발 제안하였다.

나눗셈 체인을 이용한 RSA 모듈로 멱승기의 구현 (Implementation of RSA modular exponentiator using Division Chain)

  • 김성두;정용진
    • 정보보호학회논문지
    • /
    • 제12권2호
    • /
    • pp.21-34
    • /
    • 2002
  • 본 논문에서는 최근 발표된 멱승방법인 나눗셈 체인을 적용한 새로운 모듈로 멱승기의 하드웨어 구조를 제안하였다. 나눗셈 체인은 제수(divisor) d=2 또는 $d=2^I +1$ 과 그에 따른 나머지(remainder) r을 이용하여 지수 I를 새롭게 변형하는 방법으로 전체 멱승 연산이 평균 약 1.4$log_2$E 번의 곱셈으로 가능한 알고리즘이다. 이것은 Binary Method가 하드웨어 구현 시 항상 worst case인 $2log_2$E의 계산량이 필요한 것과 비교할 때 상당한 성능개선을 의미한다. 전체 구조는 파이프라인 동작이 가능한 선형 시스톨릭 어레이 구조로 설계하였으며, DG(Dependence Graph)를 수평으로 매핑하여 k비트의 키 사이즈에 대해 두 개의 k 비트 프레임이 k/2+3 개의 PE(Processing Element)로 구성된 두 개의 곱셈기 모듈을 통해 병렬로 동시에 처리되어 100% 처리율을 이루게 하였다. 또한, 규칙적인 데이터 패스를 가질 수 있도록 나눗셈체인을 새롭게 코딩하는 방법을 제안하였다. ASIC 구현을 위해 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 이용해 합성한 결과 최장 지연 패스는 4.24ns로 200MHz의 클럭이 가능하며, 1024비트 데이터 프레임에 대해 약 140kbps의 처리속도를 나타낸다. 복호화 시에는 CRT(Chinese Remainder Theorem)를 적용하여 처리속도를 560kbps로 향상시켰다. 전자서명의 검증과정으로 사용되기도 하는 암호화 과정을 수행할 때 공개키 E는 3,17 혹은 $2^{16} +1$의 사용이 권장된다는 점을 이용하여 E를 17 비트로 제한할 경우 7.3Mbps의 빠른 처리속도를 가질 수 있다.

새로운 DCME 알고리즘을 사용한 고속 Reed-Solomon 복호기 (High-Speed Reed-Solomon Decoder Using New Degree Computationless Modified Euclid´s Algorithm)

  • 백재현;선우명훈
    • 대한전자공학회논문지SD
    • /
    • 제40권6호
    • /
    • pp.459-468
    • /
    • 2003
  • 본 논문에서는 차수 연산이 필요 없는 새로운 DCME 알고리즘 (Degree Computationless Modified Euclid´s Algorithm)을 사용한 저비용 고속 RS (Reed-Solomon) 복호기를 제안한다. 제안하는 구조는 차수 연산 및 비교 회로가 필요 없어 기존 수정 유클리드 구조들에 비해 매우 낮은 하드웨어 복잡도를 갖는다. 시스톨릭 에레이 (systolic array)를 이용한 제안하는 구조는 키 방정식 (key equation) 연산을 위해서 초기 지연 없이 2t 클록 사이클만을 필요로 한다. 또한, 3t+2개의 기본 셀 (basic cell)을 사용하는 DCME 구조는 오직 하나의 PE (processing element)를 사용하므로 규칙성 (regularity) 및 비례성(scalability)을 갖는다. 0.25㎛ Faraday 라이브러리를 사용하여 논리합성을 수행한 RS 복호기는 200㎒의 동작 주파수 및 1.6Gbps의 데이터 처리 속도를 갖는다. (255, 239, 8) RS 코드 복호를 수행하는 DCME 구조와 전체 RS 복호기의 게이트 수는 각각 21,760개와 42,213개이다. 제안하는 RS 복호기는 기존 RS 복호기들에 비해 23%의 게이트 수 절감 및 전체 지연 시간의 10%가 향상되었다.

Reed-Solomon 복호기를 위한 새로운 E-DCME 알고리즘 및 하드웨어 구조 (New Enhanced Degree Computationless Modified Euclid's Algorithm and its Architecture for Reed-Solomon decoders)

  • 백재현;선우명훈
    • 한국통신학회논문지
    • /
    • 제32권8A호
    • /
    • pp.820-826
    • /
    • 2007
  • 본 논문에서는 리드-솔로몬(Reed-Solomon) 복호기를 위한 새로운 E-DCME(enhanced degree computationless modified Euclid's) 알고리즘 및 하드웨어 구조를 제안한다. 제안하는 E-DCME 알고리즘은 새로운 초기 조건을 사용하여 기존 수정 유클리드 알고리즘 및 DCME 알고리즘에 비해 $T_{mult}+T_{add}+T_{mux}$의 짧은 최대 전달 지연(critical path delay)를 갖는다. 시스톨릭 에레이(systolic array)를 이용한 제안하는 구조는 키 방정식(key equation) 연산을 위해서 초기 지연 없이 2t-1 클록 사이클만을 필요로 하여 고속의 키 방정식 연산이 가능하다. 또한, 기존 DCME 알고리즘에 비해 사용하는 기본 셀의 개수가 적어 하드웨어 복잡도가 낮다. 전체 3t 개의 기본 셀(basic cell)을 사용하는 E-DCME 구조는 오직 하나의 PE(processing element)를 사용하므로 규칙성(regularity) 및 비례성(scalability)을 갖는다. $0.18{\mu}m$ 삼성 라이브러리를 사용하여 논리합성을 수행한 결과 E-DCME 구조는 18,000개의 게이트로 구성된다.

기타의 음 합성을 위한 병렬 프로세서 구현 (Implementation of Parallel Processor for Sound Synthesis of Guitar)

  • 최지원;김용민;조상진;김종면;정의필
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.191-199
    • /
    • 2010
  • 물리적 모델링은 실제 악기음과 유사한 고음질의 음을 합성하는 방법이다. 그러나 물리적 모델링은 악기의 소리를 합성할 때 필요한 수많은 파라미터들을 동시에 계산해야 하기 때문에 동시 발음수가 높은 악기의 경우 실시간 처리에 문제가 발생할 수 있다. 이러한 문제를 해결하기 위해 본 논문에서는 기타의 음 합성 알고리즘을 실시간으로 처리 가능한 단일 명령어 다중 데이터 (Single Instruction Multiple Data, SIMD)처리 방식의 병렬 프로세서를 제안한다. 대표적인 현악기인 기타의 6개 현을 제어하기 위해 6개의 프로세싱 엘리먼트 (Processing Element, PE)로 구성된 SIMD기반 병렬 프로세서를 사용하였다. 각각의 프로세싱 엘리먼트는 해당되는 기타 현을 모델링하며, 각 현의 여기신호와 파라미터를 합성 병렬 알고리즘의 입력으로 받아 동시에 6개 현의 합성된 음을 실시간으로 생성할 수 있다. 표본화 비율을 44.1 kHz로 설정하고 16비트 양자화 데이터의 음을 합성한 모의 실험 결과, 제안한 SIMD기반 병렬 프로세서를 이용한 합성음은 원음과 매우 유사하였으며, 상용 프로세서인 TI사의 TMS320C6416보다 실행 시간에서 8.9배, 에너지 효율에서 39.8배의 성능 향상을 보였다.

고속 움직임 추정 알고리즘에 적합한 VLSI 구조 연구 (A VLSI Architecture for Fast Motion Estimation Algorithm)

  • 이재헌;나종범
    • 방송공학회논문지
    • /
    • 제3권1호
    • /
    • pp.85-92
    • /
    • 1998
  • 동영상 부호화에서 블록 정합 움직임 추정 기법은 움직임 추정 기법으로 가장 많이 쓰이고 있는 방법이다. 이 논문에서는 블록 정합 움직임 추정 기법의 하나로 최근에 제안된 공간적 상관 관계와 계층적 탐색방법을 이용한 고속 움직임 추정 알고리즘의 구현에 적합한 VLSI 구조를 제안한다. 제안된 구조는 systolic array에 바탕을 둔 탐색 기본 단위와 두 개의 shift register array등으로 이루어지며 수평/수직 -32~+31 화소 크기의 탐색을 수행한다. 이 때 탐색 기본 단위는 반복하여 사용하게 함으로써 게이트 수를 최소화하였다. 탐색 기본 단위의 구조로는 전역 탐색을 수행할 수 있는 기존의 여러 가지 systolic array 들이 사용 가능하며, 그 선택에 따라 칩의 크기와 속도 사이의 절충이 가능하다. 본 논문에서는 PE(processing element)의 개수를 줄여 전체적인 칩 사이즈를 줄이는데 중점을 두고 탐색 기본 단위의 구조를 결정하였다. 제안된 구조를 이용하면 $352{\times}288$ 크기의 영상, 탐색 영역 수평/수직 -32~+31 화소에 대해서 클럭 주파수가 35MHz일 때 최대 30Hz까지 실시간 처리를 할 수 있는 움직임 추정 칩을 20,000 게이트 이하로 구현할 수 있다. 더 높은 전송률의 입력 영상($720{\times}480$, 30Hz)에 적용할 경우에는 단순히 PE 개수를 늘리 구조를 탐색 기본 단위로 선택함으로써 실시간 구현이 가능하다.

  • PDF

H.264 비디오 코덱을 위한 고속 움직임 예측기의 하드웨어 구조 (A New Hardware Architecture of High-Speed Motion Estimator for H.264 Video CODEC)

  • 임정훈;서영호;최현준;김동욱
    • 방송공학회논문지
    • /
    • 제16권2호
    • /
    • pp.293-304
    • /
    • 2011
  • 본 논문에서는 H.264/AVC 인코더에서 가장 많은 연산 시간이 소요되는 움직임 추정(motion estimation, ME) 동작을 위한 하드웨어의 구조를 제안하고 IP(intellectual property) 형태로 구현하였다. 고속 움직임 추정기의 구조는 버퍼(buffer), PU 어레이(processing unit array), SAD 선택기(SAD selector), MV 생성기(motion vector generator) 등으로 구성되어 있다. PU 어레이는 16개의 PU로 구성되어 있고, 각각의 PU는 16개의 PE(processing element)로 이루어져 있다. 제안한 하드웨어의 동작적인 특징은 외부메모리 접근량을 줄이기 위해 현재와 참조프레임의 데이터를 재사용한다는 것과 SAD연산을 수행할 때 클록의 손실 없이 계산을 할 수 있다는 것이다. 구현한 고속 움직임 추정기는 Altera 사의 FPGA인 StatixIII EP3SE80F1152C2에서 3%의 자원을 사용하였고, 최대 동작주파수는 446.43MHz이었다. 따라서 구현한 하드웨어는 1080p 영상을 최대 50fps로 처리할 수 있다.

가변길이 다중비트 코딩을 이용한 DCT/IDCT의 설계 (Variable Radix-Two Multibit Coding and Its VLSI Implementation of DCT/IDCT)

  • 김대원;최준림
    • 대한전자공학회논문지SD
    • /
    • 제39권12호
    • /
    • pp.1062-1070
    • /
    • 2002
  • 본 논문은 가변길이 다중비트 코딩 알고리듬을 제안하고 DCT/IDCT(이산여현변환/역이산여현변환)설계에의 적용 과정을 제시한다 가변길이 다중 비트 코딩은 일반적인 Booth's알고리듬과 같이 중첩에 의한 다중비트 코딩을 가변적인 방법을 사용하여 그 중 2의 멱승이 되는 부분 즉 2k의 SD(Signed Digit)을 생성하는 방법이다. 이렇게 발생된 SD는 곱셈에 있어서 2k의 부분적(Partial Product)을 생성하게 되고 이로 인해 필요한 하드웨어는 단순한 덧셈기와 쉬프트 연산에 필요한 플립플롭만 필요하게 되므로 설계과정에 있어서 칩의 면적과 속도 면에서 효율적인 방법이다. 본 논문에서는 이 알고리듬의 정의 및 증명과정과 실제 알고리듬 적용을 위한 DCT/IDCT의 설계방법을 논의하고 제작한 IDCT의 결과에 대해 논의한다. 설계된 IDCT칩은 병렬 고속 처리를 위한 8개의 PE(Processing Element)와 하나의 전치 메모리를 사용한 방법으로 54MHz에서 400Mpixels/sec의 동작속도를 가지며 HDTV 및 MPEG 디코더에 적용하여 동작을 검증하였다.

3D 그래픽 가속엔진을 위한 병렬 Rasterizer 설계 (Design of Parallel Rasterizer for 3D Graphics Accelerators)

  • 오인흥;박재성;김신덕
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권1호
    • /
    • pp.82-97
    • /
    • 1999
  • 3차원 그래픽 렌더링은 화면상의 각 화소에 대하여 색깔뿐만 아니라 깊이 정보가지 계산해야 하기 때문에 방대한 계산량과 메모리 접근, 그리고 데이터 전송량을 필요로 하기 때문이다. 따라서 실시간 3차원 그래픽 처리를 위해서 병렬 처리 기법을 도입한다. 그러나 기존 그래픽 가속엔진은 병렬처리 기법으로 영상-병렬성을 이용한 화면 분할 방식을 사용하기 때문에 크게 두 가지 단점이 발생한다. 첫 번재는 화면 영역의 경게에 위치하는 다각형들에 대한 중복계산이고, 두 번째는 낮은 PE(Processing Element) 활용도이다. 본 논문에서는 이러한 문제를 해결하기 위한 방법으로 객체 기반 렌더링(OBR : Object Based Rendering)방식을 바탕으로 하는 그래픽 가속엔진을 제안하였다. OBR 시스템의 목적은 화면 분할 방식의 불필요한 오버헤드를 제거하여 수행 성능을 높이고, 자원을 효율적으로 사용하여 하드웨어 구성비용을 줄이는 것이다. 본 논문에서는 시뮬레이션을 통하여 OBR 시스템이 화면 분할 방식의 대표적인 그래픽 가속기인 PixelFlow와의 성능을 상대적으로 비교하였다. 결론적으로 OBR 시스템은 화면 분할 방식보다 더 적은 하드웨어 자원으로 보다 효율적으로 렌더링을 수해하였다.

멀티미디어 통신용 병렬 아키텍쳐 고속 비터비 복호기 설계 (Implementation of a Parallel Viterbi Decoder for High Speed Multimedia Communications)

  • 이병철;선우명훈
    • 대한전자공학회논문지SD
    • /
    • 제37권2호
    • /
    • pp.78-84
    • /
    • 2000
  • 비터비 복호기는 직렬 복호 방식과 병렬 복호 방식 2 가지로 분류할 수 있다. 병렬 비터비 복호기는 직렬비터비 복호기에 비해 보다 높은 데이타율을 얻을 수 있다. 본 논문에서는 고속 멀티미디어 통신을 위한 병렬 비티비 복호기 구조를 설계하고 구현한다. 설계한 비터비 복호기는 고속 동작을 위해 64개의PE(Processing Element)를 사용해 한 클럭에 처리가 가능하도록 하였다. 또한 파이프라인 스테이지를 갖는 시스톨릭 어레이 구조의 TB(Traceback) 블럭을 설계하였다. 본 논문에서 설계한 비터비 복호기는 puncturing을 통해 부호율 1/2, 2/3, 3/4, 5/6, 7/8을 지원한다. Verilog 모델을 구현하였고 0.6㎛ Samsung KG75000 SOG 셀 라이브러리를 이용하여 논리합성을 수행하였다. 구현된 비터비 복호기는 약100,400 게이트이며 동작 속도는 worst case에서 70㎒로 기존 상용 칩들보다 빠르다.

  • PDF