• 제목/요약/키워드: Algorithm Instruction

검색결과 156건 처리시간 0.021초

실시간 화자독립 음성인식을 위한 고속 확률계산 (Fast computation of Observation Probability for Speaker-Independent Real-Time Speech Recognition)

  • 박동철;안주원
    • 한국통신학회논문지
    • /
    • 제30권9C호
    • /
    • pp.907-912
    • /
    • 2005
  • H/W에 구현되는 음성인식 시스템에서 인식속도의 향상을 위한 새로운 알고리즘이 본 논문에서 제안되었다. 제안된 고속 관측확률 계산(Fast Computation of Observation Probability : FCOP) 알고리즘은 관측확률식을 근사화시키는 방법으로, CDHMM에서 상태(state)로 주어지는 확률분포함수들 중에서 일부를 효과적으로 제거하여 계산량을 최소화시키는 방법이다. 실제 H/W 환경의 음성인식에 응용한 실험 결과, 기존의 방법에 비해 인식률의 저하를 최소로 유지하며, 명령어 사이클을 $20\%\~32\%$ 감소시킬 수 있었으며, 인식속도를 약 $30\%$향상시킬 수 있었다. 제안된 알고리즘을 제한된 자원을 가지는 실제의 휴대폰에 탑재하여. 인식속도 및 인식률을 측정한 결과 인식률의 저하를 $0.2\%$ 이하로 유지하면서, 인식속도를 $30\%$ 이상 증가시킬 수 있었다.

래스터화 알고리즘을 위한 최적의 매니코어 프로세서 구조 탐색 (Architecture Exploration of Optimal Many-Core Processors for a Vector-based Rasterization Algorithm)

  • 손동구;김철홍;김종면
    • 대한임베디드공학회논문지
    • /
    • 제9권1호
    • /
    • pp.17-24
    • /
    • 2014
  • In this paper, we implement and evaluate the performance of a vector-based rasterization algorithm for 3D graphics by using a SIMD (single instruction multiple data) many-core processor architecture. In addition, we evaluate the impact of a data-per-processing elements (DPE) ratio that is defined as the amount of data directly mapped to each processing element (PE) within many-core in terms of performance, energy efficiency, and area efficiency. For the experiment, we utilize seven different PE configurations by varying the DPE ratio (or the number PEs), which are implemented in the same 130 nm CMOS technology with a 500 MHz clock frequency. Experimental results indicate that the optimal PE configuration is achieved as the DPE ratio is in the range from 16,384 to 256 (or the number of PEs is in the range from 16 and 1,024), which meets the requirements of mobile devices in terms of the optimal performance and efficiency.

AES-NI를 이용한 VPN 암호화 가속화 (Accelerated VPN Encryption using AES-NI)

  • 정진표;황준호;한근희;김석우
    • 정보보호학회논문지
    • /
    • 제24권6호
    • /
    • pp.1065-1078
    • /
    • 2014
  • IPSec 기반의 VPN에서는 데이터의 암호화 안전성 및 성능을 고려하였을 때 대칭키 기반의 AES 알고리즘의 성능이 가장 우수하다고 할 수 있다. 하지만 IPSec 기반 VPN에서 AES 알고리즘을 사용할 때 VPN의 성능은Cavium Networks사의 OCTEON Card 시리즈 같은 고가의 하드웨어 암호화 가속화 카드를 사용해도 동일한 하드웨어를 사용하는 방화벽의 절반의 성능도 내지 못하는 것을 알 수 있다. 2008년 인텔에서는 인텔 CPU에서 AES 알고리즘의 성능을 향상시키기 위해 AES-NI 7개의 명령어 집합을 발표하였다. 본 논문에서는 인텔 CPU의 AES-NI 7개의 명령어 집합을 사용 할 경우 IPSec 기반 VPN에서 실제로 성능이 얼마나 향상되는 지 검증 한다.

다중 메모리 뱅크 구조를 위한 고속의 자료 할당 기법 (Rapid Data Allocation Technique for Multiple Memory Bank Architectures)

  • 조정훈;백윤홍;최준식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.196-198
    • /
    • 2003
  • Virtually every digital signal processors(DSPs) support on-chip multi- memory banks that allow the processor to access multiple words of data from memory in a single instruction cycle. Also, all existing fixed-point DSPs have irregular architecture of heterogeneous register which contains multiple register files that are distributed and dedicated to different sets of instructions. Although there have been several studies conducted to efficiently assign data to multi-memory banks, most of them assumed processors with relatively simple, homogeneous general-purpose resisters. Therefore, several vendor-provided compilers fer DSPs were unable to efficiently assign data to multiple data memory banks. thereby often failing to generate highly optimized code fer their machines. This paper presents an algorithm that helps the compiler to efficiently assign data to multi- memory banks. Our algorithm differs from previous work in that it assigns variables to memory banks in separate, decoupled code generation phases, instead of a single, tightly-coupled phase. The experimental results have revealed that our decoupled algorithm greatly simplifies our code generation process; thus our compiler runs extremely fast, yet generates target code that is comparable In quality to the code generated by a coupled approach

  • PDF

실시간 차선인식 알고리즘을 위한 최적의 멀티코어 아키텍처 디자인 공간 탐색 (Optimal Design Space Exploration of Multi-core Architecture for Real-time Lane Detection Algorithm)

  • 정인규;김종면
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권3호
    • /
    • pp.339-349
    • /
    • 2017
  • 본 논문에서는 주행 중인 차량의 차선 인식을 위해 4단계로 구성된 알고리즘을 제안한다. 첫 번째 단계에서는 관심영역 추출한다. 두 번째 단계에서는 신호 잡음을 제기하기 위해 중간 값 필터를 이용한다. 세 번째 단계에서는 입력되는 이미지의 배경과 전경의 두 클래스로 구분하기 위한 이진화 알고리즘을 수행한다. 마지막 단계에서는 이진화 과정 후에 남아 있는 노이즈나 불완전한 에지 등을 제거하여 선명한 차선을 얻기 위해 이미지 침식 알고리즘을 이용한다. 하지만 이러한 차선 인식 앍고리즘은 높은 계산량을 요구하여 실시간 처리가 어려운 실정이다. 따라서 본 논문에서는 멀티코어 아키텍처를 이용하여 실시간 차선이탈 감지 알고리즘을 병렬구현 한다. 또한, 차선이탈 감지 알고리즘을 위한 최적의 멀티코어 아키텍처의 구조를 탐색하기 위해 총 8가지의 서로 다른 프로세싱 엘리먼트 구조를 이용하여 실험하였고, 모의실험 결과 40×40의 프로세싱 엘리먼트 구조에서 최적의 성능, 에너지 효율 및 면적 효율을 보였다.

토마술로 알고리즘을 이용하는 비순차실행 프로세서의 설계 및 모의실행 (The Design and Simulation of Out-of-Order Execution Processor using Tomasulo Algorithm)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.135-141
    • /
    • 2020
  • 오늘날 서버, 데스크탑, 노트북과 같은 범용 컴퓨터뿐만이 아니라, 가전, 임베디드 시스템에서 중앙처리장치는 대부분 멀티코어 프로세서로 구성된다. 멀티코어 프로세서의 성능향상을 위하여, 토마술로 알고리즘을 적용한 비순차실행 프로세서를 각 코어 프로세서로 이용하는 것이 요구된다. 토마술로 알고리즘을 적용한 비순차실행 프로세서는 명령어 간의 종속성이 없고 피연산자가 준비된 명령어를 순서와 관계없이 먼저 실행하고, 분기어 너머로 예측실행을 수행함으로써, 모든 명령어를 순서대로 실행하는 순차실행 프로세서보다 성능을 크게 높일 수가 있다. 본 논문에서는 VHDL의 레코드 데이터형을 이용하여 토마술로 알고리즘을 이용하는 비순차실행 프로세서를 설계하고, GHDL로 검증하였다. 모의실험 결과, ARM 명령어로 구성된 프로그램에 대한 연산을 성공적으로 수행할 수 있었다.

리스트 스케줄링을 통한 Coarse-Grained 재구성 구조의 맵핑 알고리즘 개발 (A Resource-Aware Mapping Algorithm for Coarse-Grained Reconfigurable Architecture Using List Scheduling)

  • 김현진;홍혜정;김홍식;강성호
    • 대한전자공학회논문지SD
    • /
    • 제46권6호
    • /
    • pp.58-64
    • /
    • 2009
  • 재구성 구조를 위한 자동화된 툴의 개발에 있어서 명령들을 재구성 구조에 맵핑하기 위한 알고리즘의 개발은 가장 중요한 부분 중의 하나이다. 본 논문에서는 리소스가 한정된 Coarse-Grained 재구성 구조에 명령들을 맵핑하기 위한 알고리즘을 개발하고 이를 위한 휴리스틱을 제시하였다. 제안된 알고리즘에서는 하드웨어 리소스 사용에 대한 명령 할당과 라우팅 경로 할당을 사이클 기반의 타이밍 모델을 통해서 동시에 고려하였다. 제안된 알고리즘은 통신에 사용되는 리소스의 사용 및 전역 메모리 접근을 리스트 스케줄링을 기반으로 최소화한다. 리스트 스케줄링에서 맵핑되어야 할 명령들은 대상 어플리케이션의 데이터 플로우의 일반적인 특성들로 우선순위가 결정되게 된다. 제안된 맵핑 알고리즘의 대한 평가를 통해서 볼 때 전역 메모리 자원의 소모 및 수행 시간면에서 상당한 성능향상을 얻을 수 있었다.

온라인 선로상정사고 분산처리를 위한 SIMD 구조의 PC 클러스터링 (The PC Clustering of the SIMD Structure for a Distributed Process of On-line Contingency)

  • 장세환;김진호;박준호
    • 전기학회논문지
    • /
    • 제57권7호
    • /
    • pp.1150-1156
    • /
    • 2008
  • This paper introduces the PC clustering of the SIMD structure for a distributed processing of on-line contingency to assess a static security of a power system. To execute on-line contingency analysis of a large-scale power system, we need to use high-speed execution device. Therefore, we constructed PC-cluster system using PC clustering method of the SIMD structure and applied to a power system, which relatively shows high quality on the high-speed execution and has a low price. SIMD(single instruction stream, multiple data stream) is a structure that processes are controlled by one signal. The PC cluster system is consisting of 8 PCs. Each PC employs the 2 GHz Pentium 4 CPU and is connected with the others through ethernet switch based fast ethernet. Also, we consider N-1 line contingency that have high potentiality of occurrence realistically. We propose the distributed process algorithm of the SIMD structure for reducing too much execution time on the on-line N-1 line contingency analysis in the large-scale power system. And we have verified a usefulness of the proposed algorithm and the constructed PC cluster system through IEEE 39 and 118 bus system.

Kalman 알고리즘에 의한 대역분할. 합성형 어댑티브 어레이 안테나의 동작 특성 (Performance Characteristics of Subband Adaptive Array Antenna using Kalman Algorithm)

  • 박재성;오경석;주창복;박남천;정주수
    • 한국정보통신학회논문지
    • /
    • 제3권3호
    • /
    • pp.501-507
    • /
    • 1999
  • 이동체에서 어댑티브 어레이 안테나를 사용하는 경우 가중계수벡터를 전파 환경의 변화에 고속으로 적응시킬 필요가 있다. 4소자 등간격 선형 어레이 안테나 시스템에 있어서 일정 진폭의 포락선을 갖는 BPSK신호나 BFSK 신호에 대하여 신호의 자기상관성을 향상시켜 주므로서 효과적인 다중 간섭파를 제거할 수 있는 대역분할 합성법에 의한 신호처리 기법을 보고한다. 본 논문에서는 S/I=2, S/N=10인 BPSK 신호에 대하여 대역분할ㆍ합성형 신호처리 기법을 LMS 및 Kalman 알고리즘에 적용한 컴퓨터 시뮬레이션 결과 대역분할ㆍ합성형 기법을 사용하므로서 알고리즘의 수렴성이 빠르고 신호의 추종성이 매우 뛰어남을 확인 할 수 있었다.

  • PDF

컴퓨터 비전 응용을 위한 VLIW 보조프로세서의 하드웨어 설계 (Hardware Design of VLIW coprocessor for Computer Vision Application)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제18권9호
    • /
    • pp.2189-2196
    • /
    • 2014
  • 본 논문에서는 자동차용 컴퓨터 비전 알고리즘을 고속으로 처리하기 위해 VLIW 보조프로세서를 설계하였다. VLIW 보조프로세서는 8단 파이프라인 구조로 1개의 사이클에 4개의 명령을 처리할 수 있으며, 보행자 인식을 위한 36개의 정수 및 부동 소수점 명령어 집합을 갖고 있다. 프로세서는 45nm CMOS 공정에서 최대 동작 속도는 300-MHz이며 약 210,900 게이트로 구성되며 예상 연산 성능은 1.2 GOPS 이다. VPE와 8개의 VLIW 코어로 구성된 비전 프로세서 시스템은 25~29 FPS의 보행자 검출 성능을 가진다. VLIW 보조 프로세서는 높은 검출 속도와 호스트 프로세서와 느슨한 결합 특성으로 다양한 비전 분야에 응용 가능하다.