통합 검색 | Korea Science

MLP 기반의 문자 추출을 위한 하드웨어 구현 (Hardware Implementation for MLP Based Text Detection)

경동욱;정기철
- 한국HCI학회:학술대회논문집
- /
- 한국HCI학회 2006년도 학술대회 1부
- /
- pp.766-771
- /
- 2006
현재 많은 신경망의 하드웨어 구현은 부동 소수점 연산에 비해서 적은 면적과 빠른 수행시간을 가지는 고정소수점 연산을 많이 사용하지만, 소프트웨어에서는 일반적으로 높은 정확도를 가지는 부동소수점 연산을 사용한다. 신경망의 하드웨어 구현에서 많이 사용하는 고정소수점 연산은 부동소수점 연산에 비해서 빠른 처리속도와 적은 면적으로써 쉽게 하드웨어 구현에 용이하지만, 부동소수점 연산에 비해서 낮은 정확도와 기존의 부동소수점 연산을 사용하는 소프트웨어 신경망을 쉽게 적용할 수 없는 단점을 가진다. 본 논문에서는 부동소수점 연산을 사용하여 문자 추출 MLP의 데이터 변환 없이 적용할 수 있는 전체 파이프라이닝 설계 구조를 제안한다. 제안된 설계방법은 신경망의 전체 구조를 입력층과 은닉층을 링크 병렬화 방법과 은닉층과 출력층을 뉴런 병렬화 방법을 개선하여 쉽게 파이프라이닝 구조로 설계함으로써 신경망 처리는 은닉층 뉴런수와 동일한 주기로 처리되며, 기존의 문자추출 소프트웨어 신경망을 제안된 하드웨어 설계방법으로 구현하였을 때 11배의 빠른 성능을 나타낸다.
PDF

MPEG-1 Layer III 오디오 디코더의 실시간 DSP 구현 (Real-Time DSP Implementation of MPEG-1 Layer III Audio Decoder)

김시호;권홍석;배건성
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 2000년도 하계종합학술대회 논문집(4)
- /
- pp.174-177
- /
- 2000
본 논문에서는 높은 압축률과 고음질을 제공하는 MPEG-1 Layer Ⅲ 오디오 디코더를 고정소수점 DSP인 TMS320C6201을 이용하여 실시간으로 동작하도록 구현하였다. ISO/IEC에서 제공하는 부동소수점 C 프로그램을 음질의 손실 없이 고정소수점 연산으로 변환하었고 실시간 동작을 위하여 최적화 작업을 수행하였다. 연산의 정확성을 높이기 위해서 Descaling 모듈에 중점을 두어 부동소수점 연산을 고정소수점 연산으로 변환하였고 IMDCT 모듈과 Synthesis Polyphase Filter Bank 모듈에 대해 고속 알고리즘을 적용하여 연산량과 프로그램 크기를 크게 줄일 수 있었다. 구현된 디코더는 TMS320C6201 DSP가 수행할 수 있는 최대 연산량의 26%만으로 실시간 동작이 가능하였고 부동소수점 연산 결과와 고정소수점 연산 결과를 비교하여 60 dB 이상의 높은 SNR을 가짐을 확인하였다. 또한 사운드 입출력과 호스트 통신을 통하여 EVM 보드에서 실시간으로 동작함을 확인하였다.
PDF

SSE 명령어 기반 실시간 처리 가우시안 필터 연구 (A Study on Real-time Processing of The Gaussian Filter using The SSE Instruction Set.)

강필중;이종수
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2006년도 추계학술발표대회
- /
- pp.89-92
- /
- 2006
본 논문은 SIFT(Scale Invariant Feature Transform)알고리즘의 실시간처리 응용프로그램 작성기법을 기술하고 있는데, 단일 프로세서에서 병렬처리 기능을 지원하도록 설계된 SSE 명령어 집합을 사용하여 가우시안 convolution을 구현하고 있다. SIFT알고리즘의 Scale-space를 생성하는 과정에 수행되는 가우시안 Convolution은 연산시간이 과도하게 요구된다.[1] 2D의 가우시안 필터가 영상을 구성하는 모든 셀과 1:1로 연산을 수행하므로 이 연산의 소요시간은 영상의 가로, 세로 길이 그리고 필터의 크기에 비례하여 결정된다. 이 논문에서 제안하는 방법은 연산을 위해 CPU 내부로 한번 읽어 들인 픽셀자료에 대해 가능한 모든 연산을 SSE 명령어 집합을 사용하여 수행함으로써 병렬 연산에 의한 연산시간 절감과 메모리 접근 최소화를 통한 입출력시간 절감을 통해 전체 연산시간을 단축 하였다.
PDF

연산처리기 개수에 따른 슈퍼스칼라 프로세서의 성능 분석 (A Performance Analysis of Superscalar Processor According to the Number of Functional Units)

김지선;전중남;김석일
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
- /
- pp.451-454
- /
- 2003
슈퍼스칼라 프로세서는 이슈대역폭에 비해 실제로 처리되는 명령어의 개수는 상대적으로 적다. 본 논문에서는 슈퍼스칼라 프로세서의 성능을 높이기 위해, 연산처리기 개수에 따른 슈퍼스칼라 프로세서의 성능을 측정하고, 연산처리기의 활용도를 측정하였다. 실험을 위해 연산처리기 개수는 각각 1개, 2개, 4개로 하였고, 목적프로세서는 4개의 명령어를 동시에 이슈하고 실행할 수 있는 슈퍼스칼라 프로세서를 대상으로 실험하였다. 또한 연산처리기의 활용도를 분석하기 위해 시뮬레이터를 구현하여 명령어가 실행될 때, 실제 처리된 명령어의 개수를 측정하여 연산처리기의 활용도를 측정하였다. 이를 통해 슈퍼스칼라 프로세서에서 명령어를 실행할 때 필요한 연산처리기의 개수를 결정할 수 있었다. 실험 결과 4-way 슈퍼 스칼라 프로세서에서 명령어 실행에 필요한 연산처리기의 개수는 2개가 적당함을 확인할 수 있었다.
PDF

Newton Method을 이용한 저비용 5-stage 멱승기의 구현 (An Implementation of Low Cost 5-stage Powering Unit Using Newton Method)

송세현;김기철
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (B)
- /
- pp.194-197
- /
- 2007
본 논문에서는 모바일용 3차원 그래픽 라이팅 엔진을 위한 부동소수점 멱승기클 제안한다. 3D 그래픽의 라이팅 과정은 연산량이 많고, 복잡하기 때문에 각 연산 유닛들이 저비용으로 빠르게 연산을 수행해야 한다. 본 논문에서 제안한 멱승기는 처리율을 높이기 위해 파이프라인 구조를 사용하였으며, $10^{-4}$의 정확도를 만족한다. 전체 구조는 5 stage로 구성되며, 크게 로그연산기와 지수연산기로 이루어져 있다. 일반적으로 로그연산기는 정확도를 높이기 위하여 큰 롬 테이블을 사용하는데, 이는 많은 면적을 차지하게 된다. 이러한 롬 테이블 면적 문제를 해결하기 위하여 Newton method을 사용하여 롬 테이블의 사이즈를 줄였다. 또한 오일러 상수를 밑으로 하는 지수연산기도 입력 비트의 크기를 줄이고, 테이블의 개수를 늘림으로써 롬 테이블의 크기를 줄였다. 지수연산의 밑은 부동소수점 포맷으로 [0, 1]의 범위를 가지며, 승은 정수 포맷으로 [0, 128]의 범위를 갖는다. Magnachip $0.18{\mu}m$ 공정에서 100Mhz의 동작주파수를 만족하였으며, 약 16k gates을 차지한다.
PDF

그룹단위 후보 연산 선별을 사용한 자동화된 최적 신경망 구조 탐색: 후보 연산의 gradient 를 기반으로 (DG-DARTS: Operation Dropping Grouped by Gradient Differentiable Neural Architecture Search)

박성진;송하윤
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2020년도 추계학술발표대회
- /
- pp.850-853
- /
- 2020
gradient decent 를 기반으로 한 Differentiable architecture search(DARTS)는 한 번의 Architecture Search 로 모든 후보 연산 중 가장 가중치가 높은 연산 하나를 선택한다. 이 때 비슷한 종류의 연산이 가중치를 나누어 갖는 "표의 분산"이 나타나, 성능이 더 좋은 연산이 선택되지 못하는 상황이 발생한다. 본 연구에서는 이러한 상황을 막기위해 Architecture Parameter 가중치의 gradient 를 기반으로 연산들을 클러스터링 하여 그룹화 한다. 그 후 그룹별로 가중치를 합산하여 높은 가중치를 갖는 그룹만을 사용하여 한 번 더 Architecture Search 를 진행한다. 각각의 Architecture Search 는 DARTS 의 절반 epoch 만큼 이루어지며, 총 epoch 이 같으나 두번째의 Architecture Search 는 선별된 연산 그룹을 사용하므로 DARTS 에 비해 더 적은 Search Cost 가 요구된다. "표의 분산"문제를 해결하고, 2 번으로 나뉜 Architecture Search 에 따라 CIFAR 10 데이터 셋에 대해 2.46%의 에러와 0.16 GPU-days 의 탐색시간을 얻을 수 있다.
https://doi.org/10.3745/PKIPS.y2020m11a.850 인용 PDF

서술형 평가 문항에서 나타나는 초등학생의 분수 연산 능력과 오류 유형과의 관계 (The Relations between Children's Fraction Operation Skills and Error Types on Constructed-response items)

김민경;김서영
- 한국학교수학회논문집
- /
- 제17권3호
- /
- pp.409-435
- /
- 2014
본 연구의 목적은 초등학교 5학년 학생들이 가장 어려워하는 연산 중 하나인 분수 연산관련 서술형 평가 문항에서 나타내는 연산 능력과 오류 유형을 살펴봄으로써 초등학교 현장에서의 분수 연산에 대한 시사점을 제공하고자 한다. 연구 결과, 연구참여자들은 분수의 덧셈과 뺄셈 연산 보다 분수의 곱셈 연산 능력이 낮게 나타났다. 또한 서술형 평가 문항에 다양한 오류 유형이 나타났는데, 연산 능력별 차이에서는 상 집단 학생들은 '풀이 과정의 비약', 중 집단과 하 집단에서는 모두 '문항 이해의 오류'로 나타났다. 분수의 덧셈과 뺄셈에 대한 연산 능력은 분수의 곱셈 연산 능력에 영향을 주는 것으로 나타났는데, '문항에 대한 이해'와 '풀이 과정에 대한 이해'에서 나타난 오류가 곱셈 연산 능력에 가장 큰 영향을 주는 것으로 나타났다.
PDF

HEVC 다단계 움직임 추정 기법에서 단위 연산기 개수의 최적화 방법 (Optimization Method on the Number of the Processing Elements in the Multi-Stage Motion Estimation Algorithm for High Efficiency Video Coding)

이성수
- 전기전자학회논문지
- /
- 제21권1호
- /
- pp.100-103
- /
- 2017
움직임 추정기는 동영상 압축에서 가장 많은 연산량을 차지하는 연산으로, 처리 속도를 맞추기 위해 다수의 단위 연산기를 병렬로 사용하는 경우가 많다. 단위 연산기를 많이 사용할수록 처리 속도가 빨라지지만 하드웨어 면적도 커지기 때문에 단위 연산기의 개수를 최적화하는 것이 중요하다. HEVC(high efficiency video coding)의 경우 연산량을 줄이고 성능을 높이기 위해서 다단계 움직임 추정 기법을 주로 사용하는데, 각 단계마다 탐색점의 개수 및 위치가 다르기 때문에 단위 연산기의 사용률이 항상 100%가 되지 않으며 단위 연산기의 개수에 따라 사용률이 크게 달라진다. 본 논문에서는 단위 연산기의 사용률과 연산 사이클을 계산하여 주어진 움직임 추정 기법에 최적화된 단위 연산기 개수를 찾아 내는 방법을 제안한다.
https://doi.org/10.7471/ikeee.2017.21.1.100 인용 PDF KSCI

교과서 분석에 기초한 연산법칙의 지도 방안 탐색 (Research on Teaching Method for the Properties of Arithmetic Based on Analysis of Elementary School Mathematics Textbooks)

장혜원
- 한국초등수학교육학회지
- /
- 제21권1호
- /
- pp.1-22
- /
- 2017
연산법칙은 산술 학습을 위해 계산 원리 파악 및 효과적인 계산 전략 개발에 필수적인 것으로 간주되며, 초등학교에서 초기 대수 지도에 대한 긍정적 견해와 더불어 연산에 대한 직관적 관념 및 구조적 이해를 위해 연산법칙 자체에 대한 탐구가 요구된다. 따라서 연산법칙에 대한 이해가 부족할 경우, 연산법칙을 가정한 후속 학습시 학습 곤란과 오개념 형성을 유발할 우려가 있다. 이에 본 연구는 초등학교 수학 교과서에서 연산법칙이 다루어지는 특성을 분석함으로써 연산법칙의 바람직한 지도 방안을 탐색하는 것을 목적으로 한다. 이를 위해 우리나라 교육과정기에 따른 교과서 분석을 통해 어떤 연산법칙이 어느 시기에 어떤 방법으로 지도되어 왔는지를 비교하고 연산법칙을 가정하는 내용 전개 사례를 추출하였다. 그 결과에 대한 논의에 기초하여 초등학교 수학에서 연산법칙의 지도 필요성과 가능성을 확인하고 지도 방안에 대한 시사점을 도출하였다.
PDF

임베디드 시스템 기반 MPEG-4 BSAC 오디오 최적화 구현 (Impelementation of Optimized MPEG-4 BSAC Audio based on the embedded system)

황진용;박종순;오화용;김병일;장태규
- 대한전기학회:학술대회논문집
- /
- 대한전기학회 2005년도 학술대회 논문집 정보 및 제어부문
- /
- pp.361-363
- /
- 2005
본 논문에서는 MPEG-4 Version2 Audio 표준에 근거하여 낮은 연산부담을 갖는 독자적인 엘고리즘을 적용한 MPEG-4 BSAC Audio 디코더를 개발하였다. 개발된 BSAC 디코더는 32bit RISC 구조를 갖는 Intel Xscale Processor 기반 시스템에 최적화하여 구현 및 평가를 수행하였다. 수행속도 증가 및 연산 정밀도 향상을 위해 각 기능 블록별 기능 및 구현 원리 연구와 32 bit 연산 구조를 파악하여, 이를 고정소수점 연산 구조로 구현함으로써 성능을 향상시켰다. 유한비트에 따른 오차 영향을 최소화하기 위해 데이터의 표현 범위에 대한 연구를 통해 근사한 오차를 최소화 하여 연산 정밀도를 향상 시키고자 하였다. 비선형 양자화기 및 filter bank 등 상대적으로 높은 연산 부담을 갖는 기능 블록은 Table look-up, 보간법, 지수연산 제거, pre/post scrambling 기법 등을 적용하여 최적화 하였다. 최종적으로 개발된 BSAC 디코더는 32 bit 연산 구조의 X-scale 프로세서를 탑재한 Development Board와 WindowsCE OS로 구성된 타겟 system에 이식하여 performance 평가하였으며, 높은 연산 정밀도 및 다른 수행속도를 확인할 수 있었다. 주관적인 청각 평가에서도 MPEG-4 reference 디코더와의 음원의 차이가 거의 없음을 확인하였다.
PDF

검색결과 8,551건 처리시간 0.372초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)