• Title/Summary/Keyword: Speed/Memory efficiency

검색결과 95건 처리시간 0.038초

한글인식 후처리용 단어사전의 기억구조 (A Word Dictionary Structure for the Postprocessing of Hangul Recognition)

  • 김상운
    • 한국통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.1702-1709
    • /
    • 1994
  • 한글인식 후처리에서 문맥정보의 저장구조는 인식율 및 인식속도를 결정짓는 중요한 요소이다. 단어사전의 형태로 문맥정보를 표현하기 위해서는 트라이(trie)를 주로 이용하지만, 기억공간 이용효율이 저조하다는 단점이 있다. 따라서 이 논문에서는 트라이의 장점을 유지하면서 공간효율을 향상시키는 기억구조를 제안한다. 한글은 조합문자이기 때문에 자모나 문자별로 기억시킬 수 있다. 그런데 자모단위로 기억시키면(P-모드) 검색시간은 빠르지만 공간효율이 나쁘고, 또한 문자단위로 기억시키면(C-모드) 공간효율은 좋지만 검색시간이 길어진다. 따라서 노드이용율과 분산율로 최적레벨을 선정한 다음, 입력단어의 시작자모부터 최적레벨까지는 자모 단위의 트라이로 기억시키고, 그 이상은 문자단위의 순차연결구조로 저장시켰다. (H-모드). 6가지 단어집합에 대하여 실험한 결과, H-모드에서의 검색시간은 P-모드만큼 빠르면서, 공간효율은 C-모드와 같게 되어 그 효용성을 확인할 수 있었다.

  • PDF

Implementation of High Speed Image Data Transfer using XDMA

  • Gwon, Hyeok-Jin;Choi, Doo-Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권7호
    • /
    • pp.1-8
    • /
    • 2020
  • 본 논문에서는 군용시험장비로 개발된 시험용 영상생성/수집 장치에 XDMA를 활용하여 고속 이미지 데이터 전송을 구현한다. 본 연구에서 제안하는 기술은 커널영역에서 시스템버퍼를 사용하여 데이터를 복사하는 방법을 FPGA내 DMA 엔진을 통한 송수신으로 대체하여 효율성을 얻는다. 본 연구를 위해 장치는 Life Cycle을 고려하여 PXIe 플랫폼으로 개발하였으며, 양산성을 고려하여 저가의 FPGA를 활용하여 퍼포먼스를 최대화하였다. 본 논문에서 구현한 영상입출력보드는 기존의 메모리복사방식을 통해 AXI 인터페이스 클럭 주파수, 링크속도를 변경하여 시험하였다. 그리고 FPGA의 DMA 엔진을 사용하여 보드를 구성하였으며, 그 결과 전송속도는 기존의 5~8Hz에서 140Hz로 증가함을 확인하였다. 제안된 방법은 PXIe 플랫폼을 이용한 장치개발의 비용절감, 기술수준을 높여 국방력 강화에 기여할 것이다.

병렬 연산을 이용한 방출 단층 영상의 재구성 속도향상 기초연구 (Preliminary Study on the Enhancement of Reconstruction Speed for Emission Computed Tomography Using Parallel Processing)

  • 박민재;이재성;김수미;강지연;이동수;박광석
    • Nuclear Medicine and Molecular Imaging
    • /
    • 제43권5호
    • /
    • pp.443-450
    • /
    • 2009
  • 목적: 기존의 영상 재구성은 간소화된 투사 물리 모델을 사용하고 있다. 하지만 3D 재구성과 같은 실제적인 물리 모델은 시간이 많이 걸려서 임상에서 모든 데이터에 적용하기 힘들고, 복잡한 물리모델을 설명하기 위해 큰 메모리를 사용하면 한대의 일반적인 재구성 머신으로는 불가능하다. 개인 컴퓨터들에서도 큰 규모의 기술을 가능하게 하기위해, 병렬 연산을 이용한 빠른 재구성의 현실적인 분산메모리 모델을 제시한다. 대상 및 방법: 실제로 구현하는 가능성을 보기 위해 가상 컴퓨터들을 이용하여 선행 연구를 진행하였고, 다양한 가능성을 테스트하기 위해 상용서비스를 하고 있는 슈퍼컴퓨터(Tachyon)에서 성능 테스트를 하였다. 가장 많이 사용되는 2D 투사 영상과 실제적인 물리 모델인 3D 응답라인을 이용한 기댓값 최대화 알고리즘을 테스트하였다. 스터디 중 특정 반복횟수 이후에 속도가 최대 6배까지 느려지는 현상이 발견되어 컴파일러 최적화를 통해 병렬 효율의 극대화를 꾀하였다. 결과: Linux에서 MPICH와 NFS를 이용하여, 여러 컴퓨터에서 하나의 프로그램으로 분산 연산이 가능하였다. 병렬 연산을 했을 때 동일한 반복 연산에서 재구성된 영상간의 차이가 실수의 유효숫자(6bit) 정도임을 확인하였다. 2배의 연상장치를 사용했을 때 1.96배의 좋은 병렬화 효율을 보여주었다. 반복 연산 횟수가 증가함에 따라 느려지는 현상은 SSE를 이용한 Vectorization 방법을 사용했을 때 해결할 수 있었다. 결론: 이번 연구를 통해 일반 컴퓨터들을 이용한 현실적인 병렬 컴퓨터 시스템을 구성하여, 작은 메모리의 단일 일반 컴퓨터로는 불가능한 간단화 할 수 없는 복잡한 물리 과정도 영상 재구성 방법에 사용 가능하게 되었다.

멀티미디어 DSP를 위한 AVS 비디오 복호화기 구현 (AVS Video Decoder Implementation for Multimedia DSP)

  • 강대범;심동규
    • 대한전자공학회논문지SP
    • /
    • 제46권5호
    • /
    • pp.151-161
    • /
    • 2009
  • Audio Video Standard (AVS)는 중국내의 멀티미디어 응용기기를 위해 개발된 오디오/비디오 압축 표준이다. AVS는 표준화 코덱 중 성능이 가장 우수한 것으로 알려진 H.264/AVC에 비해 낮은 복잡도의 비디오 알고리즘을 사용하면서도 비슷한 RD 성능을 보인다. AVS 비디오 코덱은 VGA급 이상의 영상을 타겟으로 하기 때문에 큰 해상도에서 압축효율이 좋은 $8{\times}8$ 단위 블록의 예측 및 변환 알고리즘을 사용한다. 현재 중국에서 IPTV 및 모바일 애플리케이션을 위한 코덱으로 AVS를 사용하는 비중이 높아지고 있어 국내의 기업 및 연구소에서도 AVS를 위한 애플리케이션 및 칩 개발을 위한 연구가 진행되고 있다. 본 연구에서는 AVS 비디오 복호화기 알고리즘을 분석하고 이를 바탕으로 하여 불필요한 메모리 연산이 없도록 AVS 비디오 복호화기를 구현하고 이를 TI의 Davinci EVM보드에서 최적화하였다. 또한, 제안한 복호화기에 고속의 VLD 알고리즘을 적용하고 linear assembly로 디블록킹 필터를 구현하는 등 DSP에 적합하도록 최적화를 진행하였다. 이를 통해 AVS의 참조 소프트웨어인 RM 5.2J 복호화기와 비교하여 $500%{\sim}700%$의 복호 속도 향상을 이루었다.

트랜스포머 알고리즘의 멀티 헤드 어텐션과 피드포워드 네트워크에서 활용 가능한 효율적인 행렬 곱셈기 (An Efficient Matrix Multiplier Available in Multi-Head Attention and Feed-Forward Network of Transformer Algorithms)

  • 장석우;김동순
    • 전기전자학회논문지
    • /
    • 제28권1호
    • /
    • pp.53-64
    • /
    • 2024
  • 자연어 처리 모델이 발전함에 따라 챗 GPT와 같은 대화형 언어 생성 AI 모델이 널리 사용되고 있다. 따라서 자연어 처리 최신 모델의 기반이 되는 트랜스포머 알고리즘을 하드웨어로 구현하여 연산 속도와 전력 소비량을 개선하는 것은 중요하다고 할 수 있다. 특히, 행렬 곱셈을 통해 문장에서 서로 다른 단어 간의 관계를 분석하는 멀티 헤드 어텐션과 피드 포워드 네트워크는 트랜스포머에서 연산량이 가장 큰 핵심적인 알고리즘이다. 본 논문에서는 기존의 시스톨릭 어레이를 변형하여 행렬 곱 연산 속도를 개선하고, 입력 단어 개수 변동에 따라 지연시간도 변동되는 유동적인 구조를 제안한다. 또한, 트랜스포머 알고리즘의 정확도를 유지하는 형태로 양자화를 하여 메모리 효율성과 연산 속도를 높였다. 본 논문은 평가를 위해 멀티헤드어텐션과 피드포워드 네트워크에서 소요되는 클럭사이클을 검증하고 다른 곱셈기와 성능을 비교하였다.

$Nios^{(R)}$ II 임베디드 프로세서를 사용한 병렬처리 시스템의 설계 및 구현 (The Design and implementation of parallel processing system using the $Nios^{(R)}$ II embedded processor)

  • 이시현
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권11호
    • /
    • pp.97-103
    • /
    • 2009
  • 본 논문에서는 시스템의 변경이 많고 적은 비용으로 고성능 데이터 처리가 요구되는 응용분야에서 시스템의 유연성, 가격, 크기 및 성능을 개선하기 위한 목적으로 알테라(Altera)의 $Nios^{(R)}$ II 임베디드 프로세서(embedded processor) 4개를 사용하여 주종(master-slave)과 공유메모리(shared memory) 구조를 가지는 병렬처리 시스템을 설계하고 구현하였다. 설계한 병렬처리 시스템은 $Nios^{(R)}$ II 32bit RISC 프로세서. $SOPC^{(R)}$ Builder, $Quartus^{(R)}$ II, $ModelSim^{(R)}$으로 개발되었으며 설계한 병렬처리 시스템의 성능 평가는 $Terasic^{(R)}$사의 $DE2-70^{(R)}$ 레퍼런스 보드($Cyclone^{(R)}$ II(EP2C70F896C6N) FPGA)에서 검증하고 구현하였다. 설계한 병렬처리 시스템의 성능을 평가하기 위해서 1개, 2개, 4개의 프로세서로 512, 1,024, 2,048, 4,096, 8,192 N-point FFT(fast fourier transform) 연산을 수행하여 속도향상(Sp)과 시스템의 효율(Ep)을 평가하였다. 성능평가 결과 Sp는 1개의 프로세서를 사용한 경우에 비해서 2개의 프로세서를 사용한 경우 평균 1,8배, 4개의 프로세서를 사용한 경우에는 평균 2.4배의 속도향상을 보였다. 또한 Ep는 1개의 프로세서를 사용한 경우에는 1, 2개의 프로세서를 사용한 경우에는 평균 0.90, 4개의 프로세서를 사용한 경우에 평균 0.59를 보였다. 결과적으로 논문에서 구현된 병렬처리 시스템은 단일 프로세서를 사용하는 경우에 비해서 고성능 데이터 처리가 요구되는 분야에서 경제적인 시스템으로 구현할 수 있음을 보였다.

랜드마크 윈도우 기반의 빈발 패턴 마이닝 기법의 분석 및 성능평가 (Analysis and Evaluation of Frequent Pattern Mining Technique based on Landmark Window)

  • 편광범;윤은일
    • 인터넷정보학회논문지
    • /
    • 제15권3호
    • /
    • pp.101-107
    • /
    • 2014
  • 본 논문에서는 랜드마크 윈도우 기반의 빈발 패턴 마이닝 기법을 분석하고 성능을 평가한다. 본 논문에서는 Lossy counting 알고리즘과 hMiner 알고리즘에 대한 분석을 진행한다. 최신의 랜드마크 알고리즘인 hMiner는 트랜잭션이 발생할 때 마다 빈발 패턴을 마이닝 하는 방법이다. 그래서 hMiner와 같은 랜드마크 기반의 빈발 패턴 마이닝을 온라인 마이닝이라고 한다. 본 논문에서는 랜드마크 윈도우 마이닝의 초기 알고리즘인 Lossy counting와 최신 알고리즘인 hMiner의 성능을 평가하고 분석한다. 우리는 성능평가의 척도로 마이닝 시간과 트랜잭션 당 평균 처리 시간을 평가한다. 그리고 우리는 저장 구조의 효율성을 평가하기 위하여 최대 메모리 사용량을 평가한다. 마지막으로 우리는 알고리즘이 안정적으로 마이닝이 가능한지 평가하기 위해 데이터베이스의 아이템 수를 변화시키면서 평가하는 확장성 평가를 수행한다. 두 알고리즘의 평가 결과로, 랜드마크 윈도우 기반의 빈발 패턴 마이닝은 실시간 시스템에 적합한 마이닝 방식을 가지고 있지만 메모리를 많이 사용했다.

HEVC 부호기를 위한 효율적인 디블록킹 하드웨어 설계 (The Hardware Design of Effective Deblocking Filter for HEVC Encoder)

  • 박재하;박승용;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.755-758
    • /
    • 2014
  • 본 논문에서는 고해상도를 위한 고성능 HEVC(High Efficiency Video Coding) 디블록킹 필터 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 필터링 수행시간 단축과 게이트 수 감소를 위한 효율적인 필터링 순서 및 메모리 구조를 가진다. 제안하는 필터링 순서는 전처리 단계에서 단일 포트 SRAM에 데이터를 저장할 때 발생하는 지연시간을 감소시켰고, 고해상도 영상의 실시간 처리를 위해 4단 파이프라인 구조와 10개의 메모리 구조로 설계하였다. 제안하는 메모리 구조는 단일 포트 SRAM을 접근하면서 발생하는 해저드 문제를 해결하였다. 또한 필터링 수행시간을 단축하기 위해 두개의 필터를 사용하여 병렬처리 구조로 구현하였으며, 저전력 하드웨어 구조를 위해 클록 게이팅 구조로 설계하였다. 본 논문에서 제안하는 디블록킹 필터 부호화기 하드웨어는 Verilog HDL로 설계 하였으며, TSMC $0.18{\mu}m$ CMOS 표준 셀 라이브러리를 이용하여 합성한 결과 100k개의 로직 게이트로 구현되었다. 또한, 동작 주파수는 150MHz에서 4K 해상도인 $4096{\times}2160@30$ 처리가 가능하다.

  • PDF

Laser Thermal Processing System for Creation of Low Temperature Polycrystalline Silicon using High Power DPSS Laser and Excimer Laser

  • Kim, Doh-Hoon;Kim, Dae-Jin
    • 한국정보디스플레이학회:학술대회논문집
    • /
    • 한국정보디스플레이학회 2006년도 6th International Meeting on Information Display
    • /
    • pp.647-650
    • /
    • 2006
  • Low temperature polycrystalline silicon (LTPS) technology using a high power laser have been widely applied to thin film transistors (TFTs) for liquid crystal, organic light emitting diode (OLED) display, driver circuit for system on glass (SOG) and static random access memory (SRAM). Recently, the semiconductor industry is continuing its quest to create even more powerful CPU and memory chips. This requires increasing of individual device speed through the continual reduction of the minimum size of device features and increasing of device density on the chip. Moreover, the flat panel display industry also need to be brighter, with richer more vivid color, wider viewing angle, have faster video capability and be more durable at lower cost. Kornic Systems Co., Ltd. developed the $KORONA^{TM}$ LTP/GLTP series - an innovative production tool for fabricating flat panel displays and semiconductor devices - to meet these growing market demands and advance the volume production capabilities of flat panel displays and semiconductor industry. The $KORONA^{TM}\;LTP/GLTP$ series using DPSS laser and XeCl excimer laser is designed for the new generation of the wafer & FPD glass annealing processing equipment combining advanced low temperature poly-silicon (LTPS) crystallization technology and object-oriented software architecture with a semistandard graphical user interface (GUI). These leading edge systems show the superior annealing ability to the conventional other method. The $KORONA^{TM}\;LTP/GLTP$ series provides technical and economical benefits of advanced annealing solution to semiconductor and FPD production performance with an exceptional level of productivity. High throughput, low cost of ownership and optimized system efficiency brings the highest yield and lowest cost per wafer/glass on the annealing market.

  • PDF

DICOM 툴킷 소프트웨어 구현에 관한 연구 (A Study for the Implementation of the DICOM Toolkit Software)

  • 신동규;김동윤;김동선
    • 대한의용생체공학회:의공학회지
    • /
    • 제24권6호
    • /
    • pp.481-486
    • /
    • 2003
  • 본 논문에서는 의료 영상 분야의 국제 표준인 DICOM을 툴킷 형태로 구현한 소프트웨어에 대하여 기술한다. 기존의 툴킷들은 영상 관련 기능들을 별도로 구현해야 하거나 유닉스 운영체제를 기반으로 개발된 후에 윈도우즈 운영체제오 이식되거나 속도나 메모리 관리 측면이 배제되었거나 DICOM의 방대함에 기인하여 매우 복잡한 구조로 되어있는 단점을 가지고 있다. 제안된 툴킷은 기존 툴킷들의 단점을 보완하고 DICOM이 주로 사용되는 병원의 환경에 적합하도록 설계하였다. 즉, 윈도우 운영체제를 사용하는 일반 PC에서 대용량의 영상을 조회한 수 있도록 하였으며 다중 자업을 지원하여 자업 처리 속도 및 편리성을 증가시켰고 임상에서 필요한 대부분의 기능을 제공하며 객체 지향적 구조로 설계되어 사용자가 짧은 기 간 내에 개발 할 수 있도록 하였다. 실험 결과 제안된 툴킷을 이용하여 일반 PC 환경에서 CT 50장, MR 50장, CR 10장, DX 10장의 DICOM 영상을 12초 이내에 출력하며 소량의 물리적 메모리만을 소모하는 성능을 보였다.