• Title/Summary/Keyword: 처리성능

Search Result 15,285, Processing Time 0.041 seconds

A Study on a Declines in Performance by Memory Copy in CUDA (CUDA의 메모리 복사로 인한 성능 저하 연구)

  • Kang, Jihun;Lee, DaeWon;Kang, InSung;Yu, HeonChang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.135-138
    • /
    • 2013
  • GPGPU(General Purpose Graphics Processing Unit) 병렬처리 시스템인 CUDA(Compute Unified Device Architecture)는 컴퓨터에서의 고속 연산 처리를 위해 많이 사용되어왔다. CUDA에서 연산 처리를 하기 위해서는 CUDA의 특성을 이해해야 한다. CUDA는 CPU(Central Processing Unit)가 처리하는 Host 영역과 GPU(Graphics Processing Unit)가 처리하는 영역인 Device 영역이 존재하며, 이 두 영역간의 데이터 복사를 통해 연산 처리를 진행한다. 이런 구조적인 특성상 메인 메모리에서 GPU 메모리로 입력 데이터를 전달해야 GPU를 이용해 연산을 처리할 수 있는 구조를 가지고 있다. 하지만 이러한 처리 구조로 인해 연산 시간과 별도로 메인 메모리와 GPU 메모리간의 데이터 복사시간이 존재하며, 추가적으로 발생하는 메모리 복사 시간으로 인해 오버헤드가 발생하게 된다. 본 논문에서는 실험을 통해 메모리 복사 시간, 연산의 반복 횟수 그리고 연산의 복잡성이 전체 성능에 어떤 영향을 미치는지 논하고자 한다.

Design of Parallel Algorithms for Conventional Matched-Field Processing over Array of DSP Processors (다중 DSP 프로세서 기반의 병렬 수중정합장처리 알고리즘 설계)

  • Kim, Keon-Wook
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.44 no.4 s.316
    • /
    • pp.101-108
    • /
    • 2007
  • Parallel processing algorithms, coupled with advanced networking and distributed computing architectures, improve the overall computational performance, dependability, and versatility of a digital signal processing system In this paper, novel parallel algorithms are introduced and investigated for advanced sonar algorithm, conventional matched-field processing (CMFP). Based on a specific domain, each parallel algorithm decomposes the sequential workload in order to obtain scalable parallel speedup. Depending on the processing requirement of the algorithm, the computational performance of the parallel algorithm reveals different characteristics. The high-complexity algorithm, CMFP shows scalable parallel performance on the array of DSP processors. The impact on parallel performance due to workload balancing, communication scheme, algorithm complexity, processor speed, network performance, and testbed configuration is explored.

Cyclostorm : The Cloud Computing Service for Uplifting Javascript Processing Efficiency of Mobile Applications based on WAC (Cyclostorm : WAC 기반 모바일 앱의 자바스크립트 처리 효율 향상을 위한 클라우드 컴퓨팅 서비스)

  • Bang, Jiwoong;Kim, Daewon
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.50 no.5
    • /
    • pp.150-164
    • /
    • 2013
  • Currently it is being gradually focused on the mobile application's processing performance implemented by Javascript and HTML (Hyper Text Markup Language) due to the dissemination of mobile web application supply based on the WAC (Wholesale Application Community). If the application software has a simple functional processing structure, then the problem is benign, however, the load of a browser is getting heavier as the amount of Javascript processing is being increased. There is a limitation on the processing time and capacity of the Javascript in the ordinary mobile browsers which are on the market now. In order to solve those problems, the Web Worker that is not supported from the existing Javascript technology is now provided by the HTML 5 to implement the multi thread. The Web Worker provides a mechanism that process a part from the single thread through a separate one. However, it can not guarantee the computing ability as a native application on the mobile and is not enough as a solution for improving the fundamental processing speed. The Cyclostorm overcomes the limitation of resources as a mobile client and guarantees the performance as a native application by providing high computing service and ascripting the Javascript process on the mobile to the computer server on the cloud. From the performance evaluation experiment, the Cyclostorm shows a maximally 6 times faster computing speed than in the existing mobile browser's Javascript and 3 to 6 times faster than in Web Worker of the HTML 5. In addition, the usage of memory is measured less than the existing method since the server's memory has been used. In this paper, the Cyclostorm is introduced as one of the mobile cloud computing services to conquer the limitation of the WAC based mobile browsers and to improve the existing web application's performances.

Throughput Performance of Hybrid ARQ Ultra-Wideband Communication System for Wireless Packet Transmission (무선 패킷 전송을 위한 Hybrid ARQ 광대역 통신시스템의 처리율 성능)

  • Roh, Jae-Sung
    • Journal of Advanced Navigation Technology
    • /
    • v.11 no.3
    • /
    • pp.274-280
    • /
    • 2007
  • An ultra-wideband signal is characterized by a radiated spectrum with wide bandwidth around a relatively low center frequency. In this paper, the bit error rate (BER), packet error rate (PER), and data throughput performance for an ultra-wideband system with M-ary correlation receiver are analyze in additive white Gaussian noise (AWGN) and co-channel interference channel. To evaluate the performance of UWB system, a set of UWB communication waveform as pulse position modulated (PPM) signals consisting of more than one UWB pulse is used. The M-ary PPM signals are defined to be equally correlated in order to simplify the system performance analysis. The analysis for system performance shows that the wireless channel error significantly degrades throughput performance and can be effectively increased by hybrid ARQ scheme. Also, an attempt for comparing the data throughput of ultra-wideband system on different performance improvement schemes and parameters has been made. From the performance evaluation process, it is shown that the effects of wireless channel and hybrid ARQ scheme for ultra wideband M-ary PPM system can be evaluated by means of a suitable combination of the PER, throughput vs. signal-to-noise power ratio per bit.

  • PDF

Advanced detection of sentence boundaries based on hybrid method (하이브리드 방법을 이용한 개선된 문장경계인식)

  • Lee, Chung-Hee;Jang, Myung-Gil;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.61-66
    • /
    • 2009
  • 본 논문은 다양한 형태의 웹 문서에 적용하기 위해서, 언어의 통계정보 및 후처리 규칙에 기반 하여 개선된 문장경계 인식 기술을 제안한다. 제안한 방법은 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 문서에 적용하기 위해서 문장경계로 사용될 수 있는 모든 음절을 대상으로 학습하여 문장경계 인식을 수행하였고, 문장경계인식 성능을 최대화 하기 위해서 다양한 실험을 통해 최적의 자질 및 학습데이터를 선정하였고, 다양한 기계학습 기반 분류 모델을 비교하여 최적의 분류모델을 선택하였으며, 학습데이터에 의존적인 통계모델의 오류를 규칙에 기반 해서 보정하였다. 성능 실험은 다양한 형태의 문서별 성능 측정을 위해서 문어체와 구어체가 복합적으로 사용된 신문기사와 블로그 문서(평가셋1), 문어체 위주로 구성된 세종말뭉치와 백과사전 본문(평가셋2), 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 사이트의 게시판 글(평가셋3)을 대상으로 성능 측정을 하였다. 성능척도로는 F-measure를 사용하였으며, 구두점만을 대상으로 문장경계 인식 성능을 평가한 결과, 평가셋1에서는 96.5%, 평가셋2에서는 99.4%를 보였는데, 구어체의 문장경계인식이 더 어려움을 알 수 있었다. 평가셋1의 경우에도 규칙으로 후처리한 경우 정확률이 92.1%에서 99.4%로 올라갔으며, 이를 통해 후처리 규칙의 필요성을 알 수 있었다. 최종 성능평가로는 구두점만을 대상으로 학습된 기본 엔진과 모든 문장경계후보를 인식하도록 개선된 엔진을 평가셋3을 사용하여 비교 평가하였고, 기본 엔진(61.1%)에 비해서 개선된 엔진이 32.0% 성능 향상이 있음을 확인함으로써 제안한 방법이 웹 문서에 효과적임을 입증하였다.

  • PDF

Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension (한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구)

  • Lee, Kangwook;Lee, Haejun;Kim, Jaewon;Yun, Huiwon;Ryu, Wonho
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

Image Data Processing for Ubiquitous Database (유비쿼터스 데이터베이스를 위한 이미지 데이터 처리 기법)

  • Seo Dong-Wun;Choi Jin-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.81-84
    • /
    • 2006
  • 유비쿼터스 컴퓨팅 환경으로 발전하면서 문자열 위주의 획일적 형태에서 음성, 이미지 등 다양한 형태의 데이터들을 처리하게 되었으며, 또한 빠르고 정확하게 처리되기를 요구하고 있다. 현재 데이터 처리 중심부에 있는 Database는 대부분이 Relation DB 위주로 되어 있어 Datafile 에 데이터를 저장하고 있어 대용량의 이미지 데이터 처리에 적합하지가 않다. 본 논문에서는 이러한 단점을 보강하기 위해 Relation DB 하에서 대용량의 이미지 데이터 처리를 가능하게 하는 기법을 제시한다. 이렇게 함으로써 이미지 데이터를 Upload, Download 시 따른 응답 속도를 보장 할 수 있도록 LRU 알고리즘 기반으로 제안을 하였다. 본 논문에서 제안된 기법은 시뮬레이션을 통해 (1)기존 RDB(Relational Database)의 BLOB(Binary Large Object)필드를 이용한 이미지 데이터 처리 방식, (2)별도의 저장 공간에 이미지 데이터를 입/출하는 방식, (3)별도의 저장 공간에 이미지 데이터를 입/출력할 때 LRU(least Recently Used)알고리즘을 이용하는 방식에 대하여 성능 평가를 하였다. 그 결과 (3)별도의 저장 공간에 LRU(least Recently Used)알고리즘을 이용하여 입/출력하는 방식이 (1)기존의 RDB(Relational Database)형태에 BLOB(binary large object)필드를 이용한 것 보다 성능이 높음을 확인하였다.

  • PDF

A Platform Design for Controlling Rescue Robots based on Distributed Processing (구조구난 로봇을 제어하기 위한 분산처리 기반의 플랫폼 설계)

  • Yeo, Donghyeon;Cho, Seoungjae;Park, Yong Woon;Cho, Kyungeun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.735-736
    • /
    • 2016
  • 본 논문에서는 다수의 로봇으로부터 습득한 센서 데이터를 효율적으로 처리하기 위한 플랫폼을 제안한다. Master-Slave 구조의 분산처리 서버를 통해 센서 데이터를 실시간으로 처리하고, 처리된 데이터는 비정형 데이터 형태로 DB 서버를 통해 분산 저장 및 관리한다. 제안하는 설계를 통해 다수의 로봇이 생성한 센서 데이터를 성능 저하 없이 처리할 수 있는 플랫폼을 구축하였고, 다수의 2D 카메라 센서를 활용하여 처리 성능을 실험하였다.

A study on the Performance Improvement in Trapping Signal Processing Method of RLG (RLG Trapping 신호처리 기법의 성능개선에 관한 연구)

  • Yoo, Ki-Jeong;Kim, Cheon-Joong;Shim, Kyu-Min
    • Journal of the Korean Society for Aeronautical & Space Sciences
    • /
    • v.36 no.10
    • /
    • pp.1003-1010
    • /
    • 2008
  • In this paper, we propose the new method to decrease the navigation error by measurement time synchronization error in RLG Trapping signal processing. There are two methods to eliminate the dither motion in RLG. One is the stripping signal processing method. Another is the trapping signal processing method. This two methods have various error sources in measurement output. We perform the error modelling and analysis for the measurement time synchronization error between angular rate from RLG and acceleration from accelerometer in the trapping signal processing method. And we verify the navigation performance through simulation and experiment. Results of simulation and experiment show that the proposed method is very effective in decreasing the navigation error.

Distributed Processing Method of Hotspot Spatial Analysis Based on Hadoop and Spark (하둡 및 Spark 기반 공간 통계 핫스팟 분석의 분산처리 방안 연구)

  • Kim, Changsoo;Lee, Joosub;Hwang, KyuMoon;Sung, Hyojin
    • Journal of KIISE
    • /
    • v.45 no.2
    • /
    • pp.99-105
    • /
    • 2018
  • One of the spatial statistical analysis, hotspot analysis is one of easy method of see spatial patterns. It is based on the concept that "Adjacent ones are more relevant than those that are far away". However, in hotspot analysis is spatial adjacency must be considered, Therefore, distributed processing is not easy. In this paper, we proposed a distributed algorithm design for hotspot spatial analysis. Its performance was compared to standalone system and Hadoop, Spark based processing. As a result, it is compare to standalone system, Performance improvement rate of Hadoop at 625.89% and Spark at 870.14%. Furthermore, performance improvement rate is high at Spark processing than Hadoop at as more large data set.