• 제목/요약/키워드: 메모리압축

검색결과 320건 처리시간 0.025초

병렬 시스템 환경하에서 비정형 응용 프로그램을 위한 입출력 시스템의 설계 및 구현 (Design and Implementation of An I/O System for Irregular Application under Parallel System Environments)

  • 노재춘;박성순;알록샤우드리;권오영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권11호
    • /
    • pp.1318-1332
    • /
    • 1999
  • 본 논문에서는 입출력 응용을 위해 collective I/O 기법을 기반으로 한 실행시간 시스템의 설계, 구현 그리고 그 성능평가를 기술한다. 여기서는 모든 프로세서가 동시에 I/O 요구에 따라 스케쥴링하며 I/O를 수행하는 collective I/O 방안과 프로세서들이 여러 그룹으로 묶이어, 다음 그룹이 데이터를 재배열하는 통신을 수행하는 동안 오직 한 그룹만이 동시에 I/O를 수행하는 pipelined collective I/O 등의 두 가지 설계방안을 살펴본다. Pipelined collective I/O의 전체 과정은 I/O 노드 충돌을 동적으로 줄이기 위해 파이프라인된다. 이상의 설계 부분에서는 동적으로 충돌 관리를 위한 지원을 제공한다. 본 논문에서는 다른 노드의 메모리 영역에 이미 존재하는 데이터를 재 사용하여 I/O 비용을 줄이기 위해 collective I/O 방안에서의 소프트웨어 캐슁 방안과 두 가지 모형에서의 chunking과 온라인 압축방안을 기술한다. 그리고 이상에서 기술한 방안들이 입출력을 위해 높은 성능을 보임을 기술하는데, 이 성능결과는 Intel Paragon과 ASCI/Red teraflops 기계 상에서 실험한 것이다. 그 결과 응용 레벨에서의 bandwidth는 peak point가 55%까지 측정되었다.Abstract In this paper we present the design, implementation and evaluation of a runtime system based on collective I/O techniques for irregular applications. We present two designs, namely, "Collective I/O" and "Pipelined Collective I/O". In the first scheme, all processors participate in the I/O simultaneously, making scheduling of I/O requests simpler but creating a possibility of contention at the I/O nodes. In the second approach, processors are grouped into several groups, so that only one group performs I/O simultaneously, while the next group performs communication to rearrange data, and this entire process is pipelined to reduce I/O node contention dynamically. In other words, the design provides support for dynamic contention management. Then we present a software caching method using collective I/O to reduce I/O cost by reusing data already present in the memory of other nodes. Finally, chunking and on-line compression mechanisms are included in both models. We demonstrate that we can obtain significantly high-performance for I/O above what has been possible so far. The performance results are presented on an Intel Paragon and on the ASCI/Red teraflops machine. Application level I/O bandwidth up to 55% of the peak is observed.he peak is observed.

고속의 최장 IP 주소 프리픽스 검색을 위한 비트-맵 트라이 (A Bit-Map Trie for the High-Speed Longest Prefix Search of IP Addresses)

  • 오승현;안종석
    • 한국정보과학회논문지:정보통신
    • /
    • 제30권2호
    • /
    • pp.282-292
    • /
    • 2003
  • 본 논문은 IPv4와 IPv6을 지원하는 라우터에서 기가비트의 속도로 포워딩 검색을 수행하는 효율적인 포워딩 테이블 구조를 제안한다. 포워딩 검색은 최장 프리픽스 일치검색, LPM(Longest Prefix Matching)의 복잡도가 포워딩 테이블 및 주소크기에 따라 증가하여 라우터 성능의 병목지점으로 알려져 있다. 포워딩 검색의 고속화를 위해 본 논문에서는 빈번한 메모리 접근을 최소화할 수 있는 BMT(Bit-Map Trie) 자료구조를 소개한다. BMT 포워딩 검색은 필요한 모든 검색연산이 캐쉬에 저장된 소형 인덱스 테이블에서만 발생한다. 포워딩 테이블의 트라이로부터 소형 인덱스 테이블을 구축하기 위해서 BMT는 차일드(child) 노드 포인터와 포워딩 테이블 엔트리에 대한 포인터를 각각 한 비트로 표현하는 비트-맵을 구성한다. 또한 IPv6와 같이 주소길이가 증가하면 트라이의 깊이가 깊어져서 전통적인 트라이 검색속도가 느려지는 문제점을 해결하기 위해서 BMT에서는 검색을 시작할 적절한 트라이의 레벨을 결정하는 이진검색 알고리즘을 사용한다. 실험 결과 BMT는 IPv4 백본 라우팅 테이블을 펜티엄-II 프로세서의 L2 캐쉬 크기인 512KB 보다 작게 압축하였으며, 최대 250ns/패킷의 검색속도를 제공하여 기존의 알려진 가장 빠른 최장 검색 알고리즘의 성능과 같은 속도를 실현하였다.

초저복잡도 H.264 부호기의 움직임 추정 및 모드 결정 알고리즘 (Motion Estimation and Mode Decision Algorithm for Very Low-complexity H.264/AVC Video Encoder)

  • 유영일;김용태;이승준;강동욱;김기두
    • 방송공학회논문지
    • /
    • 제10권4호통권29호
    • /
    • pp.528-539
    • /
    • 2005
  • H.264는 우수한 부호화 성능으로 말미암아 DMB 차세대 DVD 등 새로운 멀티미디어 서비스를 위한 비디오 코덱으로 채택되어 왔다. 그러나 이 표준의 표준 코덱인 Joint Model(JM)은 연산 자원이 한정된 임베디드 환경에서 사용되기에는 너무 복잡한 다수의 알고리즘을 포함하고 있다. 본 논문은 임베디드 환경에서 사용할 수 있도록 설계된 초저복잡도 H.264 부호화 알고리즘을 제시한다. 제안하는 알고리즘은 압축 성능의 급격한 악화를 가져오지 않는 범위 내에서 몇 가지 부호화 도구의 사용을 제한하고, 또 움직임 추정과 모드 결정 과정에 몇 가지의 조기 종료 조건과 우회 조건을 추가하는 방법으로 구현하였다. 제안하는 알고리즘을 사용하여 7.5fps QCIF 영상을 64kbps로 부호화하는 경우, 표준 JM에 비해서 평균적으로 0.4 dB 정도의 미약한 PSNR 열화를 나타냄에도 불구하고, 단지 $15\%$의 계산량만을 필요로 할 뿐만 아니라, 필요한 메모리의 양과 전력 사용률을 획기적으로 낮추는 것이 가능하다. 제안하는 알고리즘의 H.264 부호기를 Intel PXA255 Processor를 사용하는 PDA에 이식하는 실험을 통하여 PDA에서 H.264 기반의 MMS(Multimedia Messaging Service)의 실현 가능성을 검증하였다.

무선센서네트워크 장애에서 센서 데이터 손실 감소를 위한 2MC기반 프레임워크 (A 2MC-based Framework for Sensor Data Loss Decrease in Wireless Sensor Network Failures)

  • 신동현;김창화
    • 한국시뮬레이션학회논문지
    • /
    • 제25권2호
    • /
    • pp.31-40
    • /
    • 2016
  • 무선센서네트워크는 해양환경, 군사시설 등 다양한 분야에서 활용되고 있다. 이러한 활용은 센서 데이터를 기반으로 이루어지기 때문에 센서 데이터는 굉장히 중요하다. 무선센서네트워크에서의 통신은 주위 환경에 매우 민감하게 영향을 받기 때문에 통신장애가 발생할 확률이 높다. 특히 수중통신의 경우 좁은 대역폭과 느린 전송 속도, 주변 환경의 잡음 등으로 인해 전파통신에 비해 통신장애는 더 빈번하게 발생한다. 통신장애가 발생하면 센서 데이터 전달과정에서 데이터가 손실될 수 있고, 이는 화재감지 시스템과 같이 실시간성이 중요한 분야에서는 큰 피해를 입을 수 있다. 이를 위해 센서 데이터의 저장 및 압축을 위한 연구를 진행하였지만 이를 위한 프레임워크가 존재하지 않아 그 실현에 어려움이 있었다. 따라서 본 논문에서는 센서 데이터의 손실 감소를 위한 프레임워크를 제안하고 성능을 분석하였다. 분석 결과, 프레임워크를 적용하지 않은 경우에는 통신장애 발생 후 t 시간이 경과함에 따라 T/t(T는 통신장애 발생 시 데이터 저장에서 메모리가 full 상태가 되는 시간)의 복구율 감소를 보인다. 게다가, T 시간 이후의 센서 데이터는 모두 복구가 불가능한 오류에 해당한다. 그러나, 제안한 프레임워크를 적용한 경우는 100%의 데이터 복구율과 2~6%의 복구 후 데이터 오차율을 보인다.

적응형 정점 군집화를 이용한 메쉬 분할 (A Mesh Partitioning Using Adaptive Vertex Clustering)

  • 김대영;김종원;이혜영
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제15권3호
    • /
    • pp.19-26
    • /
    • 2009
  • 본 논문에서는 분할 축과 평면의 위치를 동적으로 결정하는 적응형 KD 트리 구조를 이용한 정점 군집화(Adaptive Vertex Clustering) 알고리즘과 이를 이용한 새로운 메쉬 분할 방법을 소개하고자 한다. 정점 군집화는 주로 한 개의 거대한 3차원 메쉬를 여러 개의 파티션(Partition)으로 분할하여 효율적으로 처리하고자 할 때 사용되는 기법으로, 옥트리 구조를 이용한 공간 분할 기법과 K-평균 군집화(K-Means Clustering) 방법 등이 있다. 그러나 옥트리 방식은 공간 분할 축과 이에 따른 분할된 공간의 크기가 고정되어 있어서 파티션 메쉬 면의 정렬 상태가 고르지 못하고 포함된 정점의 개수가 균등하지 못한 단점이 있다. 또한, K-평균군집화는 균등한 파티션을 얻을 수 있는 반면 반복처리와 최적화를 위해 많은 시간이 소요된다는 단점이 있다. 본 논문에서는 적응형 정점 군집화를 통해 빠른 시간에 균등한 메쉬 분할을 생성하는 알고리즘을 제안하고자 한다. 본 적응형 KD 트리는 메쉬가 포함된 경계상자(Bounding Box) 공간을 정점의 개수와 분할 축의 크기를 기준으로 계층적으로 분할한다. 그 결과 각 파티션 메쉬는 컴팩트성(compactness)의 특성을 유지하며 균등한 수의 정점을 포함하게 되어 각 파티션의 균등한 처리시간 및 메모리 소요량 등의 장점을 살려 향후 메쉬 간소화 및 압축 등의 다양한 메쉬 처리에 활용될 수 있기를 기대한다. 본 방법을 적용한 3차원 모델의 실험 통계와 분할된 파티션 메쉬의 시각적인 결과도 함께 제시하였다.

  • PDF

컬럼-기반 데이터베이스를 위한 그림자 복구 (Shadow Recovery for Column-based Databases)

  • 변시우
    • 한국산학기술학회논문지
    • /
    • 제16권4호
    • /
    • pp.2784-2790
    • /
    • 2015
  • 컬럼-기반 데이터베이스 저장소는 우수한 입출력 성능으로 대용량 데이터 트랜잭션을 위한 매우 진보적인 모델이다. 전통적인 데이터 저장소는 빠른 쓰기 연산을 위하여 한 레코드의 속성들을 하드 디스크에 연속적으로 배치되어 있는 가로-지향 저장 모델을 활용하였다. 하지만 검색이 대부분인 데이터웨어하우스 시스템을 위해서는 월등한 판독 성능 때문에 컬럼-지향 저장소가 더 적합한 모델이 되고 있다. 또한 최근에는 플래시 메모리를 사용한 SSD가 고속 데이터 분석 시스템을 위한 적합한 저장 매체로 인식되고 있다. 본 연구에서는 플래시 미디어 파일 시스템을 기반으로 하는 컬럼-기반 데이터베이스 환경을 위한 새로운 트랜잭션 회복기법(CoSR)을 제안한다. 제안 기법은 기존의 쉐도우 페이징 기법을 개선하여 플래시 파일 시스템에서 새로운 블록에 데이터를 저장할 경우 무효화되어 폐기되는 이전 데이터 블록을 재활용하였다. 이를 위하여 제안된 컬럼-기반 쉐도우 복구 기법에 재활용 쉐도우 리스트 구조를 활용하였다. 제안 기법은 기존 쉐도우 페이징기법의 최대 단점인 쉐도우 페이지 관련 추가 저장공간의 부담을 최소화하고, 기존 복구 기법에서 컬럼 데이터 압축에 기인한 입출력 성능저하를 최소화 할 수 있다. 실험 분석결과를 통하여 CoSR기법이 기존 기법보다 17% 더 우수함을 확인하였다.

유한요소법을 이용한 타이머 Curing Bladder Shaping엔 관한 연구 (A Study of Tire Curing Bladder shaping by Using Finite Element Method)

  • 김천식;김항우
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 1992년도 가을 학술발표회 논문집
    • /
    • pp.3-3
    • /
    • 1992
  • 타이어 Curing공정은 공기압 타이어의 제조시 상당히 정교한 단계를 거쳐서 이루어지며, 이는 타이어 설계에 큰 영향을 줄 뿐만아니라, 타이어의 성능에도 관건이 있다. 본 연구에서는 유한요소법을 이용하여 타이어의 molding 공정을 분석하였다. 유한요소해석 프로그램인 MARC가 Cured 타이어 내부의 Curing Bladder 팽창과정해석에 이용되었다. 비압축성 요소로 Curing Bladder를 모형화하였으며, MARC의 접촉문제해석기법(contact option)을 이용하여 Cured 타이어 내부와 Curing Bladder 외부의 접촉부위를 Simulation하였다. 본 연구의 주요 관심내용으로서는 Curing Bladder의 형상변화에 따른 Curing Bladder의 팽창거동해석과, Cured타이어와 Curing Bladder의 접촉부위에서 얻을 수 있는 접촉압력의 비교.검토이다. 타이어 Curing시 타이어와 Bladder의 Contact과정을 해석하여, 아래와 같은 결과를 도출하였다. Bladder의 형상은 Cylinderical 형상 보다는 Toroidal 형태가 접촉압 분포의 균일성 및 크기 측면에 서 우수한 것으로 판단된다. Curing Bladder의 증심선 부위 보다 이에서 약간 떨어진 부위에서 최대 접촉압력이 발생되며, 이는 타이어 내면의 굴곡현상과 깊은 관련이 있윰 것으로 사료된다. 타이어 Bead부의 Carcass 자연평형현상이 유지된 제품을 얻기위해서는, Side-Bead구간의 접촉압력 증가가 필요하며, 이를 위하여는 Bladder 형상이 Cylinderical 보다는 Toroidal 형태가 유리하고, Bead부의 Gage Down, 전체직경의 증가 및 높이의 증가가 유리한 것으로 판단된다. 본 연구 결과를 이용하여, 타이어 Curing과정에서 발생되는 불량제품의 원인파악 및 타이어 설계자가 원하는 제품생산의 불가능한 원인을 파악하는데 도움을 줄 것이다.를 C의 structure와 pointer를 기반으로 하게끔 변경시키고 이에 따르는 제반 변경 사항을 수정 보완하여 프로그램의 분석을 용이하게 하며 기능의 변경 및 추가가 수월하게 하였고 메모리를 동적으로 관리할 수 있게 하였다. 또한 기존의 smpl에 디버깅용 함수 및 설비(facility) 제어용 함수를 추가하여 시뮬레이션 프로그램 작성을 용이하게 하였다. 예를 들면 who_server(), who_queue(), pop_Q(), push_Q(), pop_server(), push_server(), we(), wf(), printfct() 같은 함수들이다. 또한 동시에 발생되는 사건들의 순서를 조종하기 위해, 동시에 발생할 수 있는 각각의 사건에 우선순위를 두어 이 우선 순위에 의하여 사건 리스트(event list)에서 자동적으로 사건들의 순서가 결정되도록 확장하였으며, 설비 제어방식에 있어서도 FIFO, LIFO, 우선 순위 방식등을 선택할 수 있도록 확장하였다. SIMPLE는 자료구조 및 프로그램이 공개되어 있으므로 프로그래머가 원하는 기능을 쉽게 추가할 수 있는 장점도 있다. 아울러 SMPLE에서 새로이 추가된 자료구조와 함수 및 설비제어 방식등을 활용하여 실제 중형급 시스템에 대한 시뮬레이션 구현과 시스템 분석의 예를 보인다._3$", chain segment, with the activation energy of carriers from the shallow trap with 0.4[eV], in he amorphous regions.의 증발산율은 우기의 기상자료를 이용하여 구한 결과 0.05 - 0.10 mm/hr 의 범위로서 이로 인한 강우손실량은 큰 의미가 없음을 알았다.재발이 나타난 3례의 환자를 제외한 9례 (75%)에서는 현재까지 재발소견을 보이지 않고 있다. 이러한 결과는 다른 보고자들과 유사한 결과를 보이고 있지만 아직까지 증례가 많지 않기 때문에 생존율을 얻

  • PDF

템플릿 재사용을 통한 패러미터 효율적 신경망 네트워크 (Parameter-Efficient Neural Networks Using Template Reuse)

  • 김대연;강우철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권5호
    • /
    • pp.169-176
    • /
    • 2020
  • 최근 심층 신경망 (Deep Neural Networks, DNNs)는 모바일 및 임베디드 디바이스에 인간과 유사한 수준의 인공지능을 제공해 많은 응용에서 혁명을 가져왔다. 하지만, 이러한 DNN의 높은 추론 정확도는 큰 연산량을 요구하며, 따라서 기존의 사용되던 모델을 압축하거나 리소스가 제한적인 디바이스를 위해 작은 풋프린트를 가진 새로운 DNN 구조를 만드는 방법으로 DNN의 연산 오버헤드를 줄이기 위한 많은 노력들이 있어왔다. 이들 중 최근 작은 메모리 풋프린트를 갖는 모델 설계에서 주목받는 기법중 하나는 레이어 간에 패러미터를 공유하는 것이다. 하지만, 기존의 패러미터 공유 기법들은 ResNet과 같이 패러미터에 중복(redundancy)이 높은 것으로 알려진 깊은 심층 신경망에 적용되어왔다. 본 논문은 ShuffleNetV2와 같이 이미 패러미터 사용에 효율적인 구조를 갖는 소형 신경망에 적용할 수 있는 패러미터 공유 방법을 제안한다. 본 논문에서 제안하는 방법은 작은 크기의 템플릿과 레이어에 고유한 작은 패러미터를 결합하여 가중치를 생성한다. ImageNet과 CIFAR-100 데이터셋에 대한 우리의 실험 결과는 ShuffleNetV2의 패러미터를 15%-35% 감소시키면서도 기존의 패러미터 공유 방법과 pruning 방법에 대비 작은 정확도 감소만이 발생한다. 또한 우리는 제안된 방법이 최근의 임베디드 디바이스상에서 응답속도 및 에너지 소모량 측면에서 효율적임을 보여준다.

소형 360° 구강 스캐너 영상처리용 임베디드 보드 개발 (Developement of Small 360° Oral Scanner Embedded Board for Image Processing)

  • 고태영;이선구;이승호
    • 전기전자학회논문지
    • /
    • 제22권4호
    • /
    • pp.1214-1217
    • /
    • 2018
  • 본 논문에서는 소형 $360^{\circ}$ 구강 스캐너 임베디드 보드의 개발을 제안한다. 제안하는 소형 $360^{\circ}$ 구강 스캐너 임베디드 보드은 이미지 레벨 및 전송방식 변경 부, FPGA 부, 메모리 부, FIFO to USB 전송부 등으로 구성된다. 이미지 레벨 및 전송방식 변경 부는 소형 $360^{\circ}$ 전방위 구강 렌즈와 이미지 센서를 통해 들어온 MIPI 형식의 구강 영상을 Low Power Signal Mode와 High Speed Signal Mode로 나누어 포트에 분산 입력하고 레벨 시프트를 하여 FPGA 부에 전송한다. FPGA 부에서는 $360^{\circ}$ 영상 왜곡 보정, 영상 보정, 영상 처리, 영상 압축 등의 기능 등을 수행한다. FIFO to USB 전송부에서는 FPGA 내부의 FIFO를 통해 전달되어진 RAW 데이터를 트랜시버 칩을 사용하여 USB 3.0, USB 3.1 등의 통신 규격으로 PC에 전송한다. 제안된 소형 $360^{\circ}$ 구강 스캐너 임베디드 보드의 효율을 판단하기 위하여 공인시험기관에서 실험한 결과, 보정 영상 후 초당 프레임은 60fps 이상, 데이터 전송률은 4.99Gb/s로서 높은 수준의 결과가 산출되어 그 효용성이 입증되었다.

장애물 인식 지능을 갖춘 자율 이동로봇의 구현 (Implementation of a Self Controlled Mobile Robot with Intelligence to Recognize Obstacles)

  • 류한성;최중경
    • 대한전자공학회논문지SP
    • /
    • 제40권5호
    • /
    • pp.312-321
    • /
    • 2003
  • 본 논문은 장애물을 인식하고 회피하면서 목적지까지 자율적으로 이동할 수 있는 로봇을 구현한 논문이다. 우리는 본 논문에서 영상처리보드의 구현이라는 하드웨어적인 부분과 자율 이동로봇을 위한 영상궤환 제어라는 소프트웨어의 두 가지 결과를 나타내었다. 첫 번째 부분에서, 영상처리를 수행하는 제어보드로부터 명령을 받는 로봇을 나타내었다. 우리는 오랫동안 CCD카메라를 탑재한 자율 이동로봇에 대하여 연구해왔다. 로봇의 구성은 DSP칩을 탑재한 영상보드와 스텝모터 그리고 CCD카메라로 구성된다. 시스템 구성은 이동로봇의 영상처리 보드에서 영상을 획득하고 영상처리 알고리즘을 수행하고 로봇의 이동경로를 계산한다. 이동로봇에 탑재된 CCD카메라에서 획득한 영상 정보는 매 샘플링 시간마다 캡쳐한다. 화면에서 장애물의 유무를 판별한 후 좌 혹은 우로 회전하여 장애물을 회피하고 이동한 거리를 Feedback하는 시스템을 구현하여 초기에 지정한 목표지점가지 로봇이 갈 수 있도록 간략한 경로를 계획하여 절대좌표를 추적해 나가는 알고리즘을 구현한다. 이러한 영상을 획득하고 알고리즘을 처리하는 영상처리 보드의 구성은 DSP (TMS320VC33), ADV611, SAA7111, ADV7176A, CPLD(EPM7256ATC144), SRAM 메모리로 구성되어 있다. 두 번째 부분에서는 장애물을 인식하고 회피하기 위하여 두 가지의 영상궤환 제어 알고리즘을 나타낸다. 첫 번째 알고리즘은 필터링, 경계검출 NOR변환, 경계치 설정 등의 영상 전처리 과정을 거친 영상을 분할하는 기법이다. 여기에서는 Labeling과 Segmentation을 통한 pixel의 밀도 계산이 도입된다. 두 번째 알고리즘은 위와 같이 전처리된 영상에 웨이브렛 변환을 이용하여 수직방향(y축 성분)으로 히스토그램 분포를 20 Pixel 간격으로 스캔한다. 파형 변화에 의하여 장애물이 있는 부분의 히스토그램 분포는 거의 변동이 없이 나타난다. 이러한 특성을 분석하여 장애물이 있는 곳을 찾아내고 이것을 회피하기 위한 알고리즘을 세웠다. 본 논문은 로봇에 장착된 한 개의 CCD 카메라를 이용하여 장애물을 회피하면서 초기에 설정해둔 목적지가지 도달하기 위한 알고리즘을 제안하였으며, 영상처리 보드를 설계 및 제작하였다. 영상처리 보드는 일반적인 보드보다 빠른 속도(30frame/sec)와 해상도를 지원하며 압축 알고리즘을 탑재하고 있어서 영상을 전송하는 데에 있어서도 탁월한 성능을 보인다.