미분류

Inference Optimization using TensorRT

  • by

The final stage of deep-learning development process is deploying your model at a specific target platform. In real-world applications, the deployed model is required to execute inferences in realtime or higher speed, and the target platform might be very resource-limited, for example, embedded system such as automotive or robot platforms.… Read More »Inference Optimization using TensorRT

GPU Direct RDMA 구현사례

  • by

GPU Direct RDMA Uploader 구현 GPU Direct RDMA uploader 는 앞서 설명한 RDMA 통신으로 원격의 이미지 데이터를 GPU 메모리에 업로드 시키도록 구현하였다. GPU 메모리에 원격 데이터를 업로드 시킬 때, RDMA 통신 뿐만 아니라 CUDA의 GPU Direct 도 이용하였다. 두 기술에서 제공하는 Zero copy와 CPU Bypass 로 전체적인 GPU 메모리 업로딩… Read More »GPU Direct RDMA 구현사례

GPU Direct RDMA 소개

  • by

Infiniband/RDMA 프로그래밍 기본 개념 InfiniBand는 이더넷과 동일하게 근거리 통신망에 고속 네트워크 전송을 수행하는 단말과 네트워크 장치을 위한 데이터 링크 계층의 네트워크 규격이다. 현재 InfiniBand Trade Association이 관리하고 있다.데이터 전송에 있어 높은 throughput 과 낮은 latency가 특징인 InfiniBand는 원격 노드의 메모리 어드레스를 지정해서 데이터를 기록하고 읽어오는(RDMA WRITE/READ) RDMA 기능이 있다. InfiniBand는… Read More »GPU Direct RDMA 소개