NVIDIA Triton系列01-应用概论
NVIDIA Triton推理服务器为AI服务类应用提供全面解决方案,支持多种处理器、框架及模型类型,优化部署与性能,适用于在线推荐、图像分类等场景。文中介绍了Triton在微软Teams、微信视觉应用及腾讯PCG在线推理中的成功案例,展示其在提升性能、降低成本方面的显著效果。
Nvidia TensorRT系列01-TensorRT的功能1
NVIDIA TensorRT是一个高性能深度学习推理优化器和运行时,支持C++和Python API。其编程模型分为构建阶段和运行时阶段,前者优化模型,后者执行推理。TensorRT支持多种数据类型和精度,包括FP32、FP16、INT8等,并提供插件机制以扩展支持的操作。