英伟达官宣开源TensorRT-LLM，支持10+模型

2023-09-10 15:40

H100让模型推理性能最高跃升8倍！英伟达最新开源软件TensorRT-LLM，将彻底改变LLM推理现状。

「GPU贫民」即将告别困境！

刚刚，英伟达发布了一款开源软件TensorRT-LLM，能够加速H100上大型语言模型的推理。

那么，具体能提升多少倍？

在添加了TensorRT-LLM及其一系列优化功能后（包括In-Flight批处理），模型总吞吐量提升8倍。

使用和不使用TensorRT-LLM的GPT-J-6B A100与H100的比较

另外，就拿Llama 2来说，相较于单独使用A100，TensorRT-LLM可以将推理性能提高4.6倍。

使用和不使用TensorRT-LLM的Llama 2 70B、A100与H100的比较

网友表示，超强H100，再结合上TensorRT-LLM，无疑将彻底改变大型语言模型推理现状！

TensorRT-LLM：大模型推理加速神器

当前，由于大模型有着巨大的参数规模，使得「部署和推理」难度和成本一直居高不下。

而英伟达开发的TensorRT-LLM，旨在通过GPU来显著提高LLM吞吐量，并降低成本。

具体来说，TensorRT-LLM将TensorRT的深度学习编译器、FasterTransformer的优化内核、预处理和后处理以及多 GPU/多节点通信，封装在一个简单的开源Python API中。

英伟达对FasterTransformer进行了进一步的增强，使其成为一个产品化的解决方案。

可见，TensorRT-LLM提供了一个易用、开源和模块化的Python应用编程接口。

码农们不需要深入的C++或CUDA专业知识，能够部署、运行、调试各种大语言模型，还能获得顶尖性能表现，以及快速定制化的功能。

最新推荐