嗨热线网 > 科技 >

英伟达官宣开源TensorRT-LLM,支持10+模型

2023-09-10 15:40

H100让模型推理性能最高跃升8倍!英伟达最新开源软件TensorRT-LLM,将彻底改变LLM推理现状。

「GPU贫民」即将告别困境!

刚刚,英伟达发布了一款开源软件TensorRT-LLM,能够加速H100上大型语言模型的推理。

那么,具体能提升多少倍?

在添加了TensorRT-LLM及其一系列优化功能后(包括In-Flight批处理),模型总吞吐量提升8倍。

 

使用和不使用TensorRT-LLM的GPT-J-6B A100与H100的比较

另外,就拿Llama 2来说,相较于单独使用A100,TensorRT-LLM可以将推理性能提高4.6倍。

 

使用和不使用TensorRT-LLM的Llama 2 70B、A100与H100的比较

网友表示,超强H100,再结合上TensorRT-LLM,无疑将彻底改变大型语言模型推理现状!

TensorRT-LLM:大模型推理加速神器

当前,由于大模型有着巨大的参数规模,使得「部署和推理」难度和成本一直居高不下。

而英伟达开发的TensorRT-LLM,旨在通过GPU来显著提高LLM吞吐量,并降低成本。

具体来说,TensorRT-LLM将TensorRT的深度学习编译器、FasterTransformer的优化内核、预处理和后处理以及多 GPU/多节点通信,封装在一个简单的开源Python API中。

英伟达对FasterTransformer进行了进一步的增强,使其成为一个产品化的解决方案。

可见,TensorRT-LLM提供了一个易用、开源和模块化的Python应用编程接口。

码农们不需要深入的C++或CUDA专业知识,能够部署、运行、调试各种大语言模型,还能获得顶尖性能表现,以及快速定制化的功能。

郑重说明:网站资源摘自互联网,如有侵权,麻烦通知删除,谢谢!

联系方式:hiholiday12399@gmail.com