TensorRT LLM加速Gemma！NVIDIA与谷歌牵手，RTX助推AI聊天-电子发烧友网

NVIDIA今天在其官方博客中表示，今天与谷歌合作，在所有NVIDIA AI平台上为Gemma推出了优化。Gemma是谷歌最先进的新轻量级2B(20亿)和7B(70亿)参数开放语言模型，可以在任何地方运行，降低了成本，加快了特定领域用例的创新工作。

这两家公司的团队密切合作，主要是使用NVIDIA TensorRT LLM加速谷歌Gemma开源模型的性能。开源模型Gemma采用与Gemini模型相同的底层技术构建，而NVIDIA TensorRT LLM是一个开源库，用于在数据中心的NVIDIA GPU、云服务器以及带有NVIDIA RTX GPU的PC上运行时，可以极大优化大型语言模型推理。这也这使得开发人员能够完全利用全球超过1亿台数量的RTX GPU AI PC完成自己的工作。

同时，开发人员还可以在云计算服务器中的NVIDIA GPU上运行Gemma，包括在谷歌云基于H100 Tensor Core GPU，以及很快谷歌将于今年部署的NVIDIA H200 TensorCore GPU——该GPU具有141GB的HBM3e内存，内存带宽可以达到4.8TB/s。

另外，企业开发人员还可以利用NVIDIA丰富的工具生态系统，包括具有NeMo框架的NVIDIA AI Enterprise和TensorRT LLM，对Gemma进行微调，并在其生产应用程序中部署优化模型。

NVIDIA表示，先期上线支持Gemma的是Chat with RTX，这是一款NVIDIA技术演示应用，使用检索增强生成和TensorRT LLM扩展，在基于RTX GPU的本地Windows PC上为用户提供生成式AI应用的功能。通过RTX聊天，用户可以轻松地将PC上的本地文件连接到大型语言模型，从而使用自己的数据对聊天机器人进行个性化设置。

由于该模型在本地运行，因此可以快速提供结果，并且用户数据保留在设备上。与基于云的LLM服务不同，使用Chat with RTX聊天可以让用户在本地PC上处理敏感数据，而无需与第三方共享或连接互联网。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉