NVIDIA加速微软最新的Phi-3 Mini开源语言模型-电子发烧友网

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的 NVIDIA GPU 上运行的大语言模型推理。

Phi-3 Mini 与 10 倍之于其大小的模型能力不相上下。不同于仅用于研究的 Phi-2，Phi-3 Mini 不仅可以用于研究，同时还可以用于多种商业用途。搭载 NVIDIA RTX GPU 的工作站或搭载 GeForce RTX GPU 的 PC 可以使用 Windows DirectML 或 TensorRT-LLM 在本地运行该模型。

该模型有 38 亿个参数，在 512 个 NVIDIA Tensor Core GPU 上使用 3.3 万亿个 token 训练而成，仅耗时七天时间。

Phi-3 Mini 有两个版本，一个版本支持 4K token，另一个版本支持 128K token，是同类模型中第一个支持超长上下文的模型。因此，开发者在向该模型提问时，可以使用 128,000 个 token（模型能够处理的最小语言单位），使模型能够做出更加符合现实的回答。

开发者可以在 ai.nvidia.com上试用带有 128K 上下文窗口的 Phi-3 Mini。该模型被打包成 NVIDIA NIM，这是一项带有标准应用编程接口的微服务，可以部署在任何位置。

在边缘高效运行

自主机器人和嵌入式设备开发者可以通过社区教程（如 Jetson AI Lab）学习创建和部署生成式 AI，并在 NVIDIA Jetson 上部署 Phi-3。

Phi-3 Mini 模型只有 38 亿个参数，非常小巧紧凑，可以在边缘设备上高效运行。参数就像内存中的旋钮，可在模型训练过程中进行精确的调整，使模型能够对输入的提示做出高度准确的响应。

Phi-3 可以在成本和资源受限的用例中提供帮助，尤其是较简单的任务。该模型在关键语言基准测试中的表现优于一些较大的模型，同时在满足延迟要求的情况下给出结果。

TensorRT-LLM 将支持 Phi-3 Mini 的长上下文窗口，并使用 LongRoPE、FP8/飞行批处理等众多优化措施和内核来提高推理吞吐量，减少延迟。TensorRT-LLM 的应用很快将在 GitHub 上的示例文件夹中提供。

开发者可以转换为 TensorRT-LLM 检查点格式，该格式针对推理进行了优化，可以轻松地与 NVIDIA Triton 推理服务器一起部署。

开发开放式系统

NVIDIA 是开源生态系统的积极贡献者，已经发布了 500 多个带有开源许可证的项目。

NVIDIA 为 JAX、Kubernetes、OpenUSD、PyTorch 和 Linux 内核等众多外部项目做出了贡献，还为各种开源基金会和标准机构提供支持。

此次发布建立在 NVIDIA 与微软深厚的合作基础上，双方的合作为加速 DirectML、Azure 云、生成式 AI 研究以及医疗和生命科学等领域的创新铺平了道路。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
213

文章
30576

浏览量
219430
NVIDIA

NVIDIA

+关注

关注
14

文章
5496

浏览量
109045
嵌入式设备

嵌入式设备

+关注

关注
0

文章
118

浏览量
17643
GPU芯片

GPU芯片

+关注

关注
1

文章
306

浏览量
6393
大模型

大模型

+关注

关注
2

文章
3439

浏览量
4960

原文标题：小巧而强大：NVIDIA 加速微软 Phi-3 开源“小语言模型”

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

搜索历史

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

评论