近日,vLLM项目宣布正式成为PyTorch生态系统的一部分,标志着该项目与PyTorch的合作进入了一个全新的阶段。本文将从以下几个方面进行介绍,特别提醒:安装方案在第四个部分,可选择性阅读。
vLLM项目概述
vLLM的成就与实际应用
支持流行模型
安装与使用vLLM
总结
一,vLLM项目概述
vLLM是一个为大型语言模型(LLMs)设计的高吞吐量、内存高效的推理和服务引擎。该项目最初基于创新的PagedAttention算法构建,如今已经发展成为一个全面的、最先进的推理引擎。vLLM社区不断为其添加新功能和优化,包括流水线并行处理、分块预填充、推测性解码和分离服务。

二,vLLM的成就与实际应用
自发布以来,vLLM获得了超过31,000个GitHub星标,这一成就证明了其受欢迎程度和社区的活力。vLLM与PyTorch的深度集成,使其能够支持包括NVIDIA GPU、AMD GPU、Google Cloud TPU在内的多种硬件后端,确保了跨平台的兼容性和性能优化。
在今年的亚马逊Prime Day,vLLM在向数百万用户提供快速响应中发挥了关键作用。它在三个区域的80,000个Trainium和Inferentia芯片上,每分钟处理了300万个令牌,同时保持了P99延迟在1秒以内的首次响应。这意味着,当客户与亚马逊应用中的Rufus聊天时,他们实际上是在与vLLM互动。
三,支持流行模型
vLLM与领先的模型供应商紧密合作,支持包括Meta LLAMA、Mistral、QWen和DeepSeek在内的流行模型。特别值得一提的是,vLLM作为首发合作伙伴,首次启用了LLAMA 3.1(405B)模型,展示了其处理复杂和资源密集型语言模型的能力。

四,安装与使用vLLM
安装vLLM非常简单,用户只需在命令行中运行:
pip install vllm
vLLM既可以作为OpenAI API兼容服务器运行,也可以作为一个简单的函数使用。以下是如何使用vLLM生成文本的示例代码:
vllm serve meta-llama/Llama-3.1-8B
将vLLM作为简单函数运行:
from vllm import LLM, SamplingParams
五,总结
随着vLLM的加入,PyTorch生态系统更加强大,为LLM服务带来了便捷和高效。期待vLLM在未来解锁更多创新,推动AI技术的普及和发展
如果你有更好的文章,欢迎投稿!
稿件接收邮箱:nami.liu@pasuntech.com
更多精彩内容请关注“算力魔方®”!
审核编辑 黄宇
-
英特尔
+关注
关注
61文章
10275浏览量
179337 -
pytorch
+关注
关注
2文章
813浏览量
14706 -
LLM
+关注
关注
1文章
340浏览量
1258
发布评论请先 登录
如何在NVIDIA Jetson AGX Thor上通过Docker高效部署vLLM推理服务
NVIDIA TensorRT LLM 1.0推理框架正式上线
威宏科技加入Arm Total Design生态系统,携手推动AI与HPC芯片创新
BPI-AIM7 RK3588 AI与 Nvidia Jetson Nano 生态系统兼容的低功耗 AI 模块
智慧科研新纪元:善思创兴引领AI与自动化变革
昂瑞微OM6626系列开启Apple和Google双生态智能寻物新纪元
vLLM Meetup上海站成功举办
如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署
详解 LLM 推理模型的现状
深蓝汽车携手华为开创全民智驾新纪元
如何在光子学中利用电子生态系统
安森美PRISM生态系统助力相机开发

vLLM项目加入PyTorch生态系统,引领LLM推理新纪元
评论