0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

vLLM项目加入PyTorch生态系统,引领LLM推理新纪元

jf_23871869 来源:jf_23871869 作者:jf_23871869 2024-12-18 17:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,vLLM项目宣布正式成为PyTorch生态系统的一部分,标志着该项目与PyTorch的合作进入了一个全新的阶段。本文将从以下几个方面进行介绍,特别提醒:安装方案在第四个部分,可选择性阅读。

vLLM项目概述

vLLM的成就与实际应用

支持流行模型

安装与使用vLLM

总结

一,vLLM项目概述

vLLM是一个为大型语言模型(LLMs)设计的高吞吐量、内存高效的推理和服务引擎。该项目最初基于创新的PagedAttention算法构建,如今已经发展成为一个全面的、最先进的推理引擎。vLLM社区不断为其添加新功能和优化,包括流水线并行处理、分块预填充、推测性解码和分离服务。

wKgZPGdikGaARrC8AAMapEZDw_Y377.png

二,vLLM的成就与实际应用

自发布以来,vLLM获得了超过31,000个GitHub星标,这一成就证明了其受欢迎程度和社区的活力。vLLM与PyTorch的深度集成,使其能够支持包括NVIDIA GPUAMD GPU、Google Cloud TPU在内的多种硬件后端,确保了跨平台的兼容性和性能优化。

在今年的亚马逊Prime Day,vLLM在向数百万用户提供快速响应中发挥了关键作用。它在三个区域的80,000个Trainium和Inferentia芯片上,每分钟处理了300万个令牌,同时保持了P99延迟在1秒以内的首次响应。这意味着,当客户与亚马逊应用中的Rufus聊天时,他们实际上是在与vLLM互动。

三,支持流行模型

vLLM与领先的模型供应商紧密合作,支持包括Meta LLAMA、Mistral、QWen和DeepSeek在内的流行模型。特别值得一提的是,vLLM作为首发合作伙伴,首次启用了LLAMA 3.1(405B)模型,展示了其处理复杂和资源密集型语言模型的能力。

wKgZPGdikH2APXfvAAAutVrtNXY766.png

四,安装与使用vLLM

安装vLLM非常简单,用户只需在命令行中运行:

pip install vllm

vLLM既可以作为OpenAI API兼容服务器运行,也可以作为一个简单的函数使用。以下是如何使用vLLM生成文本的示例代码:

vllm serve meta-llama/Llama-3.1-8B

将vLLM作为简单函数运行:

from vllm import LLM, SamplingParams

五,总结

随着vLLM的加入,PyTorch生态系统更加强大,为LLM服务带来了便捷和高效。期待vLLM在未来解锁更多创新,推动AI技术的普及和发展

如果你有更好的文章,欢迎投稿!

稿件接收邮箱:nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方®”!

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10320

    浏览量

    181065
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14921
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    K8s部署vLLM推理服务详细步骤

    vLLM在生产环境部署时,服务暴露是关键环节。Kubernetes的Service和Ingress组件负责将内部Pod流量对外暴露,合理的Service类型选择和负载均衡策略直接影响推理服务的可用性、响应速度和资源利用率。
    的头像 发表于 03-13 09:46 427次阅读

    爱立信携手苹果和联发科技加速构建6G生态系统

    爱立信正通过与苹果和联发科技等领先设备及芯片制造商建立战略合作伙伴关系,加速构建6G生态系统,驱动下一代连接技术的创新与互操作性,助力运营商及整个产业为移动网络的未来做好准备。
    的头像 发表于 03-03 10:09 3365次阅读

    米尔RK3576成功上车!ROS2 Humble生态系统体验

    Humble生态系统,完美移植到了这颗国产芯片上。一个稳定、全功能的机器人软件开发平台已经就绪,现在就来一起探索它的强大魅力! 一、系统启动与基础性能展示1. 硬件平台简介 开发板:MYD-LR3576
    发表于 01-15 18:30

    技嘉于 CES 2026 展示 AI TOP 产品线 推动以人为本的本地 AI 生态系统发展

     CES 2026 展示 AI TOP 产品线  推动以人为本的本地 AI 生态系统发展 AI TOP 系统为可高度定制化的 AI 计算
    的头像 发表于 01-12 19:49 1337次阅读
    技嘉于 CES 2026 展示 AI TOP 产品线 推动以人为本的本地 AI <b class='flag-5'>生态系统</b>发展

    Ceva 添加 Sensory 的 TrulyHandsfree 语音激活功能, 增强 NeuPro-Nano NPU 生态系统

    体验的需求激增,Ceva公司(纳斯达克股票代码:CEVA)扩展其针对NeuPro-Nano NPU的广泛人工智能生态系统,以满足这一需求。今天,Ceva和Sensory公司宣布合作,将Sensory
    的头像 发表于 01-09 11:22 685次阅读
    Ceva 添加 Sensory 的 TrulyHandsfree 语音激活功能, 增强 NeuPro-Nano NPU <b class='flag-5'>生态系统</b>

    Cadence推出全新完整小芯片生态系统

    楷登电子(美国 Cadence 公司,NASDAQ:CDNS)今日宣布推出从设计规范到封装部件的完整小芯片生态系统,助力客户开发面向物理 AI、数据中心及高性能计算 (HPC) 应用的小芯片,旨在降低工程设计复杂度,缩短产品上市周期。
    的头像 发表于 01-08 16:53 1020次阅读
    Cadence推出全新完整小芯片<b class='flag-5'>生态系统</b>

    如何在NVIDIA Jetson AGX Thor上通过Docker高效部署vLLM推理服务

    系统安装与环境配置后,本期我们将继续带大家深入 NVIDIA Jetson AGX Thor 的开发教程之旅,了解如何在 Jetson AGX Thor 上,通过 Docker 高效部署 vLLM 推理服务。
    的头像 发表于 11-13 14:08 4389次阅读
    如何在NVIDIA Jetson AGX Thor上通过Docker高效部署<b class='flag-5'>vLLM</b><b class='flag-5'>推理</b>服务

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    ,TensorRT LLM 还承担着推理领域新技术载体的角色,通过将前沿创新引入 LLM 推理生态,持续提升整个
    的头像 发表于 10-21 11:04 1401次阅读

    威宏科技加入Arm Total Design生态系统,携手推动AI与HPC芯片创新

    2025 年 10 月 15 日 – 系统级IC设计服务领导厂商威宏科技(VIA NEXT)今日宣布正式加入 Arm® Total Design生态系统。此合作展现了威宏科技致力于提供创新
    的头像 发表于 10-16 14:04 539次阅读
    威宏科技<b class='flag-5'>加入</b>Arm Total Design<b class='flag-5'>生态系统</b>,携手推动AI与HPC芯片创新

    BPI-AIM7 RK3588 AI与 Nvidia Jetson Nano 生态系统兼容的低功耗 AI 模块

    8K视频编解码和AI推理任务,降低延迟70%。 6 TOPS NPU 定制优化 :针对 YOLO/Transformer 等模型定制算子库,推理效率提升 5 倍。 2. 全面接口兼容,无缝生态系统迁移
    发表于 10-11 09:08

    智慧科研新纪元:善思创兴引领AI与自动化变革

    薄膜性能评估进入三维精准切片的新纪元。它突破传统剥离测试局限,可同时精准测量薄膜不同深度(如20μm、40μm、60μm)的剪切强度以及薄膜与基材间的 剥离强度 ,结果稳定可靠、再现性优异。 ​深度解析
    发表于 09-05 16:55

    昂瑞微OM6626系列开启Apple和Google双生态智能寻物新纪元

    在智能寻物设备市场持续爆发式增长的背景下,昂瑞微OM6626系列芯片在兼容Apple Find My Network与Android Find Hub Network双生态系统持续出货,已经在
    的头像 发表于 08-27 16:22 1054次阅读

    vLLM Meetup上海站成功举办

    2025年8月23日,vLLM Meetup上海站成功举办。活动汇聚技术专家、社区开发者及行业用户,围绕vLLM(一种用于大型语言模型的高性能推理引擎)的技术进展、生态建设及应用展开深
    的头像 发表于 08-27 13:47 1267次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2410次阅读

    OpenGMSL™联盟成立 将SerDes传输打造成为全球汽车生态系统的开放标准

    与测量方面的专业知识,为车载连接标准化、开放式生态系统的发展提供支持。”——Rohde Schwarz, Rosenberger Gr
    的头像 发表于 06-04 09:18 2707次阅读
    OpenGMSL™联盟成立 将SerDes传输打造成为全球汽车<b class='flag-5'>生态系统</b>的开放标准