0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

vLLM项目加入PyTorch生态系统,引领LLM推理新纪元

jf_23871869 来源:jf_23871869 作者:jf_23871869 2024-12-18 17:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,vLLM项目宣布正式成为PyTorch生态系统的一部分,标志着该项目与PyTorch的合作进入了一个全新的阶段。本文将从以下几个方面进行介绍,特别提醒:安装方案在第四个部分,可选择性阅读。

vLLM项目概述

vLLM的成就与实际应用

支持流行模型

安装与使用vLLM

总结

一,vLLM项目概述

vLLM是一个为大型语言模型(LLMs)设计的高吞吐量、内存高效的推理和服务引擎。该项目最初基于创新的PagedAttention算法构建,如今已经发展成为一个全面的、最先进的推理引擎。vLLM社区不断为其添加新功能和优化,包括流水线并行处理、分块预填充、推测性解码和分离服务。

wKgZPGdikGaARrC8AAMapEZDw_Y377.png

二,vLLM的成就与实际应用

自发布以来,vLLM获得了超过31,000个GitHub星标,这一成就证明了其受欢迎程度和社区的活力。vLLM与PyTorch的深度集成,使其能够支持包括NVIDIA GPUAMD GPU、Google Cloud TPU在内的多种硬件后端,确保了跨平台的兼容性和性能优化。

在今年的亚马逊Prime Day,vLLM在向数百万用户提供快速响应中发挥了关键作用。它在三个区域的80,000个Trainium和Inferentia芯片上,每分钟处理了300万个令牌,同时保持了P99延迟在1秒以内的首次响应。这意味着,当客户与亚马逊应用中的Rufus聊天时,他们实际上是在与vLLM互动。

三,支持流行模型

vLLM与领先的模型供应商紧密合作,支持包括Meta LLAMA、Mistral、QWen和DeepSeek在内的流行模型。特别值得一提的是,vLLM作为首发合作伙伴,首次启用了LLAMA 3.1(405B)模型,展示了其处理复杂和资源密集型语言模型的能力。

wKgZPGdikH2APXfvAAAutVrtNXY766.png

四,安装与使用vLLM

安装vLLM非常简单,用户只需在命令行中运行:

pip install vllm

vLLM既可以作为OpenAI API兼容服务器运行,也可以作为一个简单的函数使用。以下是如何使用vLLM生成文本的示例代码:

vllm serve meta-llama/Llama-3.1-8B

将vLLM作为简单函数运行:

from vllm import LLM, SamplingParams

五,总结

随着vLLM的加入,PyTorch生态系统更加强大,为LLM服务带来了便捷和高效。期待vLLM在未来解锁更多创新,推动AI技术的普及和发展

如果你有更好的文章,欢迎投稿!

稿件接收邮箱:nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方®”!

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10275

    浏览量

    179337
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14706
  • LLM
    LLM
    +关注

    关注

    1

    文章

    340

    浏览量

    1258
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何在NVIDIA Jetson AGX Thor上通过Docker高效部署vLLM推理服务

    系统安装与环境配置后,本期我们将继续带大家深入 NVIDIA Jetson AGX Thor 的开发教程之旅,了解如何在 Jetson AGX Thor 上,通过 Docker 高效部署 vLLM 推理服务。
    的头像 发表于 11-13 14:08 3092次阅读
    如何在NVIDIA Jetson AGX Thor上通过Docker高效部署<b class='flag-5'>vLLM</b><b class='flag-5'>推理</b>服务

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    ,TensorRT LLM 还承担着推理领域新技术载体的角色,通过将前沿创新引入 LLM 推理生态,持续提升整个
    的头像 发表于 10-21 11:04 770次阅读

    威宏科技加入Arm Total Design生态系统,携手推动AI与HPC芯片创新

    2025 年 10 月 15 日 – 系统级IC设计服务领导厂商威宏科技(VIA NEXT)今日宣布正式加入 Arm® Total Design生态系统。此合作展现了威宏科技致力于提供创新
    的头像 发表于 10-16 14:04 222次阅读
    威宏科技<b class='flag-5'>加入</b>Arm Total Design<b class='flag-5'>生态系统</b>,携手推动AI与HPC芯片创新

    BPI-AIM7 RK3588 AI与 Nvidia Jetson Nano 生态系统兼容的低功耗 AI 模块

    8K视频编解码和AI推理任务,降低延迟70%。 6 TOPS NPU 定制优化 :针对 YOLO/Transformer 等模型定制算子库,推理效率提升 5 倍。 2. 全面接口兼容,无缝生态系统迁移
    发表于 10-11 09:08

    智慧科研新纪元:善思创兴引领AI与自动化变革

    薄膜性能评估进入三维精准切片的新纪元。它突破传统剥离测试局限,可同时精准测量薄膜不同深度(如20μm、40μm、60μm)的剪切强度以及薄膜与基材间的 剥离强度 ,结果稳定可靠、再现性优异。 ​深度解析
    发表于 09-05 16:55

    昂瑞微OM6626系列开启Apple和Google双生态智能寻物新纪元

    在智能寻物设备市场持续爆发式增长的背景下,昂瑞微OM6626系列芯片在兼容Apple Find My Network与Android Find Hub Network双生态系统持续出货,已经在
    的头像 发表于 08-27 16:22 641次阅读

    vLLM Meetup上海站成功举办

    2025年8月23日,vLLM Meetup上海站成功举办。活动汇聚技术专家、社区开发者及行业用户,围绕vLLM(一种用于大型语言模型的高性能推理引擎)的技术进展、生态建设及应用展开深
    的头像 发表于 08-27 13:47 848次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 1760次阅读

    详解 LLM 推理模型的现状

    2025年,如何提升大型语言模型(LLM)的推理能力成了最热门的话题之一,大量优化推理能力的新策略开始出现,包括扩展推理时间计算、运用强化学习、开展监督微调和进行提炼等。本文将深入探讨
    的头像 发表于 04-03 12:09 1249次阅读
    详解 <b class='flag-5'>LLM</b> <b class='flag-5'>推理</b>模型的现状

    深蓝汽车携手华为开创全民智驾新纪元

    2月9日,深蓝汽车与华为在重庆正式签署全面深化业务合作协议。作为普及全民智驾的长期战略合作伙伴,双方宣布将全面推动智能网联汽车领域的合作,共同研发前沿技术,开创全民智驾新纪元,加速推动智驾平权,引领中国智能网联汽车产业的未来。
    的头像 发表于 02-10 10:28 919次阅读

    如何在光子学中利用电子生态系统

    本文介绍了如何在光子学中利用电子生态系统。 这一目标要求光子学制造利用现有的电子制造工艺和生态系统。光子学必须采用无晶圆厂模型、可以在焊接步骤中幸存下来的芯片以及电子封装和组装方法。   无晶圆厂
    的头像 发表于 02-10 10:24 1031次阅读
    如何在光子学中利用电子<b class='flag-5'>生态系统</b>

    安森美PRISM生态系统助力相机开发

    安森美(onsemi)开发了一个高级图像传感器模块参考设计 (Premier Reference Image Sensor Module,PRISM) 生态系统,大大缩短了原型开发周期,进一步减轻了工程负担,提高了相机质量,并最终帮助我们的客户实现产品快速上市。
    的头像 发表于 02-06 10:32 806次阅读
    安森美PRISM<b class='flag-5'>生态系统</b>助力相机开发

    英监管机构或优先调查苹果谷歌移动生态系统

    近日,英国竞争与市场管理局(CMA)发布了一项重要声明,引起了广泛关注。该声明指出,CMA正考虑根据将于明年生效的数字市场竞争新规,优先对苹果和谷歌的移动生态系统活动展开调查。 据悉,这一决定
    的头像 发表于 02-05 13:46 798次阅读

    英国CMA将对苹果谷歌移动生态系统展开调查

    近日,英国竞争与市场管理局(CMA)宣布了一项重大决定,将对苹果和谷歌的移动生态系统进行深入调查。此次调查旨在评估这两家科技巨头是否违反了英国最新制定的严格数字竞争规则,以确保市场的公平性和透明度
    的头像 发表于 01-24 14:04 898次阅读

    笙泉完善的MCU生态系统(ECO System),赋能高效开发、提升竞争优势

    本帖最后由 noctor 于 2024-12-27 10:46 编辑 笙泉完善的MCU生态系统(ECO System),赋能高效开发、提升竞争优势 完善的生态系统 笙泉科技已深耕MCU
    发表于 12-27 09:58