0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解锁LLM新高度—OpenVINO™ 2024.1赋能生成式AI高效运行

英特尔物联网 来源:OpenVINO 中文社区 2024-05-10 10:36 次阅读

大语言模型推理的改进

LLM 的发展仍保持着惊人的速度。尽管现有的 LLM 已经具备强大的功能,但通过 OpenVINO 的优化和推理加速,可以对这些复杂模型的执行进行精炼,实现更快、更高效的处理,减少计算开销并最大限度发挥硬件潜力,这将直接导致 LLM 实现更高的吞吐量和更低的延迟。

通过采用压缩嵌入实现额外优化,有效地缩减了 LLM 的编译耗时与内存占用。与此同时,基于英特尔锐炫GPU,以及英特尔高级矩阵扩展(Intel AMX)的第4代和第5代英特尔至强平台之上,LLM 的第一个 token 处理性能得到了显著提升。

通过 oneDNN 可实现更好的 LLM 压缩与性能提升。如今,经过量化或压缩后的 INT4 和 INT8 精度的 LLM 可在英特尔锐炫GPU 上得到支持。在搭载集成 GPU 的英特尔酷睿Ultra 处理器上,针对部分小型 GenAI 模型显著减少了内存消耗。

此外,现在可以在 PyTorch 模型进行训练后量化之后,对其进行微调,以提高模型精度并简化从训练后量化过渡到训练感知量化的过程。

已添加演示示例:https://github.com/openvinotoolkit/nncf/blob/develop/examples/quantization_aware_training/torch/resnet18/README.md

更多生成式 AI 覆盖范围和框架集成

进一步深入了解搭载 OpenVINO 的生成式 AI,该新版本拓宽了生成式AI的边界,使其能够覆盖更广泛的神经网络架构与应用场景。

针对最新发布的最先进的 Llama 3 和 Phi3 模型, OpenVINO 对其实现了支持和优化。

具备混合专家(MoE)架构的 LLM 模型 Mixtral 以及 URLNet 模型,均针对英特尔至强处理器进行了性能提升优化。

文生图模型 Stable Diffusion 1.5以及 LLMs 模型 ChatGLM3-6b和Qwen-7B,则专为搭载了集成 GPU 的英特尔酷睿Ultra 处理器进行了推理速度的改进和优化。

现在,OpenVINO 已支持 Falcon-7B-Instruct,这是一款即用型、具备优秀性能指标的生成式AI大语言模型,适用于聊天与指令场景。

新版本支持的其他模型包括:

Yolo V9、Yolo V8 Oriented Bounding Box Detection (OOB)、Stable Diffusion in Keras、MoblieCLIP、RMBG-v1.4 Background Removal、Magika、TripoSR、AnimateAnyone、LLaVA-Next 以及带有 OpenVINO 和 LangChain 的 RAG 系统。

我们还在 OpenVINO Notebooks 存储库中提供了 Jupyter Notebook 示例。

新平台的更改和现有平台的增强

除了 PyPI 上的主 OpenVINO 软件包外,英特尔酷睿Ultra 处理器的预览 NPU 插件现在在 OpenVINO 开源 GitHub 存储库中可用。

现在,可以通过 npm 存储库更轻松地访问 JavaScript API,使 JavaScript 开发人员能够无缝访问 OpenVINO API。我们扩展了文档,可帮助开发人员将他们的 JavaScript 应用程序与 OpenVINO 集成。

现在,默认情况下已在 ARM 处理器上为卷积神经网络(CNN)启用 FP16 推理。在多种 ARM 设备上,已显著提升了众多模型的性能。已实现与 CPU 架构无关的构建,旨在为不同 ARM 设备提供统一的二进制分发。

新增和更新的 Notebook

OpenVINO Notebooks 仍然是非常有价值的资源,用于展示如何利用 OpenVINO 在人工智能领域实现重要进展。最近,我们对 OpenVINO notebooks 存储库做了一些改动,包括将默认分支从 'main' 更改为 'latest',以及对 "notebooks" 文件夹内 notebook 的命名结构进行了改进



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GPU芯片
    +关注

    关注

    1

    文章

    303

    浏览量

    5697
  • 生成式AI
    +关注

    关注

    0

    文章

    421

    浏览量

    277
  • OpenVINO
    +关注

    关注

    0

    文章

    63

    浏览量

    97

原文标题:解锁 LLM 新高度,拓宽模型新边界 —— OpenVINO™ 2024.1 赋能生成式 AI 高效运行 | 开发者实战

文章出处:【微信号:英特尔物联网,微信公众号:英特尔物联网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ZR执行器:智能制造的得力干将,提升生产新高度

    ZR执行器:智能制造的得力干将,提升生产新高度 ZR执行器以其精准的控制能力和高效的执行效率,在智能制造领域发挥了重要作用。传统的执行器往往存在控制不精确、反应速度慢等问题,难以满足现代生产对于高效
    的头像 发表于 05-10 11:15 146次阅读

    Arm平台赋能移动端生成AI

    生成式人工智能 (Generative AI) 涵盖了当下广为人知,且备受关注的大语言模型 (LLM),如今也已落地边缘侧的移动设备。
    的头像 发表于 04-26 11:09 527次阅读

    NQ8 AI Gen3芯片打造视听新高度,三星Neo QLED 8K QN900D开启AI电视新纪元

    应运而生,强大的神经网络结合AI深度学习算法的应用使电视芯片不断学习和自我进化,驱动MIRCO LED、Mini LED、OLED等多种屏幕显示技术,打造视听新高度。 经过五年的厚积薄发,2024年三星发布“AI for All
    的头像 发表于 03-15 14:30 242次阅读
    NQ8 <b class='flag-5'>AI</b> Gen3芯片打造视听<b class='flag-5'>新高度</b>,三星Neo QLED 8K QN900D开启<b class='flag-5'>AI</b>电视新纪元

    安霸发布全新N1系列生成AI芯片

    安霸在CES 2024上发布了全新的N1系列生成AI芯片,这是一款专门为前端设备设计的芯片,支持本地运行大型语言模型(LLM)应用。其单颗SoC能够支持1至340亿参数的多模态大模型
    的头像 发表于 01-09 15:32 778次阅读

    安霸发布N1系列生成AI芯片支持前端设备运行本地LLM应用

    单颗 SoC 支持 1 至 340 亿参数的多模态大模型(Multi-Modal LLM)推理,实现前端低功耗生成AI
    的头像 发表于 01-09 15:19 674次阅读

    如何快速下载OpenVINO Notebooks中的AI大模型

    OpenVINO Notebooks是Jupyter Notebook形式的OpenVINO范例程序大集合,方便开发者快速学习并掌握OpenVINO推理程序,并通过Copy&Paste方式将范例中的关键程序应用到自己的
    的头像 发表于 12-12 14:40 737次阅读
    如何快速下载<b class='flag-5'>OpenVINO</b> Notebooks中的<b class='flag-5'>AI</b>大模型

    OpenVINO™ 2023.2 发布:让生成AI在实际场景中更易用

    在 2023.2 版本中,我们进一步优化此工作流程,并引入在 CPU 和集成显卡上运行权重量化为 int8 和 int4 精度的 LLM 的能力。权重量化直接影响内存带宽,并帮助模型更快、更高效地执行推理,因为模型消耗的内存更少
    的头像 发表于 12-08 16:04 612次阅读
    <b class='flag-5'>OpenVINO</b>™ 2023.2 发布:让<b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>在实际场景中更易用

    如何利用OpenVINO加速LangChain中LLM任务

    LangChain 是一个高层级的开源的框架,从字面意义理解,LangChain 可以被用来构建 “语言处理任务的链条”,它可以让AI开发人员把大型语言模型(LLM)的能力和外部数据结合起来,从而
    的头像 发表于 12-05 09:58 493次阅读

    利用 NVIDIA Jetson 实现生成AI

    上以交互速率运行的 Llama-2-70B 模型。 图 1. 领先的生成AI 模型在  Jetson AGX Orin 上的推理性能 如要在 Jetson 上快速测试最新的模型和应用,请使用 Jetson
    的头像 发表于 11-07 21:25 549次阅读
    利用 NVIDIA Jetson 实现<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b>

    使用Splashtop解锁对企业生成AI的安全访问

    其他可以从私有AI 模型中受益的公司包括因业务需求而要从头开始训练自己的LLM 模型的公司,或者需要保护数据增强和优化的LLM 模型的公司,这些模型已经针对特定任务(例如客户支持、财务咨询等)进行了预训练。
    的头像 发表于 10-22 14:19 427次阅读

    英码科技精彩亮相火爆的IOTE 2023,多面AIoT产业发展!

    产品,包括覆盖多层次算力的智能工作站(边缘计算盒子)、AI加速卡等;同时向大家展示自研的AI技术服务——“深元”0代码移植工具链和创新性的行业解决方案,更多AIoT产业生态企业快速
    发表于 09-25 10:03

    光纤矩阵,提升视觉体验新高度

    随着科技的不断进步,视觉体验成为了人们追求的重要方向之一。讯维光纤矩阵技术作为现代科技的前沿代表,为提升视觉体验新高度提供了强有力的支持。 作为一种先进的信息传输技术,讯维光纤矩阵利用光纤作为传输
    的头像 发表于 09-01 15:08 381次阅读
    光纤矩阵,提升视觉体验<b class='flag-5'>新高度</b>

    Stability AI发布首个用于编程的生成LLM AI产品—StableCode

    Stability AI 近日宣布了他们首个用于编程的生成LLM AI 产品 ——StableCode。该产品旨在帮助程序员完成日常工作,并为新手开发者提供实用的学习工具。
    的头像 发表于 08-24 11:27 639次阅读
    Stability <b class='flag-5'>AI</b>发布首个用于编程的<b class='flag-5'>生成</b>式<b class='flag-5'>LLM</b> <b class='flag-5'>AI</b>产品—StableCode

    如何为PyInstaller命令行添加OpenVINO依赖性,从OpenVINO python脚本生成功能 .exe文件?

    :\\person-detection-retail-0013.xml;.\" Social_Distancing_MQTT.py 运行生成的 .exe 并接收一个出现任何情况的空白页面。
    发表于 08-15 07:16

    如何在使用Inspector运行OpenVINO C++样本时避免内存泄露?

    运行OpenVINO™ 图像分类 Async C++示例带英特尔® Inspector用于检查内存问题。使用命令: $ pwd /home/centos
    发表于 08-15 06:18