0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于NVIDIA GPU加速端点使用千问3.5 VLM开发原生多模态智能体

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2026-03-04 16:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

阿里巴巴推出了全新开源千问3.5系列,专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为397B、具备推理能力的原生视觉语言模型(VLM),基于由混合专家模型(MoE)和门控Delta网络(Gated Delta Networks)组成的混合架构构建。千问3.5能够理解和导航用户界面,相较上一代VLM有了显著提升。

千问3.5适用于各种用例,包括:

编码任务,包括Web开发

视觉推理任务,包括移动端和Web界面

聊天应用

复杂搜索

千问3.5
模态 视觉、语言
总参数 397B
激活参数 17B
激活率 4.28%
输入上下文长度 256K token,可扩展至1M token
支持的语言 200+
其他配置信息
专家 512
共享专家 1
每个token使用的专家数量 11(10个路由专家+ 1个共享专家)
层数 60
词表大小 248,320

表1. 千问3.5模型的规格和配置详情

使用NVIDIA端点进行构建

您可以在NVIDIA官网上免费使用由NVIDIA GPU驱动的GPU加速端点使用千问3.5进行构建。作为NVIDIA开发者计划的一部分,您可以在浏览器中快速体验、试验不同的提示词,并使用自己的数据测试模型,以评估其在实际场景中的性能。

视频1.了解如何在NVIDIA GPU加速端点上测试千问3.5

您还可以通过API来调用NVIDIA托管的模型,注册NVIDIA开发者计划即可免费使用。

import requests 
   
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" 
   
headers = { 
    "Authorization": "Bearer $NVIDIA_API_KEY", 
    "Accept": "application/json", 
} 
   
payload = { 
  "messages": [ 
    { 
    "role": "user", 
    "content": "" 
    } 
  ], 
  "model": "qwen/qwen3.5-397b-a17b", 
  "chat_template_kwargs": { 
    "thinking": True 
  }, 
  "frequency_penalty": 0, 
  "max_tokens": 16384, 
  "presence_penalty": 0, 
  "stream": True, 
  "temperature": 1, 
  "top_p": 1 
} 
   
# re-use connections 
session = requests.Session() 
   
response = session.post(invoke_url, headers=headers, json=payload) 
   
response.raise_for_status() 
response_body = response.json() 
print(response_body)

要使用工具调用功能,只需定义一个由OpenAI兼容工具组成的数组,并将其添加到聊天补全接口的tools参数中。

NVIDIA NIM可以轻松将千问3.5从开发阶段迁移到生产环境。NIM提供经过优化的容器化推理微服务,将模型与性能调优、标准化API和企业所需的部署灵活性打包集成。您可以在各类环境中下载并运行,无论是本地、云上或混合环境。

使用NVIDIANeMo自定义模型

千问3.5已具备出色的“开箱即用”多模态功能,NVIDIA NeMo框架仍提供了关键的工具集,使其进一步适配特定领域的需求。开发者可以使用NeMo Automodel库微调千问3.5 397B参数架构,实现高吞吐效率。

NeMoAutomodel是一个原生PyTorch训练库,提供Day 0 Hugging Face支持,无需繁琐的模型转换,即可在现有检查点上直接进行训练。无论是执行全量监督微调(Supervised Fine-Tuning, SFT),还是使用LoRA等内存高效方法,都有助于快速开展实验。

作为参考实现指南,开发者可以利用医学视觉问答技术教程,该教程详细说明了如何在放射学数据集上微调千问3.5。在大规模场景下,NeMo支持多节点Slurm和Kubernetes部署,从而确保即使是最大的MoE模型,也能在特定领域的推理和复杂智能体工作流中实现低延迟的优化,并将延迟降至最低。

开始使用千问3.5

从数据中心部署到可随时随地进行容器化部署的NVIDIA NIM,NVIDIA提供了千问3.5的集成解决方案。访问Hugging Face上的千问3.5模型页面,并前往NVIDIA官网体验千问3.5的功能。

关于作者

Anu Srivastava 是高级技术营销经理,专注于开放 AI 模型。她与主要合作伙伴和基金会合作,为开源开发者生态系统提供 NVIDIA 加速平台支持。加入 NVIDIA 之前,她曾在 Google 担任各种工程职务超过 10 年,并拥有德克萨斯大学奥斯汀分校计算机科学学位。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5725

    浏览量

    110284
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5321

    浏览量

    136206
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1653

    浏览量

    49377

原文标题:基于 NVIDIA GPU 加速端点,使用千问3.5 VLM 开发原生多模态智能体

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    《CST Studio Suite 2024 GPU加速计算指南》

    监控/利用率、选择可用GPU卡子集等内容。 6. 故障排除:针对NVIDIA驱动安装、GPU设置、GPU模式、硬件识别、CUDA错误、TC
    发表于 12-16 14:25

    NVIDIA火热招聘GPU高性能计算架构师

    这边是NVIDIA HR Allen, 我们目前在上海招聘GPU高性能计算架构师(功能验证)的岗位,有意向的朋友欢迎发送简历到 allelin@nvidia
    发表于 09-01 17:22

    AI开发者福音!阿里云推出国内首个基于英伟达NGC的GPU优化容器

    云计算服务异构加速平台,为人工智能产业提供场景化的全球加速能力。2017年11月,阿里云发布了国内首个支持 NVIDIA ®Tesla ®
    发表于 04-04 14:39

    在Ubuntu上使用Nvidia GPU训练模型

    问题最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:解决方案自动风扇控制在
    发表于 01-03 08:24

    慕尼黑电子展回顾:启明智显模态硬件智能引领科技潮流

    在刚刚落幕的慕尼黑电子展上,启明云端携启明智显与触觉智能两家子公司,共同为全球观众呈现了一场科技盛宴。本次展会,启明智显凭借其创新的模态硬件智能
    的头像 发表于 07-10 16:17 1184次阅读
    慕尼黑电子展回顾:启明智显<b class='flag-5'>多</b><b class='flag-5'>模态</b>硬件<b class='flag-5'>智能</b><b class='flag-5'>体</b>引领科技潮流

    商汤绝影在行业率先实现原生模态大模型的车端部署

    “基于原生模态大模型,商汤绝影正在打造一系列全新的车载智能化产品,推动智能汽车向超级智能
    的头像 发表于 07-23 10:52 1325次阅读
    商汤绝影在行业率先实现<b class='flag-5'>原生</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型的车端部署

    VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的模态人工智能模型,能够理解并生成与视觉内容相关的自然语言。以下
    的头像 发表于 03-17 15:32 9877次阅读
    ​<b class='flag-5'>VLM</b>(视觉语言模型)​详细解析

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    随着行百业数智化进程的不断加速模态AI大模型的应用需求不断攀升,图像、语音、视频等多样化的交互方式正逐渐成为推动行业变革的新动力。3月20日,全球物联网整体解决方案供应商移远通信
    的头像 发表于 03-20 19:03 985次阅读
    移远通信<b class='flag-5'>智能</b>模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大模型,重塑<b class='flag-5'>智能</b>交互新体验

    移远通信智能模组全面接入模态AI大模型,重塑智能交互新体验

    随着行百业数智化进程的不断加速模态AI大模型的应用需求不断攀升,图像、语音、视频等多样化的交互方式正逐渐成为推动行业变革的新动力。   3月20日,全球物联网整体解决方案供应商移
    发表于 03-21 14:12 601次阅读
    移远通信<b class='flag-5'>智能</b>模组全面接入<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大模型,重塑<b class='flag-5'>智能</b>交互新体验

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发

    NVIDIA GTC 推出新一代专业级 GPU 和 AI 赋能的开发者工具—同时,ChatRTX 更新现已支持 NVIDIA NIM,RTX Remix 正式结束测试阶段,本月的
    的头像 发表于 03-28 09:59 1504次阅读

    沐曦股份曦云C系列GPU深度适配通义Qwen3.5模型

    今天,通义今天正式发布 Qwen3.5,并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的开放权重版本。沐曦股
    的头像 发表于 02-26 14:26 939次阅读
    沐曦股份曦云C系列<b class='flag-5'>GPU</b>深度适配通义<b class='flag-5'>千</b><b class='flag-5'>问</b>Qwen<b class='flag-5'>3.5</b>模型

    沐曦股份曦云C系列GPU全面适配通义Qwen3.5三款新模型

    今日,通义团队正式开源发布Qwen3.5系列中等规模模型,推出包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Q
    的头像 发表于 02-28 10:05 842次阅读
    沐曦股份曦云C系列<b class='flag-5'>GPU</b>全面适配通义<b class='flag-5'>千</b><b class='flag-5'>问</b>Qwen<b class='flag-5'>3.5</b>三款新模型

    NVIDIA携手全球工业软件巨头构建AI智能加速设计与工程开发流程

    ™ 以及 GPU 加速的工业软件与工具引入 FANUC、HD 现代集团、本田、捷豹路虎、凯傲集团、梅赛德斯奔驰、联发科技、百事公司、三星、SK 海力士和 TSMC 等企业,以加速工业设计、工程
    的头像 发表于 03-19 15:39 516次阅读

    天数智芯完成阿里云通义Qwen3.5系列模态模型全量适配

    近日,天数智芯携手众智FlagOS 社区完成阿里云通义 Qwen3.5 系列模态模型全量适配,实现模型精度精准对齐与端到端无缝部署,再
    的头像 发表于 03-26 09:25 2427次阅读

    NVIDIA发布Nemotron 3 Nano Omni开放式模态模型

    。这一出色的模型为企业和开发者提供了一条生产路径,帮助其构建更高效且更准确的模态 AI 智能,并赋予他们完全的部署灵活性与控制权。
    的头像 发表于 05-08 10:06 600次阅读