基于NVIDIA GPU加速端点使用千问3.5 VLM开发原生多模态智能体-电子发烧友网

阿里巴巴推出了全新开源千问3.5系列，专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为397B、具备推理能力的原生视觉语言模型(VLM)，基于由混合专家模型(MoE)和门控Delta网络(Gated Delta Networks)组成的混合架构构建。千问3.5能够理解和导航用户界面，相较上一代VLM有了显著提升。

千问3.5适用于各种用例，包括：

编码任务，包括Web开发

视觉推理任务，包括移动端和Web界面

聊天应用

复杂搜索

千问3.5
模态	视觉、语言
总参数	397B
激活参数	17B
激活率	4.28%
输入上下文长度	256K token，可扩展至1M token
支持的语言	200+
其他配置信息
专家	512
共享专家	1
每个token使用的专家数量	11（10个路由专家+ 1个共享专家）
层数	60
词表大小	248,320

表1. 千问3.5模型的规格和配置详情

使用NVIDIA端点进行构建

您可以在NVIDIA官网上免费使用由NVIDIA GPU驱动的GPU加速端点使用千问3.5进行构建。作为NVIDIA开发者计划的一部分，您可以在浏览器中快速体验、试验不同的提示词，并使用自己的数据测试模型，以评估其在实际场景中的性能。

视频1.了解如何在NVIDIA GPU加速端点上测试千问3.5

您还可以通过API来调用NVIDIA托管的模型，注册NVIDIA开发者计划即可免费使用。

import requests 
   
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" 
   
headers = { 
    "Authorization": "Bearer $NVIDIA_API_KEY", 
    "Accept": "application/json", 
} 
   
payload = { 
  "messages": [ 
    { 
    "role": "user", 
    "content": "" 
    } 
  ], 
  "model": "qwen/qwen3.5-397b-a17b", 
  "chat_template_kwargs": { 
    "thinking": True 
  }, 
  "frequency_penalty": 0, 
  "max_tokens": 16384, 
  "presence_penalty": 0, 
  "stream": True, 
  "temperature": 1, 
  "top_p": 1 
} 
   
# re-use connections 
session = requests.Session() 
   
response = session.post(invoke_url, headers=headers, json=payload) 
   
response.raise_for_status() 
response_body = response.json() 
print(response_body)

要使用工具调用功能，只需定义一个由OpenAI兼容工具组成的数组，并将其添加到聊天补全接口的tools参数中。

NVIDIA NIM可以轻松将千问3.5从开发阶段迁移到生产环境。NIM提供经过优化的容器化推理微服务，将模型与性能调优、标准化API和企业所需的部署灵活性打包集成。您可以在各类环境中下载并运行，无论是本地、云上或混合环境。

使用NVIDIANeMo自定义模型

千问3.5已具备出色的“开箱即用”多模态功能，NVIDIA NeMo框架仍提供了关键的工具集，使其进一步适配特定领域的需求。开发者可以使用NeMo Automodel库微调千问3.5 397B参数架构，实现高吞吐效率。

NeMoAutomodel是一个原生PyTorch训练库，提供Day 0 Hugging Face支持，无需繁琐的模型转换，即可在现有检查点上直接进行训练。无论是执行全量监督微调(Supervised Fine-Tuning, SFT)，还是使用LoRA等内存高效方法，都有助于快速开展实验。

作为参考实现指南，开发者可以利用医学视觉问答技术教程，该教程详细说明了如何在放射学数据集上微调千问3.5。在大规模场景下，NeMo支持多节点Slurm和Kubernetes部署，从而确保即使是最大的MoE模型，也能在特定领域的推理和复杂智能体工作流中实现低延迟的优化，并将延迟降至最低。

开始使用千问3.5

从数据中心部署到可随时随地进行容器化部署的NVIDIA NIM，NVIDIA提供了千问3.5的集成解决方案。访问Hugging Face上的千问3.5模型页面，并前往NVIDIA官网体验千问3.5的功能。

关于作者

Anu Srivastava 是高级技术营销经理，专注于开放 AI 模型。她与主要合作伙伴和基金会合作，为开源开发者生态系统提供 NVIDIA 加速平台支持。加入 NVIDIA 之前，她曾在 Google 担任各种工程职务超过 10 年，并拥有德克萨斯大学奥斯汀分校计算机科学学位。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5725

浏览量
110284
gpu

gpu

+关注

关注
28

文章
5321

浏览量
136206
阿里巴巴

阿里巴巴

+关注

关注
7

文章
1653

浏览量
49377

原文标题：基于 NVIDIA GPU 加速端点，使用千问3.5 VLM 开发原生多模态智能体

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

搜索历史

基于NVIDIA GPU加速端点使用千问3.5 VLM开发原生多模态智能体

评论