阿里巴巴推出了全新开源千问3.5系列,专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为397B、具备推理能力的原生视觉语言模型(VLM),基于由混合专家模型(MoE)和门控Delta网络(Gated Delta Networks)组成的混合架构构建。千问3.5能够理解和导航用户界面,相较上一代VLM有了显著提升。
千问3.5适用于各种用例,包括:
编码任务,包括Web开发
视觉推理任务,包括移动端和Web界面
聊天应用
复杂搜索
| 千问3.5 | |
| 模态 | 视觉、语言 |
| 总参数 | 397B |
| 激活参数 | 17B |
| 激活率 | 4.28% |
| 输入上下文长度 | 256K token,可扩展至1M token |
| 支持的语言 | 200+ |
| 其他配置信息 | |
| 专家 | 512 |
| 共享专家 | 1 |
| 每个token使用的专家数量 | 11(10个路由专家+ 1个共享专家) |
| 层数 | 60 |
| 词表大小 | 248,320 |
表1. 千问3.5模型的规格和配置详情
使用NVIDIA端点进行构建
您可以在NVIDIA官网上免费使用由NVIDIA GPU驱动的GPU加速端点使用千问3.5进行构建。作为NVIDIA开发者计划的一部分,您可以在浏览器中快速体验、试验不同的提示词,并使用自己的数据测试模型,以评估其在实际场景中的性能。
视频1.了解如何在NVIDIA GPU加速端点上测试千问3.5
您还可以通过API来调用NVIDIA托管的模型,注册NVIDIA开发者计划即可免费使用。
import requests invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" headers = { "Authorization": "Bearer $NVIDIA_API_KEY", "Accept": "application/json", } payload = { "messages": [ { "role": "user", "content": "" } ], "model": "qwen/qwen3.5-397b-a17b", "chat_template_kwargs": { "thinking": True }, "frequency_penalty": 0, "max_tokens": 16384, "presence_penalty": 0, "stream": True, "temperature": 1, "top_p": 1 } # re-use connections session = requests.Session() response = session.post(invoke_url, headers=headers, json=payload) response.raise_for_status() response_body = response.json() print(response_body)
要使用工具调用功能,只需定义一个由OpenAI兼容工具组成的数组,并将其添加到聊天补全接口的tools参数中。
NVIDIA NIM可以轻松将千问3.5从开发阶段迁移到生产环境。NIM提供经过优化的容器化推理微服务,将模型与性能调优、标准化API和企业所需的部署灵活性打包集成。您可以在各类环境中下载并运行,无论是本地、云上或混合环境。
使用NVIDIANeMo自定义模型
千问3.5已具备出色的“开箱即用”多模态功能,NVIDIA NeMo框架仍提供了关键的工具集,使其进一步适配特定领域的需求。开发者可以使用NeMo Automodel库微调千问3.5 397B参数架构,实现高吞吐效率。
NeMoAutomodel是一个原生PyTorch训练库,提供Day 0 Hugging Face支持,无需繁琐的模型转换,即可在现有检查点上直接进行训练。无论是执行全量监督微调(Supervised Fine-Tuning, SFT),还是使用LoRA等内存高效方法,都有助于快速开展实验。
作为参考实现指南,开发者可以利用医学视觉问答技术教程,该教程详细说明了如何在放射学数据集上微调千问3.5。在大规模场景下,NeMo支持多节点Slurm和Kubernetes部署,从而确保即使是最大的MoE模型,也能在特定领域的推理和复杂智能体工作流中实现低延迟的优化,并将延迟降至最低。
开始使用千问3.5
从数据中心部署到可随时随地进行容器化部署的NVIDIA NIM,NVIDIA提供了千问3.5的集成解决方案。访问Hugging Face上的千问3.5模型页面,并前往NVIDIA官网体验千问3.5的功能。
关于作者
Anu Srivastava 是高级技术营销经理,专注于开放 AI 模型。她与主要合作伙伴和基金会合作,为开源开发者生态系统提供 NVIDIA 加速平台支持。加入 NVIDIA 之前,她曾在 Google 担任各种工程职务超过 10 年,并拥有德克萨斯大学奥斯汀分校计算机科学学位。
-
NVIDIA
+关注
关注
14文章
5725浏览量
110284 -
gpu
+关注
关注
28文章
5321浏览量
136206 -
阿里巴巴
+关注
关注
7文章
1653浏览量
49377
原文标题:基于 NVIDIA GPU 加速端点,使用千问3.5 VLM 开发原生多模态智能体
文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
《CST Studio Suite 2024 GPU加速计算指南》
NVIDIA火热招聘GPU高性能计算架构师
AI开发者福音!阿里云推出国内首个基于英伟达NGC的GPU优化容器
在Ubuntu上使用Nvidia GPU训练模型
慕尼黑电子展回顾:启明智显多模态硬件智能体引领科技潮流
VLM(视觉语言模型)详细解析
移远通信智能模组全面接入多模态AI大模型,重塑智能交互新体验
移远通信智能模组全面接入多模态AI大模型,重塑智能交互新体验
使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发
沐曦股份曦云C系列GPU深度适配通义千问Qwen3.5模型
沐曦股份曦云C系列GPU全面适配通义千问Qwen3.5三款新模型
基于NVIDIA GPU加速端点使用千问3.5 VLM开发原生多模态智能体
评论