0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

测试时扩展技术如何实现AI推理

NVIDIA英伟达 来源:NVIDIA英伟达 2025-02-15 14:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

扩展定律描述了 AI 系统性能如何随训练数据、模型参数或计算资源规模的增加而提高。

如同许多众所周知的自然经验法则(例如,凡事有起必有落,或每一个作用力都有一个大小相等、方向相反的反作用力)一样,在 AI 领域,大家一直认为,计算、训练数据和参数越多,AI 模型就越好。

然而 AI 发展至今,已经需要三条不同定律来描述不同计算资源配置如何影响模型性能。这三条 AI 扩展定律分别是预训练扩展、后训练扩展和测试时扩展(也称为长思考),它们共同反映了这一领域随着技术的发展而演变的过程,而这些技术能够在各种日益复杂的 AI 用例中使用更多的计算资源。

特别是最近兴起的测试时扩展技术(在推理阶段应用更多计算资源以提高准确性),使 AI 推理模型成为了可能。这种新的大语言模型 (LLM) 能通过执行多次推理来解决复杂问题,同时描述执行任务所需的步骤。然而,测试时扩展需要大量计算资源来支持 AI 推理,这将进一步推动对加速计算的需求。

什么是预训练扩展?

预训练扩展是最初的 AI 发展定律。该定律表明:通过提升训练数据集规模、模型参数数量,以及增加计算资源,开发者能够实现模型智能水平和准确率的可预测性提升。

数据、模型大小和计算这三个要素相互关联。根据研究论文所述的预训练扩展定律,大模型被输入的数据越多,其整体性能越高。为此,开发者必须扩大计算规模,而这又进一步推动了对强大加速计算资源的需求,以运行这些大规模训练的工作负载。

预训练扩展定律带来了具有突破性能力的大模型,同时也激发了模型架构方面的重大创新,包括十亿和万亿参数级 transformer 模型、混合专家模型和新分布式训练技术的兴起,而这些都对计算资源提出了极高要求。

随着人类不断产生大量的多模态数据,包括文本、图像、音频、视频和传感器信息,这些丰富的数据将被用于训练强大的未来 AI 模型,因此预训练扩展定律适用性还将持续。

预训练扩展是 AI 发展的基本原则,它建立了模型、数据集和计算

与 AI 收益之间的联系。混合专家是 AI 训练中的一种常用模型架构。

什么是后训练扩展?

预训练大型基础模型并非易事,它需要大量的投入、专业的技术专家以及数据集。然而,一旦一家公司预训练并发布了一个模型,就进而降低了使用 AI 的门槛,让其他人能够使用他们预训练的模型作为基础,并根据自己的应用进行调整。

这种后训练的过程进一步增加了企业和更广泛开发者社区对加速计算的持续需求。流行的开源模型可以衍生出数百甚至数千个在众多领域中训练过的变体模型。

为各种用例开发这些衍生模型可能需要比预训练原始基础模型多出约 30 倍的计算资源。

后训练技术可以进一步提高模型针对企业所需用例的专业性和相关性。预训练就像是送 AI 模型去学校学习基础技能,而后训练则是教会模型适用于其预期工作的技能。例如,大语言模型在经过后训练后可以处理诸如观点分析或翻译等任务,或者理解医疗或法律等特定领域的术语。

后训练扩展定律认为,可以使用微调、剪枝、量化、蒸馏、强化学习和合成数据增强等技术,进一步提高预训练模型的性能,包括计算效率、准确性或领域专业性。

微调是使用额外的训练数据为特定领域和应用定制 AI 模型。可以使用的训练数据包括企业内部数据集,或成对的样本模型输入和输出。

蒸馏需要一对 AI 模型,即一个大型、复杂的教师模型和一个轻量级的学生模型。在最常见的蒸馏技术(称为离线蒸馏)中,学生模型会学习模仿预训练教师模型的输出。

强化学习 (RL)是一种机器学习技术,它通过奖励模型来训练一个智能体,使其做出与特定用例相符的决策。智能体的目标是在与环境交互的过程中,随着时间推移最大化累积奖励。例如,一个聊天机器人 LLM 可以通过用户的“点赞”反应获得正向强化。这种技术被称为基于人类反馈的强化学习 (RLHF)。另一种更新的技术是基于 AI 反馈的强化学习 (RLAIF)。它使用 AI 模型的反馈来指导学习过程,从而简化后训练的优化工作。

Best-of-n 采样会从语言模型中生成多个输出,并根据奖励模型选择其中奖励分数最高的输出。这种方法通常用于在不修改模型参数的情况下提升 AI 的输出质量,是强化学习微调的一种替代方案。

搜索方法会在选择最终输出之前探索一系列潜在的决策路径。这种后训练的技术可以通过迭代的方式逐步改进模型的响应。

为了支持后训练,开发者可以使用合成数据增强或补充他们的微调数据集。使用由 AI 生成的数据去补充现实世界的数据集,可以使模型更善于处理原始训练数据中罕见或缺失的边缘案例。

后训练扩展使用微调、剪枝和蒸馏等技术完善预训练模型,以提高效率和任务相关性。

什么是测试时扩展?

LLM 可以对输入的提示作出快速响应。虽然该过程非常适合回答简单问题,但在面对用户提出的复杂问题时可能就不那么奏效了。而回答复杂问题是代理式 AI 工作负载的一项基本能力,这项工作要求 LLM 在得出答案之前先对问题进行推理。

这与大多数人类的思维方式类似——当被问到像 2 加 2 这样的问题时,我们可以立即给出答案,不需要涉及加法或整数的基本原理。但如果当场被要求制定一个能让公司利润增长 10% 的商业计划,那么我们就需要对各种选项进行推理,并给出一个多步骤的答案。

测试时扩展也被称为长思考,发生在推理过程中。传统的 AI 模型会根据用户提示快速生成一个一次性的答案,而使用测试时扩展技术的模型则会在推理过程中进行额外的计算,以便在得出最佳答案之前对多个备选答案进行推理。

在为开发者生成复杂、定制化的代码等任务中,这种 AI 推理过程可能需要花费数分钟甚至数小时——与传统 LLM 的单次推理相比,对于复杂的查询,它可能需要超过 100 倍的计算资源,而传统 LLM 在第一次尝试时几乎不可能正确回答复杂问题。

这种测试时计算的能力使 AI 模型能够探索问题的不同解决方案,并将复杂的请求分解为多个步骤。在许多情况下,它们在推理时会向用户展示自己的工作。研究发现,在向 AI 模型提供需要多个推理和规划步骤的开放式提示时,测试时扩展能够提高回答的质量。

测试时计算方法有很多,包括:

思维链提示:将复杂的问题分解为一系列较简单的步骤。

多数表决抽样:针对相同的提示生成多个回答,然后选择出现频率最高的答案作为最终输出。

搜索:探索并评估响应的树状结构中存在的多条路径。

像 Best-of-n 采样这样的后训练方法也可以在推理阶段用于“长思考”,以优化响应,使其更符合人类偏好或其他目标。

测试时扩展通过进行额外的计算改进 AI 推理,从而增强模型的推理能力,使模型能够有效解决复杂的多步骤问题。

测试时扩展如何实现 AI 推理

测试时计算的兴起使 AI 能够对复杂的开放式用户查询作出有理有据、实用且更加准确的回答。这种能力对于自主代理式 AI 和物理 AI 应用所期望的详细、多步骤推理任务至关重要,为各个行业的用户提供了能够加快工作速度的超强助手,提高效率和生产力。

在医疗领域,模型可以使用测试时扩展技术分析海量数据,推断疾病的发展情况,并根据药物分子的化学结构预测新疗法可能引发的潜在并发症。它们还可以梳理临床试验数据库,以便推荐符合个人疾病特征的治疗方案,同时分享其对不同研究利弊的推理过程。

在零售和供应链物流领域,“长思考”可以助力解决短期运营挑战和长期战略目标所需的复杂决策。通过推理技术,企业能够同时预测和评估多种场景,从而降低风险并应对可扩展性挑战。这有助于实现更准确的需求预测、优化供应链路线以及做出与组织可持续发展目标一致的采购决策。

全球各地的企业都可以使用该技术起草详细的商业计划,生成复杂的代码来调试软件,或优化送货卡车、仓库机器人和自动驾驶出租车的行驶路线。

AI 推理模型正在迅速发展。过去几周内,OpenAI o1-mini 和 o3-mini、DeepSeek R1 以及谷歌 DeepMind 的 Gemini 2.0 Flash Thinking 相继推出,预计很快还会有更多的新模型推出。

这些模型需要大量的计算资源进行推理以及正确回答复杂问题,这意味着企业需要扩展其加速计算资源来提供支持复杂问题解答、编码和多步骤规划的下一代 AI 推理工具。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5694

    浏览量

    110119
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302620
  • 模型
    +关注

    关注

    1

    文章

    3819

    浏览量

    52274

原文标题:如何通过扩展定律推动更智能、更强大的 AI

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为破解HBM依赖!AI推理黑科技UCM上线,9月正式开源

    8月12日,在2025金融AI推理应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周越峰宣布,华为此次和银联联合创新,推出AI推理创新技术
    的头像 发表于 08-13 08:58 1.1w次阅读
    华为破解HBM依赖!<b class='flag-5'>AI</b><b class='flag-5'>推理</b>黑科技UCM上线,9月正式开源

    是德科技推出全新AI推理仿真平台

    是德科技(NYSE: KEYS)近日推出KAI推理构建器(Keysight AI Inference Builder),这款仿真与分析平台旨在大规模验证针对推理进行优化的AI基础设施。
    的头像 发表于 03-20 17:27 818次阅读
    是德科技推出全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>仿真平台

    NVIDIA Vera Rubin平台开启代理式AI前沿

    七款全新芯片全面投产,旨在通过为 AI 各阶段(从预训练、后训练、测试扩展,到智能体式推理)提供全面优化的可配置 AI 基础设施,
    的头像 发表于 03-18 14:30 561次阅读

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    帧数据不被阻塞,快速喂给NPU,实现真正的实时而非准实时分析。 3. 向量数据库的本地化 RAG是目前大模型落地的核心技术AI Station的大内存允许在内存中建立较大规模的向量索引,避免频繁查盘
    发表于 03-10 14:19

    如何在边缘AI应用场景中实现高性能、低功耗推理(上)

    送回EndPoint设备。这种方法需要巨大的带宽才能将海量数据传输到云端。边缘设备越来越多地使用AI推理技术,以实现快速实时响应并提高数据隐私和安全性,同时避免与云连接产生的延迟
    的头像 发表于 03-03 14:18 6606次阅读
    如何在边缘<b class='flag-5'>AI</b>应用场景中<b class='flag-5'>实现</b>高性能、低功耗<b class='flag-5'>推理</b>(上)

    如何在边缘AI应用场景中实现高性能、低功耗推理(上)

    。这种方法需要巨大的带宽才能将海量数据传输到云端。 边缘设备越来越多地使用AI推理技术,以实现快速实时响应并提高数据隐私和安全性,同时避免与云连接产生的延迟和成本。这也降低了功耗,使其
    的头像 发表于 02-27 07:48 1w次阅读
    如何在边缘<b class='flag-5'>AI</b>应用场景中<b class='flag-5'>实现</b>高性能、低功耗<b class='flag-5'>推理</b>(上)

    使用NORDIC AI的好处

    原始传感器数据,可显著降低功耗、延长电池寿命。[Edge AI 概述; Nordic Edge AI 技术页] 降低云依赖与时延 直接在设备上做推理,很多决策可以“本地实时”完成,
    发表于 01-31 23:16

    AMD Vitis AI 5.1测试版发布

    AMD Vitis AI 5.1全新发布——新增了对 AMD Versal AI Edge 系列神经网络处理单元 (NPU) 的支持。Vitis AI 包含优化的 NPU IP、模型编译工具和部署 API,可在嵌入式平台上
    的头像 发表于 10-31 12:46 1000次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI芯片的实现 1、技术
    发表于 09-18 15:31

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循
    的头像 发表于 08-15 09:45 1386次阅读

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

    缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,实现高吞吐、低时延的推理体验,降低每Token推理
    发表于 08-13 09:45 5724次阅读

    PCIe协议分析仪能测试哪些设备?

    /ASIC加速器 测试场景:分析专用AI推理加速器与主系统的PCIe通信,优化数据传输和指令下发效率。 应用价值:提高推理吞吐量,确保加速器在低延迟场景(如实时
    发表于 07-25 14:09

    研华科技推出紧凑型边缘AI推理系统AIR-120

    Hailo-8 AI加速器。这一强大的系统配置能够提供可扩展的性能,最多具备8个核心,AI计算能力高达26 TOPS,并且在性能、功耗效率和成本之间进行平衡,从而实现高吞吐量、低延迟的
    的头像 发表于 07-17 17:16 1190次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的
    发表于 07-16 15:29

    Nordic收购 Neuton.AI 关于产品技术的分析

    示例和支持,方便开发者在 Nordic 的各类芯片上实现高效的边缘 AI 应用; 如果对这个AI人工智能应用感兴趣,请评论区联系我们.
    发表于 06-28 14:18