0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

专家观点丨大模型技术发展的五个重点方向

颖脉Imgtec 2025-10-27 12:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文转自:CAICT人工智能


引言

人工智能经历符号主义与连接主义等范式演进,在规模扩展定律(Scaling Law)验证后进入以大模型为核心的新阶段,呈现出强扩展性、多任务适应性与能力可塑性等关键特征。当前,大模型技术的演进主要聚焦于五大方向:语言模型持续增强、多模态融合突破、智能体形态崛起、具身智能深化、AI4S专用模型创新。同时,新学习范式、非Transformer架构及新型计算硬件等前沿探索也有望带来下一轮关键突破,推动通用人工智能发展进程。


1. 人工智能技术发展的“大模型范式”

人造机器和智能的梦想由来已久,最早可以追溯到古代哲学家对逻辑和推理的探索。在20世纪40年代以后,电子计算机的诞生,为真正实现机器智能提供了技术基础,激发了一大批数学、心理学、语言学和经济学等不同领域的科学家投身机器智能研究。1950年,阿兰·图灵在提出“图灵测试”,首次尝试定义机器智能的标准。1956年达特茅斯会议正式提出“人工智能”概念,开启了模拟、延伸和扩展人类智能的理论、方法、技术及应用之路。

经过70多年来的探索,人工智能逐渐走上以深度神经网络为主导的技术路线,特别是2020年前后规模扩展定律被验证有效后,大模型成为人工智能技术新范式。这一范式与以往相比,有三方面的显著特征:

1)规模可扩展性强,参数规模、计算量和训练数据增加可带来模型性能持续提升(Scaling Law);

2)多任务适应性强,一个模型能同时支持多种任务和多个模态,甚至实现跨模态;

3)能力可塑性强,通过模型微调、思维链提示等措施即可实现能力进一步增强。


02、大模型演进的五个主要方向

当前正处在通用智能时代的开端。近期,以大模型为核心的人工智能前沿发展主要有5个重点方向。

2.1 大语言模型的持续增强

语言处理是大模型率先取得突破的领域,也是规模定律比较显著的方向。过去一年,根据中国信通院“方升”大模型基准测试的结果,全球前沿语言模型的基础能力提升了30%。随着OpenAI o1和DeepSeek-R1这类思考模型的出现,语言模型的复杂推理、高难度数学问题求解、高质量代码生成等取得明显进步,验证了Post-Training优化(如监督微调、强化学习)、自我反思机制和测试时间扩展的潜力。近期预计仍然会延续这样的路径发展,重点是增强逻辑能力,降低幻觉,提升可控生成和安全对齐能力。

一是基础语言大模型处理能力的增强和知识密度不断提升。大模型的上下文窗口(Context Window)长度扩展,对于理解和生成更复杂、更长的连贯、一致且准确的文本具有重要意义,这直接有助于提升模型的逻辑连贯性和减少因上下文不足导致的幻觉。当前,国内外主流大语言模型均具备128k以上的上下文长度处理能力,可一次性处理数十万单词或汉字。同时,大模型知识密度持续增强,知识储量不断增大,平均每8个月翻一番。2020年6月发布的GPT-3大模型有1750亿个参数,2024年2月面壁智能发布MiniCPM-2.4B模型,在实现同等性能的情况下参数规模降至24亿,相当于知识密度提高了约86倍。这种高效的知识压缩和更精准的参数利用,是提升模型事实准确性、降低幻觉的基础。

二是通过强化学习将思维链内化进模型,持续提升复杂推理能力并减少推理错误。2024年9月以后OpenAI发布的o1/o3系列模型、2025年1月深度求索(DeepSeek)发布的DeepSeek-R1模型,在后训练(Post-Training)阶段采用强化学习和思维链的技术方案,具有较好的自我反思与错误修正能力,在“慢思考”后回答复杂问题的表现优异,显著提升了模型的推理能力。这些“思考型”模型的核心进步,是将复杂的、多步骤的推理过程内化为模型的本能,并通过自我反思机制显著降低了推理过程中的幻觉和错误,成为提升逻辑能力、降低幻觉的关键路径。

三是语言大模型的发展呈现从通用到垂域演进、开源闭源协同和端侧大模型加速部署的趋势。语言大模型不再局限于提供通用的基础语言能力,而是开始深入到特定行业和领域,如医疗、金融、法律、教育等,以满足特定领域对专业知识和精准服务的需求。这种垂直化要求模型在特定领域的输出必须高度准确、符合规范且安全可控,推动了领域专属对齐技术和可控生成方法的发展。闭源模型依托商业化的高性能API服务占据企业市场,通常提供更严格的安全护栏和内容审查机制;而开源模型凭借灵活性和低成本优势,吸引全球开发者参与优化与场景适配,其安全对齐和可控性则依赖于活跃社区的共同维护与持续改进。开源生态与闭源服务协同构建更健康和可持续的AI生态。同时,模型轻量化是平衡性能与效率的关键路径,降低了计算资源需求,提升了推理效率,加速大模型在端侧应用部署。

2.2 原生多模态模型

从图像、视频和音乐生成,到集听说读写看于一体,多模态大模型正成为实现类人感知与交互能力的核心研发焦点。这类模型通过深度融合文本、图像、语音、视频等多种模态数据,进行深度的跨模态语义理解与关联推理,并实现跨模态的生成与交互。这不仅是提升人机交互自然度与效率的关键,更是通向通用人工智能(AGI)的重要基石。OpenAI的GPT-4o展示了强大的端到端多模态统一处理能力,具备文本、视觉、语音的理解与生成能力,能通过视频实时感知环境并流利对话。同时,视频生成领域如国外的Sora、国内的可灵也在快速迭代,推动着高质量内容的创造。

一是多模态理解模型通过跨模态特征对齐实现统一语义理解。

其核心在于将不同模态的信息映射到共享的语义空间,建立模态间的关联。实现路径主要有二:一方面,基于强大的语言模型底座,集成调用各类专业视觉、语音模型(如Visual ChatGPT整合ChatGPT与22种视觉模型),形成协同系统,突破单一模态限制,支持复杂的多模态交互(如基于聊天的图像编辑);另一方面,直接进行跨模态预训练对齐,如OpenAI的CLIP 模型,通过对比学习将图像和文本编码在向量空间中紧密对齐,使其能深刻理解图文关系,广泛应用于图像检索、视觉问答等任务。这两种方式都致力于弥合模态鸿沟,为后续的推理和生成奠定语义基础。

二是多模态生成模型基于统一语义理解,实现多样态内容的创造。

技术进步体现在架构革新上:一方面,DiT架构(Diffusion Transformer)成功融合扩散模型的高质量生成能力与Transformer的强序列建模优势,取代了传统U-Net,成为当前视频生成的主流架构。OpenAI的Sora、谷歌的Veo、快手的可灵等模型基于DiT已能生成长度超一分钟、分辨率达1080P的高清视频。另一方面,端到端统一多模态架构(如GPT-4o, Gemini)采用单一模型学习所有模态的统一表征,显著降低了模态转换延迟,实现了近乎实时的跨模态交互响应(如语音输入、视觉理解、语音/文本输出无缝衔接),极大提升了交互流畅度。

三是多模态大模型架构与机制持续向统一化、深度化演进。

当前主流方案仍需组合不同模型(如Transformer理解+扩散模型生成),存在效率与协同瓶颈。从“组合式多模态”走向“原生多模态”是业界积极探索的方向,目标是在单一模型框架内原生支持所有模态的联合感知、理解与生成。这种架构通过将不同模态数据映射到同一语义空间进行处理,有望显著提升模型的效率、一致性与实用性。同时,为应对复杂任务,“慢思考”机制被引入多模态模型,通过在测试/推理阶段进行深度规划与反思(类似CoT在多模态的扩展),模型能有效处理针对多模态数据的开放式推理和长链条问题。

2.3 智能体与代理型人工智能(Agentic AI)模型

当前,以大型语言模型为中枢的智能体,通过自主调用外部工具、访问实时数据与集成第三方API,实现了任务的规划、组织、执行与学习闭环,正迅速成为大模型赋能实际应用的关键软件形态。2025年以来,随着Manus、OpenAI DeepResearch等智能体平台的涌现,智能体执行长周期、高复杂度任务的能力显著增强。特别是MCP(模型调用工具)和A2A(跨智能体通信)协议的推出,标志着大模型原生具备工具调用与多智能体协作能力已成为基座模型训练的核心目标,正在驱动大模型从生成式AI(Generative AI)向代理式AI(Agentic AI) 转变。

一是智能体作为大模型与场景融合的桥梁,是释放生产力潜能的核心路径。

智能体通过在复杂环境中主动执行任务,为大模型的研发与技术演进提供了真实的反馈循环,直接驱动了大模型在任务分解、多步规划、动态执行与反思学习等关键能力的快速提升。同时,智能体加速了大模型向通用智能基础设施的转化。智能体的开发与应用已成为大模型落地的“标配”,大模型通过模型即服务(MaaS) 为上层智能体提供核心智能支持,大幅降低了智能体的开发门槛与应用成本。更重要的是,智能体赋予大模型“行动之手”,通过强大的工具调用和任务执行能力,有效解决了大模型“有脑无手”的局限,极大拓展了应用深度,并通过标准化的协作协议(如A2A)保障了多智能体间高效协同完成复杂任务。

二是智能体技术栈的完善打通AI落地“最后一公里”。

依托大模型的技术底座,产业界正加速构建完整的智能体技术生态,包括智能体构建平台、工作流引擎、多智能体协同框架、大小模型协同机制以及自然交互接口等关键组件。同时,开源生态的蓬勃发展显著降低了智能体技术的准入门槛。国内外涌现的众多智能体创业公司积极拥抱开源,推出丰富的智能体开发套件与工具,极大简化了开发者的二次开发流程,加速了智能体从实验室到实际场景的部署速度。这些智能体产品不仅为终端用户带来了革命性的交互体验,也促进了健康智能体生态的形成,增强了企业的商业价值与影响力。

三是智能体部署由虚拟向物理世界深度渗透。

得益于多模态大模型感知能力的突破和世界模型对物理环境理解的深化,2025年作为“智能体元年”,标志着智能体开始与人类社会实现深度协同共生。智能体能够控制物理实体,在复杂的现实动态环境中与人类进行自然互动并可靠执行任务,其应用场景正从纯数字领域加速拓展至物理世界。在能力层面,智能体的工作流从单步响应演进至多轮反思迭代,显著提升了任务执行的可靠性与输出质量。同时,随着模型轻量化、云边端协同计算和能效优化技术的进步,智能体正高效部署于资源受限的端侧设备(如智能家居、移动终端、工业设备),为用户提供高度个性化与专业化的实时服务,深化智能体在物理世界的渗透。

2.4 面向具身智能的端到端大模型

具身智能的核心目标是将先进人工智能(尤其是大模型能力)与机器人等物理实体深度融合,赋予其类人的环境感知、自主决策与灵巧操控能力,使其能在复杂、动态的物理世界中高效、安全地执行多样化任务。具身智能机器人,可在柔性制造产线、高强度劳动、危险环境作业等情形下工作,在服务、康养等领域也有巨大价值,是AI从信息处理工具向具备实体执行力的“生产工具”的转变的关键,是将人工智能转化为现实生产力的有效途径。

一是端到端大模型成为重要方向。传统机器人系统通常采用模块化设计(感知、规划、控制等模块分离),而近年来出现了将大型模型引入机器人感知与控制的新思路。例如将视觉语言模型(Vision-Language Model,VLM)中的丰富常识知识转化为机器人行动。同时,端到端的视觉—语言—动作模型(Vision-Language-Action,VLA)开始成为新趋势,这类模型能直接将从多模态传感器(视觉、触觉、力觉等)获取的环境信息,结合自然语言指令与任务目标,映射为精细、连续、自适应的机器人动作控制序列。Figure.ai推出的Helix正是一个通用VLA模型,它通过单一神经网络实现了机器人上肢和手指的连续控制,无需针对每个任务单独训练,从而能够通过自然语言指令完成拾取、放置、协同搬运等复杂操作。具备任务无关、精细化操作和环境自适应能力的端到端架构代表了具身智能发展的重要方向。

二是世界模型与因果推理赋能深度认知,实现复杂任务自主规划与泛化。为应对长周期、多步骤、强依赖环境动态的复杂任务(如“整理杂乱房间并回收可回收物”),具身智能体需具备深度环境理解与因果推理能力。未来趋势是深度集成:1)具身世界模型:通过多模态输入学习物理环境的可预测、可交互的动力学模型,能在“脑海”中模拟动作后果,支持安全高效的规划;2)分层任务分解与因果推理:利用大模型的强推理能力,将抽象任务目标分解为可执行的子任务序列,理解任务步骤间的因果依赖,并在执行中动态调整;3)自我反思与经验学习:任务执行后基于结果反馈进行反思,更新模型或策略库,实现持续进化。这将使智能体能像人类一样“思考后行动”,显著提升在开放、动态环境中的任务成功率和效率。

三是云边端协同与轻量化部署加速具身智能规模化渗透。具身智能的广泛应用需克服算力、成本与功耗约束。关键发展方向是:

1)模型高效轻量化:通过模型压缩(剪枝、量化)、知识蒸馏、高效架构设计(如MoE),在保持核心性能前提下大幅降低模型计算需求与存储占用;

2)云—边—端智能协同:复杂感知、深度规划在云端或边缘服务器完成,实时低延迟控制指令下发至端侧执行器,实现性能与效率最优平衡;

3)专用硬件加速:开发针对具身智能计算负载(如多模态融合、实时控制)优化的AI芯片与传感器模组,提升能效比。

这将推动具身智能从实验室和高端工业场景,快速向成本敏感的制造业产线、物流中心、商业服务乃至家庭场景规模化部署,释放巨大经济与社会价值。

2.5 面向特定领域科研需求的专用基础模型

以AlphaFold为代表的成果获得2024年诺贝尔化学奖,标志着AI for Science(AI4S)已成为颠覆性科学突破的核心驱动力。AI不仅在基础科学发现中扮演关键角色,更在新材料设计、新药物研发与筛选、高效合成路径规划、高精度流体仿真等产业研发创新环节展现出巨大潜力。然而,解决科研与产品开发中的深层次、特定实现。这要求构建深度融入领域知识的专用大模型,其核心在于将领域数理模型(如量子力学方程、流体动力学方程、分子动力学)与强大的多模态理解/生成能力、结构化知识图谱相结合,并有效集成强化学习、符号推理等技术。未来AI4S的突破,亟需克服高质量专业数据稀缺、模型黑箱可解释性不足、专业知识深度对齐融合等核心挑战。

一是领域知识深度嵌入,构建“数理—AI”融合的专用模型架构。通用大模型缺乏对特定科学原理和工程约束的深刻理解。未来趋势是发展领域定制的模型架构,将物理定律、化学规则、生物机制等核心数理模型原生编码进神经网络(如通过物理信息神经网络PINN、算子学习),或设计符号—神经协同架构,让符号系统处理严格逻辑推理,神经网络处理模式识别与高维优化。这种深度融合将显著提升模型在材料性能预测、药物分子活性评估、复杂系统仿真等任务中的物理一致性与预测精度,解决“数据驱动”模型的泛化性与可信度瓶颈。

二是突破数据瓶颈,发展“小数据、大知识”的高效学习范式。科学领域高质量标注数据往往极度稀缺且获取成本高昂。未来将重点发展:

1)跨模态与跨任务迁移学习:利用通用大模型预训练的知识,向特定科学任务高效迁移;

2)生成式模型合成数据:利用物理模型或规则约束生成高质量合成数据,弥补真实数据不足;

3)主动学习与强化探索:让模型自主设计最有效的实验或模拟方案,最大化信息获取效率;

4)知识图谱引导学习:利用结构化领域知识(如化学键规则、材料相图)指导模型训练,减少对海量数据的依赖。

这些范式旨在实现“小样本、高精度”的科学建模,加速研发周期。

三是增强可解释性与可信度,构建科学家信任的AI协作伙伴。AI4S模型在高风险决策领域(如新药设计、关键材料研发) 的应用,可解释性和可信度至关重要。趋势包括:

1)可解释AI(XAI)技术深度集成:发展可追溯推理路径、可视化关键特征、生成自然语言解释的机制,使模型决策过程对科学家透明;

2)不确定性量化(UQ):为模型预测提供可靠的置信度评估,辅助科学家判断风险;3)人机协同闭环:构建科研人员与AI的交互式工作流,AI提供假设、预测和解释,科学家进行验证、反馈和决策引导,形成“假设—验证—优化”的增强智能闭环。


3、展望与建议

人工智能技术仍处于快速演进阶段,未来发展路径存在显著不确定性。基于当前技术脉络,可预见的突破方向可能包括:

1)新型学习范式的突破:强化学习、世界模型驱动下的自主探索等机制,可能推动智能体在复杂环境中的认知与决策能力质变;

2)非Transformer架构的崛起:更高效率、更强性能或具备先天可信保障的新模型架构(如扩散语言模型、神经符号融合)可能重构技术体系;

3)革命性计算技术实用化:光计算、类脑计算、量子计算等新兴计算技术若实现工程落地,将彻底颠覆现有算力格局与模型计算架构。

面向未来,我国要在推进大模型技术发展中需兼顾突破与补短。一是探索新兴大模型架构,推动从技术跟随向原创引领转型;强化面向具身智能的VLA模型、面向AI4S的“数理—AI融合架构”等前沿方向研究。二是破解高质量数据供给瓶颈。加强数据治理能力建设,激活存量数据价值;发展基于物理约束的合成数据技术,支撑AI4S等低数据密度领域创新。三是打造开放协同的产业生态。加大开源社区和开源生态培育,推动智能体协议等关键标准制定,为迎接通用智能(AGI)甚至超级智能(ASI)做好准备。

来源:中国联通研究院

供稿:《信息通信技术》编辑部 编辑:陈曦


80e92c3e-b2ea-11f0-8ce9-92fbcf53809c.jpg811ba8b2-b2ea-11f0-8ce9-92fbcf53809c.jpg

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38278

    浏览量

    297334
  • 人工智能
    +关注

    关注

    1813

    文章

    49783

    浏览量

    261889
  • 大模型
    +关注

    关注

    2

    文章

    3464

    浏览量

    4999
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    芯干线邀您相约2025亚洲电源技术发展论坛

    历经多年锤炼,21Dianyuan 锐意进取,再启新篇,邀请数十名国内外资深专家,打造出规模超前的第十六届“亚洲电源技术发展论坛”。五十多位资深专家技术指导,上百余企业会议现场展示企业
    的头像 发表于 11-27 17:04 683次阅读

    开源鸿蒙技术大会2025OS原生智能分论坛圆满举办

    ,共同探讨下一代智能终端的技术发展方向与创新路径。OS原生智能分论坛由来自香港中文大学的卓敏讲座教授、ACM & IEEE Fellow吕自成与开源鸿蒙AI Agent TSG主任周剑辉、华为基础软件创新技术专家丁天虹担任出品人
    的头像 发表于 11-20 17:28 444次阅读
    开源鸿蒙<b class='flag-5'>技术</b>大会2025<b class='flag-5'>丨</b>OS原生智能分论坛圆满举办

    开源鸿蒙技术大会2025以智能化为主旋律,擘画开源鸿蒙下一发展技术蓝图

    ,与来自学术界和产业界的专家们共同回顾开源鸿蒙年来走过的非凡历程,发布了开源鸿蒙6.0版本,并展望面向未来的智能终端操作系统关键技术创新方向,呼吁与会专家以智能化
    的头像 发表于 11-10 18:13 1201次阅读
    开源鸿蒙<b class='flag-5'>技术</b>大会2025<b class='flag-5'>丨</b>以智能化为主旋律,擘画开源鸿蒙下一<b class='flag-5'>个</b><b class='flag-5'>五</b>年<b class='flag-5'>发展</b><b class='flag-5'>技术</b>蓝图

    MediaTek Pentonic平台推动智能电视显示技术发展

    Mini-LED 技术凭借更精细的背光控制、更高的亮度与对比度表现,赢得了众多智能电视厂商和消费者的青睐。在 Mini-LED 电视领域,MediaTek 始终致力于通过强大的芯片算力,推动显示技术发展,用先进的画质引擎及 AI 算法,为用户带来接近真实的沉浸式视觉体验。
    的头像 发表于 10-30 15:47 450次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI芯片的实现 1、技术
    发表于 09-18 15:31

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源
    的头像 发表于 09-06 15:21 958次阅读
    大规模<b class='flag-5'>专家</b>并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    【「DeepSeek 核心技术揭秘」阅读体验】基于MOE混合专家模型的学习和思考-2

    。 每个专家独立计算损失,从而鼓励每个数据样本尽可能被一专家处理--这种结构不仅提高了模型的效率,还使模型在推理时可以只激活部分
    发表于 08-23 17:00

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    逻辑,硬件性能的成本选择,达到的效果, 最后是对人工智能的影响。 Deepseek在技术思路上,采用混合专家系统MoE架构(思维模块),MoE则由多个专家模型组成,在处理任务时,它能够
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    ” 压缩方案,在降低计算资源消耗的同时,努力减少精度损失。 这背后反映的是 AI 技术发展中一重要命题:如何在有限硬件条件下,让模型既跑得快(效率高)又跑得稳(精度够),这种平衡艺术,彰显了
    发表于 07-20 15:07

    无刷双馈电机专利技术发展

    ~~~ *附件:无刷双馈电机专利技术发展.pdf 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容,谢谢!
    发表于 06-25 13:10

    铝电解电容技术发展与市场格局分析

    铝电解电容的技术发展,市场需求状况分析
    的头像 发表于 06-23 15:30 645次阅读

    轮边驱动电机专利技术发展

    专利的申请趋势、主要申请人分布以及重点技术分支:轮边驱动电机的发展路线做了一定的分析,并从中得到一定的规律。 纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:轮边驱动电机专利技术发展
    发表于 06-10 13:15

    美能光伏亮相全球BC电池产业发展论坛以创新检测技术助推行业升级

    共同探讨BC电池技术发展新趋势。聚焦BC技术突破展示全流程检测方案BC(背接触)电池作为下一代光伏技术的核心方向,其复杂的工艺对检测设备提出了更高要求。在BC电池制
    的头像 发表于 04-10 09:03 933次阅读
    美能光伏亮相全球BC电池产业<b class='flag-5'>发展</b>论坛<b class='flag-5'>丨</b>以创新检测<b class='flag-5'>技术</b>助推行业升级

    AI训练数据面临枯竭困境,马斯克等专家达成共识

    据知名科技媒体TechCrunch报道,近期,特斯拉创始人埃隆·马斯克与众多人工智能领域的专家共同表达了一令人担忧的观点:现实世界中可用于训练AI模型的高质量数据正迅速接近枯竭的边缘
    的头像 发表于 01-10 15:31 1203次阅读

    智能座舱市场与技术发展趋势研究

    研究分析智能座舱的市场与技术发展
    发表于 01-06 16:36 1次下载