智能决策从虚拟到现实——强化学习落地-电子发烧友网

迄今为止，大部分人工智能落地的技术都在预测技术方面，而不是决策技术，目前决策技术的应用落地还很少。对此，俞扬以诊断报告作比喻，形象地指出，日常生活中想达到目的，比如看到诊断报告识别问题，我们不可能等着病的发生，而是想办法将病治愈。但是决策方面落地的技术非常少，据俞扬介绍，以往决策的途径可以分成以下三种。

南京大学人工智能学院俞扬教授

第一种是写规则，即通过程序员将决策方式或企业决策的解决方法写入系统中，这是决策技术的现状；第二种是做规划，将要解决的目标写下来，用机器找到决策，虽然机器自动解决问题，但问题的定义还是由人来做，一旦定义出现错误，定义的和真实的情况不符合，那么系统就没有任何途径能够修正这个定义。第三种途径是基于学习的途径，即基于数据驱动的途径，通过环境感知来定义应该解决什么样的问题。俞扬表示，第三种方法看起来更有可能解决真实环境中做决策的问题。

机器学习的三大技术

若将机器做决策放在学习的框架上，则可以分为无监督学习、监督学习和强化学习三大类技术。其中，无监督学习的数据没有任何标记，它所做的事是分析数据，从中发现数据结构是什么。而监督学习是目前落地最多的技术，通过很多标注的数据，告诉机器图像中是什么样的对象，让机器可以在数据中预测、识别到对象。

强化学习是机器学习中的一个重要研究领域，从大量数据中反复学习找到最优解，只从最终产生的结果来倒推模型应该是什么，正好对应做决策。俞扬指出，实际上这两年强化学习在做决策方面有很大突破，突破主要是在规模上，此前大热的AlphaGo与AlphaGo Zero都是经过深度强化学习后，在游戏中“碾压”了人类。

强化学习面临的困境

虽然强化学习发展较快，但目前所有的成功案例都发生在电子环境下。俞扬认为，主要原因是现在的算法效率太低。因此也出现很多批评的声音，说强化学习，特别在引入深度学习后，需要的数据样本量更大，导致这种方法无法直接应用于实际中。

俞扬指出，在很多传统工业，特别是机器人设计中，大家可能会很熟悉做模拟器。模拟器通常用于高成本的行业，在传统工业里，为了减少和真正环境的交互，通常在模拟器里先进行设计。那么，能否让机器在模拟器中学习决策呢？俞扬以购物平台为例，指出机器在了解买家行为的过程中，通过多代理模仿学习，根据买家数据进行观察再行动。他表示，机器学习决策所面临的环境更大程度上更困难，因为它是一个开放环境，而不是和固定的物理定律打交道。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43809

浏览量
230572
机器学习

机器学习

+关注

关注
66

文章
8116

浏览量
130546

原文标题：【峰暴】南京大学教授俞扬：让机器帮你做决策！强化学习助力机器更智能

文章出处：【微信号：robotop2025，微信公众号：每日机器人峰汇】欢迎添加关注！文章转载请注明出处。

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《

发表于 10-30 11:36 •1621次阅读

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策

发表于 10-02 10:45 •447次阅读

NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

模拟矩阵在深度强化学习智能控制系统中的应用

讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵，来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果，从而优化控制策略和提

发表于 09-04 14:26 •327次阅读

模拟矩阵在深度<b class='flag-5'>强化学习</b><b class='flag-5'>智能</b>控制系统中的应用

增强现实和虚拟现实的区别

增强现实和虚拟现实的区别随着科技的不断发展，虚拟现实（VR）和增强现实（AR）已经成为两个备受瞩目的高科技领域。尽管两种技术都涉及到虚拟和

发表于 08-12 15:24 •1350次阅读

虚拟现实和混合现实的区别

虚拟现实和混合现实的区别 虚拟现实（Virtual Reality）和混合现实（Mixed Reality）是两个身临其境的技术领域，这些技术变得越来越流行，已经成为了许多领域的重要组

发表于 08-12 15:12 •2971次阅读

增强现实和虚拟现实的区别

增强现实和虚拟现实的区别增强现实和虚拟现实有以下区别： 1. 概念不同：增强现实是将真实世界的实境与虚

发表于 08-02 18:40 •7621次阅读

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

在智能体的开发中，强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花？谷歌 DeepMind 给了我们新的答案。一直以来，DeepMind 引领了强化学习（RL）智

发表于 07-24 16:55 •331次阅读

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

发表于 07-19 14:35 •0次下载

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1184次阅读

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

发表于 06-20 09:27 •1次下载

深度Q学习网络：弥合从虚拟游戏到实际应用的差距

人工智能（AI）和机器学习（ML）对从医疗保健和金融到能源和运输的广泛行业产生了深远的影响。在各种人工智能技术中，强化学习（RL）——一种机器

发表于 06-15 09:45 •211次阅读

基于深度强化学习的视觉反馈机械臂抓取系统

机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序，可以有效的提升生产效率，本文针对机械臂的抓取摆放、抓取堆叠等常见任务，结合深度强化学习及视觉反馈，采用AprilTag视觉标签、后视经验回放机制

发表于 06-12 11:25 •1383次阅读

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

大模型时代，模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速，那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗？本文提出了一种强化学习专用稀疏训练框架

发表于 06-11 21:40 •399次阅读

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来

发表于 06-09 09:23 •367次阅读

基于多智能体深度强化学习的体系任务分配方法

为了应对在未来复杂的战场环境下，由于通信受限等原因导致的集中式决策模式难以实施的情况，提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法，该算法为各作战单元均设计一个独立的策略网络

发表于 05-18 16:46 •2666次阅读