0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能决策从虚拟到现实——强化学习落地

每日机器人峰汇 来源:YXQ 2019-07-30 10:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

迄今为止,大部分人工智能落地的技术都在预测技术方面,而不是决策技术,目前决策技术的应用落地还很少。对此,俞扬以诊断报告作比喻,形象地指出,日常生活中想达到目的,比如看到诊断报告识别问题,我们不可能等着病的发生,而是想办法将病治愈。但是决策方面落地的技术非常少,据俞扬介绍,以往决策的途径可以分成以下三种。

南京大学人工智能学院俞扬教授

第一种是写规则,即通过程序员将决策方式或企业决策的解决方法写入系统中,这是决策技术的现状;第二种是做规划,将要解决的目标写下来,用机器找到决策,虽然机器自动解决问题,但问题的定义还是由人来做,一旦定义出现错误,定义的和真实的情况不符合,那么系统就没有任何途径能够修正这个定义。第三种途径是基于学习的途径,即基于数据驱动的途径,通过环境感知来定义应该解决什么样的问题。俞扬表示,第三种方法看起来更有可能解决真实环境中做决策的问题。

机器学习的三大技术

若将机器做决策放在学习的框架上,则可以分为无监督学习、监督学习和强化学习三大类技术。其中,无监督学习的数据没有任何标记,它所做的事是分析数据,从中发现数据结构是什么。而监督学习是目前落地最多的技术,通过很多标注的数据,告诉机器图像中是什么样的对象,让机器可以在数据中预测、识别到对象。

强化学习是机器学习中的一个重要研究领域,从大量数据中反复学习找到最优解,只从最终产生的结果来倒推模型应该是什么,正好对应做决策。俞扬指出,实际上这两年强化学习在做决策方面有很大突破,突破主要是在规模上,此前大热的AlphaGo与AlphaGo Zero都是经过深度强化学习后,在游戏中“碾压”了人类。

强化学习面临的困境

虽然强化学习发展较快,但目前所有的成功案例都发生在电子环境下。俞扬认为,主要原因是现在的算法效率太低。因此也出现很多批评的声音,说强化学习,特别在引入深度学习后,需要的数据样本量更大,导致这种方法无法直接应用于实际中。

俞扬指出,在很多传统工业,特别是机器人设计中,大家可能会很熟悉做模拟器。模拟器通常用于高成本的行业,在传统工业里,为了减少和真正环境的交互,通常在模拟器里先进行设计。那么,能否让机器在模拟器中学习决策呢?俞扬以购物平台为例,指出机器在了解买家行为的过程中,通过多代理模仿学习,根据买家数据进行观察再行动。他表示,机器学习决策所面临的环境更大程度上更困难,因为它是一个开放环境,而不是和固定的物理定律打交道。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261509
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233

原文标题:【峰暴】南京大学教授俞扬:让机器帮你做决策!强化学习助力机器更智能

文章出处:【微信号:robotop2025,微信公众号:每日机器人峰汇】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次
    发表于 11-05 09:44 894次阅读

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,
    的头像 发表于 10-23 09:00 326次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    5G与6G:“万物互联“智能无界“的跨越

    行工厂设计和生产模拟,实现\"数字孪生工厂\"的虚拟预生产 智能城市:实现城市基础设施的全面数字化管理,交通到能源,环境安全 技术实现
    发表于 10-10 13:59

    低代码物联网平台典型场景落地全流程:需求实现的路径解析

    低代码物联网平台将物联网的设备接入、数据传输、分析决策与低代码的可视化开发深度融合,为工业监控、智慧农业、智能家居等场景提供了高效落地路径。其核心逻辑是通过封装物联网协议、预制设备组件、简化数据链路
    的头像 发表于 08-21 16:26 629次阅读

    AI智能体的技术应用与未来图景

    深度学习与逻辑推理,实现复杂情境的语义解析与因果推断;行动层依托强化学习框架驱动自主决策链,形成感知-决策-执行的闭环能力。这种架构演进使智能
    的头像 发表于 07-24 11:04 805次阅读

    RFID软件革命:数据管道智能决策中枢

    厂房内,嵌有RFID芯片的床单通过清点通道机时,系统自动核验批次并拦截混入的非本车次卧具。这一由底层软件驱动的自动化流程,使人工清点时间2小时压缩至20分钟,年节约管理成本超百万元。 01 软件智能化升级:连接工具
    的头像 发表于 07-18 10:12 343次阅读
    RFID软件革命:<b class='flag-5'>从</b>数据管道<b class='flag-5'>到</b><b class='flag-5'>智能</b><b class='flag-5'>决策</b>中枢

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器
    的头像 发表于 07-14 15:29 1828次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    机器人测试:虚拟现实,机器人如何才能变成真正的打工牛马?

    虚拟世界的算法优化,现实中的 “抗造” 考验,再到细节处的容错能力,机器人的每一轮测试,本质上都是在模仿人类 “打工人” 的成长路径:先在练习中练熟技能,再在实战中扛住压力,最终成
    的头像 发表于 07-11 09:16 1386次阅读
    机器人测试:<b class='flag-5'>从</b><b class='flag-5'>虚拟</b><b class='flag-5'>到</b><b class='flag-5'>现实</b>,机器人如何才能变成真正的打工牛马?

    深演智能正式发布 DeepAgent Neo 智能体平台,全力助力企业决策 AI 落地应用

    深演智能正式发布 DeepAgent Neo 智能体平台,全力助力企业决策 AI 落地应用 今日,由深演智能主办的“
    的头像 发表于 07-01 17:30 439次阅读
    深演<b class='flag-5'>智能</b>正式发布 DeepAgent Neo <b class='flag-5'>智能</b>体平台,全力助力企业<b class='flag-5'>决策</b> AI <b class='flag-5'>落地</b>应用

    18个常用的强化学习算法整理:基础方法高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解基本强化学习方法高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理
    的头像 发表于 04-23 13:22 1310次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:<b class='flag-5'>从</b>基础方法<b class='flag-5'>到</b>高级模型的理论技术与代码实现

    【「零基础开发AI Agent」阅读体验】+初品Agent

    。 Agent在发展过程中,经历了5个阶段,即: 1)符号Agent阶段 2)反应式Agent阶段 3)基于强化学习的Agent阶段 4)带迁移学习和元学习的Agent阶段 5)基于大模型的Agent阶段 关于Agent的
    发表于 04-22 11:51

    设备全生命周期数字孪生:采购报废的智能决策闭环

    数字孪生技术为企业打造设备全生命周期“数据驱动的智能闭环”,大幅提升设备选型、运维、报废决策效率,缩短安装周期。通过全息感知、模拟推演和决策优化,实现设备“经验运维”
    的头像 发表于 03-28 10:23 801次阅读
    设备全生命周期数字孪生:<b class='flag-5'>从</b>采购<b class='flag-5'>到</b>报废的<b class='flag-5'>智能</b><b class='flag-5'>决策</b>闭环

    学习智能体开发

    智能体是大模型的应用落地,正在学习中,这本书太及时了,非常想看看。
    发表于 03-27 15:48

    详解RAD端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 1019次阅读
    详解RAD端<b class='flag-5'>到</b>端<b class='flag-5'>强化学习</b>后训练范式

    【「具身智能机器人系统」阅读体验】+初品的体验

    解决许多技术的和非技术的挑战,如提高智能体的自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。 未来的研究需要将视觉、语音和其他传感技术与机器人技术相结合,以探索更加先进的知识表示和记忆模块,利用强化学习进一步优化决策过程
    发表于 12-20 19:17