0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何让一辆自动驾驶汽车以最完美的速度上路?

DPVg_AI_era 来源:未知 作者:李倩 2018-07-11 09:42 次阅读

剑桥大学两位博士创办的公司使用强化学习算法,无需密集标注的3D地图,无需人工设计的规则,让汽车在短短20分钟内学会了自动驾驶。公司成立不到50天,已经拿到了优步首席科学家的投资。

今天的自动驾驶汽车虽然已经性能不错,但大多数自动驾驶汽车都使用大量的摄像头和传感器、地图工具和大量的计算机程序,比较不完美。

如何让一辆自动驾驶汽车以最完美的速度上路?有一种做法是增加操作系统智能而不是传感器。

剑桥大学工程系的两位博士创办的Wayve团队使用强化学习算法,第一次实现让计算机学会像人一样,通过练习来完成自动驾驶。该算法与人类安全驾驶员一起教会了汽车如何在“15-20分钟”的时间内保持在一条车道内。

Wayve团队认为,自动驾驶需要的是一台更智能的电脑,而不是更多的传感器或程序,他们的研究也证明了自己的理论。

DeepMind玩Atari游戏需要数百万次试验,但深度强化学习让汽车20分钟内学会自动驾驶

DeepMind已经证明,深度强化学习方法可以在许多游戏中实现超越人类的表现,包括围棋、象棋和许多电脑游戏,而且几乎总是胜过任何基于规则的系统。

Wayve团队深得DeepMind和OpenAI经常使用的强化学习算法精髓,并且巧妙的用在了自动驾驶车上。

为了证明强化学习+自动驾驶这种方法可行,Wayve团队配置了一辆雷诺Twizy,它很简单,只配备了一个摄像头和油箱、刹车和转向控制等装置。算法使用“深度卷积神经网络”的模型,该模型接收仅使用一个GPU处理的单个图像的输入。

视频中,最初,汽车就像婴儿迈出了第一步,步履蹒跚。但当汽车开始转向车道外时,一名安全驾驶员介入,重新把车转向车道内。算法了解到每次修正行驶过程时都是在纠错,并根据它在没有任何干预的情况下行进了多远而得到“奖励”。

通过这种方式,计算机能够在大约20分钟内学会如何防止汽车从路上跑偏。在那之后,它可以无限期地行驶下去。

Wayve团队的这项研究表明,类似的哲学在现实世界中也是可能的,特别是在自动驾驶汽车中。而且,DeepMind玩Atari游戏的算法需要数百万次试验才能解决一个任务。而Wayve的团队在不到20次的试验中就学会了让车始终“沿着单行道行驶”。

无需密集标注的3D地图,无需人工设计的规则

大型科技公司做自动驾驶通常采用工程思维方法,即设计一种基于规则的系统,处理每一个边缘问题,同时使用更多的传感器,获取更多的数据。这可能会在特定的、狭义的环境中产生令人鼓舞的结果,但并不能真正解决自动驾驶问题。

Wayve的团队是第一个自动驾驶汽车在线学习的例子,每一次尝试都会使它变得更好。那么,具体是怎么做到的呢?

他们给出了技术细节:

他们采用了一种流行的无模型深度强化学习算法——深度确定性策略梯度(deep deterministic policy gradients,DDPG)来解决车道跟踪任务。模型输入是来自单目摄像机的图像。系统迭代了3个过程:探索,优化和评估。

网络架构是一个深度网络,有4个卷积层和3个完全连接层,总共只有不到10k个参数。相比之下,目前表现最优的图像分类架构有数百万个参数。

所有的处理都在汽车的一个图形处理单元(GPU)上进行。

机器人放到危险的真实环境中工作会带来很多新问题。为了更好地理解手头的任务,找到合适的模型架构和超参数,他们在模拟环境中进行了大量的测试。

上图是一个例子,从不同角度展示了车辆在模拟环境中如何沿着道路行驶。该算法仅看到驾驶员的视角,即上图中间。在每个episode,随机生成一条弯曲的车道,以及道路的纹理和车道标记。agent一直在探索,直到偏离了车道,此时一个episode结束。然后根据搜集到的数据进行策略优化,一直重复这个过程。

基于任务的workflow和训练算法的架构

团队使用模拟测试来尝试不同的神经网络架构和超参数,直到找到仅需很少的训练次数(也就是在只有很少数据的情况下),始终能解决车道跟踪任务的设置。例如,一个发现是,使用自动编码器重建损失来训练卷积层,这大大提高了训练的稳定性和数据效率。

使用DDPG+VAE,极大地提高了从原始像素进行DDPG训练的数据效率,这表明在实际系统上应用强化学习时,state representation是一个重要的考虑因素。实验使用的250米行驶路线如右图所示。

下表是在250米道路上实现自动驾驶车辆的强化学习结果。

团队报告了每个模型的最佳性能。他们观察到baseline RL智能体可以从头开始学习车道跟踪,但VAE变体更有效率,仅在11次训练后就成功学会沿着车道驾驶。

想象一下,部署一个自动驾驶汽车的车队,一开始自动驾驶算法是人类驾驶员表现的95%。这样一个系统不会像视频中随机初始化的模型那样摇摇晃晃,而是几乎能够处理交通信号灯、环形路、十字路口等等各种情况。

经过一天的驾驶和人类安全驾驶员接管提供的反馈,系统能够在线提升,也许能提升到96%。一个星期后,提高到98%;一个月后,达到人类表现的99%。几个月后,这个系统的表现可能以及超过了人类,因为它能从多名安全驾驶员的反馈中获益。

在20分钟内就学会了从零开始沿着车道行驶,那么,想象一下,一整天的话可以学到什么?

两位剑桥博士创办,公司成立不到50天已获优步首席科学家投资

Wayve于今年5月22日刚刚创立,创始人是两位来自英国剑桥大学的博士Amar Shah和Alex Kendall。

Wayve团队现有约10名成员,由来自剑桥大学和牛津大学的机器人、计算机视觉人工智能专家组成,他们之前曾在NASA、谷歌、Facebook、Skydio和微软等公司工作过。他们专注于利用深度学习解决视觉场景理解、不确定环境中的自主决策等问题。

值得一提的是,剑桥大学教授、Uber首席科学家Zoubin Ghahramani是Wayve的投资人之一。

不同于大部分自动驾驶车辆的传统思维,Wayve团队号称要构建“端到端的机器学习算法”,将强化学习方法用于自动驾驶汽车。他们认为制造真正的自动驾驶汽车的关键在于软件的自学能力,它需要的是更好的协调,这能够使自主驾驶成为现实。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2515

    文章

    47684

    浏览量

    738675
  • 自动驾驶
    +关注

    关注

    773

    文章

    12894

    浏览量

    162925
  • 强化学习
    +关注

    关注

    4

    文章

    258

    浏览量

    11110

原文标题:强化学习20分钟,剑桥博士教汽车学会自动驾驶!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    福特利用机器人开发能"远距遥控"的半自动驾驶系统

    ` 福特汽车近期展开「远距遥控」半自动驾驶系统实测:只要套如电玩游戏般的平价控制系统、三台监控萤幕,车上再安装几个基本硬体设备,以及 4G LTE 的网路连线,就能把一辆远在2400
    发表于 03-04 14:45

    自动驾驶难道还要人工充电?

    ,而这些充电设备将会被安装在停车场和道路上。  Derek Aberle认为,虽然这项技术还需要很长段时间才能成为现实,但是它能够自动驾驶汽车实现真正的
    发表于 03-03 13:54

    【话题】特斯拉首起自动驾驶致命车祸,自动驾驶的冬天来了?

    自动驾驶致死的车祸。该车祸是今年5月7日美国弗罗里达洲位名叫Joshua Brown的40岁大哥开着一辆自动驾驶模式行驶的Model S
    发表于 07-05 11:14

    [科普] 谷歌自动驾驶汽车发展简史,都来了解下吧!

    合作协议,福特独立自主地开发自动驾驶汽车。  2016年2月,谷歌自动驾驶汽车首次遭遇交通事故:一辆谷歌
    发表于 10-25 11:08

    因为「不够安全」,我们就必须拒绝自动驾驶汽车上路

    当提及自动驾驶汽车汽车行业本身在追问,***的规则制定者和安全倡导者们都在纠结个基础的问题:究竟如何才是足够安全?这有点像是场发生在
    发表于 04-08 11:17

    自动驾驶的到来

      传统汽车厂商更趋向于通过技术的不断积累,场景的不断丰富,逐步从辅助驾驶过渡到半自动驾驶,进而在将来最终实现无人驾驶;某些高科技公司则希望通过各种外部传感器实时采集海量数据,处理器经
    发表于 06-08 15:25

    【威雅利 汽车】苹果最新专利曝光,要把VR和AR带进自动驾驶汽车

    负责,乘客可以把真实环境替换成不同城市的街景,旅程变得更加有趣。在3年前,有报道称苹果正在开发代号为Project Titan的自动驾驶汽车,随后也有多名高管隐约证实了这消息。虽然
    发表于 04-24 17:05

    自动驾驶零排放汽车世界更加绿色

    的通信,集成电路可以使汽车的自主性能更高。TI的传感器已经应用于驾驶员辅助和自主泊车系统,最终目的是打造一辆自动驾驶汽车。相对于大多数
    发表于 03-11 06:45

    车联网对自动驾驶的影响

    技能的自动驾驶汽车,可以通过对上海市所有车主的上下班时间收集,通过导航来统筹规划每辆车合适的出发时间,行驶路径,从而达到交通效率的最优解。再或者人类驾驶员无法看到的视野盲区,突然有一辆
    发表于 03-19 06:20

    如何自动驾驶更加安全?

    了全球范围对自动驾驶安全性的议论:如何自动驾驶更加安全?真正上路前还要做哪些准备?智能汽车成为全球汽车
    发表于 05-13 00:26

    自动驾驶汽车的处理能力怎么样?

    对环境和拥堵产生积极影响。市场调研公司ABI Research预测:到2030年,道路上四分之汽车将会是自动驾驶汽车。行业专家已经为自动驾驶
    发表于 08-07 07:13

    自动驾驶的五大传感器各有千秋

    自动驾驶概念想必大家并不陌生,但对于其中发挥“眼睛”作用,眼观六路耳听八方的各种传感器,可能大家未必非常熟悉。通常而言,为获得良好的路况检测结果,一辆自动驾驶汽车会安装多种传感器,本文
    发表于 05-13 08:29

    如何保证自动驾驶的安全?

    自动驾驶技术为人们勾勒出了副美好的未来出行的画面:坐上没有方向盘的汽车觉睡到公司门口;甚至我们可能不再拥有一辆
    发表于 10-22 07:45

    边缘计算在自动驾驶汽车的应用

    反应。处理速度的任何延迟都有可能是致命的。虽然联网设备的数据处理现在主要是在云端进行的,但在中央服务器之间来回传送数据可能需要几秒钟的时间。这时间跨度太长了。边缘计算则自动驾驶
    发表于 07-12 08:07

    如何从无到有打造一辆自动驾驶车?(硬件篇)精选资料分享

    如何构建一辆无人驾驶车呢?先从无人驾驶车的硬件开始介绍。1 简介无人驾驶车由车、线控系统、传感器、计算单元等组成,如图2.1所示。车作为无人...
    发表于 07-27 08:07