搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

一个基于TF2.0的强化学习训练工具

近日，Github 一位开发者 danaugrs 开源了一个新项目——Huskarl，一个专注研究和快速原型的深度强化学习框架。

此框架基于 TensorFlow 2.0 构建，使用了 tf.keras API，保证了其简洁性和可读性。Huskarl 可以使多环境的并行计算变得很容易，这将对加速策略学习算法（比如 A2C 和 PPO）非常有用。此外，Huskarl 还可以与 OpenAI Gym 环境无缝结合，并将计划支持多代理环境和 Unity3D 环境。

OpenAI Gym：2016 年 OpenAI 发布的一个可以开发、对比强化学习算法的工具包，提供了各种环境、模拟任务等，任何人都可以在上面训练自己的算法。

Unity3D：一个全面整合的专业游戏引擎，由 Unity Technologies 开发的一款可以让玩家轻松创建三维视频游戏、实时三维动画等类型互动内容的多平台综合型游戏开发工具。

目前，Huskarl 已经支持了 DQN（Deep Q-Learning Network）、Multi-step DQN、Double DQN、A2C（Advantage Actor-Critic）等算法，还有 DDPG（Deep Deterministic Policy Gradient）、PPO（Proximal Policy Optimization）、Curiosity-Driven Exploration 等算法在计划中。

最重要的是，TF 2.0 的 nightly 已经发布，这个开源工具也是基于 TF2.0 开发的，所以大家要先安装一下 tf 2.0 nighty 版本。除此之外，还需要安装以下工具和环境：

这个工具还是新鲜出炉烫手的呢，大家赶紧来尝鲜试一下~

地址：

https://github.com/danaugrs/huskarl

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

强化学习

强化学习

+关注

关注
4

文章
258

浏览量
11112
tensorflow

tensorflow

+关注

关注
13

文章
313

浏览量
60241
开源工具

开源工具

+关注

关注
0

文章
26

浏览量
4390

原文标题：新鲜开源：基于TF2.0的深度强化学习平台

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

评论

相关推荐

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋

的头像

发表于 10-30 11:36 •1512次阅读

什么是<b class='flag-5'>强化学习</b>

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题

的头像

发表于 10-02 10:45 •443次阅读

NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

模拟矩阵在深度强化学习智能控制系统中的应用

。在深度强化学习智能控制系统中，讯维模拟矩阵可以用来做以下几方面的模拟和预测：环境模拟：构建多种环境模型，包括不同参数的系统、不同干扰因素等，为深度强化学习智能控制系统提供多样化的训练和测试环境。控制策略

的头像

发表于 09-04 14:26 •322次阅读

模拟矩阵在深度<b class='flag-5'>强化学习</b>智能控制系统中的应用

深度学习框架区分训练还是推理吗

深度学习框架区分训练还是推理吗深度学习框架是一个非常重要的技术，它们能够加速深度学习的开发与部署过程。在深度学习中，我们通常需要进行两个关

的头像

发表于 08-17 16:03 •1022次阅读

大模型训练中RM分数越来越高，那训出来LLM的效果一定好吗？

如果你动手跑几次ppo的过程就发现了，大模型的强化学习非常难以训练，难以训练不仅仅指的是费卡，还是指的非常容易训崩。

的头像

发表于 07-26 15:45 •1162次阅读

大模型<b class='flag-5'>训练</b>中RM分数越来越高，那训出来LLM的效果一定好吗？

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

体的发展，从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato，智能体的训练方法和能力都在不断演进。从中不难发现，随着大模型越来越成为人工智能发展的主流趋势，DeepMind 在智能体的开发中不断尝试将强化学习与自然语言处

的头像

发表于 07-24 16:55 •325次阅读

语言模型做先验，统一<b class='flag-5'>强化学习</b>智能体，DeepMind选择走这条通用AI之路

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

发表于 07-19 14:35 •0次下载

45. 5 2 强化学习（深度强化学习） #硬声创作季

机器学习

充八万

发布于 :2023年07月07日 01:56:26

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1179次阅读

什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

发表于 06-20 09:27 •1次下载

人工智能<b class='flag-5'>强化学习</b>开源分享

利用强化学习来探索更优排序算法的AI系统

前言 DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3]，一个利用强化学习来探索更优排序算法的AI系统。 AlphaDev 系统直接从 CPU 汇编指令的层面入手

的头像

发表于 06-19 10:49 •387次阅读

利用<b class='flag-5'>强化学习</b>来探索更优排序算法的AI系统

基于深度强化学习的视觉反馈机械臂抓取系统

机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序，可以有效的提升生产效率，本文针对机械臂的抓取摆放、抓取堆叠等常见任务，结合深度强化学习及视觉反馈，采用AprilTag视觉标签、后视经验回放机制

的头像

发表于 06-12 11:25 •1367次阅读

基于深度<b class='flag-5'>强化学习</b>的视觉反馈机械臂抓取系统

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

大模型时代，模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速，那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗？本文提出了一种强化学习专用稀

的头像

发表于 06-11 21:40 •389次阅读

ICLR 2023 Spotlight｜节省95%<b class='flag-5'>训练</b>开销，清华黄隆波团队提出<b class='flag-5'>强化学习</b>专用稀疏<b class='flag-5'>训练</b>框架RLx2

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习。

发表于 06-09 09:23 •366次阅读

基于多智能体深度强化学习的体系任务分配方法

为了应对在未来复杂的战场环境下，由于通信受限等原因导致的集中式决策模式难以实施的情况，提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法，该算法为各作战单元均设计一个独立的策略网络

的头像

发表于 05-18 16:46 •2641次阅读

基于多智能体深度<b class='flag-5'>强化学习</b>的体系任务分配方法