边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍

云栖号资讯:【点击检查更多职业资讯】
在这里您能够找到不同职业的第一手的上云资讯,还在等什么,快来!

RL 算法一般假定,在获取观测值、核算动作并履行期间环境状况不发生改变。这一假定在仿真环境中很简略完结,然而在实在机器人操控傍边并不树立,很可能导致操控战略运转缓慢乃至失效。为缓解以上问题,最近谷歌大脑与 UC 伯克利、X 试验室一起提出一种并发 RL 算法,使机器人能够像人相同「边做边考虑」。现在,该论文已被 ICLR 2020 接纳。

该研讨在如下状况中研讨强化学习:在受控体系跟着时刻演化的过程中一起对动作进行采样。换句话说,所研讨的机器人有必要在履行着上一个动作的一起考虑下一个动作。就如同人或动物相同,机器人有必要一起考虑及举动,在上一个动作完结之前决议下一个动作。

为了开发用于此类并发性操控问题的算法结构,研讨者从接连时刻的贝尔曼方程开端,随后以考虑体系推迟的办法进行离散化。经过对现有根据价值(value-based)的深度强化学习算法进行简略的架构扩展,该团队提出了一类新式近似动态规划办法,并在模仿基准使命和大规模机器人抓取使命进步行了评价(机器人有必要「边走边考虑」)。

以下别离为该办法在仿真与实在机器人上的运转作用:

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍
边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍

论文地址:https://arxiv.org/abs/2004.06089

项目网页:https://sites.google.com/view/thinkingwhilemoving

并发动作环境

下图(a)表明在堵塞环境(blocking environment)中,动作以次序堵塞的办法履行,假定在获取状况与履举动作之间环境状况不发生改变。咱们也能够将其理解为:从智能体的视点看来,获取状况与揣度战略是瞬间完结的。与此相反,图(b)中表明的并发环境(concurrent environment)在获取状况与揣度战略之间并没有假定环境不变,而是答应环境在此期间发生改变。

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍
堵塞环境与并发环境中不同阶段的履行次序比照图。

根据价值的接连与离散并发强化学习算

研讨者从接连时刻强化学习的视点开端探究,由于它能够轻松地表明体系的并发特性。之后研讨者证明,根据接连状况得出的定论相同适用于随后在所有试验中运用的更为常用的离散环境。

接连环境方程

为了进一步剖析并发环境,研讨者引进下列符号。智能体在一个周期内挑选 N 个动作轨道(a_1 , ..., a_N),其间每个 a_i(t) 为一个用于发生操控,并以时刻 t 作为变量的接连函数。令 t_{AS} 为获取状况、揣度战略与恣意额定通讯时延的距离时刻。在 t 时刻,智能体开端核算状况 s(t) 的第 i 个动作 a_i(t)。一起,在时刻距离 (t − H + t_{AS},t+t_{AS}) 内履行之前选取的动作 a_{i−1}(t)。在 t+t_{AS} 时刻(t ≤ t+t_{AS} ≤ t+H),智能体切换到去履行来自 a_i(t) 的动作。并发环境下的接连 Q 函数可表明如下:

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍

前两项别离对应履行 (t,t + t_{AS}) 时刻的动作 a_{i−1}(t) 和 (t + t_{AS},t + t_{AS} + H) 时刻动作 a_i(t) 的希望扣头报答。经过对随机方程 p 进行采样,可获得一个仅关于战略 rollouts 的单样本(single-sample)蒙特卡洛估量器 Q:

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍

接下来,关于接连时刻景象,研讨者界说了一个新的并发贝尔曼 backup 算子:

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍

以上算子将贝尔曼算子扩大为考虑并发动作的景象,研讨者证明改善后的算子坚持了其招引域的特性,这关于 Q-learning 的收敛性至关重要。

离散环境方程

为了简化离散景象下的符号(此刻动作方程 a_i(t) 与该方程在 t 时刻的值 a_i(t) 并非必需),研讨者将当时状况设置为 s_t,将当时动作设置为 a_t,将上一时刻动作设置为 a_{t−1}(别离将其下标 i 替换为 t)。在以上符号记法下,研讨者界说了离散景象下的并发 Q 方程:

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍

其间 t_{AS′} 为动作 a_t 在 t + t_{AS} 时刻开端履行时的「溢出距离」(spillover duration)。所以,并发贝尔曼算子(以下标 c 表明)为:

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍

与接连景象相似,研讨者也证明晰该离散贝尔曼算子是一个招引域。

试验成果

简略一阶操控问题

首要,研讨者经过对规范的 Cartpole 和 Pendulum 环境的并发版别进行操控变量研讨,说明晰并发操控范式对根据价值的 DRL 办法的影响。

为了估量不同并发常识表明的相对重要性,研讨者剖析了每种并发常识表明对其他超参数值组合的敏感性,如下图所示:

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍
Cartpole 和 Pendulum 环境中的试验成果。

大规模机械臂抓取使命

接下来,研讨者别离在仿真与实在机械臂进步行了试验。

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍
图 3:仿真和实在环境下的机械臂抓取使命图示。

表 1 经过对无条件模型与并发常识模型进行比较总结了堵塞和并发形式的功能。并发常识模型能够学习更快的轨道,其周期持续时刻与堵塞无条件模型比较减少了 31.3%。

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍
表 1:大规模仿真机械臂抓取使命的试验成果。

此外,研讨者在实际国际机器人抓取使命中,比照了并发模型和堵塞模型的定性战略行为,如图 3b 所示。

如表 2 所示,这些模型在抓取成功方面功能适当,可是就战略持续时刻而言,并发模型比堵塞模型快 49%(战略持续时刻用来衡量战略的总履行时刻,但不包含在周期持续时刻中的根底架构树立和撤除时刻,并发操作无法对此优化)。

边做边考虑,谷歌大脑提出并发RL算法,机械臂抓取速度进步一倍
表 2:实在机械臂抓取成果。

【云栖号在线讲堂】每天都有产品技能专家共享
课程地址:https://yqh.aliyun.com/live

当即参加社群,与专家面对面,及时了解课程最新动态!
【云栖号在线讲堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时刻:2020-05-12
本文作者:机器之心编译
本文来自:“51cto”,了解相关信息能够重视“51cto”