文章来源于互联网:从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
-
论文链接:https://arxiv.org/abs/2310.07418 -
代码链接:https://github.com/Guozheng-Ma/Adaptive-Replay-Ratio
-
在不使用数据增强的情况下,实施 Reset 均能够带来显著的性能提升。这明确地表明,在缺乏数据增强的训练过程中,网络确实经历了严重的可塑性损失。 -
但当引入数据增强后,Reset 的实施只带来轻微的改善,有时甚至会导致性能下降。这一结果表明,只通过数据增强就能有效提升智能体的可塑性。
-
使用在 ImageNet 上预训练的编码器,确保了足够的视觉表征能力。 -
在整个训练过程中保持编码器不变,排除了数据增强对编码器的直接影响。
-
数据增强对基于预训练编码器的视觉强化学习的样本利用效率产生了显著影响。 -
在不使用数据增强的情况下,即使是简单的 Walker Walk 任务,智能体的性能在训练后期也明显停滞,表现出严重的可塑性损失。
-
在使用数据增强的情况下,对 Actor 或者 Critic 实施可塑性注入都不会明显影响智能体的训练过程。这表明在 Walker Run 任务中,仅仅通过使用数据增强就足以维持训练所需的网络可塑性。 -
在初始 100 万步训练中不使用数据增强的情况下,对 Critic 实施可塑性注入会导致性能显著提升。相反,对 Actor 进行可塑性注入也并不能使智能体恢复正常训练。这一结果充分证明,Critic 严重的可塑性损失是造成视觉强化学习样本利用效率严重低下的关键原因。
-
在 Critic 的可塑性已经恢复后停止使用数据增强,并不会明显影响训练效率。这表明在训练的后期,不需要采取特定干预来维持可塑性。 -
当可塑性已经显著丧失,且未能在早期阶段及时干预的情况下,后期引入数据增强也无法使智能体恢复正常的训练。这一观察强调了在训练早期维持可塑性的至关重要性,否则,这种损失将变得无法挽回。
文章来源于互联网:从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制











