搜索: "离线强化学习"

共找到 2 篇相关文章

从局部模仿到全面规划:离线强化学习的新篇章丨ICLR'26

从局部模仿到全面规划:离线强化学习的新篇章丨ICLR'26

在处理复杂的连续任务时,现有的生成式离线强化学习方法常表现出其局限性。这些方法产生的路径往往陷入局部合理但全局失调的状态。它们过于关注即时的步骤而忽略了最终的目标。针对这一问题,厦门大学与香港科技大学联合提出了一种创新算法——MAGE(即“魔法师”,Multi-scale Autoregressive Generation)。与传统序列生成方法不同,MAGE采用了自顶向下的递进生成策略,首先构建宏

科技1 阅读