张德祥 (2022-10-18 10:58):
#paper https://doi.org/10.48550/arXiv.2208.10601Deriving time-averaged active inference from control principles 通过观察随时反馈调整规划的理论实现, 假设固定的动作空间和前馈规划,这可能导致非常高维的递归优化问题。这些假设在经验上和计算上都是有问题的。有机体并不是生来就知道[9];他们学习[40]. 噪音[13,32], 不确定[23], 和可变性[47] 在运动控制方面不够完善,因此必须通过在线反馈来稳定运动控制。 随机最优反馈控制需要一个最优性原则,允许在行动步骤之间整合观察。而不是递归优化单独的动作,通过观察随时反馈调整规划序列。 尽管优化了“全局”(不确定)惊奇率(等式),它只需要在情境中规划和调整行为。 泰德帕里和 Ok[55] 1998 年发表了第一个基于模型的 RL 算法,而 Baxter 和 Bartlett[5] 给出了有偏的政策梯度估计量。亚历山大和布朗又花了十年时间[2]以给出平均成本时间差异学习的递归分解。张与罗斯[61] 直到最近,我才首次发表了“深度”强化学习算法(基于函数逼近)对平均成本标准的适应,该标准仍然是无模型的。Jafarnia-Jahromi 等人[26]最近给出了第一个算法 , 用 于 求 解 具 有 已 知 观 测 密 度 和 未 知 动 态 的 无 限 时 域 平 均 代 价 部 分 可 观 测 问 题 。 结论 这结束了主动推理的无限视野、平均惊奇公式的推导。由于我们的公式将行为情节置于情境中,所以尽管优化了“全局”(不确定)惊奇率(等式),它只需要在情境中规划和调整行为(例如,从时间步长 1 到 T)15). 我们认为,这种积极推理公式可以推进基于模型的概率方法,分层反馈控制[40,33].
Deriving time-averaged active inference from control principles
翻译
Abstract:
Active inference offers a principled account of behavior as minimizing average sensory surprise over time. Applications of active inference to control problems have heretofore tended to focus on finite-horizon or discounted-surprise problems, despite deriving from the infinite-horizon, average-surprise imperative of the free-energy principle. Here we derive an infinite-horizon, average-surprise formulation of active inference from optimal control principles. Our formulation returns to the roots of active inference in neuroanatomy and neurophysiology, formally reconnecting active inference to optimal feedback control. Our formulation provides a unified objective functional for sensorimotor control and allows for reference states to vary over time.
翻译
回到顶部