策略梯度推导

发布在 机器学习

优化目标

强化学习问题的优化目标都是最大化累积奖赏的期望,先尝试给出这句话的形式化表达.

令$\tau = \langle s_1, a_1, r_1, s_2, a_2, r_2 \cdots, s_T, a_T, r_T, s_{T+1}\rangle$表示一条轨迹,那么累积奖赏的期望表述为:

其中,$r(\tau)=\sum_{i=1}^{T} R(s_i, a_i, s_{i+1})$,$R$为奖赏函数.

阅读全文
  • 第 1 页 共 1 页
作者的图片

lovelywen

是文文啊~


计算机专业学生


江苏,南京