sarsa_1_在线真题试卷与模拟练习_sarsa_1

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

Q(s1,a2)估计值：Q(s1,a2)

q_target = r + self.gamma * self.q_table.loc[s_, a_]

q_table选择最大的一个值，sarsa选择的是将要采取的值

q有table可以参考，而sarsa没有

sarsa隔一步更新叫做sarsa(1)

sarsa(namuda)统一这一流程，namuda表示想要选择的步数

回合更新：所有步都和宝藏有关系，每个脚印在下回合被选择的机率会高一些

namuda取0-1

0单步更新

1回合更新

namuda越大，离宝藏越近的步更新力度越大

有个s，没有访问他就直接拿到了r，那么不可或缺性就很低

self.eligibility_trace.loc[s, :] *= 0
self.eligibility_trace.loc[s, a] = 1，有封顶

更多题库