使用当前浏览器访问考试宝,无法享受最佳体验,推荐使用 Chrome 浏览器进行访问。
更新时间: 试题数量: 购买人数: 提供作者:
有效期: 个月
章节介绍: 共有个章节
我的错题 (0道)
我的收藏 (0道)
我的斩题 (0道)
我的笔记 (0道)
顺序练习 0 / 0
随机练习 自定义设置练习量
题型乱序 按导入顺序练习
模拟考试 仿真模拟
题型练习 按题型分类练习
易错题 精选高频易错题
学习资料 考试学习相关信息
Q(s1,a2)估计值:Q(s1,a2)
q_target = r + self.gamma * self.q_table.loc[s_, a_]
q_table选择最大的一个值,sarsa选择的是将要采取的值
q有table可以参考,而sarsa没有
sarsa隔一步更新叫做sarsa(1)
sarsa(namuda)统一这一流程,namuda表示想要选择的步数
回合更新:所有步都和宝藏有关系,每个脚印在下回合被选择的机率会高一些
namuda取0-1
0单步更新
1回合更新
namuda越大,离宝藏越近的步更新力度越大
有个s,没有访问他就直接拿到了r,那么不可或缺性就很低
self.eligibility_trace.loc[s, :] *= 0self.eligibility_trace.loc[s, a] = 1,有封顶