首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏专知

    【AlphaGo Zero 核心技术-深度强化学习教程代码实战05】SARSA(λ)算法实现

    给个体的一个观测(状态)生成一个不重复的字符串作为Q、E字典里的键 ''' return str(state) def _get_(self, QorE _assert_state_in_QE(s, randomized=True) return QorE[s][a] def _set_(self, QorE, s, a, value _assert_state_in_QE(s, randomized=True) QorE[s][a] = value def _resetEValue(self):

    97560发布于 2018-04-09
  • 来自专栏探物及理

    RL实践3——为Agent添加Policy、记忆功能

    (状态)生成一个不重复的字符串作为Q、E字典里的键 ''' return str(state) def _get_(self, QorE _assert_state_in_QE(s, randomized=True) return QorE[s][a] def _set_(self, QorE, s, a, value _assert_state_in_QE(s, randomized=True) QorE[s][a] = value def _resetEValue(self):

    1K20发布于 2020-09-10
领券