搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏专知
【AlphaGo Zero 核心技术-深度强化学习教程代码实战05】SARSA(λ)算法实现
给个体的一个观测(状态）生成一个不重复的字符串作为Q、E字典里的键 ''' return str(state) def _get_(self, QorE _assert_state_in_QE(s, randomized=True) return QorE[s][a] def _set_(self, QorE, s, a, value _assert_state_in_QE(s, randomized=True) QorE[s][a] = value def _resetEValue(self):
1K60发布于 2018-04-09
来自专栏探物及理
RL实践3——为Agent添加Policy、记忆功能
(状态）生成一个不重复的字符串作为Q、E字典里的键 ''' return str(state) def _get_(self, QorE _assert_state_in_QE(s, randomized=True) return QorE[s][a] def _set_(self, QorE, s, a, value _assert_state_in_QE(s, randomized=True) QorE[s][a] = value def _resetEValue(self):
1.1K20发布于 2020-09-10