论文链接:https://www.paperweekly.site/papers/1758 代码链接:https://github.com/idiap/importance-sampling 07 Question
该模型在大规模降雨事件语料库上进行训练,并且该研究还使用一种重要性采样方案(importance-sampling scheme)来创建一个更能代表强降雨的数据集。
搭建神经网络时,我们发现DQN with Prioritized replay只多了一个ISWeights,这个正是刚刚算法中提到的Importance-Sampling Weights,用来恢复被Prioritized
self.alpha = 0.6 # [0~1] convert the importance of TD error to priority self.beta = 0.4 # importance-sampling
这差不多就是重要度采样比(importance-sampling ratio)的意思了。给定一个轨迹 ? ,这个确切轨迹在给定策略 π 时的概率为: ? π 和 b 之间的比即为: ?
这差不多就是重要度采样比(importance-sampling ratio)的意思了。
priority alpha = 0.6 # [0~1] convert the importance of TD error to priority beta = 0.4 # importance-sampling
Hamiltonian Q-Learning: Leveraging Importance-sampling for Data Efficient RL 平均得分: 4.75 得分: ['5', '5'