上月底,权威科学杂志Nature发表了一篇关于谷歌人工智能程序AlphaGo击败欧洲围棋冠军的文章,其中介绍了AlphaGo程序的细节,它实际上是一个结合了深度学习与树搜索(tree-search)的程序
并结合各种新颖和成熟的方法,包括curriculum self-play learning、multi-head value estimation、policy distillation、Monte-Carlo tree-search
AAAI 2019获奖论文 论文1:How to Combine Tree-Search Methods in Reinforcement Learning 作者:Yonathan Efroni
Alphazero-like tree-search can guide large language model decoding and training. arXiv preprint arXiv
即使是仅仅训练策略网络,这种方法也比之前最著名的围棋算法Pachi更好,后者利用树搜索(tree-search)算法和启发式算法(heuristics)。