参赛选手分别是来自OpenAI家族最新的四个GPT模型——GPT-4以及GPT-3.5的三个变体,Davinci-2、Davinci-3和GPT-3.5-Turbo。 · Davinci-3(API名称:text-davinci-003)是Davinci-2的升级版,它使用近似策略优化的人类反馈强化学习(RLHF)进一步训练。 结果显示,这种step-by-step思维提高了Davinci-3、GPT-3.5-Turbo和GPT-4的表现,但没有提高Davinci-2的准确性。 对于Davinci-3和GPT-4来说,用Two-shot CoT带来的提升相对有限。 最后,同时使用Two-shot CoT推理和一步一步地思考。 结果显示,所有RLHF训练的模型的ToM准确性都有明显提高:Davinci-3达到了83%(±6%)的ToM准确性,GPT-3.5-Turbo达到了91%(±5%),而GPT-4达到了100%的最高准确性