参赛选手分别是来自OpenAI家族最新的四个GPT模型——GPT-4以及GPT-3.5的三个变体,Davinci-2、Davinci-3和GPT-3.5-Turbo。 · Davinci-2(API名称:text-davinci-002)是在人类写的演示上进行监督微调训练的。 · Davinci-3(API名称:text-davinci-003)是Davinci-2的升级版,它使用近似策略优化的人类反馈强化学习(RLHF)进一步训练。 结果显示,这种step-by-step思维提高了Davinci-3、GPT-3.5-Turbo和GPT-4的表现,但没有提高Davinci-2的准确性。 结果显示,Two-shot CoT提高了所有用RLHF训练的模型(除Davinci-2以外)的准确性。