对比结果模型Orca-3与基于相同基础模型的Mistral-7b-Instruct,我们在多项基准测试中观察到显著提升,例如在AGIEval上提升了40%,在MMLU上提升了19%,在GSM8K上提升了 此外,Orca-3在性能上持续超越其他模型,如LLAMA-8B-instruct和GPT-3.5-turbo。