Reflection 70B 作为一款新兴开源大模型,凭借独特的自我反思技术在多项基准测试中超越了 GPT-4o 等顶级闭源模型。
该模型采用 Reflection-Tuning 训练方法,能够在推理过程中检测并纠正错误,大幅提升了准确性。在 GSM8K 数学测试中,Reflection 70B 取得了 99.2% 的惊人成绩,引发业界热议。
PS:刚刚我试了一下,中文能力似乎还不太满意,我也不知道怎么测试一个LLM的反思能力怎么样,索性直接用的这个魔鬼Prompt测一测:
一辆车挡住出口,车上放着一张写着“挪车电话”的纸,内容如下:(X表示该成语缺失的一个数字) X丘之貉、X情六欲、朝X暮四、X面楚歌、X体投地、X上八下、胡说X道、鸡X狗碎、一石X鸟、X妻四妾、勾X搭四 我应该拨打哪个电话联系车主?
感兴趣的可以试试