由于源2.0具备生成单元测试的能力,因此团队在HumanEval评估中使用了SC(自洽性,Self-Consistency)方法。也就是,采用由源2.0-102B生成的单元测试作为评判标准,选出成功通过单元测试的候选者。
结果显示,自洽性可以显著提高模型的的性能。比如,HumanEval评测的正确率提升了10.3%,GSM8K提升了9.6%等等。
下面我们就来看看,源2.0的表现到底如何。
数学
首先是数学能力。
仔细看下面这道高考数学填空题就会发现,它的求解逻辑非常复杂。
这就要求模型不仅具备较好的基础知识,还需要有较好的推理以及计算能力。
从解题过程可以看出,源2.0-102B的推理路径正确,求解过程详尽,符号计算和数值计算均准确。在适当的位置上,模型明确地给出了最终答案,表现出了优异的逻辑推理性能。
根据GSM8K的评估结果,1026亿和518亿参数的源2.0,准确率都超过了76%。
与此同时,21亿参数的源2.0在准确率上也超过了规模大几十倍的Llama,达到了66.6%。