首个全面开源的千亿模型来了！

2023-11-29 09:38

由于源2.0具备生成单元测试的能力，因此团队在HumanEval评估中使用了SC（自洽性，Self-Consistency）方法。也就是，采用由源2.0-102B生成的单元测试作为评判标准，选出成功通过单元测试的候选者。

结果显示，自洽性可以显著提高模型的的性能。比如，HumanEval评测的正确率提升了10.3%，GSM8K提升了9.6%等等。

下面我们就来看看，源2.0的表现到底如何。

数学

首先是数学能力。

仔细看下面这道高考数学填空题就会发现，它的求解逻辑非常复杂。

这就要求模型不仅具备较好的基础知识，还需要有较好的推理以及计算能力。

从解题过程可以看出，源2.0-102B的推理路径正确，求解过程详尽，符号计算和数值计算均准确。在适当的位置上，模型明确地给出了最终答案，表现出了优异的逻辑推理性能。

根据GSM8K的评估结果，1026亿和518亿参数的源2.0，准确率都超过了76%。

与此同时，21亿参数的源2.0在准确率上也超过了规模大几十倍的Llama，达到了66.6%。

最新推荐