34B参数量超越GPT-4！

2023-09-20 12:35

【新智元导读】数学通才「猛犸」模型给开源语言模型带来了「推理春天」，面对GPT-4都有一战之力！

数学推理问题是语言模型绕不过的痛点，在各种黑科技的加持下，开源模型的推理性能依然不够看。

最近，滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学的研究人员联合开源了一个专为「通用数学问题」定制的大模型MAmmoTH和一个指令调优数据集MathInstruct.

MathInstruct由13个具有中间原理的数学数据集编译而成，其中6个为新数据集，混合了思想链（CoT）和思想程序（PoT），并确保覆盖了广泛的数学领域。

CoT和PoT的混合不仅可以释放工具使用的潜力，而且还允许模型针对不同的数学问题进行不同的思维过程。

因此，MAmmoTH系列在所有尺度上的9个数学推理数据集上的表现大大优于现有的开源模型，平均准确率提高了12%至29%。

其中MAmmoTH-7B模型在MATH（竞赛级数据集）上的准确率达到了35%，超过了最好的开源7B模型（WizardMath）25%，MAmmoTH-34B模型在MATH上的准确率达到了46%，甚至超过了GPT-4的CoT结果。

数学推理领域新王：MAmmoTH

在数学推理任务上，开源和闭源的大型语言模型（LLM）之间存在巨大的性能差距，目前基准数据集上的sota仍然是GPT-4，PaLM-2和Claude等闭源模型，其他开源模型如Llama，Falcon和OPT等仍然远远落后。

为了弥补性能差距，主要的研究方法有两类：

1. 如Galactica，MINERVA等模型，继续使用数学相关的网络数据对语言模型进行训练，可以提高模型的通用科学推理能力，但计算成本会更高；

2. 如拒绝采样微调（RFT）和WizardMath等，使用特定领域数据集对模型进行微调，虽然可以提高领域内性能，但无法适用于更广泛的数学推理任务。

最新推荐