70万预算从头开发千亿参数大模型，挑战成功

2023-09-13 17:17

预算10万美元（约73万人民币），从头训练一个全新的千亿参数大模型。

智源研究院与国内多所高校及南洋理工联合团队，挑战成功。

要知道，当GPT-3的训练成本可是高达460万美元，近一些的Llama2据估算也大概是这个数。

这个用10万美元训练出的大模型名叫FLM，拥有1010亿参数量，目前已经开源。

得益于研究团队的新型训练策略，FLM只用了2.17%的花销，就达到了可以比肩GPT-3的效果，在开发社区引起不小关注。

那么，FLM团队是如何把训练成本降低近50倍的呢？

不管是租还是买，硬件的价格都摆在那动不了，所以只能是通过减少运算量来降低成本。

为了降低训练过程中的运算量，研究团队在FLM中采用了一种“成长策略”。

也就是先训练16B参数的小规模模型，然后扩大到51B，最终再扩展到101B版本。

由于训练低参数量模型的运算效率更高，这种循序渐进的训练方式成本要低于一步登天。

最新推荐