预算10万美元(约73万人民币),从头训练一个全新的千亿参数大模型。
智源研究院与国内多所高校及南洋理工联合团队,挑战成功。
要知道,当GPT-3的训练成本可是高达460万美元,近一些的Llama2据估算也大概是这个数。
这个用10万美元训练出的大模型名叫FLM,拥有1010亿参数量,目前已经开源。
得益于研究团队的新型训练策略,FLM只用了2.17%的花销,就达到了可以比肩GPT-3的效果,在开发社区引起不小关注。
那么,FLM团队是如何把训练成本降低近50倍的呢?
“成长策略”降低训练成本
不管是租还是买,硬件的价格都摆在那动不了,所以只能是通过减少运算量来降低成本。
为了降低训练过程中的运算量,研究团队在FLM中采用了一种“成长策略”。
也就是先训练16B参数的小规模模型,然后扩大到51B,最终再扩展到101B版本。
由于训练低参数量模型的运算效率更高,这种循序渐进的训练方式成本要低于一步登天。