近日,X(原 Twitter)用户@Dylan Patel 展示了一份来自牛津大学的研究:通过对 GPT-4 和大多数其他常见 LLM 的语言进行研究,研究发现 LLM(大语言模型)推理的成本差异很大。
其中英语输入和输出要比其他语言便宜得多,简体中文的成本大约是英语的 2 倍,西班牙语的成本是英语的 1.5 倍,而缅甸掸语则是英语的 15 倍。
究其原理,可以追溯到今年 5 月份牛津大学在 arXiv 上刊印的一篇的论文。
词元是将自然语言文本转换成词元(token)序列的过程,是语言模型处理文本的第一步。在 LLM 计算力成本的核算中,词元越多,耗费计算力的成本越高。
毫无疑问,在生成式 AI 商业化的趋势下,计算力的耗费成本也会嫁接给用户,当下许多 AI 服务也正是按照需要处理的词元数量来计费。
论文显示,研究者通过分析 17 种词元化方法后,发现同一文本被转换成不同语言词元序列时长度差异巨大,即使是宣称支持多语言的词元化方法,也无法做到词元序列长度完全公平。
例如,根据 OpenAI 的 GPT3 tokenizer,倘若给「你的爱意」词元化,英语只需两个词元,而在简体中文中则需要八个词元。即使简体中文文本只有 4 个字符,而英文文本有 14 个字符。