嗨热线网 > 科技 > 智能 >

牛津:汉语训练费用是英语的2倍

2023-08-02 11:39

①牛津大学的一项研究表明,从诸多大型语言模型(LLM)的计费方式看,英语的输入和输出比其他语言要便宜得多;

②简体中文的训练费用约是英语的2倍,而缅甸掸语的费用为15倍;

③语言的成本差异导致英语使用者和其他语言使用者之间形成AI鸿沟。

财联社7月31日讯(编辑 周子意)如今的大型语言模型(LLM)可以理解世界上很多语言,甚至是一些记载较少的语言。不过,大模型处理不同语言之间时,其性能上存在很大的差异,这是由于模型成本与其所训练的语言紧密挂钩。

牛津大学最近进行的一项研究表明,从诸多语言模型的计费方式看,英语的输入和输出比其他语言的输入和输出要便宜得多。例如,西班牙语的成本约为英语的1.5倍,简体中文的价格约为2倍以上,缅甸掸语在15倍以上。

image

成本的差异也间接导致英语使用者和世界其他语言使用者之间形成AI鸿沟。

成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元,这个更小的单元就是标记(Token)。这是一个人工智能(AI)公司将用户输入转换为计算成本的过程。

研究显示,使用英语以外的语言访问和训练模型的成本都更高。例如中文,无论是在语法上还是在字符数量上,都有更复杂的结构,从而导致更高的标记化(Token)率。

举例来看,基于OpenAI公司的GPT2模型,对于“国家不同,所得税的结构是不同的,税率和税率等级也有很大的差异”这句话的处理来看,在简体中文处理中运用到了66个Token,在英语处理中仅用到了24个Token,而在禅语处理中使用到了468个Token。

郑重说明:网站资源摘自互联网,如有侵权,麻烦通知删除,谢谢!

联系方式:hiholiday12399@gmail.com