小米研发大模型的方向是轻量化和本地部署

2023-08-25 23:09

· 数据上，自己挖掘整理的训练数据占比达到了80%，其中小米自有的产品和业务数据量达到3TB；

· 结构上，根据对Transformer结构的理解，融合了自身的实践经验进行改良；并且充分考虑设备端芯片的特色要求，合理设置模型的宽度和深度，致力于达到效率和效果的最佳均衡。

· 训练策略上，采用小米提出的ScaledAdam优化器和Eden学习率调度器，显著提升收敛速度的同时减少了优化器中显存的浪费。

· 模型部署到端侧后，信息不用上传到云端，所有计算都在本地进行，可以从根本上保证用户隐私不被泄露。

以下为全文内容：

在上周的年度演讲上，我宣布了小米科技战略升级：深耕底层技术、长期持续投入、软硬深度融合，AI全面赋能，即（软件×硬件）ᴬᴵ。同时，也给大家介绍了小米的科技理念：选择对人类文明有长期价值的技术领域，坚持长期持续投入。

AI是未来的生产力，也是小米决定长期持续投入的底层赛道之一。我们在很早就开始组建AI团队，相关团队成员已经超过3000人。这些年的持续投入，为我们的自动驾驶、机器人等业务都取得了非常优秀的成果。

今年，我们迎来了一次重大的技术革命——AI大模型技术，在4月份，我们组建了AI大模型团队，并快速在小爱同学上落地应用。

我们做大模型的思路可能和很多公司不太一样，我们选择主力突破的是轻量化和本地部署。

为什么呢？

首先，大模型需要海量数据，所以很容易涉及到隐私问题，还需要巨大算力，用起来成本也很高。接着，我们是一家手机公司，怎么把自己的优势利用起来？我们想的是，它能不能轻量化？能不能本地部署，在手机端就能用上大模型？

沿着这个思路，我们团队进展非常顺利，小米自研大模型在近日的权威中文评测榜单C-EVAL和CMMLU中，取得同参数量级第一的好成绩；小米自研手机端侧大模型初步跑通，部分场景效果媲美云端。真的特别特别厉害。

很多人还想了解小米大模型研发的更多信息，今天，就和大家好好聊聊。

1、解码大模型

ChatGPT出现以来，大模型优异的理解能力和生成能力令人惊艳，关于其用途的探索也越来越多。目前看来，很多传统的自然语言处理任务都可以用它来完成，比如搜索、翻译、问答、摘要、信息抽取和分类以及写作等。在日常生活中，所有基于对话的服务，如客服、教育、咨询、导游等，以ChatGPT为代表的大模型都有一定的用武之地。

大模型指参数数量巨大、层次结构复杂的机器学习模型。这些模型通常具有十亿到千亿甚至万亿个参数，通过大量的数据进行训练，提供更高的理解和生成能力。

在我们看来，大模型不仅是指模型参数多、尺寸大，更重要的是代表了一种新的训练范式。我们将其总结为：大数据、大任务、大参数。

- 大数据：指需要用海量的数据去训练，让模型从中自动挖掘出所需的信息。通常采用自监督或者无监督学习方式，无需人工标注就可以提炼规律、学习知识，从而提升模型的眼界。

- 大任务：指学习的目标足够复杂、覆盖面广。这样才能“强迫”模型按照模块化、高类聚、低耦合的方式组织知识点，实现举一反三的泛化能力。

- 大参数：指模型的知识容量。大模型的参数规模越大，模型的表达能力和学习能力也就越强。

在这个范式中，我们认为大数据和大任务是不可或缺的。如果没有大数据，模型不可能学到丰富的常识；如果没有大任务，知识点和技能点不可能在模型中有机高效地组织起来。

2、布局人工智能全力突破大模型

以AI为基石，沉淀技术积累

我们基于未来的思考与理解，选择对人类文明有长期价值的战略方向，并坚持长期持续的投入。我们已经布局了12个技术领域，99个细分赛道，未来五年（2022-2026）至少投入1000亿以上的研发经费！

AI是未来的生产力，也是小米长期持续投入的底层赛道。小米很早就对人工智能进行布局，2016年小米AI实验室成立，并组建了第一支视觉AI团队，今年4月成立专职大模型团队，历经7年6次扩展，小米人工智能团队已经有3000多人，逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等AI技术能力。

成为浪潮之上的角逐者，必须有对技术的沉淀和积累。作为小米AI技术的“试验田”和“弹药库”，小米AI实验室会研发中长期的前沿技术，围绕小米业务做储备，在集团需要的时候输出“弹药”。小米对AI的深刻认识与掌握的技术能力，也有效地赋能了手机、机器人等各个业务板块。

小米研发大模型的方向是轻量化和本地部署

最新推荐

今日热点