尽管我们仍处于人工智能革命的边缘,但人工智能已经开始彻底改变我们的生活和工作方式。只有一个问题:人工智能技术非常耗电。据估计,运行大型人工智能模型在其生命周期内产生的排放量比普通美国汽车还要多。
人工智能的未来需要能源效率方面的新创新,从模型的设计方式到运行模型的硬件。在一个日益受到气候变化威胁的世界中,人工智能能源效率的任何进步对于跟上人工智能快速扩大的碳足迹都至关重要。
IBM 研究中心在人工智能效率方面的最新突破之一依赖于模拟芯片,即功耗低得多的芯片。在今天发表在《自然》杂志上的一篇论文中,来自世界各地 IBM 实验室的研究人员展示了他们的原型模拟 AI 芯片,用于节能语音识别和转录。他们的设计被用于两个人工智能推理实验,在这两种情况下,模拟芯片都像同类全数字设备一样可靠地执行这些任务,但完成任务的速度更快,消耗的能源更少。
为人工智能推理设计模拟芯片的概念并不新鲜——研究人员多年来一直在考虑这个想法。早在 2021 年,IBM 的一个团队就开发了使用当电脉冲施加到材料上时,相变存储器 (PCM) 就会工作,从而改变设备的电导率。该材料在非晶相和结晶相之间切换,较低的电脉冲将使器件更加结晶,提供较小的电阻,而足够高的电脉冲使器件非晶态,从而产生大电阻。PCM 设备不是记录数字系统中常见的 0 或 1,而是将其状态记录为非晶态和晶态之间的连续值。该值称为突触权重,可以存储在每个 PCM 设备的物理原子配置中。存储器是非易失性的,因此当电源关闭时重量仍会保留。相变存储器将神经网络的权重直接编码到物理芯片上。但该领域之前的研究尚未表明如何将此类芯片用于我们所看到的当今人工智能领域主导的大规模模型。例如,GPT-3 是较大的流行模型之一,拥有 1750 亿个参数或权重。
IBM 研究团队创建的设计可以在每个芯片上编码 3500 万个相变存储设备;换句话说,模型具有多达 1700 万个参数。虽然其规模尚未与当今最先进的生成式人工智能模型相媲美,但将这些芯片组合在一起使其能够像数字芯片一样有效地处理真实人工智能用例的实验。
团队采取的方法是优化在计算中,尤其是在数字信号处理中,MAC 运算是指计算两个数字的乘积并将其添加到累加器(CPU 中处理算术运算的部分)。MAC 是一个基本的计算单元。乘法累加 (MAC) 运算主导深度学习计算。通过读取电阻式非易失性存储器 (NVM) 器件阵列的行,然后沿列收集电流,该团队表明他们可以在存储器内执行 MAC。这样就无需在芯片的内存和计算区域之间或跨芯片移动权重。模拟芯片还可以并行执行许多MAC操作,从而节省时间和能源。
模拟概念具有巨大潜力,但芯片设计和制造也面临重大挑战:模拟计算本质上不精确,必须开发新工艺才能大规模生产高产量 NVM,并将模拟芯片连接到传统数字芯片。系统。但 IBM 的研究人员所做的工作表明,这些芯片在未来可能会像数字芯片一样有用。
测试模拟人工智能硬件
IBM 研究中心的团队设计了两个实验来测试其设计的有效性。第一个围绕关键字话语检测。就像您希望智能扬声器在您大声说“嘿 Siri”或“嘿 Google”时做出响应一样,该团队希望看到他们可以使用他们的芯片设计来识别特定的口语单词。他们构建了一个可监听 12 个单词的系统,在每种情况下,模拟芯片都能以与当今基于软件的系统相同的精度对每个单词做出反应,但速度要快得多。如今等待和侦听特定关键字的系统需要电源才能闲置等待,而团队创建的设计可以在不需要时关闭电源,因为模型权重存储在芯片上的非易失性存储器中。
使用上传到MLCommons(行业基准测试和协作网站)的模型,该团队可以将演示系统的功效与在数字硬件上运行的系统进行比较。由 MLCommons 开发的MLPerf 存储库基准数据显示,IBM 原型比同一网络类别中最佳 MLPerf 提交快七倍,同时保持高精度。该模型使用硬件感知训练在 GPU 上进行训练,然后部署在团队的模拟 AI 芯片上。