昇腾AI“点燃”首个普惠算力底座

2023-09-20 12:36

大模型在抹平 AI 模型底层架构多样性的同时，也在悄然抹去城区之间的差异。

站在北京石龙经济开发区20号院，很难将这里与京西地区百年钢铁史、千年采煤史联系起来。曾是一代又一代人集体记忆的铁花飞溅、机械轰鸣，如今已化作蔚然成风的「京西智谷」。

2月，大模型「炼丹炉」—北京市门头沟区与中关村发展集团、华为技术有限公司共建的北京昇腾人工智能计算中心（以下简称计算中心）在20号院内正式点亮。6月，首批上线运营人工智能训练算力规模100P。

在今年企业争抢算力大背景下，在坐拥全国近三分之一人工智能企业、打响大模型创业「第一枪」的北京，它是第一个面向中小企业提供普惠算力的人工智能训练算力平台。

7月，计算中心又成为北京第一个拿到「国智牌照」的「新一代人工智能公共算力开发创新平台」，跻身国家人工智能算力发展战略体系。

夯实的基座:算力「大」且「稳」

走进一楼计算中心机房，原以为巨大房间里会屹立几座哄哄作响的「铁皮疙瘩」，结果出乎意料:一间仅50平米「小户型」，里面只有一台 Atlas900AI 集群（ Atlas900PoD ）。

一个集群共有8台机柜，中间五台是核心计算设备，每个机柜里塞进了八个计算节点，是100P 真正来源。最左边两个柜子其实是液冷分配器，决定液冷水输往哪个管道。最右边两个机柜负责高性能卡之间快速通信。

100P 是什么概念?1P 相当于每秒可进行一千万亿次运算，100P 大约相当于五万台高性能电脑的算力。就计算精度而言，100P 是指半精度（ FP16）算力。

大模型时代有一个明显趋势，企业都是基于一些开源模型做微调，包括二次训练。「他们会跟我们要两个节点。几十亿参数规模的模型，一到两天就能训练完毕。」北京昇腾人工智能生态创新中心 CTO 杨光介绍说，计算中心目前有四十个节点，按照一家企业需要两个节点来算，可以同时服务二十多家。

绕到机柜身后，触摸背后的液冷门，感觉冰凉，大概只有十几个度。打开厚重的液冷门，依然可以感到热风袭来。只见每台服务器背后都有不少细长管子，直接通到服务器里:

从底部上来的液冷水经由这些管道与服务器进行热交换，带走热量，使温度下降，升温的液冷水回到冷却塔后，恢复以往温度。

最新推荐