大模型在抹平 AI 模型底层架构多样性的同时,也在悄然抹去城区之间的差异。
站在北京石龙经济开发区20号院,很难将这里与京西地区百年钢铁史、千年采煤史联系起来。曾是一代又一代人集体记忆的铁花飞溅、机械轰鸣,如今已化作蔚然成风的「京西智谷」。
2月,大模型「炼丹炉」—北京市门头沟区与中关村发展集团、华为技术有限公司共建的北京昇腾人工智能计算中心(以下简称计算中心)在20号院内正式点亮。6月,首批上线运营人工智能训练算力规模100P。
在今年企业争抢算力大背景下,在坐拥全国近三分之一人工智能企业、打响大模型创业「第一枪」的北京,它是第一个面向中小企业提供普惠算力的人工智能训练算力平台。
7月,计算中心又成为北京第一个拿到「国智牌照」的「新一代人工智能公共算力开发创新平台」,跻身国家人工智能算力发展战略体系。
夯实的基座:算力「大」且「稳」
走进一楼计算中心机房,原以为巨大房间里会屹立几座哄哄作响的「铁皮疙瘩」,结果出乎意料:一间仅50平米「小户型」,里面只有一台 Atlas900AI 集群( Atlas900PoD )。
一个集群共有8台机柜,中间五台是核心计算设备,每个机柜里塞进了八个计算节点,是100P 真正来源。最左边两个柜子其实是液冷分配器,决定液冷水输往哪个管道。最右边两个机柜负责高性能卡之间快速通信。
100P 是什么概念?1P 相当于每秒可进行一千万亿次运算,100P 大约相当于五万台高性能电脑的算力。就计算精度而言,100P 是指半精度( FP16)算力。
大模型时代有一个明显趋势,企业都是基于一些开源模型做微调,包括二次训练。「他们会跟我们要两个节点。几十亿参数规模的模型,一到两天就能训练完毕。」北京昇腾人工智能生态创新中心 CTO 杨光介绍说,计算中心目前有四十个节点,按照一家企业需要两个节点来算,可以同时服务二十多家。
绕到机柜身后,触摸背后的液冷门,感觉冰凉,大概只有十几个度。打开厚重的液冷门,依然可以感到热风袭来。只见每台服务器背后都有不少细长管子,直接通到服务器里:
从底部上来的液冷水经由这些管道与服务器进行热交换,带走热量,使温度下降,升温的液冷水回到冷却塔后,恢复以往温度。