需求暴涨,谁能破解算力荒?

1986年,曾任谷歌公司副总裁、被称为“AI教父”的杰弗里·辛顿 (Geoffrey Hinton) 在《自然》杂志上发表了一篇文章,提出通过语言模型“将拥有一个由单词组成的句子,并预测最后一个单词”。

但当时的计算能力成为限制因素,“如果我有更大的计算机和更多的数据,一切都会好起来。它不起作用是因为我们没有足够的数据和计算能力。”辛顿表示,当时的业界对该说法嗤之以鼻,认为推脱于算力原因仅仅是个借口。

如今,借助数据、算法,尤其算力的发展成熟,OpenAI旗下ChatGPT横空出世,将业界带入AGI(通用智能)时代。但即使财力被巨头襄助的OpenAI CEO Sam Altman也表示:OpenAI太缺GPU了。显然,微软提供的预算目前远远无法满足GPT-4运行时所需的算力,将算力体系进行体系化搭建成为人工智能行业可探索的一条出路。

算力需求暴涨

据国际数据公司IDC、浪潮信息、清华大学全球产业研究院联合发布的《2022-2023全球计算力指数评估报告》(简称《报告》),全球数字化发展加速,利用技术全面变革业务,正在对算力提出庞大的需求。一方面传统企业积极推行业务与数字技术融合,算力需求不断增加;另一方面,元宇宙、AIGC、AI4S(AIfor science)等依靠算力驱动的新兴技术的蓬勃发展。

《报告》显示,领跑者国家在计算能力和基础设施支持两大子项比其他梯队国家有显著优势,美国由于超大规模互联网企业在算力投入上的大幅增长,2022年算力指数从77分增长到82分;中国受阻于疫情反复,2022年算力投入有所放缓,但整体增速仍高于GDP,算力指数从70分增长到71分。追赶者国家阵营主要由欧洲国家、日韩以及新加坡组成,印度在2022年对算力及新兴技术投入大幅增加,也跻身追赶者国家阵营。

所谓“算力”,清华大学全球产业研究院副院长李东红解释称,算力、计算力、计算能力是一个概念,《报告》将其简化,统称为“算力”。通用计算能力、科学计算能力、AI计算能力、终端计算能力、边缘计算能力等都是其组成部分。

据多家分析机构预测,2023年全球GDP增长率仅为2%,但企业对数字技术的发展仍保持乐观,从IDC的全球高管调研来看,仅18%的高管表示会降低IT支出,而36%的高管表示会在未来经济形势不确定的情况下增加 IT支出,IDC预测数字化转型(DX) 技术的支出将继续保持强劲增长,预测2023年增长率为16.9%。

数字经济在过去几年快速增长,成为经济增长的重要推动力,2022年十五个样本国家整体的数字经济占GDP比重达50.2%。从趋势预测来看,未来数字经济将继续稳定增长,2026年这一比重将达到54.0%。

数字化产业中,以生成式AI为代表的AI计算未来将呈现暴涨态势。IDC预测,全球 AI计算市场规模将从2022年的195.0 亿美元增长到2026年的346.6亿美元,其中生成式AI计算市场规模将从2022年的8.2亿美元增长到2026年的109.9亿美元。生成式AI计算占整体 AI计算市场的比例将从4.2%增长到 31.7%。在AIGC领域,人工智能算法和技术被应用于各种领域和行业,如自动驾驶汽车、医疗诊断、金融预测等。

算力建设趋势

《报告》将未来算力主要发展趋势归纳为三方面:异构计算成为主流,IT基础架构正在由CPU密集型转向搭载GPU、FPGA、ASIC芯片的加速计算密集型,且越来越多地使用搭载GPU、FPGA、ASIC等加速卡的服务器;边缘计算应用加深,为了满足数据实时性、安全性以及大规模连接的业务需求,边缘计算成为云计算的重要补充;绿色计算发展受到各国普遍关注。液冷技术可以显著减少数据中心的能耗并有效缓解碳排放问题。

在此背景下,浪潮信息副总裁张东总结出四点算力建设发展趋势——多元化、系统化、基建化和生态化。

其中,多元化体现在算力最基础的场景、需求方,以及供给侧,技术方面逐渐多元化,如计算机对算力的要求已然与传统科学计算不同,数据类型、数据表现形式、存于计算机内的形式都不同了。

以当下火热的AI行业为例,其计算模式包括AI训练与AI推理,如何训练AI模型、使用AI模型,不同厂商所需要的算力模式、算力部署位置都不一样。因此,世界范围内的厂商,其芯片与软件角度都有不同的算力基础架构与技术支撑。因此从未来算力的发展来讲,一定是多元化趋势,很难由某一个技术或某一家厂商能够垄断所有算力的供给。

从计算供给模式来讲,张东认为应是应用导向,以系统设计为核心。以算力整机厂商为例,厂商需要更系统性的想法——通过在中心层搭建系统思维模式,为客户组织提供更合适的计算架构、计算软件,将算力集成起来,以满足客户需要。

基建化即是解决算力普惠问题,让大家都用得起、用得上的问题。张东以当下流行的大模型为例,其训练过程可能需要上万块GPU,这样的成本使得硬件投资可能高达几千万美元甚至上亿美元,叠加软件投入与人才投入,成本将更高。以国家与政府为主导进行基建化建设,能够让更多人用得上算力。

生态化是指,从算力供给到落地服务,中间需要体系支撑。包括算力、算法、与行业应用结合、数据训练、模型优化等上下游协同,仅仅依靠一家厂商很难搞定其中所有的事情。

缓解算力压力出路

算力发展趋势中,GPU是不可否认的核心组成,其在深度学习中扮演重要角色。相较CPU,GPU具有大量并行处理能力,特别适合处理深度学习中的大规模矩阵运算,能令模型的训练和推理过程获得显著加速。

但在OpenAI都喊缺少GPU的大环境下,硬件之外的其他路径成为重要选项。《报告》显示,服务器市场的规模和增长速度是决定一个国家算力水平的最核心指标。今年报告新加一项:计算的使用效率,从计算应用水平来讲,中国在此方面开始发展。

所谓“使用效率”,IDC中国副总裁周震刚解释称,即客户整个服务器CPU的平均利用率,包括内存和磁盘的使用效率与过去相比是不是更充分地使用了。

李东红以云计算渗透率为例表示,云计算通过调度不同应用在整个计算平台上的使用,可以让平台充分发挥作用,在它闲的时候支持内容的应用。通常我们过去的方式是说这一台服务器,这一台设备,这个计算平台就支持这一个应用,另一台支持另一个应用,云计算的引入可以在这台服务器闲的时候支持另一个应用。

另外,周震刚补充称,服务器体系架构中的新技术应用也可以提高算力使用效率。如智能网卡、SSD盘使用的比例都在提升,使得整个服务器数量增长虽少,但通过智能网卡等方式将服务器应承担的工作负载分配到其他的设备上去,进而提高整个服务器算力的应用水平,可以腾出更多算力面向更适合的应用,这样效率也会提升很多。

张东总结称,一方面,是否有足够多业务去承载决定了使用效率的基础,目前人工智能、数据、物联网行业的发展增加了大量数据,拉动算力需求,自然就需要效率的提升;其次,效率的提升受到技术层面的限制,该方面发挥更大作用的是计算机架构,尤其是软件架构。

张东对第一财经记者表示,整体来看,从算力建设方面,建议企业不仅要买硬件,还需在软件方面进行投入。如在基础软件、操作系统、虚拟云、云软件等方面加大投入,使整个设备资源的分配更加合理,将任务训练更好地进行波峰波谷分配。

以人工智能行业训练所面临的算力短缺问题为例,张东对记者表示,AI算力应用效率不高,其背后的技术问题较多,其中之一便是网络问题。即使购买了足够的计算能力,但若没有配套的网络能力,也难以运行。例如购买了英伟达A100、H800等,但网络传输速度达不到400G/s,也将无法匹配。

另外便是软件问题,市场长期看好英伟达不仅因其芯片,更因其是一家主营业务为硬件的软件公司,通过专利软件生态系统来运行硬件,使得软硬件结合“丝滑”。此前一位投资人对记者表示,行业对芯片短缺问题的讨论有些过于“诉苦”,即使买了足够量的英伟达A100,企业系统也未必承接得住。

张东对记者表示,软件重要性在于能够降低整个算法训练或者推理过程里等待的时间。人工智能训练过程包括准备硬件、准备数据,但真正用于训练的时间非常短。要想提升效率,就需软件发挥最大作用,减少部署模型与部署算法的时间。当然其中算法也很重要。

张东透露,目前客户对软件平台需求量非常大,采购诉求同比提升五倍以上。周震刚表示,软件平台市场过去几年在中国市场的增长率为20%,远高于硬件市场的增长。

国内建设进度不一

伴随AI数据中心需求激增,AI服务器快速放量。所谓AI数据中心是指专门用于支持人工智能计算与数据处理任务的设施或物理空间,通常拥有大量高性能服务器、GPU加速器与专门的存储系统,以提供强大的计算能力并加速深度学习。

从产业链角度看,AI数据中心上游有芯片制造商、服务器与网络设备供应商等;中游有电信运营商、云服务提供商及大型互联网企业和第三方IDC服务商;下游用户需求主要来自各行业企业、研究机构与政府部门。

据国泰君安证券研报分析,AI数据中心作为支持大规模数据处理、深度学习模型训练与推理的关键设施,将发挥重要作用。AI数据中心中,AI服务器是其重要组成部分,也成为算力概念股公司重要布局方向。

二级市场中,最近一周投资者平均每天问三个“算力”问题。在过去的六天内,深交所和上交所的投资者围绕着“算力”的提问有208条查询结果:A股公司的算力成色几何,是否能对外出租,是否囤有英伟达芯片是他们最关心的问题。

佳华科技(688051)表示,公司服务器主要由英特尔和英伟达公司的处理器芯片构建算力生产环境,满足公司物联网大数据通用算力和AI模型算力需求,目前算力使用率约60%,满足公司当前业务需求的同时,还有约40%冗余空间。

针对现在需求量较大的模型训练和AI推理任务,青云科技(688316)称其弹性高性能计算平台正在升级为AI算力调度平台,加强对GPU资源的调度能力的同时,对常用的算法模型进行集成适配,从而为客户交付完整的算力服务,并表示“公司提供NVIDIA A100GPU的云服务器的算力租赁业务”。

利通电子(603629)以“没有更多的信息可披露”回复投资者今年第一期AI服务器算力规模大概多少P以及明年是否有新增规划扩建AI算力规模的提问。

佳力图(603912)表示,南京楷德悠云数据中心投资约为15亿元,投资建设总容量8400架机柜,建成并运行后公司将通过提供机柜租用和运维服务等IDC基础服务实现收益,南京楷德悠云数据中心项目尚在建设中。

主营业务为数据中心业务和云计算业务的光环新网明确表示,“目前没有为国内大模型提供算力支持”。魅视科技则称,“产品已有图像AI边缘云算法技术的应用,可为AI大模型平台提供助力”。

易华录表示,目前各地的数据湖都部署有CPU计算资源,可以提供云计算服务,部分数据湖部署有GPU资源,可以提供视频解析和推理计算服务,除此之外也在推动AI智算中心的落地,致力于提供AI算力服务。

世纪华通表示,公司有数据中心机柜出租业务,公司不掌握客户服务器和芯片相关配置信息。此外,云数据板块致力于从IDC业务转型AI+IDC业务,但目前尚未持有英伟达GPU产品。

国泰君安研报称,我国在AI产业发展早期更注重算力硬件建设,现阶段中国AI服务器市场增速领跑全球,未来仍有较大提升空间。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注