竞争加剧!报道:亚马逊劝说云客户远离英伟达,改用自家芯片

与其他云服务提供商一样,亚马逊租用给开发者和企业的服务器主要适用的是英伟达AI芯片。然而媒体报道,亚马逊如今正试图说服这些客户转而使用由亚马逊自研AI芯片驱动的服务器。

The Information报道,亚马逊芯片部门Annapurna的业务开发负责人Gadi Hutt表示,包括苹果、Databricks、Adobe和Anthropic在内的一些希望找到英伟达芯片替代方案的科技公司,已经在测试亚马逊最新的AI芯片,并取得了令人鼓舞的结果。

Hutt在亚马逊AWS年度客户大会表示:“去年,人们开始意识到,‘嘿,亚马逊在AI芯片上的投资是认真的。’本周,更多人相信这是一个真实且持续的投入。”

分析认为,如果亚马逊能够将客户支出转移到其自研的服务器芯片上,由于这些芯片部分因为耗电量远低于英伟达芯片而对云客户更加便宜,这将提升亚马逊的利润率。此外,这也能阻止英伟达通过直接向企业出租其芯片服务器,抢占更多云市场份额。

英伟达在AI芯片领域的主导地位一直难以撼动,这部分归因于其芯片比包括亚马逊、微软和谷歌在内的竞争对手生产的芯片更强大,同时,软件开发者习惯于使用英伟达专有的Cuda编程语言为其芯片编写软件。

尽管如此,Hutt和其他亚马逊高管本周表示,大客户正在寻求更便宜的替代方案。AWS CEO Matt Garman表示,使用亚马逊的AI芯片成本比英伟达的旗舰H100芯片低30%到40%,但能实现同等性能。

目前,亚马逊已经在开发传统服务器芯片方面建立了一定的影响力,并成功说服客户租用这些芯片。近年来,AWS客户越来越多地使用亚马逊的Graviton服务器芯片,而不是由英特尔和AMD提供芯片的服务器,因为Graviton通常性价比更高。

例如,企业软件公司Databricks已经成为Graviton的重要客户,其高管Naveen Rao表示,计划使用亚马逊的新AI芯片以降低运行软件的成本。

亚马逊开发芯片(包括AI芯片Trainium)的举措是其更广泛战略的一部分,这一战略旨在将计算的“基本构件”——从服务器到云软件——转变为廉价的通用商品。类似地,亚马逊CEO Andy Jassy本周宣布了一款由亚马逊打造的新对话式AI模型,他表示,其性能与Anthropic和OpenAI的最新模型相当,但价格却低了三倍以上。

Hutt还谈到了公司的新Trainium芯片,以及AWS正在为Anthropic建造的一套超级计算服务器集群。Anthropic是OpenAI的竞争对手,也是AWS近年来营收增长的重要贡献者之一,目前是AWS上最多使用英伟达服务器的客户之一。

以下是媒体采访Gadi Hutt的对话节选:

1. 使用Trainium2(亚马逊芯片的最新版本),为什么你们要专注于把这款芯片卖给那些在英伟达芯片上花费巨大的公司?

Hutt:那些关注机器学习成本的客户,通常是花费较大的客户,包括苹果、Adobe、Databricks等,还有一些资金充裕的初创公司,比如Poolside和Anthropic。

对他们来说,关键指标是“每1美元能获得多少性能”。还有许多其他客户,我们称之为“长期客户”,他们有各种项目非常适合我们的芯片。但也许他们每月的花费只有1000美元,这种情况下不值得工程师投入时间去探索这种选项。

实际上,在Trainium2生命周期的这个阶段,我并不寻求吸引上百万个客户。就机器学习而言,我们还处于非常早期的阶段。人们还在尝试攻克通用人工智能(AGI)和各种各样的想法,这个领域还在不断演变。

我们不能从第一天起就支持所有的用例。如果客户尝试运行一些无法正常工作的东西,这会是一种非常糟糕的体验。因此,我们专注于听取最大客户的需求,“嘿,这是我们需要的”,而这往往是对整个市场未来需求的一个很好的预测。

2. Trainium2在明年的目标是什么?

Hutt:当我们部署大量芯片时,我们的目标是确保它们被充分利用。所以我们首先需要与这些大客户合作,然后再扩展到我所说的“长期客户”。对我们这些制造芯片的人来说,成功的衡量标准是确保所有芯片都被充分利用。不管是10个客户还是1000个客户,数量是次要的。

这是场马拉松,而不是短跑。随着时间的推移,我们希望看到越来越多的客户。我不会在内部制定目标,规定要启用多少客户。我们更关注的是确保为客户提供合适的工具和性能,采用率自然会随之提高。

3. 为什么第一代Trainium芯片没有成功推广?第二代有什么不同?

Hutt:首先,这是我们的第一款训练芯片。你可以看看Trainium1(2022年发布)与Graviton1(2019年发布)的对比,同样的故事。Graviton1实际上是为了启用整个生态系统,包括软件生态系统,并确保我们为客户构建了正确的产品。

Trainium1的客户(包括亚马逊内部的团队)帮助我们强化了软件,但工作仍未完成。在支持更多工作负载方面,我们还有很多工作要做。不过,现在我们可以说,我们对Trainium2能够支持的工作负载感到非常满意,包括大型语言模型(LLM)、专家模型、多模态模型以及计算机视觉模型。

这需要时间,而且很复杂。如果很容易,更多人早就做到了。

3. AWS的客户是否在考虑明年选择租用Trainium2还是英伟达的Blackwell芯片?

Hutt:客户喜欢有选择的余地。我们的工作是确保我们的芯片即使与英伟达的最新芯片相比,也依然具有吸引力,目前确实如此。

顺便说一句,我们还没有见到72芯片的Blackwell系统投入使用,但假设英伟达能够交付,Trainium2依然会更具成本效益。

Trainium3(预计2025年底发布)的计算能力是Trainium2的四倍,因此客户了解我们的发汗路线图。他们有信心认为,这是一个值得投资的方向,否则他们不会选择它。

4. 你认为英伟达GPU的需求是否会发生变化?

Hutt:有很多客户想使用英伟达芯片,不愿了解Trainium芯片。如果你是小型GPU消费者,每次稳定使用10、20、30甚至100个GPU,没有动力去改变现状。即使每月能省下几千美元,你可能也更愿意让工程师去做别的事情。

当客户关心成本问题时,通常是在他们开始扩大规模时,但大规模的客户并不多。所以对我们来说,这些芯片是长期投资,以确保我们为客户提供选择。如果客户选择使用它们很好,但如果不选择,我们依然是运行GPU的最佳平台。

我们的软件成熟度会随着时间的推移而提高,希望届时会有更多客户选择使用Trainium。但GPU对我们来说也是一项好业务,我们在卖很多。所以,如果客户希望我们为他们提供GPU,我们会永远这么做。

5. 使用Trainium芯片是否会提高AWS的利润率?

Hutt:我们不会披露利润率的具体情况,但我们在这些芯片上并没有亏损。业务必须有存在的意义,否则我们不会在这里投资。

6. 客户何时开始对Trainium2感兴趣?

Hutt:我记得与Poolside(一家AI编码助手初创公司)的第一次会议。当我们向他们展示Trainium2的规格时,他们说,“好吧,这正是我们需要的。”

7. Anthropic的超级计算机集群项目Rainier的耗电量是多少?

Hutt:我们没有披露具体数据。但我可以告诉你,它比等效的GPU效率高50%。

8. 超级计算机何时能在Anthropic投入使用?

Hutt:Rainier项目很快就会完成,我们已经在建造中。他们可以逐步开始使用部分集群,而不需要等到最后一颗芯片上线后再使用。随着集群扩展,他们可以逐步增加使用量。

9. Anthropic是否是唯一可以使用Rainier项目的公司?

Hutt:是的,仅供Anthropic使用。

我们正在建设更多的产能,以满足其他客户使用Trainium的需求。目前,短期内需求大于供应。所以第一季度将非常紧张,随着产能增加,情况会有所改善。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注