- InfiniBand 上正大规模分布式训练,因为 NVIDIA 本身正在通过 NVIDIA Collective Communications Library 支持 InfiniBand 上的分布式非本地训练。然而,它仍处于新生阶段,因此采用指标尚待确定。距离上的物理定律瓶颈仍然存在,因此 InfiniBand 上的本地训练仍然要快得多。
- 已经发表的一些关于去中心化训练的新研究,这些研究通信同步时间变少,可能会使去中心化训练在未来更加实用。
- 模型训练的智能分片和调度有助于提高性能。 同样,新的模型架构可能是为未来的分布式基础设施专门设计的(Gensyn 正在这些领域进行研究)。
- 由于市场需求仍处于起步阶段,Web3 原生用例所需的潜在 AI 交易较少。
- 客户较少,与 Web2 客户相比,Web3 客户少了几个数量级,因此市场的去中心化程度较低。
- 客户本身不太稳定,因为他们是资金较少的初创公司,一些初创公司可能会随着时间的推移而消亡。而满足 Web3 客户的 Web3 AI 服务提供商可能需要重新获得部分客户群,以取代那些已经消失的客户群,这使得扩展业务变得极具挑战性。
- 从头开始构建以 AI 为中心的垂直特定软件公司(例如 Cedar.ai 或 Observe.ai)
- 为了自己目的而微调模型的大型企业(例如 Netflix)
- 快速增长的 AI 提供商(例如 Anthropic)
- 将 AI 融入现有产品的软件公司(例如 Canva)
- AWS 机器。如果你今天要从 AWS 租用 H100,则必须承诺为期 1 年的租赁,因为市场供应有限。这会产生浪费,因为你可能不会每年 365 天、每周 7 天都使用 GPU。
- Filecoin 挖矿硬件。 Filecoin 有大量补贴供应但没有大量实际需求。Filecoin 从未找到真正产品市场契合点,因此 Filecoin 矿工面临倒闭的风险。这些机器配备 GPU,可以重新用于低端 AI 推理任务。
- ETH 挖矿硬件。当以太坊从 PoW 过渡到 PoS 时,这就快速释放了大量硬件,可以重新用于 AI 推断。