LightTrends Newsletter


The Evolving Role of Optics in AI Clusters

January 2024

光器件在人工智能集群中的演变作用

LightCounting发布了题为“人工智能光器件”的新报告

人工智能以眨眼之间的速度跻身于前沿。预测人工智能的发展需要勇气。LightCounting的第一份“人工智能光器件”报告突显了人工智能如何改变计算机架构和网络,其中光器件起着关键作用。LightCounting的人工智能预测侧重于光器件。但如果我们加上一个预测,那就是:光器件不仅将在人工智能系统演进中发挥重要作用,而且人工智能将越来越多地在晶体管、芯片和系统级别的设计中发挥作用。

不同行业的创新速度各不相同。新的应用程序可以迅速开发出来。其中大部分会失败,但有些会成功,似乎一夜之间改变世界。软件和人工智能算法的创新速度快的我们无法跟上。至少这是外部观察者的看法,但专家可能持有不同观点。

硬件创新是一个更为渐进但持续不断的过程。光学连接并不例外,我们有数据可以证明这一点。硅光的采用历经了十年,我们仍在等待这项技术能够提供真正颠覆性的解决方案,比如可靠的共封装光学技术。毫无疑问,这将在这十年末实现,但本报告所呈现的预测聚焦于部署在人工智能集群中的可插拔光模块——这是目前和未来5年内光连接的主要解决方案。

如今,部署在人工智能集群中的光模块中,超过90% 用于InfiniBand和以太网连接。谷歌是唯一一家在其生产的人工智能集群中使用光模块进行TPU之间的核间互连(ICI)的公司。Nvidia正在其研究集群中测试GPU之间的光学NVLink连接。如下图所示,与以太网和InfiniBand相比,GPU之间的NVLink需要4倍的带宽。人工智能集群设计中的另一个瓶颈是GPU可用的高带宽内存(HBM)有限,其带宽也高出3倍,如下图所示。

谷歌也是唯一一家使用光学交换机来扩展和重新配置其人工智能集群的公司。事实证明,这种做法能够提高集群性能,同时将最大限度地降低成本和功耗。我们预计在接下来的3-5年内会有更多公司采用这项技术。

2023年光器件在人工智能集群应用中的需求规模令人惊喜。ChatGTP在2022年末成为头条新闻的时机再好不过了。对即将到来的经济衰退的担忧以及收入增长放缓的首次迹象迫使所有领先的云公司削减支出,包括对数据中心的投资和光模块的购买。我们还没有2023年的最终销售数据,但人工智能有极大可能挽救了去年市场的下滑。毫无疑问,接下来2024年至2025年会有更加强劲的增长。

Nvidia业务增长是影响2023年至2025年光模块销售的主要因素。Nvidia的新设计的人工智能集群需要更多的光模块。所有先前的系统仅使用InfiniBand网络进行光学连接,其中大部分是AOCs。基于NDR(400G)InfiniBand的最新系统使用可插拔的400/800G SR4/SR8和DR4/DR8光模块,而不是AOCs。该公司还在2022年3月宣布了NVLink机箱交换机,旨在实现800G光学连接。Nvidia目前正在内部测试光纤上的NVLink,但这些解决方案应该在2024年底之前提供给最终用户。如果这需要更长的时间,我们将不得不降低对2025年至2029年的预测。

该报告首次展示了我们对Nvidia光模块的预测,并将其与人工智能集群中使用的其他光模块进行了比较。为了减少传输误码,Nvidia设计的光模块具有更严格的误码率规范。这并不妨碍客户使用第三方光器件,但也不能保证系统性能。这促使包括微软在内的许多客户选择使用Nvidia提供的光模块。我们预计最终用户最终会过渡到使用第三方光学器件以节省成本,但这将是一个渐进的过程。

更多有关该报告的信息可在以下链接找到:https://lightcounting.com/report/january-2024-optics-for-ai-clusters-308



Ready to connect with LightCounting?

Enabling effective decision-making based on a unique combination of quantitative and qualitative analysis.
Reach us at info@lightcounting.com

Contact Us