LightTrends Newsletter


Photonics-enabled disaggregated computing

December 2023

光子学赋能开放式计算

LightCounting讨论超级计算大会2023精彩要

12米高的蓝色大熊凝视着举办SC23的科罗拉多会议中心。

超级计算大会2023 (SC23)20231112日至17日在科罗拉多州丹佛市举行,参会人数超过14000人,创下了新纪录。

两大主题主导了今年的会议:光子学日益重要的作用,以及高性能计算和人工智能超级计算机发展速度之间的矛盾。

利用光子学,诸如PCI Express (PCIe)Compute Express Link (CXL)之类的协议可以通光纤来实现数据中心的系统开放和新型超级计算架构。

SC22上崭露头角的系统初创企业Drut Technologies利用去年的SC22发布了其服务器解耦架构。今年,这家初创公司显示了其日益增长的志向。它正在开发一种架构,将这一概念扩展到整个数据中心。它的动态加速器(DX)架构将支持多达4,096个使用光交换的加速器,类似于谷歌互连其张量处理器单元(TPU)集群的方式。

其他光子展示的亮点包括Avicena的光互连演示,展示了据称是世界上最小的每秒1太比特(Tb/s)的微型LED收发器。Ayar Labs展示了其嵌入英特尔FPGA的光输入输出(I/O) TeraPHY芯片,而Lighintelligence则展示了在光链路上使用PCIe/CXL的内存分解。

SC23也是最新的500强超级计算机亮相的地方。今年有一台超级计算机——微软AzureEagle——进入了前三名,这是商业机器第一次获得如此高的排名,而且是微软在一周内推出的。

Top500突出的一个趋势是高性能计算正在放缓。直到2013年,高性能计算每11年增长1000倍,但自那以后增长速度明显放缓。世界500强委员会认为,计算能力现在以每11年不到10倍的速度增长。相比之下,超大规模的人工智能计算需求每34个月增长一倍,这种情况将在可预见的未来持续下去。

高性能计算和AI超级计算机有不同的增长梯度有几个原因。

高性能计算所需的处理是多种多样的,要求非常高。因此,这门学科是第一个遇到关键限制的学科,因为它处于计算的前沿。相比之下,人工智能和机器学习的计算更加专业化,超大规模计算厂商在全面积累收益方面做得非常出色:在处理器的指令级别、浮点数学表示、核心、芯片和内存以及刀片级别。

此外,如何通过使用先进的网络技术和拓扑来扩展和扩展刀片以组成超级计算系统。反过来,AI计算需求的指数级增长不会无止境无瓶颈地持续下去。就好像高性能计算一样,这需要新的思维。

两场会议讨论了高性能计算和人工智能计算瓶颈的问题:一个小组讨论了光I/O在未来人工智能和高性能计算系统中的作用,以及芯片如何使高性能计算和人工智能受益。

超级计算大会的重点在于软件、算法和应用。但硬件——处理器、内存和包括光学在内的互连——也关键在。例如,在展会上宣布了最新的Compute Express Link (CXL)规范——3.1版本,这是一年多来的第一次升级。

Nvidia在活动新闻发布会上发表了一个令人惊讶的声明,即NVLink网络不使用任何光连接。这意味着Nvidia部署的光模块和AOCs主要用于InfiniBand连接,部分用于以太网。LightCounting将在20241月题为“人工智能光学”的报告中讨论这一发展的影响。关于这份新报告的更多细节可在2024报告目录册中获得,报告的目录可应要求提供。

LightCounting订阅用户可以在https://www.lightcounting.com/login上获得这份研究报告的全文


Ready to connect with LightCounting?

Enabling effective decision-making based on a unique combination of quantitative and qualitative analysis.
Reach us at info@lightcounting.com

Contact Us