LightTrends Newsletter


Photonics and interconnects rise with AI

November 2023

OCP 2023吸引了大量的网络行业人群

光学和互连技术AI并肩崛起

20231115

by Vlad Kozlov and Bob Wheeler

10OCP全球峰会重返加州圣何塞,出席人数创下历史新高。超过4,400名与会者见证了一场规模盛大的行业盛会同时进行的分论坛涵盖了广泛的数据中心主题。峰会一直是听取包括谷歌、Meta和微软在内的超大规模企业意见的重要机会。对于LightCounting来说,特别关注: Optics专场占据了中心位置,座无旁落。在服务器项目中,有一个关于可组合内存系统(CMS)的特别专题,其中包括关于PCIeCXL连接的讨论。

峰会还通过未来技术研讨会(Future Technologies symposium)发挥了孵化器的作用——过去的活动为前瞻性技术产生了新的OCP子项目。本研究笔记的最后一节讨论了短距离光学的新成果。最后,峰会还包括由其他组织组织的活动,例如由CXL联盟主办的CXL论坛和由Linux基金会主办的SONiC研讨会。峰会的“大帐篷”为领先的供应商提供了空间,这些供应商通常在主题演讲中有代表,也为寻求反馈和知名度的初创公司提供了空间。

在光学专场上,微软的Ram Huggahalli做了一个演讲,为后面关于系统解耦的演讲提供了很好的背景了解演讲的重点是AI训练系统中对多个高带宽互连的需求,增加了复杂性和成本。Huggahalli将加速器互连分为四类:远程加速器到加速器(A-A)、本地加速器到加速器、加速器到CPU (A-C)和加速器到内存(A-M)。为了继续扩展加速器接口带宽,需要对效率进行重大改进。其中A-A远端接口的目标指标为5 pJ/b,三个本地接口的目标指标为2 pJ/b。

Huggahalli讨论了加速器的内存分解,使用光学技术将A-M接口扩展到单个机之外。同时,他提倡对各种接口采用同构方法,以帮助降低设计复杂性。这些目标使得微软提出了的“北极星”概念,如下图所示。它建议使用统一的die-to-die接口将加速器芯片与协议特定的A-A和A-C接口小芯片以及A-M扩展接口连接起来(除了本地HBM之外)。接口小芯片将为所有非封装接口启用封装光学器件(CPO),为各种解耦的系统架构提供足够的覆盖范围。微软还认为,协议小程序提供了在单片设计中无法实现的定制机会。

微软光连接例,

来源:微软

虽然微软只提出了一个概念,但其却聚焦于AI的案例应用,而业界在内存解耦方面的早期工作主要集中在计算案例应用上。考虑到超大规模企业的投资正从通用计算转向人工智能,CXL联盟将需要加速(包括GPUs)提供必要加速性能。刚刚发布的CXL 3.1规范是一个很好的进展,因其明确充实了CXL基于端口路由的结构,并添加了点对点内存访问。这些新功能使GPUs能够访问到CXL 3.1结构的共享内存。



Ready to connect with LightCounting?

Enabling effective decision-making based on a unique combination of quantitative and qualitative analysis.
Reach us at info@lightcounting.com

Contact Us