开云kaiyun体育app登录入口 OpenAI公开大规模踏实锻真金不怕火的奥秘,英伟达AMD英特尔王人受益
OpenAI,此次又真 · Open 了一下。
刚刚,OpenAI 通过 OCP 洞开了超大规模 AI 锻真金不怕火时使用的网罗合同——MRC。
此次洞开的 MRC,是终了微秒级故障收复、能救济 10 万块以上 GPU 高效团结的底层通讯合同。
中枢奥义等于,在大规模的锻真金不怕火环境下,确保网罗通讯的踏实性。

况兼这一波是和硬件厂商合作,在 OpenAI 的组织下,英伟达、AMD 和英特尔王人参与了这个口头。
有网友暗意,把这些厂商聚在一起合作制定法式,着实比终了 AGI 还难以妥洽。

大规模集群,也要通讯踏实
这套 MRC(Multipath Reliable Connection)合同,是 OpenAI 联结英伟达、AMD、英特尔、微软和博通,花了两年时辰作念出来的,上周通过 Open Compute Project 向全行业洞开。
它当今跑在 OpenAI 通盘最大规模的 NVIDIA GB200 超算上,包括 OCI 在德克萨斯 Abilene 建的星际之门和微软的 Fairwater 超算。
这件事的布景是,同步预锻真金不怕火(synchronous pretraining)的通讯模式对网罗相配敏锐。
十几万块 GPU 在每个锻真金不怕火 step 里以 all-reduce 为主要通讯原语协同职责,单次迭代可触发数百万次点对点数据传输。
这类聚积通讯的完成时辰由最慢的那次传输决定,任何链路拥塞或丢包王人会以滚雪球的样子传导到通盘这个词 job,轻则酿成详尽骤降,重则触发 checkpoint 回滚。
跟着集群规模扩大,网罗故障的齐备频率只会高潮。

为了管理这个问题,MRC 主要作念了三件事。
第一件是多平面网罗拓扑(Multi-Plane Network)。
传统作念法是把 800Gb/s 的网卡当一整条链路用,通盘这个词集群需要三四层交换机才能连起来。
MRC 把它拆成 8 条 100Gb/s 子链路,各自连到荒芜的交换机,形成 8 个并行的网罗平面。
单台交换机能接入的端口数因此扩大了 8 倍,拓扑也随之扁平,层数从三四层压到两层,13 万块 GPU 的互联老本和故障点王人随之大幅下跌。
层数少还意味着故障点少,8 个平面并行又意味着冗余旅途大幅加多,这亦然后头两项本事粗略诞生的物理基础。

第二件是自妥当包喷射(Adaptive Packet Spraying)。
经典 RoCE 条目归拢条 RDMA 传输的所罕有据包走归拢齐径以保管规则语义,这在多平面环境下会酿成严重的流量碰撞和旅途期骗率不及。

MRC 膨大了 RoCE 的乱序处理才气,在包头中镶嵌谋略内存地址,开云kaiyun体育app登录入口使遴选端不错将乱序到达的包径直写入正确位置,从而允许将单次传输的包喷射到数百条旅途上并行传输。
拥塞检测和旅途切换则是在联接层完成,发现拥塞则换路,检测到丢包则立即停用该旅途并触发重传,通盘这个词反应在微秒级完成。
这种模式不错瓦解为,底本一批货必须走归拢辆车按规则投递,MRC 让这批货同期上几百辆车分头跑,每个箱子上贴好成绩地址,到了径直入库,哪条路堵就换哪条。
聚积通讯对尾蔓延相配敏锐,这套机制着实舍弃了网罗中枢的拥塞,径直压低了锻真金不怕火 step 完成时辰的抖动。

第三件是用SRv6(IPv6 Segment Routing)静态源路由取代动态路由合同。
传统决议依赖 BGP 在交换机间动态谋略和同步路由,链路故障时路由经管需要数秒以致更长,这段时辰内锻真金不怕火流量会大面积中断。
SRv6 将旅途决策完全移到发送端,把逐跳的交换机记号符序列径直编码进数据包的谋略地址,一起每台交换机只需按腹地静态路由施展实转发,无需感知任何拓扑变化。

一经拿物流来类比,这就畸形于登程前就把齐备路子写在包裹上,每个路口的职责主谈主员只管照单操作,不需要和任何调整中心臆想。
某条旅途出现故障,MRC 发送端径直罢手在该旅途喷包、切换到其他旅途,交换机侧零感知、零行为,整类路由经管激勉的抖动从根蒂上被舍弃。
三层联想从拓扑、传输、路由三个维度同期发力,确保了大规模下的网罗可靠性。
One More Thing
MRC 本事博客公布之后,OpenAI 还同步发布了一期播客。
这期播客中,OpenAI 网罗稳健东谈主 Mark Handley 和职责负载稳健东谈主 Greg Steinbrecher 聊了 MRC 从动机到落地的齐备经过。

感趣味的话,不错去听一听。
参考联接:
https://openai.com/index/mrc-supercomputer-networking/
播客地址:
https://www.youtube.com/watch?v=TiW96H5HmAw
一键三连「点赞」「转发」「防备心」
接待在洽商区留住你的思法!
— 完 —
5 月 20 日,咱们将在北京金茂万丽栈房举办一年一度的中国 AIGC 产业峰会。
首波嘉宾声威已公布!昆仑万维方汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄超、MarsWave 冯雷王人来了,� �了解确定
请你和咱们一起,不再仅仅盘问 AI 的往时,而是当今就用起来。� �
一键护理 � � 点亮星标
科技前沿发扬逐日见开云kaiyun体育app登录入口
雅博体育app中国官网入口