站长之家 - 业界 2024-09-03 06:18

中国电信个验证1024卡分布式计算:120公里、80万兆网络

中国电信联合中国电信研究院、北京电信和天翼云,成功在现有网络上采用800G C L技术,为1024卡分布式集群提供大容量带宽,实现远距离千亿参数大模型分布式训练。此举在全球范围内尚属首次,展示了大带宽、高可靠、高效率光传输网络为智算互联提供坚实基础的可行性。

随着智算集群规模不断扩大,对带宽需求也呈指数级增长,已达到百T比特甚至超P比特级。为此,中国电信采用了高阶调制的单波长800G技术,提升频谱效率,并结合C L波段技术,实现超大传输带宽。

在武清和润泽机房之间,中国电信利用华为传输设备建立了宽带互联的智算验证网,距离长达120公里,并通过环回测试完成了链路误码、波长故障和光纤故障等异常情况测试。

测试结果表明,单个800G业务波中断会导致算效降低超过40%,而毫秒级以上光纤故障将导致算效大幅下降甚至训练中断。为了解决这个问题,中国电信采用了WSON重路由恢复技术,将重路由恢复时间控制在50毫秒以内,确保分布式智算业务的高可靠互联。

此外,中国电信还提出分钟级波长动态拆建解决方案,实现算网协同分时复用,有效提高网络资源利用率。

此次验证为跨地域、跨层级、跨主体的高可靠算力协同调度奠定了基础,标志着中国电信云网融合战略迈上了新台阶。

推荐关键词

24小时热搜

查看更多内容

大家正在看