站长之家 - 业界 2021-06-04 17:36

自研VCU视频转码芯片让谷歌摆脱对高耗低能的英特尔平台的依赖

多年来,英特尔通过与 CPU 集成的视频编解码器而长期主导市场。但随着客户需求的爆发性增长,这家芯片巨头的解决方案已显得愈加力不从心。与此同时,许多科技企业也在努力换用基于自研芯片的加速方案,比如搜索巨头 Google 设计的 Argos 视频转码单元(VCU)。

谷歌正在利用自研高效芯片,来替换数千万颗英特尔 CPU 。

Toms Hardware 指出,与通用型的处理器相比,基于定制的专用集成电路(ASIC)往往具有高得多的硬件性能,而谷歌 YouTube 网站后台已经给出了相当积极的反馈。

据悉,用户每分钟都会向 YouTube 上传超过 500 小时各种格式的视频内容,而谷歌需要将之转码成多种分辨率(包括 144p、240p、360p、480p、720p、1080p、1440p、2160p 和 4320p),以及高效的数据格式(比如 H.264、VP9 或 AV1),此时就需要相当强大的算力提供支撑。

回顾谷歌历史,该公司通常有两种转码选项。其一是英特尔的视觉计算加速器(VCA)方案,它包含了三路至强 E3 CPU、内置了 Iris Pro P6300 / P580 GT4e 核显和先进的硬件编码器。另一种选项,就是使用基于纯软件编码的通用型英特尔至强处理器。

然而谷歌认为,对于新兴的 YouTube 工作负载来说,上述两套方案都已显得难以为继。比如 VCA 本身就相当费电,而扩展至强处理器的数量,也无异于大幅增加服务器的总量,意味着额外的功耗与数据中心空间占用。

一番思索过后,谷歌毅然决定使用内部定制的硬件来支撑未来业务需求。为实现平稳过渡,该公司初代 Argos VCU 并没有彻底取代英特尔的中央处理器(CPU),因为服务器仍需运行操作系统并管理存储驱动器和网络连接。

换言之,谷歌 Argos VCU 在很大程度上更像是一块依赖于 CPU 的 GPU 加速卡。不过与我们在普通显卡上见到的流处理器不同,Argos 主要集成了十组 H.264 / VP9 编码器引擎。

辅以几个解码器内核、四通道 LPDDR4-3200 内存控制器(接口位宽为 4 × 32-bit),一个 PCIe 接口、一个 DMA 引擎、以及一个用于调度目的的小型通用内核。

除了内部设计的编码 / 转码器,其余大多数 IP 都源于直接的第三方许可,以降低 Argos VCU 的开发成本。此外每颗 VCU 都搭配了 8GB 的 ECC LPDDR4 内存。

谷歌的主要设计理念,就是将尽可能多 的高性能编码 / 转码器放入单个芯片、并兼顾良好的节能特性,然后将 VCU 的数量与所需的服务器数量分开扩展。

通过在一款扩展卡 PCB 板上安置两颗 VCU,然后在每台双路至强服务器上安装 10 张 Argos 加速卡,谷歌就能够极大地提升每列机架的总体编码 / 转码性能。

与英特尔 Skylake 服务器系统相比,谷歌 VCU 平台在计算效能 / 总体拥有成本(TCO)方面实现了高达 7 / 33 倍的改进(分别针对 H.264 / VP9 编码而言)。

对比英特尔 CPU + 三年运营运营费用,VCU 方案毫无疑问地成为了谷歌旗下 YouTube 流媒体视频服务的首选。

从官方分享的性能数据来看,单个 Argos VCU 的 H.264 转码性能,仅比基于双路 Intel Skylake 服务器的平台略快一些。

但考虑到谷歌能够在同样大小一台服务器内塞下多达 20 张 VCU 加速卡,谷歌自研方案毫无疑问地具有显著的效率优势。

至于要求更高的 VP9 编解码器,谷歌 VCU 方案也是英特尔双路至强平台的五倍速。如此出众的表现,着实让人刮目相看。

一些分析师认为,谷歌或可将 400 ~ 3300 万颗 Intel 处理器换成自家的 VCU 。

但除了视频转码,这家搜索巨头旗下还有许多其它业务,因此对于 AMD / Intel 处理器的采购需求已让相当旺盛,除非该公司的数据中心 SoC 可在数年时间内准备就绪。

有趣的是,在谷歌展示第二代 Argos 加速卡的同时,英特尔也没有停下在 GPU 领域的研发脚步。比如该公司基于 DG1 Xe-LP 的 4-Tile SG1 加速卡,就能够为多达 12 / 28 路 4K 60fps 视频流提供转码和解码支撑。

推荐关键词

24小时热搜

查看更多内容

大家正在看