推广 - 传媒 2021-12-07T15:21:24 +08:00

Volcano:云原生高性能批量计算平台

云原生时代,Kubernetes(K8s) 已经成为云原生应用编排、管理的事实标准,越来越多的应用选择向 Kubernetes 迁移。

在 CAE 仿真、动漫渲染、物理化学、石油勘探、生命科学、气象环境等需要进行大规模数据计算的领域,HPC(高性能计算) 作为传统的分布式计算模式,有着广泛的应用。在这些相关领域的从业者中,也有很多人希望能将 HPC 应用迁移到容器中运行,通过 Kubernetes 强大的功能来进行作业管理。开源的 Volcano 项目就是一个很好的解决方案。

Volcano 是一个基于 Kubernetes 的云原生批量计算平台,也是 CNCF 的首个容器批量计算项目,主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。它提供面向高性能负载的调度策略、完善的作业生命周期管理、异构硬件管理、面向高性能负载的性能优化等能力,目前在很多领域都已落地应用。

业界在使用一些计算框架进行大规模运算时,由于不同框架对作业管理、并行计算等要求不同,导致在高计算密度情况下,资源需求波动大,缺乏高级调度能力。同时也导致了后续部署运维复杂等问题。

Volcano 面向主流计算框架提供统一的批量调度平台,提高资源利用率。同时还提供通用的作业管理、队Fair-share,Gang ,bin-pack 、preempt、reservation等高级调度算法,简化运维管理。目前 Volcano 已经支持几乎所有的主流计算框架,包括 MindSpore、TensorFlow、Kubeflow、MPI、PyTorch、飞桨、Spark、Flink、HOROVOD 等。

Volcano 支持的部分计算框架

Volcano 整体架构

Volcano 利用声明式的 CRD 定义 API,主要有3 个核心的 API:Volcano Job、PodGroup、Queue。

Volcano Job 是对高性能作业通用定义,PodGroup 提供了 Job 中 Task 的管理能力,Queue为作业排队、公平调度提供了基础。

Volcano 的架构

Volcano 核心组件主要包含三个:Admission、ControllerManager、Scheduler 。

Admission 对 Volcano CRD API 提供校验能力;

ControllerManager 负责对 Volcano CRD 进行资源管理;

Scheduler 对作业供丰富的调度能力。

Volcano社区概况

Volcano 起源于 kube-batch 项目,这个项目最初的目的是解决 Kubernetes 中的分组调度问题。随着 AI 和大数据服务开始要求 Kubernetes 提供更强大、更灵活的调度,kube-batch 与各种场景特定的实践相结合,提供了更丰富的调度能力,同时增加了作业管理、数据管理、运行时管理、异构硬件管理等,形成了一个统一的批处理系统,并被重新命名为Volcano。2020 年4 月,Volcano 项目由华为云正式贡献给 CNCF,成为 CNCF 迎来的首个容器批量计算项目。

在开源开放、厂商中立的社区治理下,目前 Volcano 在代码托管平台上已获得了2k+ star,430+ fork,有290+ 来自国内外的开发者参与代码贡献。Volcano 社区拥有 9 位 Maintainer,12 位 Reviewer,有超过 50 家业与科研机构参与项目合作,合作伙伴包括华为、腾讯、百度、爱奇艺、滴滴出行、京东、建信金融科技等。在未来,Volcano 将在企业数字化、云原生转型过程中发挥越来越重要的作用。

若想了解更多 Volcano 项目的技术原理与实践干货,敬请关注12 月9 日 -10 日举办的 KubeCon + CloudNativeCon + Open Source Summit China2021。届时将有来自华为云的资深云原生技术专家,为广大开发者带来精彩的 Volcano 技术分享:

议题:基于Volcano的离在线业务混部技术探索

演讲嘉宾:

王雷博/华为云批量计算服务架构师

吴雷/华为云原生开源团队核心成员&Volcano社区Maintainer

议题简介:为了保证服务SLA,集群需要大量冗余资源,这将导致集群资源利用率低下,资源浪费严重。为了提高资源利用率,Volcano将在线服务和离线批处理作业混合在同一集群上。kubelet使调度器感知到已分配资源和实际已有资源量的差距。Volcano还提供了资源超卖能力,可将已分配给低优先级作业的空闲资源加以复用。在操作系统维度,Volcano还通过cgroup提供任务隔离,以确保关键的在线服务QoS。

KubeCon + CloudNativeCon + Open Source Summit China2021 由云原生计算基金会 CNCF 主办。作为云原生领域的顶级技术盛会,历年的 KubeCon + CloudNativeCon + Open Source Summit China 都汇聚了国内外最活跃的开源云原生社区、最先进的技术代表与行业的最佳落地实践,推动云原生计算领域的知识更新和技术进步。本届大会的议程安排已全面上线,更多详情请查看大会官网。

相关话题

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,文章为企业广告宣传内容,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

推荐关键词

24小时热搜

查看更多内容

大家正在看