企业数字化运营需求催生了海量的数据任务,以阿里巴巴为例,这十年间随着集团业务复杂度和数据体量的不断攀升,任务量呈现出阶梯式增长,每日任务调度量突破了 2000 万。由此可见,在大数据时代,一款能够保障万级实例平稳有效调度的数据建设工具,必将成为数字化企业不可或缺的中坚力量。
一、支持超大规模系统吞吐量和超复杂依赖关系
瓴羊Dataphin于近期发布V3. 11 版本,不仅上线了数据分析平台、隐私计算平台两大能力模块,同时重新设计了任务执行框架,使用k8s替换原有的Mesos作为资源调度底座,拥有全局资源视角,可充分利用机器资源,极大提高集群任务执行吞吐率,加快客户数据产出。另外,任务调度资源池和在线服务共享k8s基础设施,去除对Mesos和Zookeeper的依赖,降低Dataphin的部署、运维成本。
升级后的Dataphin V3. 11 版本,可以在 24 小时内完成 3800 万的实例调度,较之前的V3. 9 版本,取得了显著的优化成果,整体提升25. 4 倍,可支持超复杂依赖关系,比如在宽度 100 万,深度20,以及宽度20,深度一百万的 2 类调度测试场景中,全链路调度耗时有明显减少,即席查询性能提升也十分明显。
二、引入混沌工程,运行万级任务不重复不漏跑
分布式架构下各组件之间相互调用和相互依赖,系统在失真环境下异常事件发生的概率大幅攀升,通过常规的测试手段很难发现这些问题,处理不好就会导致业务受损。
通过引入混沌工程,围绕Dataphin分布式调度系统生产环境的任务运行稳态,使用技术手段模拟多样化的真实异常注入(宕机重启、DB异常、高负载、网络延迟、时钟不同步等),找出系统薄弱点,针对性的对系统进行加固防范,验证调度系统在各种异常场景,外围依赖服务不可用情况下,Dataphin核心功能如周期任务转实例、任务起调、任务下发、任务执行、消息消费仍然可以保持稳定的运行状态。
如果有一家日调度 3 万的企业,为了新增业务想要追补近 3 年数据,之前需要额外的22. 8 个工作日,而拥有了Dataphin V3. 11 版本,哪怕数据任务超过限额,只需对调度系统进行扩容,即可承载万级别的调度任务规模,帮助企业在 24 小时内完成近 3 年数据追补。
三、Dataphin,阿里巴巴理想实践输出
未来3- 5 年内,在数字化道路上快速挺进的企业,都将面临任务量飞速增长的局面,届时将对企业的数据处理能力提出更高的要求。
Dataphin(智能数据建设与治理)是瓴羊开发云核心产品之一,源自阿里巴巴内部大数据建设理想实践的商业化输出。从 2017 到2023,历经 6 年时间服务了千行百业的客户。
我们深知,企业需要一套完善的数据技术与工具,实现数据采集、存储、计算、建设和管理,利用数据思维对当下的业务运营与管理场景问题精细洞察,学会利用数据资产改善能效,以此循环往复,推动数据资产的持续沉淀,助力企业打造标准统一、准确可信、便捷可消费的数据体系。
面对不确定的未来,Dataphin团队确信只有通过不断夯实数据建设基础能力,才能在应对错综复杂的数字化业务时更加游刃有余。我们期望与企业们一起乘风破浪,仰望星空、脚踏实地,持续在数字化转型的实践道路上并肩前行。