5月20日,阿里云正式发布AI原生全域智能运维平台STAROps。该平台以大模型与智能体技术为核心引擎,以阿里云可观测产品体系为数据底座,将跨域可观测数据与大语言模型推理能力深度融合,用户只需以自然语言定义运维目标,运维智能体即可自主完成动态规划、安全执行与结果验证的全闭环。

STAROps围绕Sense全域感知、Target目标导向、Autonomy自主运维、Resilience业务韧性四大能力维度设计,提供三大核心功能:智能助手将自然语言直接转化为跨域观测数据的统一查询与诊断结果,告警分析、指标解读、日志诊断在一个对话窗口内完成,无需多平台切换;长期任务机制让Agent接管巡检、告警分析、周期报告等高频重复工作,一次目标对齐即可自主执行跨天乃至跨月级异步运维计划;数字员工让企业为每个团队构建专属SRE智能体,自定义职责、权限与工具集,将专家经验一次性固化为角色规则。
在技术架构层面,STAROps的竞争力体现在三个维度,通过全域感知、有据推理、开放标准, 让 Agentic Ops 落地生产级运维环境。其一,全域数据统一建模,通过自研UModel将日志、指标、链路、事件、拓扑等数据统一建模,构建客户系统专属运维图谱,AI分析时自动感知服务集群、依赖组件和调用关系,从业务层到基础设施层全链路追溯。其二是基于证据链的根因定位引擎RCA,基于UModel拓扑图实现结构化迭代排查,内置近百项必检维度,覆盖Trace分析、流量下跌、JVM运行时等高频场景,将根因分析从"靠经验猜"变成"按规则查、按证据判"。其三是开放标准建设,RCA-100评测基准集覆盖2000余条评测数据、700余个运维场景,为行业提供独立评估运维AI能力的公共标尺。

云计算的本质就是以高效方式将计算机资源编排为服务,STAROps所做的正是将这一原则延伸到运维领域。通过Agent对运维操作的规模化编排调度,实现人力密集型运维工作的智能化。STAROps的数字员工机制恰恰为企业提供了这种渐进式路径:既支持在现有流程中嵌入AI提效,也支持构建全新的Agent原生运维模式。
在接入形态上,STAROps提供OpenAPI与MCP集成、页面内嵌、主流 IM 接入等多种接入方案,企业可以最低迁移成本在现有工作流中释放价值。平台内置的人工审批机制确保关键决策节点仍由人工把控,在Agent自主执行效率与安全合规之间取得平衡。
伴随产品发布,阿里云同步开源UModel统一数据模型项目与RCA-100评测基准集,并联合信通院、小鹏汽车、中科院软件所等10逾家行业伙伴与学术机构共同发起《企业通用语义标准行业倡议》。

目前,STAROps已在阿里云官网正式上线。当AI重塑软件研发的每一个环节,运维作为保障业务韧性的最后防线,正迎来从工具辅助到Agent自治的范式跃迁。阿里云以STAROps为起点,将Agentic Ops从概念推向生产级落地。