近年来,随着人工智能技术的持续演进,具身智能产业正迎来前所未有的发展机遇。这一融合了人工智能与机器人技术的前沿领域,正在从"实验室"加速向应用场景迈进,展现出巨大的产业潜力和市场空间。就在11月20日,智源研究院、智元机器人、Qwen、星海图、自变量、清华大学、西安交通大学,GOSIM 国际国内合作伙伴进一步携手,共同推动生态建设,并正式成立 RoboChallenge 组委会,旨在推动具身智能技术的标准化评测与生态建设。
2025年深圳国际人工智能展览会上,一台名为“量子1号”的机器人正有条不紊地制作香囊。从精准取料、穿针引线到细致缝合,一系列复杂动作行云流水,引得现场观众阵阵惊叹。而在这台机器人背后,是一家成立不到二年便融资超20亿的初创公司——自变量机器人,它承载着一位清华学霸的机器人梦想,正以惊人的速度在具身智能赛道上狂奔。
信仰:清华学霸的机器人执着
自变量机器人的创始人兼CEO王潜,身上散发着典型清华学子的独特气质——理性、执着且富有远见。他在清华大学完成本硕学业,是全球最早在神经网络中引入注意力机制的学者之一,其研究成果与Google在该领域的首篇文章发表于同一会议,为现代大模型的技术基础贡献了关键力量。
在美国南加州大学攻读博士期间,王潜毅然投身热爱的机器人领域,在美国顶级机器人实验室参与了多项机器人学习和人机交互的研究。这段经历让他深刻认识到传统机器人技术的局限,也更加坚定了他在机器人领域深耕的决心。
博士毕业后,王潜虽在美国创立了量化基金公司,但对机器人的热爱与执着始终如影随形,让他“晚上经常睡不着想做机器人”。2023年,随着大语言模型等相关领域取得突破性进展,王潜敏锐地捕捉到机器人行业的新契机,毅然解散基金,回国创业。
王潜回国创业并非一时头脑发热。在他看来,中国在硬件制造和供应链方面具有全球领先的优势。“美国硬件人才大都被‘金手铐’拷进了大公司”,而“中国的供应链优势可能领先了美国一个数量级”。他特别指出,数据收集工作的成本在中国基本上是美国的1/10。2023年12月18日,王潜第一次踏上深圳的土地,自变量机器人正式成立。深圳完善的产业链生态让他印象深刻,实验室里众多机器人硬件及零配件都产自深圳,“在深圳,两天甚至半天就能配齐所有零部件”,这为公司的快速发展提供了有力保障。
坚守:独辟蹊径的技术路径
自变量机器人从成立之初就坚定地选择了一条与众不同的技术路径——“大小脑统一的端到端大模型”路线。这一选择在当时饱受质疑,甚至遭到业内专家的否定。几年前,当王潜提出端到端思路时,一位有名的机器人教授曾当面泼冷水:“端到端很有意思,但可能永远只是个玩具,不会落地。”
端到端模型与传统分层架构截然不同。传统分层架构将任务分解为感知、规划、控制等多个模块,每个模块有独立模型;而端到端模型则试图在统一架构中解决从感知、规划到控制的全流程问题。王潜解释道:“分层模型每多一步拆解,就会引入额外误差和不可控的噪声,难以实现真正可靠地执行;而端到端统一模型,能够在‘感知—决策—执行’的全流程中保持连续性,从根本上解决这一问题。”
自变量机器人的技术理念可概括为“纵向统一”和“横向统一”。纵向统一指从视频、传感器等原始输入到机器人运动输出,全部由同一模型处理;横向统一则是不同任务共用同一个模型,训练和推理都在同一架构下完成。这一技术路线的优势在WALL-A模型上得到了充分体现。该模型使机器人仅用二指夹爪就能完成拉拉链、叠衣服、浇花等复杂操作,数分钟级别的任务成功率达到了95%以上。
进化:技术突破与产品迭代
自变量机器人的产品演化路径清晰地印证了其技术路线的正确性。成立仅两个月,公司就成功训练出第一版具身智能操作模型,能够实现切菜、倒水等复杂操作任务。2024年底,公司发布了全球目前最大参数规模的具身智能通用操作大模型——Great Wall系列(GW)的WALL-A模型。
WALL-A模型展现出三大技术突破:首先,实现了多模态信息融合,可以整合不同类型的感知数据、自然语言指令与运动控制信号,实现输入到输出的端到端映射;其次,具备零样本泛化能力,即在部分未见过的新任务场景中无需重新训练就能适应,这是实现通用机器人的关键标志之一;第三,在动态环境感知、实时任务规划和超长程任务方面取得显著进展,例如机器人可以处理拉上散开衣服的拉链或扣扣子、然后挂起来这样的复杂长序列任务。
光速光合合伙人朱嘉在参观自变量机器人DEMO时,特意做了突击测试:他在公司附近的超市买了十几个样式各异的玻璃瓶、马克杯甚至烧水壶,现场测试机器人的抓取能力。“有些形状的杯子它从来没见过,虽然抓得很踉跄,但最终还是成功了。”
选择:高质量数据与泛化能力追求
在数据策略上,自变量机器人坚定不移地坚持“高质量真机数据”的路线,这与许多依赖仿真数据或互联网视频数据的同行形成鲜明对比。王潜明确表示:“所有涉及到复杂物理交互(如接触丰富的手部操作)不应完全使用仿真数据。我们在这个方面探索了十几年,基本结论是,手部复杂操作无法通过仿真数据来进化。”
自变量的数据收集主要来自三个渠道:集中式数据采集场地、分布式现实环境收集,以及机器人部署后的回流数据。这种多渠道、高质量的数据收集策略,为模型训练提供了坚实保障。
王潜将泛化能力划分为四个层次:基础条件的泛化(适应光照、物体位置等变化)、跨环境的泛化(从一个场景扩展到不同场景)、对象层面的泛化(对同类但未见过的全新物体依然能完成任务),以及任务的泛化(对完全未学习过的任务具备探索和解决的能力)。他透露,目前自变量的模型在前三个层面都体现出了很好的通用性、泛化性能力。
野心:资本青睐与行业格局
自变量机器人在资本市场备受瞩目。自成立起不到一年半时间内,公司已完成8轮融资,累计融资金额超过20亿元。2025年9月,公司宣布完成近10亿元A+轮融资,阿里云、国科投资领投,国开金融、红杉中国、渶策资本跟投,老股东美团、联想之星、君联资本追投。这是阿里云首次投资具身智能公司,也是美团第二次参与自变量机器人的融资。
三大电商巨头在具身智能领域的布局逻辑存在明显差异:阿里投资的具身智能公司数量最多,已投了10家,其逻辑并不仅限于业务场景,而是更希望通过云计算和大模型扩展人工智能的应用边界,构建具身智能技术生态;美团虽然投资数量不及阿里,但对机器人的布局更早、更广,从未来机器人、非夕、普渡科技等物流、协作、室内配送方向的机器人本体企业,到智谱AI、光年之外、月之暗面等大模型和AI芯片公司,美团几乎在机器人相关的上下游都有布局;京东今年才开始投资具身智能,但节奏很快,4个月内就投了6家具身公司,与阿里类似,京东也希望打造具身智能技术生态,但更强调场景导向,重点聚焦零售、物流、家庭三大垂直应用。
路径:清晰的商业化蓝图
面对商业化这一具身智能领域最受质疑的问题,王潜有着清晰且务实的规划。他认为,“家庭是机器人最大市场,预计3-4年会出现早期产品”。经济学测算显示,人类家务劳动未计入GDP,但占比高达四分之一,因此家庭机器人市场潜力巨大,甚至可能比工业场景,以及所有其他场景都要更大。
自变量的商业化路径是从To B场景切入,逐步延展至To C。王潜指出,公司今年将在多个功能性场景中做商业化落地,让机器人在开放性、随机性场景里自主完成各种复杂的操作。对于目前行业中部分企业将人形机器人送入工厂从事简单重复性工作的做法,王潜直言“那其实就是一个PR(公关)行为”。在他看来,要实现真正有价值的商业化,必须要依靠具身智能模型在开放场景的泛化能力提升。
在价格方面,王潜预测,消费者能接受、产业链能够提供的一个价格可能在1-2万美元之间,也就是10万元上下。但他坦言,现在行业还是做不到这一点,这需要产业链成本进一步优化。王潜预计,类GPT-3水平的具身智能大模型有望在一年左右出现。而人形机器人的“ChatGPT时刻”则需要3-5年时间周期,才会达到类似ChatGPT的水平。
未来:挑战与机遇并存
尽管自变量机器人取得了显著进展,但王潜清醒地认识到,通往通用机器人的道路上仍充满挑战。他认为,现阶段限制机器人产业化应用的主要因素是机器人的“大脑”,而非硬件。“大家在展馆中看到了大量运动能力做得很不错的机器人,但与此同时,他们能够提供的‘实用价值’有限,更多提供的还是‘形式价值’。”
面对这些挑战,自变量机器人正在积极构建具身智能生态系统。2025年9月,公司在合肥发布了《具身智能生态建设计划》,通过引入自研具身基础模型,打造全球具身智能创新与产业的核心枢纽。此前,公司还开源了自研端到端具身智能基础模型WALL-OSS,这是唯一一个面向物理世界交互、具备真正落地能力的开源端到端具身智能基础模型。
对于长远发展,王潜认为机器人应该是软硬一体的商业模式。“机器人相对特殊,无法形成像Windows或Android这样的商业模式,机器人需软硬件高度耦合,软硬一体是最合理的商业模式。”
2025年世界机器人大会上,搭载自变量WALL-A模型的“量子1号”机器人自如地完成制作香囊、整理客厅等复杂任务,引来众多围观。王潜站在展台旁冷静观察,脸上没有太多表情。于他而言,展台上的喝彩只是过程,真正的征程远未结束。那个让通用机器人走进千家万户的梦想,正在以“深圳速度”一步步变为现实,而自变量机器人也将在这条充满挑战与机遇的道路上继续砥砺前行,书写属于自己的辉煌篇章。
ChatGPT源码推荐:小狐狸ChatGPT付费创作系统完全开源源码