「群体智能」剑指AGI革命！国产架构挑战Transformer霸权，非Attention模型更新

通往AGI先进之路，是什么?

这世界，没有一个完整的定义，也没有具体的答案。

此前曝出的OpenAI秘密路线图，将通往AGI目标划分五级。

而「草莓」o1 模型出世，代表着第二级已经实现。

李飞飞估值 10 亿美金独角兽World Labs，将「空间智能」看作通向AGI重要的桥梁。

他们计划打造出「大世界模型」(LWM)，通过对世界建模，让AI在3D世界中去感知、去生成、去互动。

国内一家AI初创团队，对此也有不同的看法。

他们认为，「群体智能」是迈向更广泛的通用人工智能的路线。未来，世界每个设备都拥有自己的智能，能够以类人的方式交互。

不过，实现这一想法的前提是，我们需要一个创新的算法架构。

值得一提的是，这个团队却做了一件「反直觉」的事——首创非Transformer独特路线。

基于全新架构，他们打造的Yan系列模型已经植入到树莓派、机器人、AIPC等终端设备中。

恰在RockAI开放日上，多模态模型Yan1. 3 全面升级，直接击败开源Llama 3，「真端侧」比较强大脑诞生了!

模型端到端，秒级实时人机交互

全新迭代后的Yan1.3，支持从文本、音频、视觉输入，并以语音、文本方式输出。

它模拟了人类复杂的感知系统，既能听懂自然语言、看懂视觉信息，也能通过语音方式表达。

可以说，它是全球头个人机交互领域中，端到端的多模态大模型。

凭借出色的架构设计，Yan1. 3 模型在兼容性和性能，取得了特出的表现，从低算力到高算力全面覆盖。

在不同终端上的体验，多模态Yan1. 3 更是实现了秒级实时响应。

在CPU上秒级响应，GPU上更是有百毫秒级的人机交互，体验非常丝滑赶超云端的大模型。

不如一起来看看，Yan1. 3 在手机、PC、机器人、无人机上，如何无损部署的。

低配 1500 元可跑，真·AI手机来了

在人手一台手机的时代，搭载一个本地的大模型，那才是真·AI手机。

现场演示中，离线部署Yan1.3 3B参数的手机，直接断网，上演了不用联网也能体验LLM的精彩一幕。

告诉语音助手RockAI自己的需求——介绍一下上海。它在遵循指令后，瞬间给出了关于上海的一些简单概要。

它还可以跨应用，完成系统的调用。

让它打开相册，并找出一张夕阳的照片。

RockAI不仅准确找到了夕阳照片，还给出了小红书的风格描述，这种费脑的事儿，它全部代劳了。

更惊艳的是，告诉它今天是小明生日，并帮自己为其送上祝福。

RockAI直接进入短信界面，自动生成编辑了一段内容，你所做的就是点击「发送」了。

可见，一个 30 亿参数离线模型，同时具备了以文找图、以图生文，Agent、语音助手等能力，强大到足以让人震撼。

在同等的手机硬件配置上，Yan1. 3 模型相比Transfomer有30%的性能超越。

或许有的人会问，能够运行这样的模型，一定需要高配的手机。

RockAI联创邹佳思称，从低端￥ 1500 到中端￥ 3000 配置，而且还只是8G运行内存，都可以无损适配。

懂人话有效助手，AI PC更便利

不仅如此，在个人PC上，业界早就掀起了AI PC的概念。

但若是没有在设备端完全部署模型，AI能力的使用会严重受限。而且，AI PC根本无法普及到大多数用户。

接下来，这段现场演示中，直接为AI PC掐断了网线。

上传一段主持人的天气预报音频，然后AI智能助手将其实时转录成了文字。

转写完成后，还能帮你立即总结出一份摘要。

另外，每个人办公时均会遇到一个困扰，「xxx图片」谁知道保存到了哪个文件夹。

现在，这个烦恼完全可以打消了。

只要一句话，AI智能助手就能直接帮你找到想要的那个图片。

而且，它还可以支持以图搜图的方式。

这些功能的实现，仅需要一台配备英特尔Core i5 主机即可流畅运行。

四步成诗，轻松拿捏新中式

Yan1. 3 还在人形机器人上，实现了离线运行。

我们都知道，构成机器人最核心的三要素，便是大脑、小脑、本体。

如果让一个冰冷的机械，同时具备「看听说想动」的能力，并基于已有的知识完成决策，最后指挥肢体进行行动。

这样的前提，一定是离不开大模型、分层控制算法的植入。

当你呼叫小苏小苏，你看见了什么?

凭借强大的多模态认知能力，它准确地描述出了当前周围的环境和布局。

另外，Yan1.3「大脑」控制的躯体，还能完成各类有效复杂的任务。

现场，让小苏吟诗一首——关于冬天的七言绝句，并在 4 步之内完成。

只见小苏一边走，一边完成了绝美的创作。

寒风凌冽雪纷飞，万物萧疏鸟自栖。唯有梅花凌雪放，清香四溢满庭芳。

有趣的是，当小苏吟诗后离拍摄者太近，让它让一让。

只见，憨态可掬的它向另一边慢慢踱步。

其实，在今年世界人工智能大会上，搭载Yan模型，基于树莓派打造的胖虎机器人就亮相了。

它在现场七步成诗、咏春拳法等各种精彩演示，吸引了一大波围观歪果仁观看。

城市巡检拍照，无人机全包了

而在无人机方面，搭载Yan1. 3 后的用法就更多了。

它不仅可以治安巡逻、交通巡检，异常监控，还可以当那个为你抓拍美照的「男友」。

当然了，智能巡检这类任务，对于一个城市管理来说非常重要。

植入离线模型的无人机，可以从多方位感知环境，快速识别图像信息，自适应调整飞行高度。

它可以搭配手机，完成「端」和「端」的互联操作。

交通巡检过程中，它可以智能识别违规车辆，并将信息传送到手机上。

当你自拍找不到满意角度，直呼「飞龙，给我拍一张氛围感满满的照片」。它一跃升天，拍下了多种角度的照片，通过对照片的多维度评分，还贴心地帮你选好了最美瞬间。

可见，全新升级的Yan1. 3 已经赋予了每个端侧设备「灵魂」。

它不仅在无人机、机器人、PC、手机等终端设备中，丝滑适配，而且模型智能能力迎来了全新升级。

无需阉割模型，让端侧设备具备了完整性、可持续性。

这种类人的输入输出过程，不仅大幅地提升人机交互的质量，还为未来教育、医疗等行业开辟了更广阔的应用场景。

当一个比较强端侧完成进化，那么一群比较强端侧协作，能够实现什么?

简言之，群体智能。

群体智能，怎么实现?

其实，群体智能，很早就存在于生物界。

蚁群会一起搬运食物、搭建蚁巢;蜜蜂会各司其职，协作维护蜂巢;狼群结队，捕获猎物等等。

这些都是，生物界群体智能的体现。

纵观生物界的发展，能够得出一个基本规律——个体智能化程度越高，群体智能的表现力越强。

就像人类一样，我们的群体智能，所表达出的文明程度远远高于蚁群、蜂群、狼群.......

从中汲取灵感，人工智能也会有「群体智能」。

单元大模型的智慧，能够反哺整个大模型群体，进而让AI群体更聪明、更智能。

或许你会说，其实国外很多研究，早就通过多个智能体协作，实现了高性能群体智能。

其实不然，它们之间有着本质的区别。

智能体本身，存在一个很大缺陷——不具备自主学习能力。

而且，智能体之间的协作，也是一个很小范围的协作。

究其根本，是因为基于Transformer架构大模型搭建的智能体，实现自我训练非常困难。

群体智能中最核心的要素便是个体，也就是「端」。

而基于Transformer架构的模型，若想在端上运行、并自主学习，根本不可行。

因为模型通常会被量化裁剪压缩之后，才会植入端设备。而被阉割之后的模型，就不再具备学习能力。

那该如何破解?

为了实现群体智能，RockAI经过多年的技术沉淀，创举了不同于Transformer的MCSD架构，并且提出了「类脑激活」机制。

这条路线，与OpenAI、World Labs有着本质区别，是国产公司在AGI前沿另辟蹊径的尝试。

Transformer不是仅有路径

当前的现状是，大模型领域早已呈现出Transformer「一家独大」的格局。

用AI大神Karpathy的话说:先进的GenAI模型，要么是自回归训练，要么是扩散训练，底层的神经网络通常都是Transformer架构。

虽然Transformer自身有许多优秀的特质，但不可否认，这仍不是一个百分百美好的架构。

甚至，有很多业界AI大佬已经看到了其中的巨大弊端。

首当其冲的，就是被诟病已久的幻觉问题。

Yann LeCun认为，LLM的幻觉根源于当前所使用的自回归Transformer架构。

「幻觉问题是自回归LLM架构特有的」「自回归LLM会产生幻觉…幻觉是自回归生成的本质缺陷」

这种架构上的本质缺陷，注定了有一天我们要走出Transformer生态，就像曾经 90 年代末走出SVM生态、 3 年前走出BERT生态一样。

就连提出Transformer核心架构作者之一Aidan Gomez认为，这世间需要比Transformer更好的东西，希望将其取代，把我们带向更高的性能高地。

「现在使用了太多计算资源，做了很多浪费的计算」

部署方面，基于Transformer架构模型对终端设备运行内存、储存空间提出了更高要求，同时压缩后的模型，在实际推理上大打折扣。

能源方面，今年 3 月，马斯克表示， 2025 年AI将耗尽电力和变压器，用他的话来说，「很讽刺的是，我们需要transformers(变压器)来运行transformers(模型)。」

很明显，无论是从减少幻觉、推动技术进步的角度，还是从环境保护、促进GenAI发展可持续的角度，我们都急需一种能够跳出Transformer「思维圈」的新架构诞生。

国内头个非Attention机制

RockAI初次提出的MCSD(Multi-Channel Slope and Decay)架构就是跳出Transformer路线的一次较好尝试。

而MCSD比较大的特点，便是替换了Transformer架构中的注意力机制。

随着序列长度的增加，Transformer架构对计算资源的消耗呈现O(N^2)增长，相比之下，MCSD实现了线性扩展，而且推理速度更快，将空间和时间复杂度分别降低到了O(1)和O(N)。

直白讲，MCSD全新架构能够将算力消耗降至更低。

也就意味着，基于此架构打造的模型，在端侧设备上运行有了新的可能。

论文地址:https://arxiv.org/abs/2406.12230

MCSD的具体架构如图 1 所示，由嵌入层和N个相同的组合层堆叠而成，每个组合层中由两个残差连接分别封装MCSD块和门控MLP块，两者都前置一个RMS归一化模块，并使用GeLU作为激活函数。

MCSD块的内部结构如图1(右)所示，集成了slope部分和decay部分，分别通过不同的预定义矩阵捕捉局部和全局特征。

两个部分均采用了双分支设计，一个分支负责进行线性投影，另一个通过聚合前面token的上下文信息来提取多通道历史特征，之后两个分支进行扰动(perturbation)操作。

slope和decay部分主要存在两方面的区别，一是预定义权重不同，因此在提取历史信息时对上下文的感知能力不同，前者更注重短程上下文，后者则更关注全局上下文。

将slope和decay两部分的输出进行拼接后就得到了MCSD块的输出，这两者的组合使得模型既能关注到距离更近的历史信息，也不会丢失更远的长距离上下文，从而同时增强了局部和全局的特征提取。

此外，论文还提出通过递归形式简化推理计算，将推理所用的空间和时间复杂度分别降低至O(1)和O(N)，显著压缩了所需算力。

实验数据显示，随着序列逐步变长，KV缓存的存在让Transformer推理的内存成本呈线性增加;相比之下，即使是8k的长序列，MCSD消耗的GPU内存也几乎不变。

给定序列长度后，随着批大小的增加，Transformer的延迟也会显著增加，而MCSD的延迟则依旧十分稳定。

此外，有相同批大小或序列长度时，MCSD的吞吐量性能也远远好于Transformer架构。

除了大大节约吞吐量、延迟、内存消耗等方面的成本，MCSD还在基准测试上有更佳的性能。

类脑激活机制

基于MCSD架构，RockAI实现了能在「端侧」运行群体智能单元大模型。

但这并不代表着，能够在更多端侧上实现特出性能。

因此，RockAI还在Yan系列模型中采用了创举的「类脑激活」机制，实现基于仿生神经元驱动的选择算法。

在主流的神经网络中，每次推理都需要激活全部神经元，这会导致大量算力浪费。

而人脑的运作并非如此。

不同的大脑区域负责不同的认知功能，因此不同的执行不同的任务只会造成一部分脑神经元的激活，而且激活的区域也各有不同。

比如开车时，视觉皮层会更加活跃;而写作时，掌管记忆或逻辑的脑区激活程度更高。这也许就是为什么，相比调动每个处理单元的计算机，大脑明显更加「节能」。

因此，模拟大脑中的神经元激活模式，可以让神经网络更加有效地处理复杂数据和任务，从而显著提升计算效率和精度。

通过以上两种方式结合，一是用MCSD替换注意力机制，而是通过选择性神经元计算，带了较好的低算力消耗。

正是基于如此强大的「双机制」，RockAI在今年 1 月发布了国内头个非Transformer架构的大模型Yan 1.0。

随之 7 月，发布了国内头个终端多模态大模型Yan 1.2。

经过几次迭代，目前已经升级为端到端的多模态Yan 1.3，代表着迈向群体智能的新起点，是群体智能的单元大模型。

厚积薄发，先进目标迈向群体智能

要实现AI的群体智能，并不是一件简单的事，提出MCSD架构和「类脑激活」机制，只是一个开始。

为了达到群体智能，RockAI将这个大目标分解为 4 个阶段的子目标，一步步稳扎稳打。

目前，他们已经跨越了首先级，正在完成第二级的跃升。

创新基础架构，是要跳出Transformer的既定路线，旨在实现模型性能效率的跨越式发展;

多元化硬件生态，则是模型部署落地的根本保证，只有适配多终端、多厂商、多型号的硬件，形成成熟的生态，才能为群体智能创造实现条件。

随着Yan 1. 3 模型的发布和广泛部署适配，意味着前两个阶段的目标已经基本实现。

从Yan 1. 0 到Yan 1.3，不仅覆盖了更多设备，还实现了端到端的多模态支持。

输入输出形式包含了文本、语音、视觉在内的多模态，不但大大方便人机交互，还能让多个AI模型之间更灵活地交流同步。

下一步，RockAI将继续发布Yan2.0，继续强化模型的自主学习、自我优化能力，让AI更好地和真实的物理世界交互。

在Yan系列智慧生态的基础上，持续的群体进化将成为可能，最终绘制出「群体智能」的未来蓝图。

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

「群体智能」剑指AGI革命！国产架构挑战Transformer霸权，非Attention模型更新

推荐关键词

24小时热搜

大家正在看

RockAI出席酷+科技峰会，揭示大模型群体智能新趋势

AGI、GAI、LLM怎么翻译：一大波人工智能外语词“中文名”出炉！

出门问问「序列猴子」语音大模型通过生成式人工智能服务备案

刚刚，OpenAI公开o1模型测试方法，人机协作时代！

松鼠Ai：人工智能教育的革新者与领航者

成本暴降60% OpenAI宣布开放满血o1模型API

2024人工智能年度评选揭晓，金山办公斩获2024人工智能年度领航企业称号

蜜雪冰城进军人工智能！首次成立AI技术公司

重磅！OpenAI开放满血o1模型API，成本暴降60%

OpenAI 正在资助一项「人工智能道德」的学术研究

360安全大模型在世界互联网大会获选人工智能创新应用典型案例

有为与可为：探索人工智能时代媒体创新路径

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

诺奖青睐AI的这一年，这些人工智能公司&人物&产品值得关注

视源股份段宇：人工智能不仅是技术的革新，更是企业构建新蓝图的最强动能

人工智能领域薪资再创新高，职坐标在线课程助力技能提升

思必驰亮相2024全球人工智能产品应用博览会

新质竞技，全球揭榜|第五届全国人工智能大赛正式启动

教育部办公厅：2030年前在中小学基本普及人工智能教育

大数据与人工智能学院成功举办“数智驱动媒介转型” ——学科建设与专业发展创新论坛

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

「群体智能」剑指AGI革命！国产架构挑战Transformer霸权，非Attention模型更新

推荐关键词

24小时热搜

大家正在看

RockAI出席酷+科技峰会，揭示大模型群体智能新趋势

AGI、GAI、LLM怎么翻译：一大波人工智能外语词“中文名”出炉！

出门问问「序列猴子」语音大模型通过生成式人工智能服务备案

刚刚，OpenAI公开o1模型测试方法，人机协作时代！

松鼠Ai：人工智能教育的革新者与领航者

成本暴降60% OpenAI宣布开放满血o1模型API

2024人工智能年度评选揭晓，金山办公斩获2024人工智能年度领航企业称号

蜜雪冰城进军人工智能！首次成立AI技术公司

重磅！OpenAI开放满血o1模型API，成本暴降60%

OpenAI 正在资助一项「人工智能道德」的学术研究

360安全大模型在世界互联网大会获选人工智能创新应用典型案例

有为与可为：探索人工智能时代媒体创新路径

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

诺奖青睐AI的这一年，这些人工智能公司&人物&产品值得关注

视源股份段宇：人工智能不仅是技术的革新，更是企业构建新蓝图的最强动能

人工智能领域薪资再创新高，职坐标在线课程助力技能提升

思必驰亮相2024全球人工智能产品应用博览会

新质竞技，全球揭榜|第五届全国人工智能大赛正式启动

教育部办公厅：2030年前在中小学基本普及人工智能教育

大数据与人工智能学院成功举办“数智驱动 媒介转型” ——学科建设与专业发展创新论坛

大数据与人工智能学院成功举办“数智驱动媒介转型” ——学科建设与专业发展创新论坛