比Transformer更好的模型架构？Monarch Mixer更低成本取得更优表现

要点:
1. Monarch Mixer （M2）是一种新的模型架构，与传统的Transformer不同，它通过使用Monarch矩阵替代注意力和MLP，使之在语言和图像实验中以更低的成本取得了更优的表现。
2. Monarch Mixer 的关键创新点在于其次二次的复杂度，使其能够处理更长的序列和更高维度的表征，同时保持计算效率。
3. 实验证明，M2在各种任务上，包括语言建模和图像分类，能够与传统Transformer媲美，同时具有更高的硬件效率和更少的参数。

站长之家（ChinaZ.com）10月30日消息:近年来，Transformer模型在自然语言处理和计算机视觉领域取得了巨大成功，但它的高成本、复杂性以及依赖于注意力机制和多层感知机（MLP）等组件使得人们开始寻求替代方案。论文介绍了一种名为Monarch Mixer(M2)的全新模型架构，这个架构在序列长度和模型维度上都表现出次二次复杂度的特点，同时在现代硬件加速器上具有出色的性能。

论文地址:https://arxiv.org/abs/2310.12109

代码地址:https://github.com/HazyResearch/m2

Monarch Mixer（M2）的主要创新点在于它采用了Monarch矩阵，将传统Transformer中的注意力机制和MLP替代为更高性能的结构。Monarch矩阵是一种次二次结构化矩阵，能够支持更长的序列和更高维度的表示，同时保持计算效率。这个矩阵可以通过分块对角矩阵的积进行参数化，其计算复杂度与输入长度呈次二次增长关系，这使得M2能够在处理大规模数据时具有出色的性能。

实验结果表明，M2在多个任务上都能够媲美传统Transformer模型，包括非因果语言建模、图像分类和因果语言建模。与传统Transformer相比，M2不仅能够节省大量参数，还具有更高的硬件效率，这使得它成为一个有潜力的替代选择。

斯坦福大学和纽约州立大学布法罗分校的研究团队的工作为机器学习领域带来了新的思路，挑战了传统Transformer模型的优越性。他们的研究不仅探索了Monarch Mixer的理论基础，还进行了一系列实验来验证其性能。这篇文章的发表为机器学习社区提供了一个全新的研究方向，也让人们重新思考了在自然语言处理和计算机视觉任务中的模型选择。

总的来说，Monarch Mixer（M2）是一种具有次二次复杂度的新型模型架构，能够在不使用传统Transformer中的注意力和MLP的情况下，在自然语言处理和计算机视觉任务中表现出色。它的硬件效率和参数效率使其成为一个有望取代传统Transformer的新选择，为深度学习研究领域带来了新的思考。

RockAI国内首个「非Transformer架构大模型」Yan通过网信办备案

2024-12-045769阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

比Transformer更好的模型架构？Monarch Mixer更低成本取得更优表现

推荐关键词

24小时热搜

大家正在看

RockAI国内首个「非Transformer架构大模型」Yan通过网信办备案

系列首款！华为nova 12 Ultra开启HarmonyOS NEXT公测

我，做China Travel，月入15万

王化：小米15 Ultra没延期按既定时间推进

雷军：小米 SU7 Ultra 量产版汽车明年 3 月发布

代号珠峰！OPPO Find X8 Ultra入网

曝小米15 Ultra 2月底登场：小米影像之王

代号珠峰！OPPO Find X8 Ultra影像尘埃落定

顶级徕卡机皇！小米15 Ultra现身：春节后发布

行业最窄四等边旗舰！三星S5 Ultra曝光

小米15 Ultra电池容量增大：无短板的小米机皇

雷军：小米SU7 Ultra量产版明年3月上市

小米15 Ultra将于下月发布已获得国内3C认证

小米最强旗舰！魏思琪确认小米15 Ultra 2月登场

最强徕卡移动影像！小米15 Ultra持续打磨中：1月不发布

小米巅峰机皇！小米15 Ultra将首次用上北斗卫星通信

灭霸级影像！vivo X200 Ultra曝光：视频录制能力比肩苹果

三星万元机皇！Galaxy S25 Ultra影像尘埃落定

OPPO Find X8 Ultra代号珠峰：手机影像最高峰

智谱清言酷睿Ultra专享版发布：无需联网但必须24+GB内存

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

比Transformer更好的模型架构？Monarch Mixer更低成本取得更优表现

推荐关键词

24小时热搜

大家正在看

RockAI国内首个「非Transformer架构大模型」Yan通过网信办备案

系列首款！华为nova 12 Ultra开启HarmonyOS NEXT公测

我，做China Travel，月入15万

王化：小米15 Ultra没延期 按既定时间推进

雷军：小米 SU7 Ultra 量产版汽车明年 3 月发布

代号珠峰！OPPO Find X8 Ultra入网

曝小米15 Ultra 2月底登场：小米影像之王

代号珠峰！OPPO Find X8 Ultra影像尘埃落定

顶级徕卡机皇！小米15 Ultra现身：春节后发布

行业最窄四等边旗舰！三星S5 Ultra曝光

小米15 Ultra电池容量增大：无短板的小米机皇

雷军：小米SU7 Ultra量产版明年3月上市

小米15 Ultra将于下月发布 已获得国内3C认证

小米最强旗舰！魏思琪确认小米15 Ultra 2月登场

最强徕卡移动影像！小米15 Ultra持续打磨中：1月不发布

小米巅峰机皇！小米15 Ultra将首次用上北斗卫星通信

灭霸级影像！vivo X200 Ultra曝光：视频录制能力比肩苹果

三星万元机皇！Galaxy S25 Ultra影像尘埃落定

OPPO Find X8 Ultra代号珠峰：手机影像最高峰

智谱清言酷睿Ultra专享版发布：无需联网 但必须24+GB内存

王化：小米15 Ultra没延期按既定时间推进

小米15 Ultra将于下月发布已获得国内3C认证

智谱清言酷睿Ultra专享版发布：无需联网但必须24+GB内存