马毅教授CRATE-α模型证实白盒Transformer可扩展性

站长之家（ChinaZ.com）6月6日消息:马毅教授团队最近取得了显著的研究成果，他们开发的CRATE-α模型首次证实了白盒Transformer架构的可扩展性。这一进展对于自然语言处理（NLP）、图像处理和视觉计算领域的深度表征学习具有重要意义。

尽管Transformer架构及其变体在AI领域取得了巨大成功，但它们大多基于经验设计，缺乏严格的数学解释。CRATE模型通过数学推导得到每一层，提供了更好的可解释性。不过，CRATE的应用规模之前相对有限，与Vision Transformer的参数量相比有较大差距。

为了解决这一问题，研究团队提出了CRATE-α，它对稀疏编码块进行了策略性但最小化的修改，并设计了轻量级的训练方法，有效提高了CRATE的可扩展性。实验结果显示，CRATE-α的性能随着模型尺寸和训练数据集的增大而持续提升。在ImageNet分类任务上，CRATE-α-B和CRATE-α-L的准确率显著提高，同时保持了CRATE模型的可解释性。

研究人员使用了ImageNet-21K和ImageNet-1K数据集进行训练和微调，证明了CRATE-α在不同像素块大小下的性能。此外，他们还采用了多模态数据集DataComp1B，包含14亿图文对，通过对比学习的方法训练CRATE-α，并使用优化的CLIPA协议减少计算资源消耗。

CRATE-α模型的可扩展性通过在ImageNet-1K数据集上的零样本学习评估得到了证明，这为衡量模型的泛化能力提供了重要指标。研究人员还发现了节省计算资源的扩展策略，通过调整预训练阶段的图像token序列长度，在减少计算资源消耗的同时，保持了模型性能。

CRATE-α的语义可解释性也得到了提升，使用MaskCut评估模型捕获的丰富语义信息，CRATE-α在目标检测和分割方面比现有模型有所提高。这些研究成果不仅推动了Transformer模型的发展，也为未来的研究和应用开辟了新的道路。

论文:https://arxiv.org/pdf/2405.20299

项目地址:https://rayjryang.github.io/CRATE-alpha/

三星Galaxy S25 Ultra采用行业首款抗反射玻璃陶瓷Corning® Gorilla® Armor 2

2025-01-232.2万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

马毅教授CRATE-α模型证实白盒Transformer可扩展性

推荐关键词

24小时热搜

大家正在看

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型

激进架构，400万上下文，彻底开源：MiniMax-01有点“Transformer时刻”的味道了

春节后的第一款Ultra旗舰！华硕Zenfone 12 Ultra来了

FinPros富诺携手Trading Central，开启金融服务创新发展新范式

三星Galaxy S25 Ultra采用行业首款抗反射玻璃陶瓷Corning® Gorilla® Armor 2

Intel突然上线酷睿Ultra 3 205：然后又删了

雷军晒小米SU7 Ultra冬测实拍：冰上疾驰

OPPO Find X8 Ultra涨价定局！售价将超去年X7 Ultra的5999元

新晋卡皇 ROG ASTRAL RTX5090D夜神显卡登场！

今年春晚上小米SU7 Ultra车模又被“薅”走了：只剩底座

小米15 Ultra 2月底发布：小米影像之光

卢伟冰官宣小米15 Ultra：产品细节年后公布

雷军黑河亲测小米SU7 Ultra：冰面太滑感觉自己不会漂移了

华为Pura 80 Ultra蓄势待发博主：影像之王几乎没跑

华为Pura 70 Ultra上线新年配色瑞红、玄黑：星盘格设计

小米巅峰机皇！小米15 Ultra已三证齐全：下月发布

小米15 Ultra快来了！卢伟冰换上新手机

直屏党的梦中情机！OPPO Find X8 Ultra回归直屏

小米15 Ultra 2月登场：小米最强影像旗舰

NimbleTrack | 与用户体验共鸣，引领行业迈入智能全无线扫描时代

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

马毅教授CRATE-α模型证实白盒Transformer可扩展性

推荐关键词

24小时热搜

大家正在看

突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型

激进架构，400万上下文，彻底开源：MiniMax-01有点“Transformer时刻”的味道了

春节后的第一款Ultra旗舰！华硕Zenfone 12 Ultra来了

FinPros富诺携手Trading Central，开启金融服务创新发展新范式

三星Galaxy S25 Ultra采用行业首款抗反射玻璃陶瓷Corning® Gorilla® Armor 2

Intel突然上线酷睿Ultra 3 205：然后又删了

雷军晒小米SU7 Ultra冬测实拍：冰上疾驰

OPPO Find X8 Ultra涨价定局！售价将超去年X7 Ultra的5999元

新晋卡皇 ROG ASTRAL RTX5090D夜神显卡登场！

今年春晚上小米SU7 Ultra车模又被“薅”走了：只剩底座

小米15 Ultra 2月底发布：小米影像之光

卢伟冰官宣小米15 Ultra：产品细节年后公布

雷军黑河亲测小米SU7 Ultra：冰面太滑 感觉自己不会漂移了

华为Pura 80 Ultra蓄势待发 博主：影像之王几乎没跑

华为Pura 70 Ultra上线新年配色瑞红、玄黑：星盘格设计

小米巅峰机皇！小米15 Ultra已三证齐全：下月发布

小米15 Ultra快来了！卢伟冰换上新手机

直屏党的梦中情机！OPPO Find X8 Ultra回归直屏

小米15 Ultra 2月登场：小米最强影像旗舰

NimbleTrack | 与用户体验共鸣，引领行业迈入智能全无线扫描时代

雷军黑河亲测小米SU7 Ultra：冰面太滑感觉自己不会漂移了

华为Pura 80 Ultra蓄势待发博主：影像之王几乎没跑