站长之家(ChinaZ.com)7月24日 消息:传统的深度学习模型在处理不同数据形式时存在巨大的模态差异,需要进行大量的工作来构建一个能够处理各种输入形式的统一网络。不同数据模态之间存在显著差异,通常使用不同的网络拓扑来独立编码每种数据模态。然而,这需要耗费时间和精力。
为了解决这个问题,中国香港中文大学和上海 AI 实验室的研究人员提出了一种全新的多模态学习框架,称为 Meta-Transformer。Meta-Transformer 使用相同的参数集同时对十二种不同的模态进行编码,实现了更加集成的多模态学习方法。
Meta-Transformer 的框架包括三个组件:数据到序列标记的模态专家、跨模态提取表示的模态共享编码器,以及用于下游任务的任务特定头部。通过这种简单而有效的方法,Meta-Transformer 可以高效地训练任务特定和模态通用的表示。
研究人员在多个标准数据集上进行了大量的研究,结果表明 Meta-Transformer 在处理多模态数据方面表现出色,仅使用来自 LAION-2B 数据集的图片进行预训练就能在各种多模态学习任务中超越现有技术。
总之,Meta-Transformer 是一个独特的多模态学习框架,通过使用相同的参数集同时提取多个模态的表示,开辟了统一多模态学习的新方向。这一研究为统一各种模态的框架的发展提供了新的可能性。