站长之家 - 业界 2024-07-18 14:16

只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

只需激活60%的参数,就能实现与全激活稠密模型相当的性能。微软亚洲研究院的一项新研究,实现了模型的完全稀疏激活,让推理成本大幅下降。而且适用范围广泛,无论是从头训练、继续训练还是微调,都能提供有效支持。该方法名为Q-Sparse,在神经元级别上实现了模型稀疏化,相比于其他

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

推荐关键词

24小时热搜

查看更多内容

大家正在看