“MoE”加上“前所未有大规模投入生产环境的 Lightning Attention”,再加上“从框架到CUDA层面的如软件和工程重构”,会得到什么?答案是,一个追平了顶级模型能力、且把上下文长度提升到 400 万token级别的新模型。1 月 15 日,大模型公司MiniMax正式发布了这款预告已久的新模型
本文由站长之家合作伙伴自媒体作者“硅星人Pro公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。