性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

站长之家（ChinaZ.com）4月17日消息:JetMoE-8B是一款采用稀疏激活架构的人工智能模型，其性能卓越且训练成本不到10万美元，令人惊讶的是，它的表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。

JetMoE-8B由24个块组成，每个块包含两个MoE层:注意力头混合（MoA）和MLP专家混合(MoE)。每个MoA和MoE层有8个专家，并且每个输入令牌激活2个专家。这种独特的设计使得在不牺牲性能的情况下显著降低了计算成本。

值得一提的是，尽管JetMoE-8B的总参数量达到80亿，但由于其特殊的架构设计，每个输入令牌仅激活约22亿参数，从而大大减少了总体的计算需求。

此外，JetMoE-8B的训练完全依赖于公开数据，并且整个训练过程，包括代码，都是完全开源的，这无疑为AI领域的研究和应用提供了极大的便利。

在与Open LLM排行榜相同的评估方法下，JetMoE-8B的性能表现优于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B，这一结果无疑是对其高效性能的最好证明。

与此同时，与具有类似训练和推理计算的模型（如Gemma-2B）相比，JetMoE-8B展示了更优异的表现。这不仅证明了其在性能上的优势，也展示了其在成本效益上的显著优势。

模型地址:https://huggingface.co/jetmoe/jetmoe-8b

李开复周志华纵论AI大模型，万字梳理MEET'25大咖激辩，320万观众同见证

2024-12-131.7万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

推荐关键词

24小时热搜

大家正在看

AI大模型时代，人才的需求已经变了

AI日报：可灵AI上线AI模特功能；字节今年AI投入近BAT总和；ChatGPT本月第二次大规模宕机；抖音引入音频审核大模型

AI大模型时代下的天融信：安全领域的智能先锋

灰豚AI数字人重磅突破，国内最强数字人AI口播软件大模型来袭

大模型拿单江湖

你还说这是AI？我们体验了一波生成亚洲人最好看的文生图大模型

AI日报：阿里通义开源多模态推理模型QVQ-72B；OpenAI考虑自研人形机器人；QQ音乐上线首个AI大模型音效

思必驰智能语音携手茅台，打造“国酒级”AI大模型智能会议方案

AI日报：百川智能金融大模型发布；ChatGPT新增跨对话记忆功能；DeepSeek大模型一开发者将加盟小米；OpenAI最强推理模型o3

首次！大模型自动搜索人工生命，做出AI科学家的Sakana AI又放大招

科研也完了，AI暴虐170位人类专家，Nature子刊：大模型精准预测研究结果，准确率高达81%

大模型，在内卷中寻找出口

业界首次！中国联通AI大模型存算分离技术新突破

AI日报：可灵AI API对口型能力全面开放；豆包大模型宣称追平GPT-4；百度2024年度AI提示词“答案”；通义千问视觉模型直降80%

出圈就好！盘点2024年国内AI大模型产品的那些破圈姿势

理想同学AI大模型APP抢鲜体验：识物精准、语音交互流畅

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

李开复周志华纵论AI大模型，万字梳理MEET'25大咖激辩，320万观众同见证

曝雷军挖了个95后天才少女“AI小萝莉”：开出千万年薪恶补大模型

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

推荐关键词

24小时热搜

大家正在看

AI大模型时代，人才的需求已经变了

AI日报：可灵AI上线AI模特功能；字节今年AI投入近BAT总和；ChatGPT本月第二次大规模宕机；抖音引入音频审核大模型

AI大模型时代下的天融信：安全领域的智能先锋

灰豚AI数字人重磅突破，国内最强数字人AI口播软件大模型来袭

大模型拿单江湖

你还说这是AI？我们体验了一波生成亚洲人最好看的文生图大模型

AI日报：阿里通义开源多模态推理模型QVQ-72B；OpenAI考虑自研人形机器人；QQ音乐上线首个AI大模型音效

思必驰智能语音携手茅台，打造“国酒级”AI大模型智能会议方案

AI日报：百川智能金融大模型发布；ChatGPT新增跨对话记忆功能；DeepSeek大模型一开发者将加盟小米；OpenAI最强推理模型o3

首次！大模型自动搜索人工生命，做出AI科学家的Sakana AI又放大招

科研也完了，AI暴虐170位人类专家，Nature子刊：大模型精准预测研究结果，准确率高达81%

大模型，在内卷中寻找出口

业界首次！中国联通AI大模型存算分离技术新突破

AI日报：可灵AI API对口型能力全面开放；豆包大模型宣称追平GPT-4；百度2024年度AI提示词“答案”；通义千问视觉模型直降80%

出圈就好！盘点2024年国内AI大模型产品的那些破圈姿势

理想同学AI大模型APP抢鲜体验：识物精准、语音交互流畅

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

李开复周志华纵论AI大模型，万字梳理MEET'25大咖激辩，320万观众同见证

曝雷军挖了个95后天才少女“AI小萝莉”：开出千万年薪 恶补大模型

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

曝雷军挖了个95后天才少女“AI小萝莉”：开出千万年薪恶补大模型