英伟达发布Nemotron-4:150亿参数通用大模型，目标单张A100/H100可跑

**划重点:**
1. 🌐 Nemotron-4是英伟达最新的通用大模型，拥有150亿参数，在各语言和编码任务中表现出色。
2. 💡 该模型采用Chinchilla模型的「缩放定律」，通过优化计算预算、数据和模型大小实现性能提升。
3. 🔥 在多领域下游评估中，Nemotron-415B超越同等参数规模的模型，甚至击败4倍大的模型，成为最强通用语言模型。

站长之家（ChinaZ.com）2月29日消息:英伟达最新推出的Nemotron-4语言模型引起广泛关注。这一通用大模型拥有150亿参数，经过在8T token上的训练，在英语、多语言和编码任务中表现出色。具体而言，Nemotron-4在7个评估基准上的15B模型表现优异，超越同等参数规模的模型，甚至击败了4倍大的模型。

该模型的设计灵感来自Chinchilla模型的「缩放定律」，该定律强调在给定固定计算预算的情况下，同时优化数据和模型大小。与过去主要关注模型大小不同，这一研究强调将计算分配给更多数据的训练，以降低延迟和服务模型所需的计算量。因此，Nemotron-4的主要目标是打造一个能在单个英伟达A100或H100GPU上运行的最佳「通用大模型」。

在架构方面，Nemotron-4采用了标准的纯解码器Transformer架构，并带有因果注意掩码。核心超参数包括32亿个嵌入参数和125亿个非嵌入参数。在数据方面，研究人员使用了包含8万亿个token的预训练数据集，分为英语自然语言数据（70%）、多语言自然语言数据(15%)和源代码数据(15%)。

为了实现这一庞大模型的训练，Nemotron-4使用了384个DGX H100节点，每个节点包含8个英伟达H10080GB SXM5GPU。在16位浮点（bfloat16）算术下，每个GPU的峰值吞吐量为989teraFLOP/s。研究人员通过张量并行和数据并行的组合进行训练，并使用了分布式优化器。

在下游评估中，Nemotron-4在各领域均表现强劲，特别是在常识推理、热门综合基准和数学、代码任务上。该模型在多语言分类和生成任务中也实现了最佳性能，展现了其在不同语言的卓越理解能力。值得注意的是，Nemotron-4在机器翻译任务中取得了显著的进展，不仅在中文翻译成英文方面表现出色，而且在中文直接翻译成其他语言方面也取得了印象深刻的效果。

Nemotron-4的推出标志着英伟达在通用大模型领域的一次重要突破，为单个A100或H100GPU上运行的最佳通用大模型设定了新标准。

论文地址:https://arxiv.org/abs/2402.16819

李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

2024-04-161.5万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

英伟达发布Nemotron-4:150亿参数通用大模型，目标单张A100/H100可跑

推荐关键词

24小时热搜

大家正在看

moto首款AI手机！moto X50 Ultra官宣

GPT Maxx官网体验入口 AI人工通用智能大模型使用地址

中国首个音乐SOTA模型「天工音乐大模型」今日公测

moto X50 Ultra AI手机亮相，搭载联想AI个人智能体

AI大模型搜索之战开启，胜出黑马竟是ta？

从小数据到大模型，“AI+”何以落地？

大模型时代，AI人才也是各家争夺的焦点

李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

股价飙升！商汤大模型挑战GPT4

moto X50 Ultra即将亮相：搭载联想小天AI个人智能体

商汤港股涨超34% 昨日推出AI大模型“日日新5.0”

阿里AI模型EMO免费上线通义APP 一张照片即可开口唱歌说话

确认！已有 116 个 AI 大模型通过国家备案

微软紧急撤回最先进的AI大模型：居然忘了测试了

以假乱真，天工音乐大模型带来颠覆式AI体验

今年，中国AI大模型产业发展看这些

AI日报：最强大模型Llama 3发布；Midjourney推社交新功能Room；超强AI视频自动剪辑工具Captions；手机上可以玩大模型了

AI日报：阿里对口型视频项目EMO开启内测；苹果官宣端侧小模型OpenELM；Open-Sora偷偷升级；微信发布AI工具小微助手

巨人网络申请“GIANTGPT”商标为旗下游戏AI大模型

中山大学“梗王”大模型CLoT 靠讲笑话入选顶会CVPR

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

英伟达发布Nemotron-4:150亿参数通用大模型，目标单张A100/H100可跑

推荐关键词

24小时热搜

大家正在看

moto首款AI手机！moto X50 Ultra官宣

GPT Maxx官网体验入口 AI人工通用智能大模型使用地址

中国首个音乐SOTA模型「天工音乐大模型」今日公测

moto X50 Ultra AI手机亮相，搭载联想AI个人智能体

AI大模型搜索之战开启，胜出黑马竟是ta？

从小数据到大模型，“AI+”何以落地？

大模型时代，AI人才也是各家争夺的焦点

李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

股价飙升！商汤大模型挑战GPT4

moto X50 Ultra即将亮相：搭载联想小天AI个人智能体

商汤港股涨超34% 昨日推出AI大模型“日日新5.0”

阿里AI模型EMO免费上线通义APP 一张照片即可开口唱歌说话

确认！已有 116 个 AI 大模型通过国家备案

微软紧急撤回最先进的AI大模型：居然忘了测试了

以假乱真，天工音乐大模型带来颠覆式AI体验

今年，中国AI大模型产业发展看这些

AI日报：最强大模型Llama 3发布；Midjourney推社交新功能Room；超强AI视频自动剪辑工具Captions；手机上可以玩大模型了

AI日报：阿里对口型视频项目EMO开启内测；苹果官宣端侧小模型OpenELM；Open-Sora偷偷升级；微信发布AI工具小微助手

巨人网络申请“GIANTGPT”商标 为旗下游戏AI大模型

中山大学“梗王”大模型CLoT 靠讲笑话入选顶会CVPR

巨人网络申请“GIANTGPT”商标为旗下游戏AI大模型