站长之家 - 业界 2024-06-04 10:23

IBM 推出高效 LLM 基准测试方法，计算成本降低99%

划重点:
⭐️ IBM 研究推出了一种创新的 LLM 基准测试方法，可以将计算成本降低99%。
⭐️ 该高效方法利用微型化基准测试，显著减少了评估 LLM 所需的时间和金钱成本。
⭐️ 新方法已经引起 AI 社区的关注，并被广泛采用，有望推动人工智能模型评估领域的快速发展。

站长之家（ChinaZ.com）6月4日消息:IBM 研究发布了一项突破性的 LLM（大型语言模型）基准测试方法，承诺将计算成本降低高达99%。传统的基准测试，如斯坦福的 HELM，需要耗费超过一天的时间，并且成本高达1万美元，这对开发人员和研究人员来说是一个昂贵的过程。随着 LLMs 能力的增强，基准测试的过程变得更加严格，需要大量的计算能力和时间。

IBM

IBM 的创新方法源自以色列的 IBM 研究实验室，由 Leshem Choshen 领导的团队开发了一种新方法，大幅降低基准测试的成本。他们并非运行全尺寸基准测试，而是设计了一个使用原始基准测试规模的1% 的 “微型” 版本。令人惊讶的是，这些微型基准测试已被证明几乎同样有效，可以在98% 的准确度内估计出全尺寸测试的性能。

该团队利用人工智能从完整基准测试中选择最具代表性的问题，包含在微小版本中。这种选择性方法确保较小的基准测试仍然高度预测整体模型性能，消除了不贡献有意义评估的冗余或无关紧要的问题。

IBM 的高效方法引起了 AI 社区的关注，尤其是在2023年 NeurIPS 的高效 LLM 比赛中。面临使用有限计算资源评估大量模型的挑战，组织者与 IBM 合作实施了一个名为 Flash HELM 的简化基准测试。这种高效方法使他们能够迅速淘汰表现较差的模型，并将计算资源集中在最有前途的候选模型上，从而进行及时和具有成本效益的评估。

Flash HELM 的成功展示了 IBM 高效基准测试方法的潜力，促使其在 IBM 的 watsonx 平台上评估所有 LLMs。成本节约可观;例如，在像 HELM 这样的基准测试中评估 Granite13B 模型可能耗费高达1000个 GPU 小时，但使用高效基准测试方法显著降低了这些成本。

高效基准测试不仅降低成本，还通过允许更快速地迭代和测试新算法来加速创新。IBM 研究人员，包括 Youssef Mroueh 在内，指出这些方法使得更快速、更经济的评估成为可能，促进了更加灵活的发展过程。

这一概念已经超出了 IBM 的范畴。斯坦福实施了 Efficient-HELM，这是其传统基准测试的简化版本，为开发人员提供了选择示例数量和希望分配的计算资源量的灵活性。这一做法强调了一个新兴共识，即更大的基准测试不一定意味着更好的评估。

“大型基准测试不一定通过变得更大而增加价值，”Choshen 说。“这是我们的见解，我们希望它能够引领更快速、更经济的 LLM 性能评估方法。”

IBM 的高效基准测试方法代表了人工智能领域的重大进步，为评估先进语言模型所需的不断增加的成本和资源需求提供了实际解决方案。

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

IBM 推出高效 LLM 基准测试方法，计算成本降低99%

推荐关键词

24小时热搜

大家正在看

Mistral、AI2 发布新的开源 LLMs：更小，更便宜

o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键

LLM推理暴涨，数学逻辑开挂！ DeepSeek等华人团队新大招，Ai2大牛狂点赞

全球AI算力报告出炉，LLM最爱A100！谷歌坐拥超100万H100等效算力

当 DeepSeek 爆火遇上安全风暴，瑞数信息多重防护体系护航 LLM

微软 CEO Nadella 称赞 DeepSeek，并将其提供给客户在 Azure AI Foundry 上使用

SAP 和 Databricks 使客户能够统一 AI 的数据

GPTBots.ai音频大模型功能更新，为AI SDR解决方案奠定技术基础

128GB iPhone面临存储危机：禁用苹果AI立省7GB

资本用脚投票：LiblibAI以2000万创作者生态斩获AI应用年度融资新纪录

微软CEO：Xbox将运用生成式AI开发一系列视频游戏

GPTBots.ai 集成 DeepSeek Janus-Pro，为企业应用提升 AI 图像生成能力

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

AI“硬控”拜年

爱签电子合同重磅发布：爱签AI+BI数据智能驱动商业智慧

为训练AI不择手段！Meta被曝下载数十TB盗版电子书

网文编辑拒绝AI投稿，为什么AI写小说有股伪人感？

阿里，靠AI缓过来了

喜迎开学季用三星Galaxy Tab S10系列解锁AI畅学体验

AMD锐龙AI处理器轻松本地跑DeepSeek：最高支持70B参数

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

IBM 推出高效 LLM 基准测试方法，计算成本降低99%

推荐关键词

24小时热搜

大家正在看

Mistral、AI2 发布新的开源 LLMs：更小，更便宜

o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键

LLM推理暴涨，数学逻辑开挂！ DeepSeek等华人团队新大招，Ai2大牛狂点赞

全球AI算力报告出炉，LLM最爱A100！谷歌坐拥超100万H100等效算力

当 DeepSeek 爆火遇上安全风暴，瑞数信息多重防护体系护航 LLM

微软 CEO Nadella 称赞 DeepSeek，并将其提供给客户在 Azure AI Foundry 上使用

SAP 和 Databricks 使客户能够统一 AI 的数据

GPTBots.ai音频大模型功能更新，为AI SDR解决方案奠定技术基础

128GB iPhone面临存储危机：禁用苹果AI立省7GB

资本用脚投票：LiblibAI以2000万创作者生态斩获AI应用年度融资新纪录

微软CEO：Xbox将运用生成式AI开发一系列视频游戏

GPTBots.ai 集成 DeepSeek Janus-Pro，为企业应用提升 AI 图像生成能力

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

AI“硬控”拜年

爱签电子合同重磅发布：爱签AI+BI数据智能驱动商业智慧

为训练AI不择手段！Meta被曝下载数十TB盗版电子书

网文编辑拒绝AI投稿，为什么AI写小说有股伪人感？

阿里，靠AI缓过来了

喜迎开学季 用三星Galaxy Tab S10系列解锁AI畅学体验

AMD锐龙AI处理器轻松本地跑DeepSeek：最高支持70B参数

喜迎开学季用三星Galaxy Tab S10系列解锁AI畅学体验