站长之家 - 业界 2024-06-07 14:20

Galileo发布Luna，重新定义GenAI评估，成本降低97%、速度提升11倍

划重点:
⭐ Galileo 推出 Luna，一套革命性的 Evaluation Foundation Models，重新定义企业 GenAI 评估，速度、成本和准确性均突破前所未有的境界。
⭐ Luna 的创新核心在于其专为特定评估任务设计的小型语言模型，大幅提升了速度、成本和准确性。
⭐ Luna 不仅速度更快、成本更低，还可在没有传统基准数据集的情况下运行，极大地简化了评估流程。

站长之家（ChinaZ.com）6月7日消息:企业人工智能技术领先者 Galileo 近日发布了一款名为 Luna 的全新产品，这一革命性的 Evaluation Foundation Models 套件重新定义了企业对 GenAI 系统的评估方式。Luna 承诺在速度、成本和准确性方面进行了前所未有的突破。

“Galileo 推出 Luna，旨在解决当前 GenAI 评估方法的局限性，这些方法通常速度缓慢、成本高昂，而且往往不准确。”Galileo 联合创始人兼首席执行官 Vikram Chatterji 在接受 VentureBeat 采访时表示。“推动我们开发 Luna 的初衷源自对在生产环境中进行超低延迟、成本效益高和高准确性评估的需求。”

Luna 的研发标志着 Galileo 取得了重要的里程碑，该公司自2021年初成立以来一直处于企业 GenAI 的最前沿。公司对推动人工智能评估边界的执着可从 Luna 的开发过程中窥见端倪，该过程历时近一年，进行了密集的研发工作。

Luna，Galileo 划时代的 Evaluation Foundation Models 套件，在接收器操作特征曲线下面积（AUROC）得分的基准比较中胜过了领先的人工智能评估方法。更高的 AUROC 值达到了0.78，表明 Luna 在评估企业生成式人工智能系统的准确性方面更胜一筹，超越了 GPT-3.5、Trulens Groundedness 和 RAGAS Faithfulness 等竞争对手。

Luna 创新的核心在于其专为特定评估任务设计的小型语言模型，精心为幻觉检测、语境质量评估、数据泄漏防护和恶意提示识别等任务量身定制。这种专业设计使得 Luna 在速度、成本和准确性三个关键指标上表现卓越。

“Luna 通过几项创新的方式超越了 GPT-3.5在速度、成本和准确性方面，”Chatterji 解释道。“Luna 利用专为特定评估任务量身定制的小型语言模型，大大降低了计算开销和成本。这种设计选择使得评估的成本比使用 GPT-3.5低97%，速度则比使用 GPT-3.5快11倍。”

然而，这并不仅仅是关于速度和成本。Luna 还以行业领先的准确性脱颖而出，在检测幻觉、提示注入、个人可识别信息（PII）等方面，其性能比以往方法高出多达20%。“多头小型语言模型和智能分块等先进技术确保 Luna 模型更好地保持上下文并提供更准确的评估，”Chatterji 补充道。

在对评估100万次查询的月度成本进行比较时，Galileo 的 Luna 大幅低于其他方法，仅需每月175美元。Luna 的专为特定评估任务设计的小型语言模型实现了超低成本的评估，使其比 GPT-3.5（每月6248美元）、RAGAS Faithfulness(每月7994美元)和 Trulens Groundedness(每月16641美元)等替代方案高效率低至97%。

Luna 最引人注目的一个方面是其能够在不需要传统基准数据集的情况下运行。通过利用在多样、领域特定数据集上微调的预训练评估模型，Luna 消除了创建定制测试集的耗时和昂贵过程。这一创新简化了评估流程，减少了对大量人工生成数据的依赖。

Luna 的潜在应用广泛，Chatterji 强调了它在需要人工智能评估具有高可靠性和速度的行业中的相关性。“Luna 在需要大规模应用、吞吐量大的企业应用中尤为强大（比如每月数百万次查询）。我们发现在医疗保健、金融和电信等行业，财富100强企业特别喜欢使用 Luna。” 他说道。

Galileo 的 Luna 在人工智能评估方面提供了无与伦比的速度，处理单个查询的延迟仅为0.232秒。这较之其他方法，例如 GPT-3.5的2.5秒、Galileo Chainpoll 的3.0秒、Trulens Groundedness 的3.4秒和 RAGAS Faithfulness 的5.4秒，有了显著提升。Luna 的专为特定评估任务设计的小型语言模型实现了超低延迟的评估，使其比竞争方法快至多达11倍。

用例涵盖了对人工智能输出的实时监控、检测人工智能生成内容中的幻觉，以确保聊天机器人交互的安全性和质量。通过 Galileo 的 Fine Tune 产品，Luna 可定制以满足特定客户需求，为制药和金融服务等行业的关键任务实现95% 以上的准确性。

随着生成式人工智能领域的快速发展，Galileo 致力于保持创新的最前沿。Chatterji 强调，Luna 将在三个关键方面扩展规模:扩大对更多评估任务类型的支持、持续提高准确性，以及进一步降低成本和延迟。

“Galileo 致力于突破人工智能评估的可能边界，帮助组织将可信赖的人工智能引入生产环境，激发消费者的信心和信任。”Chatterji 表示。“随着生成式人工智能领域的不断演进，Galileo 将继续致力于为客户提供尖端的评估能力，使人工智能在业务部署中变得实用，并在消费者中产生信心和信任。”

随着 Luna 的推出，Galileo 在企业 GenAI 评估领域巩固了其领先地位。随着越来越多的组织寻求利用生成式人工智能的力量，Luna 提供快速、成本效益高和准确的评估能力将成为推动广泛采用和释放这一变革性技术全部潜力的关键因素。

官方博客:https://www.rungalileo.io/blog/introducing-galileo-luna-a-family-of-evaluation-foundation-models

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Galileo发布Luna，重新定义GenAI评估，成本降低97%、速度提升11倍

推荐关键词

24小时热搜

大家正在看

7394元起！LG gram 16新机上架：搭载Lunar Lake 可选16GB/32GB

飞书深诺携Marvy 2.0亮相ChinaJoy 2026：以 Agent OS重构游戏出海增长新范式

绚星完成AI原生研发体系重构，迈入AI Native企业新阶段

dynabook邀您共聚西部电博会，共启AI产业新图景

像真人聊天！OpenAI发布GPT-Live：AI可同步听与说

OpenAI报告：ChatGPT出现重大故障

腾讯乐享升级知识供给体系，让AI Agent读全读懂企业知识

ChinaJoy2026丨TCL华星邀您共赴AI视界电竞盛宴

《云上Agent基准度量模型》正式发布，腾讯云推动云上Agent安全、稳定、可信

告别误解！骁龙 8s Gen4 非“至尊”芯片，CPU/GPU/AI全维度性能揭秘

Agent 进化论：从对话到协作

价格战一触即发！奥特曼放话OpenAI降价75%：被DeepSeek等中国AI逼的

OpenAI计划推出旗下首款硬件产品：移动式智能音箱定位为AI陪伴助手

独立站，交给 AI Agent：第五届店匠科技独立站峰会定档 8月7日

与“Rix”相约，与“AI”同游｜RixEngine与RixDesk确认参展2026 ChinaJoy

全量上线｜花瓣地图Agent版本，开启AI地图探索世界新方式

DeiNai亮相LEAP East 2026：连接中东与亚太，共探AI驱动的全球创作者营销未来

可灵AI NEXTGEN颁奖典礼在韩举行，搭建全球化青年AI影像创作成长沃土

理想AI眼镜Livis升级：接入小红书Agent 逛街不用掏手机

小鹏MONA L03官宣首搭驾驶员失能辅助系统：自动靠边、呼叫救援

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Galileo发布Luna，重新定义GenAI评估，成本降低97%、速度提升11倍

推荐关键词

24小时热搜

大家正在看

7394元起！LG gram 16新机上架：搭载Lunar Lake 可选16GB/32GB

飞书深诺携Marvy 2.0亮相ChinaJoy 2026：以 Agent OS重构游戏出海增长新范式

绚星完成AI原生研发体系重构，迈入AI Native企业新阶段

dynabook邀您共聚西部电博会，共启AI产业新图景

像真人聊天！OpenAI发布GPT-Live：AI可同步听与说

OpenAI报告：ChatGPT出现重大故障

腾讯乐享升级知识供给体系，让AI Agent读全读懂企业知识

ChinaJoy2026丨TCL华星邀您共赴AI视界电竞盛宴

《云上Agent基准度量模型》正式发布，腾讯云推动云上Agent安全、稳定、可信

告别误解！骁龙 8s Gen4 非“至尊”芯片，CPU/GPU/AI全维度性能揭秘

Agent 进化论：从对话到协作

价格战一触即发！奥特曼放话OpenAI降价75%：被DeepSeek等中国AI逼的

OpenAI计划推出旗下首款硬件产品：移动式智能音箱 定位为AI陪伴助手

独立站，交给 AI Agent：第五届店匠科技独立站峰会定档 8月7日

与“Rix”相约，与“AI”同游｜RixEngine与RixDesk确认参展2026 ChinaJoy

全量上线｜花瓣地图Agent版本，开启AI地图探索世界新方式

DeiNai亮相LEAP East 2026：连接中东与亚太，共探AI驱动的全球创作者营销未来

可灵AI NEXTGEN颁奖典礼在韩举行，搭建全球化青年AI影像创作成长沃土

理想AI眼镜Livis升级：接入小红书Agent 逛街不用掏手机

小鹏MONA L03官宣首搭驾驶员失能辅助系统：自动靠边、呼叫救援

OpenAI计划推出旗下首款硬件产品：移动式智能音箱定位为AI陪伴助手