GenAudit：帮用户根据输入证据对LLM生成内容进行事实检查

划重点:
💡 最近，研究人员提出了GENAUDIT，一种专门用于帮助核查基于文档基础的LLM回复的工具。
💡 GENAUDIT通过建议对语言模型生成的响应进行更改来发挥作用，并从参考文档中突出显示不符合要求的陈述，并建议对响应进行更改或删除。
💡 为了构建GENAUDIT，已经训练了专门设计用于执行这些任务的模型，这些模型已经被教导从参考文档中提取证据以支持事实陈述，识别不支持的主张，并推荐合适的修改。

站长之家(ChinaZ.com) 3月18日消息:近年来，随着人工智能（AI）和主要是生成式AI领域的进展，已经展示了大型语言模型(LLMs)生成文本以响应输入或提示的能力。这些模型能够像人类一样生成文本，回答问题，总结长篇文本段落等。然而，即使在访问参考资料之后，它们也不完美，可能会产生错误。这样的错误可能会在银行业或医疗保健等重要应用中产生严重后果。

为了解决这个问题，一组研究人员最近提出了GENAUDIT，这是一种专门用于帮助核查基于文档基础的LLM回复的工具。GENAUDIT的功能是通过建议对语言模型生成的响应进行更改来发挥作用。它突出显示参考文档中不符合要求的陈述，并建议对响应进行更改或删除。它还提供了来自参考文本的证据，以支持LLM的事实陈述。

为了构建GENAUDIT，已经训练了专门设计用于执行这些任务的模型。这些模型已经被教导从参考文档中提取证据以支持事实陈述，识别不支持的主张，并推荐合适的修改。GENAUDIT具有交互式界面，可帮助进行决策和用户交互。借助此界面，用户可以检查和批准推荐的调整和支持文件。

团队表示，已经通过人工评估对GENAUDIT进行了深入评估，评估人员通过检查它在多个类别中的表现来评估其性能，查看它在总结文件时如何准确识别LLM输出中的缺陷。评估结果表明，GENAUDIT能够准确地识别出来自八种不同LLM的输出中的缺陷，涵盖了多个领域。

为了优化GENAUDIT的错误检测性能，团队建议了一种技术，该技术在减少精度损失的同时最大化错误召回率。该策略确保系统在保持准确性水平基本不变的同时，能够检测到大部分的故障。

团队总结了他们的主要贡献如下:

1.引入了GENAUDIT，这是一种支持基于文档的任务中的事实核查语言模型输出的工具。该工具突出显示了LLM生成的内容中陈述的支持数据，找出了缺陷，并提供了解决方案。

2.评估并提供了用于事实核查的后端模型的优化LLMs。这些版本在少量数据条件下性能相当，尤其是与最先进的专有LLMs相比。

3.对GENAUDIT在检查来自三个不同领域的文件的八种不同LLM生成的摘要中存在的错误的有效性进行了评估。

4.介绍并评估了一种在解码时间使用的技术，旨在通过牺牲精度的微小降低来提高错误检测召回率。这种方法在保持整体准确性的同时增强了错误检测的能力。

GENAUDIT是一款优秀的工具，有助于改善具有强大文档基础的任务中的事实核查程序，并提高LLM生成的信息在重要应用中的可靠性。

产品入口：https://top.aibase.com/tool/genaudit

性能超H100！英特尔发布新一代人工智能芯片Gaudi 3 压力给到英伟达！

2024-04-101.6万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

GenAudit：帮用户根据输入证据对LLM生成内容进行事实检查

推荐关键词

24小时热搜

大家正在看

Intel发布Gaudi 3 AI加速器：4倍性能提升、无惧1800亿参数大模型

Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐时长达3分钟

文本生成3分钟44.1 kHz 音乐，Stable Audio 2.0重磅发布！

Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

Heygen又一竞争对手？数字人克隆工具Digen AI 可同时保持手势、口型和语调同步

Adobe推营销专用跨渠道活动工具集Adobe GenStudio

GLM团队AI编程助手CodeGeeX插件在Visual Studio上线

Small AI 开放无限制使用GPT全系列、Claude全系列等市面100款AI模型

性能超H100！英特尔发布新一代人工智能芯片Gaudi 3 压力给到英伟达！

AI音乐生成器Udio地址多少 Udio怎么用详细使用教程

钉钉 AI Agent Store 上线了！软件竞争格局重构：Agent 掀起新风暴，App 何去何从？

Hugging Face 发布医疗任务评估基准Open Medical-LLM

AI音乐生成器Udio怎么用？Udio怎么生成音乐详细使用教程（附使用地址）

GPT-4 Turbo 击败 Claude 3，重新夺回 “最佳AI模型” 称号

Suno AI挑战者出现！音乐平台间的竞争，Udio已经Next Level

Udio免费内测申请地址 Udio AI生成音乐官网在线体验入口

Morph Studio官网地址多少 Morph Studio怎么用？在哪加入Morph Studio候补名单

Tara：一款可以将LLM接入Comfy UI的插件

MediaTek DaVinci GenAI Platform官网体验入口联发科生成式AI平台使用地址

AI制作故事视频平台LTX Studio：给出主题就能生成画面一致视频

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

GenAudit：帮用户根据输入证据对LLM生成内容进行事实检查

推荐关键词

24小时热搜

大家正在看

Intel发布Gaudi 3 AI加速器：4倍性能提升、无惧1800亿参数大模型

Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐 时长达3分钟

文本生成3分钟44.1 kHz 音乐，Stable Audio 2.0重磅发布！

Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

Heygen又一竞争对手？数字人克隆工具Digen AI 可同时保持手势、口型和语调同步

Adobe推营销专用跨渠道活动工具集Adobe GenStudio

GLM团队AI编程助手CodeGeeX插件在Visual Studio上线

Small AI 开放无限制使用GPT全系列、Claude全系列等市面100款AI模型

性能超H100！英特尔发布新一代人工智能芯片Gaudi 3 压力给到英伟达！

AI音乐生成器Udio地址多少 Udio怎么用详细使用教程

钉钉 AI Agent Store 上线了！软件竞争格局重构：Agent 掀起新风暴，App 何去何从？

Hugging Face 发布医疗任务评估基准Open Medical-LLM

AI音乐生成器Udio怎么用？Udio怎么生成音乐详细使用教程（附使用地址）

GPT-4 Turbo 击败 Claude 3，重新夺回 “最佳AI模型” 称号

Suno AI挑战者出现！音乐平台间的竞争，Udio已经Next Level

Udio免费内测申请地址 Udio AI生成音乐官网在线体验入口

Morph Studio官网地址多少 Morph Studio怎么用？在哪加入Morph Studio候补名单

Tara：一款可以将LLM接入Comfy UI的插件

MediaTek DaVinci GenAI Platform官网体验入口 联发科生成式AI平台使用地址

AI制作故事视频平台LTX Studio： 给出主题就能生成画面一致视频

Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐时长达3分钟

MediaTek DaVinci GenAI Platform官网体验入口联发科生成式AI平台使用地址

AI制作故事视频平台LTX Studio：给出主题就能生成画面一致视频