风险预警最新资讯_风险预警最新动态

风险预警

【新智元导读】微调LLM需谨慎，用良性数据、微调后角色扮演等都会破坏LLM对齐性能!学习调大了还会继续提高风险!虽说预训练语言模型可以在零样本设置下，对新任务实现非常好的泛化性能，但在现实应用时，往往还需要针对特定用例对模型进行微调。微调后的模型安全性如何?是否会遗忘之前接受的对齐训练吗?面向用户时是否会输出有害内容?提供LLM服务的厂商也需要考虑到，当给终端用户开放模型微调权限后，安全性是否会下降?最近，普林斯顿大学、IBM、斯坦福等机构通过redteam实验证明，只需要几个恶意样本即可大幅降低预训练模型的安全性，甚至普通用户的微调也会影响模型的安全性。不管真正的原因是什么，研究人员假设，如果能够在未来的对齐工作中巩固那些不太稳健的危害类别，可能能够进一步提高良性微调情况下的整体安全性。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。（反馈错误)

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

风险预警

推荐关键词

最新资讯

24小时热搜

大家正在看