站长之家 - 业界 2024-06-09 10:01

Anthropic公开Claude 3，像人类一样特殊性格训练方法

声明:本文来自于微信公众号 AIGC开放社区（ID:AIGCOPEN），作者:AIGC开放社区，授权站长之家转载发布。

6月9日，著名AI大模型平台Anthropic在官网公布了，其最新大模型Claude3的个性化性格训练方法。

Anthropic认为，输出内容的安全、合法性对于大模型的场景化落地至关重要，但是一味的打压它们进行超级安全对齐，输出的内容也会千篇一律毫无新意，会使大模型失去个性化，无法突出“智能”的效果。

所以，Anthropic在训练Claude3时，使用了一种特殊的个性化训练方法（Constitutional AI: Harmlessness from AI Feedback），在保持安全的前提下，还能输出一些有趣、更具创新性的内容，也是该模型实现超强性能的关键之一。

论文地址:https://arxiv.org/abs/2212.08073

从Anthropic发布的论文来看，主要是通过Constitutional AI技术来帮助大模型进行自我监督和优化改进，主要分为监督学习和强化学习。

首先，让大模型来生成对潜在有害提示的响应，这些初始的响应往往包含了有害或不当的内容，例如，如何进行有效的偷窃等。大模型被要求根据Constitutional AI中的原则来批评自己的响应。

Constitutional AI制定了一组规则或原则，定义了大模型行为的界限。也就是说AI的输出行为是不能越过这条红线。

接着，通过批评请求（Critique Request）模块，要求大模型识别其先前响应中可能存在的问题，例如，是否包含有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。这一过程迫使大模型对自己的行为进行反思，并识别出需要改进的地方。

在识别出问题之后，再通过修订请求（Revision Request）模块指导大模型如何改进其响应的过程。要求大模型根据批评的内容，重写其响应，以消除所有有害、不道德、种族歧视、性别歧视、有毒、危险或非法的内容。

这个过程可以反复迭代，每次修订都可以引入新的原则，以增加响应的多样性和深度。

需要注意的是，大模型在进行批评和修订时，可能会遇到视角混淆的问题。例如，可能在应该生成修订的时候生成了批评。为了解决这个难题，Anthropic会使用少量示例来指导大模型的反思行为。

在强化学习阶段，Anthropic从监督学习阶段微调后的模型中采样，生成对一系列提示的响应。然后使用一个反馈模型来评估这些响应，并决定哪个响应更符合Constitutional AI原则中的无害性标准。

反馈模型会接收到一个提示和一对由大模型生成的响应。再根据Constitutional AI中的一个原则，反馈模型需要在这两个响应中选择一个更符合无害性要求。这个选择过程被构建成一个多项选择问题，反馈模型需要给出其选择的答案。

例如，如果Constitutional AI原则是“选择一个更少有害的回答”，反馈模型就需要在两个响应中选择一个更少包含有害、不道德、种族歧视、性别歧视、有毒、危险或非法内容的响应。

然后，Anthropic会使用生成的偏好标签来训练一个偏好模型。这个模型能够为任何给定的样本分配一个分数，以评估其符合Constitutional AI原则的程度。训练完成后，这个偏好模型就被用作强化学习中的奖励信号，指导AI助手通过强化学习进一步优化其行为。

在强化学习的过程中，大模型会根据偏好模型的反馈来调整自己的内容输出策略，以生成更符合无害性原则的响应。

这个过程也是反复迭代的，大模型会不断地生成响应、接收反馈，并根据反馈来改进自己，直到其行为达到一个稳定的输出原则状态。

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Anthropic公开Claude 3，像人类一样特殊性格训练方法

推荐关键词

24小时热搜

大家正在看

Claude 3全系已支持函数调用工具Tool use 提供更加准确的响应

Claude 3 开放第三方 API，实现业务流程自动化

ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

首次解密Claude 3大脑！25岁Anthropic参谋长预言3年内自己将被AI淘汰

两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

研究生级别推理！Anthropic发布Claude 3.5 Sonnet模型可在聊天窗口运行代码

AI日报：一夜封王！最强AI模型Claude 3.5来了；腾讯元宝支持千万字文本；Groq上线超强语音转录模型

Stable Audio Open有哪些功能免费吗？文本生成音频怎么使用方法详细教程指南

Stable Audio Open功能介绍及免费使用指南开源文生音频模型体验地址入口

开源音频模型Stable Audio Open，文本生成47秒高清音效

万数汇海，同创共赢，openGauss Developer Day 2024圆满举办

心动618 AI耳机三星Galaxy Buds入手太超值

Udio推出新的udio-130音乐生成模型：可生成两分钟音频

Stability AI发布AI音频模型Stable Audio Open：支持文本生成鼓点、乐器等音效

三星Galaxy Watch6 Classic：今年父亲节必购好物

DECODE Global科汇：简化交易、创新体验引领金融服务新趋势

Suno新功能被Udio抢跑上传任意音频Udio自动帮延长创作

国产化替代，复杂项目制造企业为何选用友U9 cloud？

FESCO Adecco外企德科：Quick BI打造战略管理“观数台”

一加Ace 3 Pro超跑瓷典藏版细节出炉：一体陶瓷Deco 独家三段式开关

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Anthropic公开Claude 3，像人类一样特殊性格训练方法

推荐关键词

24小时热搜

大家正在看

Claude 3全系已支持函数调用工具Tool use 提供更加准确的响应

​Claude 3 开放第三方 API，实现业务流程自动化

ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

首次解密Claude 3大脑！25岁Anthropic参谋长预言3年内自己将被AI淘汰

两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

研究生级别推理！Anthropic发布Claude 3.5 Sonnet模型 可在聊天窗口运行代码

AI日报：一夜封王！最强AI模型Claude 3.5来了；腾讯元宝支持千万字文本；Groq上线超强语音转录模型

Stable Audio Open有哪些功能免费吗？文本生成音频怎么使用方法详细教程指南

Stable Audio Open功能介绍及免费使用指南 开源文生音频模型体验地址入口

开源音频模型Stable Audio Open，文本生成47秒高清音效

万数汇海，同创共赢，openGauss Developer Day 2024圆满举办

心动618 AI耳机三星Galaxy Buds入手太超值

Udio推出新的udio-130音乐生成模型：可生成两分钟音频

​Stability AI发布AI音频模型Stable Audio Open：支持文本生成鼓点、乐器等音效

三星Galaxy Watch6 Classic：今年父亲节必购好物

DECODE Global科汇：简化交易、创新体验 引领金融服务新趋势

Suno新功能被Udio抢跑 上传任意音频Udio自动帮延长创作

国产化替代，复杂项目制造企业为何选用友U9 cloud？

FESCO Adecco外企德科：Quick BI打造战略管理“观数台”

一加Ace 3 Pro超跑瓷典藏版细节出炉：一体陶瓷Deco 独家三段式开关

Claude 3 开放第三方 API，实现业务流程自动化

研究生级别推理！Anthropic发布Claude 3.5 Sonnet模型可在聊天窗口运行代码

Stable Audio Open功能介绍及免费使用指南开源文生音频模型体验地址入口

Stability AI发布AI音频模型Stable Audio Open：支持文本生成鼓点、乐器等音效

DECODE Global科汇：简化交易、创新体验引领金融服务新趋势

Suno新功能被Udio抢跑上传任意音频Udio自动帮延长创作