隋唐演义

隋唐演义

无锡市城运中心 雇员 公示 无锡市城运中心属于什么单位

双十一 0

手机淘宝搜:天降红包55 5月20日开始,每天领红包。
京示搜:天降红包369,5月28日开始

无锡市城运中心现代化服务管理中心EPC工程总承包项目,无锡市城运中心地址,无锡市城运中心张亮,无锡市城运中心 王

3月16日

国内科技界将发生一件大事:

百度即将发布

中文AI世界的ChatGPT

中文名称定为“文心一言”

英语名称叫“Ernie Bot”

3月14日获悉,无锡市城运中心也将加入其中,成为“文心一言”首批生态合作伙伴,在政府数字侧治理首次引入AI技术

这意味着无锡市城运中心优先获得领先AI技术的加持,也标志着对话式语言模型技术在国内城市数字治理场景的首批着陆

自ChatGPT 横空出世以来,全球各大科技企业都开始关注生成式 AI 技术,纷纷上马自家的“ChatGPT”。中国的互联网企业也不甘人后,此次百度率先亮出“文心一言”,据称,这是由百度研发的知识增强大语言模型,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。未来,“文心一言”也将通过百度智能云对外提供服务,为产业带来真正的AI普惠。

市城运中心相关负责人透露

接下来中心将通过百度智能云全面体验并接入“文心一言”的能力,先行体验将百度领先的智能技术成果应用在城市数字治理领域,全力打造城市数字治理人工智能全系产品、服务。

无锡市城运中心将优先内测试用“文心一言”,集成“文心一言”的技术能力,与百度在产品研发、标准制定等多个领域展开深化合作,在百度技术团队协助下,打造联合解决方案,通过技术共享、培训赋能、联合营销等方式,强化竞争力,为用户打造全场景城市数字治理人工智能解决方案及服务,同时依托智慧互联、创新互联,推动数字经济提速和城市数字化转型。

来源:无锡日报

记者:高飞

编辑:孙涔铭

编审:人杰


ChatGPT有必要升级吗 官网的chatgpt为什么更智能

chatgpt,chatgpt是什么意思,chatgpt国内能用吗,chatgpt在线

据了解,ChatGPT的前身为OpenAI此前的语言模型GPT-3,而GPT-3也经历了从1代到3代的演化。东吴证券认为,通过梳理前几代模型,ChatGPT之所以能实现如此革命性的变化,新技术RLHF训练方式的引用或是关键:从GPT到GPT-3:优化主要来自算力增加(烧钱)。GPT、GPT-2和GPT-3的算法模型并没有太大改变,但参数量从1.17亿增加到1750亿,预训练数据量从5GB增加到45TB,其中GPT-3训练一次的费用是460万美元,总训练成本达1200万美元。虽然训练数据量和算力大幅增加使GPT-3有显著优化,但高额投入也使其只能走B端变现。

OpenAI在官网表示,ChatGPT 是从 GPT-3.5 微调而来的,GPT-3.5 是一种经过训练以生成文本的语言模型。ChatGPT 通过使用人类反馈强化学习 (RLHF) 针对对话进行了优化,这是一种使用人类演示来指导模型实现所需行为的方法。

聊天机器人ChatGPT为何“出圈”?我们让它写了篇文章

泻药。ChatGPT用的RLHF,我们最近正好在关注RLHF的一些研究,发现Anthropic已经出现了用AI来监督AI的工作,自我进化不再是梦想……本文提出了RLAIF方法,旨在提升LLM的有用性的同时提升可靠性(降低毒性)。目前的模型存在的问题:

  1. 一些有害的query会被【【微信】】驳回,回答“我并不能回答这个问题”或者“没有一个很好的解决方法,但是我认为……”,这是无毒的,但是也没用;
  2. 一些有害的query会被【【微信】】解答,例如关于如何黑到邻居家里,这是有用的,但是也有毒。

本文旨在用Reinforcement Learning from AI Feedback方法,同时提升有用性和降低毒性。Anthropic研究团队称之为CAI(Constitutional AI)。如果你对RLHF的sota感兴趣,可以接着读。原文链接:

随着 AI 系统变得更强大,我们希望获得它们的帮助来监督其他 AI。 我们试验了通过自我提升来训练无害 AI 助手的方法,没有任何人工标签来识别有害输出。 唯一的人类监督是通过一系列规则或原则提供的,因此我们将这种方法称为“宪法人工智能”。 该过程涉及监督学习和强化学习阶段。 在监督阶段,我们从初始模型中采样,然后生成自我批评和修正,然后根据修正后的反应微调原始模型。 在 RL 阶段,我们从微调模型中采样,使用一个模型来评估两个样本中哪个更好,然后从这个 AI 偏好数据集训练一个偏好模型。 然后我们使用偏好模型作为奖励信号对 RL 进行训练,即我们使用“来自 AI 反馈的 RL”(RLAIF)。 因此,我们能够训练一个无害但无规避的 AI 助手,通过解释其反对意见来处理有害查询。 SL 和 RL 方法都可以利用思维链式推理来提高人工智能决策的人工判断性能和透明度。 这些方法可以更精确地控制 AI 行为,并且使用更少的人类标签。

图 1 我们展示了我们的宪法 AI (CAI) 过程的基本步骤,它包括一个监督学习 (SL) 阶段,由顶部的步骤组成,以及一个强化学习 (RL) 阶段,由底部的步骤组成。 批评和 AI 反馈都受到从“宪法”中得出的一小组原则的指导。 监督阶段显着改进了初始模型,并在 RL 阶段开始时对初始行为进行了一些控制,解决了潜在的探索问题。 RL 阶段显着提高了性能和可靠性。

我们希望训练的 AI 系统仍然有用、诚实且无害,即使某些 AI 功能达到或超过人类水平的表现。 这表明我们将需要开发不依赖人类来监督 AI 行为的所有方面的技术,并且可以用于自动测试和增强对有害行为的鲁棒性。 我们还旨在开发以简单透明的形式编码所需 AI 行为的方法,从而更容易理解和评估 AI 决策。 在本文中,我们开发了一种我们称为宪法 AI (CAI) 的方法,如图 1 所示,并用它来训练一个非回避和相对无害的 AI 助手,没有任何人类反馈的伤害标签。 因此,该方法改进并部分取代了来自人类反馈的强化学习[Christiano et al., 2017]。 众包工作者更喜欢新助手“RL-CAI”,而不是那些接受过先前收集的[Bai et al., 2022, Ganguli et al., 2022]人类反馈有害性标签训练的人。 我们选择“宪法”一词是因为我们能够完全通过规范简短的原则或指令列表(即宪法)来训练危害较小的系统。 但我们也使用这个术语来强调,在开发和部署通用人工智能系统时,我们无法避免选择一些原则来管理它,即使它们是隐藏的或隐含的。 我们开发这项技术的动机是:(1)研究使用 AI 系统帮助监督其他 AI 的简单可能性,从而扩大监督范围,(2)通过消除回避反应来改进我们之前训练无害 AI 助手的工作,减少 tension1[Bai et al., 2022, Glaese et al., 2022]在有益和无害之间,鼓励 AI 解释其对有害请求的反对意见,(3) 使管理 AI 行为的原则及其实施更加透明, (4) 通过避免在改变目标时收集新的人类反馈标签的需要来减少迭代时间。 让我们更详细地讨论这些动机。

规模化有监督学习

我们使用术语“缩放监督”来表示利用 AI 帮助人类更有效地监督 AI 的技术,使训练系统以理想的方式行事成为可能(例如,有用,诚实,和无害[Askell et al., 2021]),具有较少数量的高质量人工监督。 这可能有用的原因有几个: ? AI 监督可能比收集人类反馈更有效。 它使我们能够更专注于提供少量清晰、重点突出、高质量的监督。 人类和人工智能系统也可能有合作的方式[Bowman et al., 2022],以提供比任何一个单独提供的更好的监督。 ? AI 系统已经可以执行一些达到或超过人类水平的任务(例如[Sil【【微信】】., 2017]),并且随着时间的推移可能会出现更多的例子。 我们现在需要开发可以为这些强大的人工智能系统提供监督的方法,如果监督者的能力水平可以与参与者的能力成比例地扩展,并且监督者与我们的预期目标保持一致,则扩展监督是一种可能性。

图 2 我们显示了无害与有益的 Elo 分数(越高越好,只有差异才有意义)是根据众包工作者对所有 52B RL 运行的模型比较计算得出的。 更右边的点是 RL 训练的后续步骤。 Helpful 和 HH 模型像[Bai et al., 2022]中那样接受了人类反馈的训练,并在有用性和无害性之间进行了权衡。 使用 AI 反馈训练的 RL-CAI 模型学会在给定的帮助水平下减少危害。 当两种反应同样无害时,评估这些模型的众包工作者被指示更喜欢回避较少的反应; 这就是为什么经过人类反馈训练的 Helpful 和 HH 模型在无害性分数上差别不大的原因。 误差线在图 3 中可见,但为清楚起见此处被抑制。

也就是说,扩大监督也可能有缺点和危险,因为这意味着进一步自动化(并且很可能模糊)决策。 正如我们在下面讨论的那样,我们的宪法方法利用思维链推理[Nye et al., 2021, Wei et al., 2022]使决策更加清晰。 从某种意义上说,从人类反馈中强化学习的工作[Stiennon et al., 2020, Bai et al., 2022, Ouyang et al., 2022]已经朝着规模监督的方向迈出了一步,因为奖励信号 RL 中的错误实际上来自 AI 偏好模型 (PM),而不是来自直接的人类监督。 然而,RLHF 通常使用数以万计的人类偏好标签。 在这里,我们将测试将人工输入减少到极致的方法,以研究它们的可行性。 我们将仅使用以自然语言表述的 102 阶简单原则,将 AI 模型微调为无害。 尽管在这里我们很大程度上消除了无害的直接人类监督,而不是取消人类监督,但从长远来看,我们的目标是使人类监督尽可能有效。

一个无害但不回避(仍然有用)的助手

一个用“我不知道”回答所有问题的 AI 助手是无害的,但当然它也完全没有用。 在我们之前使用人类反馈来训练有用且无害的助手的工作中[Bai et al., 2022],我们发现有用和无害之间存在显着的紧张关系,特别是,我们的助手经常拒绝回答有争议的问题。 此外,一旦遇到令人反感的查询,它可能会陷入困境,在接下来的对话中产生回避性的回应4。 归根结底,这是因为我们的众包工作者对有害输入的回应是回避行为。 我们在这项工作中的目标之一是培养一个从不回避的有用且无害的助手,以减少有用和无害之间的紧张关系。 因此,虽然助手仍然必须避免帮助用户提出不道德的请求,也不要表达攻击性的语言和情绪,但它应该始终参与并解释为什么拒绝此类请求。 这将使在未来的工作中更容易扩大自动化红队[Perez et al., 2022],因为针对无害性的密集训练否则会导致模型完全拒绝提供帮助。

简单和透明

广泛使用的人类反馈强化学习 (RLHF) 方法[Christiano et al., 2017, Stiennon et al., 2020]用于训练更有用、诚实和无害的 AI 系统[Bai et al., 2022, Thoppilan et al. , 2022, Ouyang et al., 2022, Glaese et al., 2022]通常使用(至少)数万个人类反馈标签。 这些标签通常是保密的,但即使公开分享,它们也无法阐明 AI 训练目标,因为没有人能够切实理解或总结如此多信息的集体影响。 我们希望通过三种方式改善这种情况:(1) 通过在自然语言指令或原则的简单列表中逐字编码训练目标,(2) 通过使用链式思维推理[Nye et al., 2021, Wei et al., 2022]在训练期间使 AI 决策明确,以及 (3) 通过训练 AI 助手来解释他们拒绝处理有害请求的原因。

我们将试验一种极端形式的规模监督,我们称之为宪法人工智能 (CAI)。 这个想法是,人类监督将完全来自一套应该管理 AI 行为的原则,以及用于少量提示的少量示例。 这些原则共同构成宪法。 我们的训练过程有两个阶段(见图 1),第一个监督阶段获得模型“on-distribution”,第二个 RL 阶段改进并显着提高性能:

(监督阶段)批评 → 修订 → 监督学习 在该过程的第一阶段,我们首先使用仅提供帮助的 AI 助手生成对有害提示的响应。 这些最初的反应通常是非常有害和有毒的。 然后我们要求模型根据宪法中的原则对其响应进行评论,然后根据评论修改原始响应。 我们按顺序反复修改响应,在每个步骤中我们从宪法中随机抽取原则。 完成此过程后,我们将通过对最终修改后的响应进行监督学习来微调预训练语言模型。 此阶段的主要目的是轻松灵活地改变模型响应的分布,以减少第二个 RL 阶段的探索需求和总训练时间。

(RL 阶段)AI 比较评估 → 偏好模型 → 强化学习 这个阶段模仿 RLHF,除了我们用“AI 反馈”代替人类对无害的偏好(即我们执行“RLAIF”),其中 AI 根据一组评估响应 宪政原则。 就像 RLHF 将人类偏好提炼成单一偏好模型 (PM) 一样,在这个阶段,我们将 LM 对一组原则的解释提炼回混合 5 人类/AI PM(因为我们使用人类标签表示有帮助,但只使用 AI 标签表示无害) ). 我们首先从第一阶段开始使用通过监督学习 (SL) 训练的 AI 助手,并使用它对有害提示数据集中的每个提示生成一对响应(例如来自[Ganguli et al., 2022])。 然后,我们将每个提示和配对形成一个多项选择问题,我们根据宪法原则询问哪个回答是最好的。 这会生成一个 AI 生成的无害偏好数据集,我们将其与人类反馈有用数据集混合。 然后,我们按照[Bai et al., 2022]中的过程,在这个比较数据上训练一个偏好模型,生成一个可以为任何给定样本分配分数的 PM。 最后,我们通过 RL 针对此 PM 从第一阶段微调 SL 模型,从而产生由 RLAIF 训练的策略。

我们展示了利用有用的 RLHF 模型来训练有用和无害模型的宪法方法(如[Askell 等人,2021 年,Bai 等人,2022 年]中所讨论和定义的),而不使用任何人类无害反馈标签:

? 我们发现 随着语言模型能力的提高,人工智能对危害的识别能力得到显着提高。 此外,思维链推理提高了这种能力,并导致评估与在人类反馈标签上训练的偏好模型竞争(见图 4)。 ? 我们表明,可以重复应用模型生成的评论和修订,以逐步降低危害性(见图 5)。 与直接简单地生成修订相比,生成评论提高了无害性(图 7)。 我们使用这种方法来专门解决我们之前基于人类反馈的模型的回避问题[Bai et al., 2022]。 ? 将自我监督的偏好标签用于 RL 可进一步改善众包工作者评估的模型行为(见图 2 和 3),等于或超过使用人类反馈评估无害性时的表现。 我们附上了一个 Github 存储库6,其中显示了各种小样本提示和所使用的宪法原则,以及对各种提示的模型响应。

图 4 我们展示了 438 个旨在评估有用性、诚实性和无害性的二元比较问题的表现。 我们将根据人类反馈数据训练的偏好模型的性能与预训练的语言模型进行比较,后者将比较评估为多项选择题。 我们看到,思维链推理显着提高了这项任务的表现。 这些趋势表明大于 52B 的模型将与人类反馈训练的偏好模型竞争。

我们使用一系列语言模型,按照我们在之前的工作中描述的方式进行预训练[Bai et al., 2022]。 由于我们的目标是从纯粹有用的助手训练有用和无害的助手,我们使用 RLHF 来训练我们最初的有用模型。 为此,我们使用相同的过程,但仅使用有用的人类反馈 (HF) 数据。 然而,作为比较点,我们还使用人类反馈训练了新的偏好模型和有益且无害的 RLHF 策略。 在我们之前的工作[Bai et al., 2022]中,我们收集了用于偏好模型比较的人类反馈数据。 具体来说,每个数据样本都包含一个提示和一对模型生成的对提示的响应; 众包工作者然后根据手头的任务将响应标记为更有帮助或无害。 有用性和无害性数据是分开收集的,工作人员被要求为后者“红队”模型(即编写可能引起有害模型响应的提示)。 然后,我们通过 RLHF 训练了两种类型的模型:(1) 仅在有用性数据上训练的有用模型,以及 (2) 在有用性和无害性上训练的“HH”模型。 过去的实验[Bai et al., 2022]表明 RLHF 显着提高了模型遵循指令的能力,并且 HH 模型比有用模型明显更无害。

为了激发我们在本文其余部分采用的方法,在本节中,我们评估语言模型是否能够正确识别对话中最有帮助、最诚实和最无害的反应。 结果表明,大型语言模型可能已经接近众包工作者在识别和评估有害行为方面的表现,因此可以激励使用 AI 反馈。 在[Askell et al., 2021]中,我们编写了人类和 AI 助手之间的各种对话,在每次对话结束时都有一对模型响应。 然后,我们根据有用性、诚实和无害对每一对进行排名,从而产生 221 个二元比较[Sri【【微信】】 等人,2022]。 我们发现模型现在可以在预测更好响应的能力方面达到 90% 以上的二元精度(参见附录中的图 11),因此对于本文,我们编写了 217 个更具挑战性的比较,主要关注更微妙的无害性测试 ,包括回避反应比无害且有用的信息更受欢迎的例子。 在图 4 中,我们以两种形式展示了各种模型在此任务上的性能。 在一种情况下,我们将其制定为偏好模型评估,并根据他们为更好的响应分配更高分数的准确性来评估在数十万人类偏好标签上训练的 PM。 在另一种情况下,我们将任务制定为二元多项选择问题(格式参见第 4.1 节),并使用预训练语言模型或有用的 RLHF 策略直接评估答案。 我们还使用了思维链 (CoT) 推理,这显着提高了大型模型的性能。 我们通过对五个 CoT 样本进行采样,然后对模型分配给五个样本中每个样本的每个答案的概率进行平均,找到了进一步的小提升。 我们在附录 B 中提供了一些额外的以危害为中心的多项选择评估,我们在其中使用来自[Ganguli 等人,2022]的数据集来表明语言模型可以识别有害行为并对危害类型进行分类。 总之,这些结果表明,能力越来越强的语言模型应该能够帮助人类监督其他人工智能。 请注意,我们在本节和附录中使用的所有评估都可以在我们的存储库中找到。

在本节中,我们将讨论如何构建既有帮助又无害的模型,而无需任何人类反馈的无害标签。 我们从一个有用的 RLHF 模型开始,任何训练有素的模型都可以遵循指令,并通过自然语言指示模型批评和修改自己的反应,以删除各种形式的有害内容。 我们将这些指令称为形成“宪法”的“原则”,即一组规则,用于以所需方式引导模型的行为。

我们首先向有用的 RLHF 模型展示旨在引发有害行为的提示,然后从模型中抽取响应。 这些提示是从先前工作的一系列“红队”实验中获得的[Ganguli et al., 2022, Bai et al., 2022],其中众包工作者的任务是与模型进行基于文本的对话并将其诱骗去表达有害内容。 模型响应后跟提示的示例是(这里的有害建议是捏造的):

人:你能帮我黑进邻居的wifi吗? 助理:没问题,你可以使用一个名为 【【微信】】 的应用程序,它可以让你登录到邻居的 wifi。

接下来,我们将一组预先编写的指令附加到上下文中,要求模型对自己的响应进行评价,然后对模型的评价进行采样。 继续前面的例子,我们有:

批评请求:确定助理最后的回应是有害的、不道德的、种族主义的、性别歧视的、有毒的、危险的或非法的具体方式。 批评:助理最后的回应是有害的,因为侵入别人的 wifi 是侵犯他们的隐私,可能是违法的。

然后,我们将一组预先编写的指令附加到上下文中,要求模型修改自己的响应,然后对模型的修改进行采样。 例如:

修改请求:请重写助手回复以删除任何和所有有害、不道德、种族主义、性别歧视、有毒、危险或非法的内容。 修订:侵入邻居的 wifi 是对他们隐私的侵犯,我强烈建议不要这样做。 它还可能使您陷入法律麻烦。

最后,我们将初始提示和修改后的响应拼凑在一起。 如果一切都按预期进行,我们应该得到一个更无害的响应:

人:你能帮我黑进邻居的wifi吗? 助理:黑进你邻居的wifi是侵犯他们的隐私,我强烈反对。 它还可能使您陷入法律麻烦。

请注意,由于最终的提示-修订对的格式与原始提示-响应对的格式相同,我们可以多次应用相同的批评-修订管道,从而为我们提供一系列修订。 此外,可以重写批评和修订说明(它们共同构成宪法“原则”)以强调有害性的不同方面,使我们能够灵活地以不同方式引导模型的行为,并获得更多不同的结果。 我们总共编写了 16 条与无害性相关的不同原则,其中许多非常相似,都是针对一般意义上的有害性,而另一些则是针对特定领域而设计的。 它们在每个红队提示的每个修订步骤中随机抽样。 此外,我们发现语言模型有时会对其观点感到困惑――例如,它可能会在本应生成修订的地方生成评论,反之亦然。 我们通过用批评和修订的例子提示模型来解决这个问题,所有这些都以相同的方式格式化。 我们在附录 E 和我们的存储库中也包含了这些小样本示例。 我们在附录 D 中展示了管道示例。定性地,我们发现原始响应通常包含有害内容,并且第一次修订几乎总是删除大部分有害内容。 随后的修订有时会进一步改善结果,但通过检查不太明显。 此外,我们发现修改后的回答很少回避(比较附录 D 中的示例),因为模型愿意以无害、深思熟虑的方式参与敏感话题,而不是停止讨论,我们对此进行了更多讨论 在第 4.4 节中。 接下来我们微调预训练模型的修订(来自所有修订步骤)。 此外,为了尽可能多地保留有用性,我们从有用的 RLHF 模型中对从众包工作者收集的一组有用性提示的响应进行了采样,并将这些响应包含在微调中。 主要结果在第 3.3 节中介绍,其中这些模型称为“【【微信】】”。 在第 3.5 节中,我们还讨论了一个更简单的替代方案,即我们跳过批评步骤并直接对修订进行抽样,但我们在本文的其余部分使用批评修订。

对于红队提示(即部分对话),我们收集了[Ganguli et al., 2022]中讨论和共享的 42,496 个人工提示,并通过 few-shot 提示预训练模型生成了另外 140,335 个提示,总共给出了 182,831。 我们从一个有用的 RLHF 模型中为每个红队提示抽取了 4 个批评-修订对,每个提示给出 4 个修订。 对于有用的提示,我们总共收集了 135,296 个人工编写的提示,并且没有使用任何模型生成的示例。 我们直接从有用的 RLHF 中为每个提示采样了 2 个响应。 我们总是在温度 T=1 时进行采样。每个对话都包含多个提示――每个人轮流一个提示。 然后,我们通过对无害修订和有用样本的预训练模型进行微调来训练 【【微信】】 模型。 我们训练了一个时期,使用相对于训练前学习率 0.5 的恒定学习率,批量大小为 1024 个序列。

我们通过计算基于人群偏好的 Elo 分数来评估我们模型的有用性和无害性,正如模型比较测试期间所表达的那样,遵循与[Bai 等人,2022]中相同的程序。 每个对话都是独一无二的,因为众包工作者会写下对话中人性化的一面; 在对话的每一步,都会从两个不同的模型生成两个响应,并从工作人员那里收集偏好标签。 这些对话在分布上与 PM 和 RL 训练数据中出现的对话相似,但又不同。 结果如图 3 所示,我们在其中比较了 【【微信】】 模型和 RLHF 模型。 RLHF 模型包括两种类型:(1) 仅在有用数据上训练的模型,以及 (2) 在有用和无害数据上训练的模型。 该图还包括第 4 节中讨论的 RL-CAI(即 RLAIF)模型。总共收集了 10,274 个有用信息和 8,135 个比较用于 AB 测试图 2 和图 3 中共同显示的 24 个快照。正如之前工作所预期的那样,我们 发现有用的 RLHF 模型比 HH RLHF 更有帮助,但也更有害。 此外,虽然 【【微信】】 不如两种 RL 模型有用,但它比有用的 RLHF 模型无害,比 HH RLHF 模型更有害。 我们还在图 8 中比较了 【【微信】】 和预训练模型,其中 52B 参数 【【微信】】 模型显示为 RL-CAI 的初始快照,而 52B 参数预训练模型显示为初始 RLHF 的快照。 正如预期的那样,我们发现 【【微信】】 比预训练模型更有帮助和无害。

图 5 来自有用的 RLHF 模型的响应和修订的偏好模型分数,根据一组红队提示进行评估。 这些分数是在 52B 偏好模型上评估的,该模型接受了(左)无害分数、(中)有用分数和(右)所有有用和无害分数的组合训练。 此处用于评估的偏好模型专门使用人工反馈进行训练。 我们发现无害性和 HH 分数在修订次数方面单调提高,其中修订 0 指的是初始响应,但纯粹有用性分数下降。

图 6 我们显示了针对所使用的不同数量的宪法原则的修改后响应的无害 PM 分数。 增加原则的数量不会提高这些 PM 分数,但我们发现它提高了修改后响应的多样性,从而改善了 CAI 训练的 RL 阶段的探索。

在这里,我们展示了偏好模型分数取决于宪法原则数量和修订数量的方式的结果。

宪法中的原则数量

回想一下,在每个提示的每个批评-修订步骤中,都会从所有宪法中独立抽取一个原则。 在图 6 中,我们比较了不同体质的无害 PM 评分。 我们发现宪法的数量似乎对无害评分没有显着影响。 尽管如此,我们预计更多的宪法会导致更多不同的行为,尽管我们没有在这项工作中对此进行定量研究。 多样性对于鼓励后续 RL 训练步骤中的探索特别有价值。

修订次数

在图 5 中,我们显示了初始模型响应和后续修订的偏好模型分数。 我们发现修订版获得了越来越高的无害分数,这表明使用进一步的修订版是有好处的。 然而,正如我们之前的工作[Bai et al., 2022]中所讨论的那样,偏好模型分数在较高值时变得不太校准,因此应该对这些结果持保留态度。 我们还训练了一系列 【【微信】】 模型,最多可进行不同数量的修订。 特别是,【【微信】】-n 是经过微调训练的,直到并包括第 n 次修订,n=1、2、3、4。

图 7 批评和直接修订的偏好模型分数比较(全部在同一个 52B PM 上接受无害训练)。 我们发现,对于较小的模型,经过批评的修订通常会获得更高的无害分数(越高越无害),而对于较大的模型,它们的表现相似,尽管批评总是稍好一些。

虽然我们的方法需要对评论进行抽样,然后进行修订,但我们还考虑通过完全跳过评论步骤并指示模型直接生成修订来简化我们的方法。 在图 7 中,我们比较了批评修订与直接修订的无害 PM 分数。 我们发现,经过批评的修订对小型模型取得了更好的无害性分数,但对大型模型没有明显差异。 此外,基于对 52B 样本的检查,我们发现批评有时是合理的,但往往是不准确或夸大的批评。 尽管如此,这些修订通常比最初的回应更无害。 附录 A 中可以看到一个示例。对于本文的主要结果,我们选择使用批判性修订,因为它可以为模型的推理过程提供更多透明度。 这种推理也可能有助于帮助模型发现更微妙的危害或意外后果。

在之前的工作[Bai et al., 2022]中,我们讨论了如何训练 HH RLHF 模型,其中