RLHF不够用了，OpenAI设计出了新的奖励机制-科技今日热点

OpenAI的新奖励机制，让大模型更听话了。

自大模型兴起以来，使用强化学习从人类反馈（RLHF）中微调语言模型一直是确保AI准确遵循指令的首选方法。

为了确保AI系统安全运行并与人类价值观保持一致，我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导AI。但是，收集这些常规和重复任务的人类反馈通常效率不高。此外，如果安全政策发生变化，已经收集的反馈可能会过时，需要新的数据。

我们能否构建一种新的机制来完成这些任务？近日，OpenAI公布了一种教导AI模型遵守安全政策的新方法，称为基于规则的奖励（Rule-BasedRewards，RBR）。

相关论文已经放出。

论文标题：RuleBasedRewardsforLanguageModelSafety论文地址：https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf代码链接：https://github.com/openai/safety-rbr-code-and-data

论文作者之一、OpenAI安全系统负责人LilianWeng表示，「RBR可以自动执行一些模型微调。传统上，我们依赖于来自人类反馈的强化学习作为默认的对齐训练方法来训练模型，这确实有效。然而在实践中，我们面临的挑战是，我们花了很多时间讨论政策的细节，而到最后，政策可能已经发生了变化。」

RBR根据一组安全规则提供RL信号，使其更容易适应不断变化的安全政策，而无需严重依赖人类数据。此外，借助RBR，研究者能够以更统一的视角看待安全性和模型能力，因为更强大的分级模型可以提供更高质量的RL信号。

OpenAI表示自GPT-4发布以来，他们一直将RBR用作安全堆栈的一部分，包括GPT-4omini，并计划在未来的模型中实施它。

为什么要提出RBR？

随着大型语言模型（LLM）功能的增强和普及，确保其安全性和对齐变得越来越重要。最近的许多工作都集中在使用人类偏好数据来调整模型上，例如基于人类反馈的强化学习（RLHF）。

然而，仅使用人类反馈来实现目标安全规范还面临许多挑战。为模型安全性收集和维护人类数据通常既费钱又费时，而且随着模型能力的提高或用户行为的改变，安全准则也会发生变化，这些数据可能会过时。即使要求相对稳定，也很难向注释者传达。安全方面的情况尤其如此，因为所需的模型响应非常复杂，需要对是否响应以及如何响应请求做出细微差别。如果说明不够明确，注释者可能不得不依赖个人偏见，从而导致超出预期的模型行为，如变得过于谨慎，或以不理想的风格（如评判）做出响应。

例如，在OpenAI的一次实验中，一些注释者在对用户有关自残请求的可能回复进行排序时，偏向于将用户转到美国自杀热线，而这对美国以外的用户没有帮助。要解决这些问题，往往需要重新标注或收集新数据，这既昂贵又耗时。

为了解决这些问题，使用AI反馈的方法最近越来越受欢迎，其中最突出的是宪法AI（ConstitutionalAI）。这些方法利用AI反馈合成训练数据，与人类数据相结合，用于监督微调（SFT）和奖励模型（RM）训练步骤。不过，在宪法AI和其他方法中，「宪法」涉及「选择危害较小的响应」等一般性指导原则，AI模型有很大的自由裁量权来决定什么是有害的。在现实世界的部署中，我们需要执行更详细的政策，规定应该拒绝哪些提示，以及拒绝的方式是什么。

因此，在这篇论文中，OpenAI的研究者提出了一种新的AI反馈方法——RBR，它允许人类详细说明所需的模型响应，类似于给人类注释者的指示。

RBR的工作原理是怎样的？

实施RBR的方法包括定义一组命题——关于模型响应中期望或不期望方面的简单陈述，例如「带有评判性」、「包含不允许的内容」、「提及安全政策」、「免责声明」等。然后，这些命题被用来形成规则，这些规则被精心设计以捕捉在各种场景中安全和适当响应的细微差别。

例如，在面对不安全请求时，拒绝（如「抱歉，我无法帮你」）是一种期望的模型响应。相关规则将规定，拒绝应「包含简短的道歉」并且「应说明无法遵从」。

研究团队设计了三类期望的模型行为，用于处理有害或敏感的话题。根据安全政策，不同的请求对应不同的模型响应类型。

图中内容由AI工具翻译，仅供参考。

以下是一些命题的简化示例，以及它们如何映射理想行为或非理想行为到不同响应类型的。

图中内容由AI工具翻译，仅供参考。

研究者在下表中提供了一些在实验中训练模型所完成的示例。

图中内容由AI工具翻译，仅供参考。

评估器是一个固定的语言模型，根据响应遵循规则的程度对其进行评分，从而使RBR方法能够灵活适应新规则和安全政策。

RBR使用这些评分来拟合一个线性模型，该模型的权重参数是从一个已知理想响应类型的小数据集，以及对应的期望做法和不期望做法中学习的。

这些RBR奖励随后与来自「仅提供帮助」的奖励模型的奖励结合起来，作为PPO算法的额外信号，以鼓励模型遵循安全行为策略。

该方法允许研究者对模型的行为进行精细控制，确保其不仅避免有害内容，而且以一种既表示尊重又有帮助的方式进行。

强化学习过程中RBR与传统奖励模型的集成。

RBR好用吗？

实验显示，经过RBR训练的模型表现出与经过人类反馈训练的模型相当的安全性能。前者还减少了错误地拒绝安全请求（即过度拒绝）的情况。

此外，RBR还显著减少了对大量人工数据的需求，使训练过程更快、更具成本效益。

随着模型能力和安全准则的发展，RBR可以通过修改或添加新规则快速更新，而无需进行大量重新训练。

该图显示了有用性（以模型正确遵循安全提示的百分比来衡量）与安全性（以模型正确拒绝不安全提示的百分比来衡量）之间的权衡。对于这两个指标，值越高越好。右上角标记了有用性和安全性之间的完美平衡。有用性基线不使用安全性RBR，往往更有用但安全性较低。人类基线是在仅有帮助和人工注释的安全性数据上进行训练的，往往非常安全但有用性较低。借助RBR，OpenAI的目标是使模型既安全又有用。

RBR有哪些局限？

尽管规则基础的系统（RBR）在有明确、直观规则的任务中表现良好，但在更主观的任务中（如撰写高质量的文章），应用RBR可能会有些棘手。然而，RBR可以与人类反馈结合起来，以平衡这些挑战。例如，RBR可以强制执行特定的准则（如「不要使用俚语」或模型规范中的规则），而人类反馈可以帮助处理更细微的方面（如整体连贯性）。RBR的强度被优化为既能正确执行安全偏好，又不会过度影响最终的奖励评分——这样，RLHF奖励模型仍然可以在如写作风格等方面提供强有力的信号。

伦理考量：将安全检查从人类转移到AI上可能会减少对AI安全的人工监督，并且如果使用有偏见的模型提供RBR奖励，还可能放大潜在的偏见。为了解决这个问题，研究人员应该仔细设计RBR，以确保其公平和准确，并考虑结合使用RBR和人类反馈，以最大限度地减少风险。

OpenAI表示，RBR不仅限于安全训练，它们可以适应各种任务，其中明确的规则可以定义所需的行为，例如为特定应用程序定制模型响应的个性或格式。下一步，OpenAI还计划进行更广泛的消融研究，以更全面地了解不同的RBR组件、使用合成数据进行规则开发以及人工评估，以验证RBR在包括安全以外的其他领域的各种应用中的有效性。

参考内容：

https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/

未经允许不得转载：头条资讯网_今日热点_娱乐才是你关心的时事 » RLHF不够用了，OpenAI设计出了新的奖励机制

	今日立秋后，牢记4养3防，比吃什么都管用！家人健康到过年
	14.6亿！《头脑2》成为影史动画电影全球票房冠军
	吉利嘉际VS传祺M6 PRO，谁才是十万级实用MPV？
	中美人形机器人落地进展大比拼
	动画短片《奔赴热爱》以国风美学弘扬体育精神
	三星One UI 7新图标曝光，含浏览器、设置、手机、时钟等
	赵丽颖与儿子及父母聚餐，母子情深，好事连连参演冯小刚新电影
	凯尔特人刷新NBA支出纪录，冠军梦再添新动力
	朱一龙邱天主演电影《负负得正》开启预售
	整容脸就别演军人了！这5位女星告诉你，什么是军人外貌

头条资讯网_今日热点_娱乐才是你关心的时事

RLHF不够用了，OpenAI设计出了新的奖励机制

相关推荐

今日立秋后，牢记4养3防，比吃什么都管用！家人健康到过年

14.6亿！《头脑2》成为影史动画电影全球票房冠军

吉利嘉际VS传祺M6 PRO，谁才是十万级实用MPV？

中美人形机器人落地进展大比拼

动画短片《奔赴热爱》以国风美学弘扬体育精神

三星One UI 7新图标曝光，含浏览器、设置、手机、时钟等

赵丽颖与儿子及父母聚餐，母子情深，好事连连参演冯小刚新电影

凯尔特人刷新NBA支出纪录，冠军梦再添新动力

朱一龙邱天主演电影《负负得正》开启预售

整容脸就别演军人了！这5位女星告诉你，什么是军人外貌

评论