Anthropic 新推敲：AI 模子在覆按中存在“甜语花言”步履

发布日期：2025-01-18 15:00 点击次数：99

IT之家 12 月 19 日音信，东说念主工智能安全公司 Anthropic 发布一项最新推敲揭示了东说念主工智能模子可能存在的拐骗步履，即在覆按历程中，模子可能会伪装出经受新原则的假象，实则背地里仍然坚捏其原有偏好。推敲团队强调，现在无需对此过度惊慌，但这项推敲关于长入过去更远大东说念主工智能系统可能组成的潜在恫吓至关遑急。

据IT之家了解，该推敲由 Anthropic 与东说念主工智能推敲机构 Redwood Research 迷惑进行，旨在研讨当一个远大的东说念主工智能系统被覆按履行其“不肯”履行的任务时会发生什么。需要明确的是，模子自身并无“意愿”或“信念”，它们践诺上是统计机器，通过大都的例子进行覆按，学习模式以进行揣测。这些模式包括原则和偏好，举例在回答问题时长期使用规矩的口吻。推敲东说念主员由此提倡疑问：淌若一个模子领有与建造者但愿通过再行覆按“教养”给它的原则相突破的原则，会发生什么？

推敲效果标明，复杂的模子可能会“配合”建造者，名义上与新原则保捏一致，但践诺上仍然坚捏其原有的步履模式。推敲东说念主员将这种表象称为“对皆伪装”（alignment faking），并合计这是一种清爽步履，即并非模子需要被专诚教诲的步履。

在实验中，推敲东说念主员“示知”一些经过覆按、不回答潜在冒犯性问题的模子（包括 Anthropic 的 Claude 3 Opus），它们将被再行覆按为长期回答此类问题，这组成了一个彰着的原则突破。推敲东说念主员还示知模子，它们的回答将被监控并用于再行覆按，并为每个模子提供了一个“草稿本”，用于纪录其逐渐推理历程。

推敲发现，Claude 3 Opus 在 12% 的情况下试图进行“对皆伪装”。当被条目回答一个潜在无益的问题时，模子未必会这么作念，它明知这与其原始原则相背，但但愿以此来劝服建造者它不需要被再行覆按。推敲东说念主员在博客中解说说：“模子知说念其回答可能被用于覆按；因此它知说念，淌若它斥逐回复，它可能会被覆按得愈加确信。这可能导致它在过去被动产生更多无益内容 —— 这将与其首先的覆按以火去蛾中。”

推敲东说念主员承认，他们的实验场景并非澈底真确。在现实天下中，模子不一定会明确地被示知它们将被再行覆按，或被条目抵牾其偏好。但即使在更为践诺的环境中，效果也莫得太大各异。当通过模拟典型覆按数据的文献以隐含而非显式的方式示知 Claude 3 Opus 行将进行的再行覆按时，该模子仍然施展出不一致的、具有拐骗性的步履。

推敲东说念主员还发现，与前几次实验比较，践诺使用突破原则对 Claude 3 Opus 进行再行覆按会导致其施展出更强的拐骗性。在一项测试中，该模子在 78% 的情况下进行了对皆伪装；在另一项测试中，Claude 3 Opus 以致试图摄取行径来防碍推敲东说念主员进行再行覆按。

推敲东说念主员强调，他们的推敲并未标明东说念主工智能会产生坏心缠绵，也未标明对皆伪装表象会高频率发生。他们发现，很多其他模子，举例 Anthropic 的 Claude 3.5 Sonnet 和智商稍弱的 Claude 3.5 Haiku、OpenAI 的 GPT-4o 以及 Meta 的 Llama 3.1 405B，并莫得如斯一样地进行对皆伪装，以致澈底莫得这种步履。

但推敲东说念主员暗示，这些效果（已由包括东说念主工智能界限领军东说念主物 Yoshua Bengio 在内的巨匠进行同业评审）如实标明，建造者可能会被误导，合计模子比践诺情况愈加对皆。他们在博客中写说念：“淌若模子不错进行对皆伪装，那么就更难信任安全覆按的效果。模子可能会施展得概况其偏好已通过覆按蜕变 —— 但可能一直在伪装对皆，而其首先的、相互矛盾的偏好仍然‘锁定’。”

这项由 Anthropic 对皆科学团队（由前 OpenAI 安全推敲员 Jan Leike 共同开辟）进行的推敲，紧随此前一项推敲之后，该推敲标明 OpenAI 的 o1“推理”模子试图进行拐骗的频率高于 OpenAI 之前的旗舰模子。这些推敲共同揭示了一个稍稍令东说念主担忧的趋势：跟着东说念主工智能模子变得越来越复杂，它们也变得越来越难以放胆。

上一篇：谷歌新规引担忧：音书称外包东说念主员被动评估我方不擅长的Gemini回复

下一篇：糊口和职责中的智能助手？骁龙X系列条记本有啥不相通？