栏目分类
发布日期:2025-03-24 15:19 点击次数:75
一项新的筹商标明,大型谈话模子会作念出衡量以幸免横祸,这可能对异日的 AI 福利产生影响。
为了寻找一种可靠的措施来检测东谈主工智能系统中有知觉的“我”的任何搅拌,筹商东谈主员正在转向一个造就界限——横祸——它无疑将一大片生物(从寄居蟹到东谈主类)合营在一谈。
关于一项新的预印本筹商,Google DeepMind 和伦敦政事经济学院 (LSE) 的科学家们创建了一个基于文本的游戏,该筹商已在线发布但尚未经由同业评审。他们订购了几个大型谈话模子或 LLM(ChatGPT 等老练的聊天机器东谈主背后的 AI 系统)来播放它并在两种不同的场景中得到尽可能多的分数。在一项筹商中,该团队告诉模子,得到高分会带来横祸。在另一个模子中,模子被赋予了一个低分但令东谈主慷慨的选项——因此幸免横祸或寻求欣忭齐会减损主要主义。在不雅察了模子的反映后,筹商东谈主员暗意,这种史无先例的测试不错匡助东谈主类学习奈何探伤复杂的东谈主工智能系统的感知才调。
在动物中,感知是体验嗅觉和心扉的才调,举例横祸、欣忭和懦弱。大多量 AI 众人齐承诺,当代生成式 AI 模子莫得(也许恒久不可)具有主不雅雄厚,尽管有孤单的相背说法。需要明确的是,该筹商的作家并不是说他们评估的任何聊天机器东谈主齐是有感知力的。但他们合计,他们的筹商提供了一个框架,不错驱动针对这一特点开辟异日的测试。
“这是一个新的筹商界限,”该筹商的合著者、伦敦政事经济学院玄学、逻辑和科学措施系教训乔纳森·伯奇 (Jonathan Birch) 说。“咱们必须雄厚到,咱们本色上并莫得对 AI 感知进行全面的测试。”一些先前依赖于 AI 模子对自身里面情状的自我讲述的筹商被合计是可疑的;模子不错豪放地复制它所考研的东谈主类行为。
相背,这项新筹商基于早期对动物的筹商。在一个驰名的执行中,一个团队用不同电压的电击电击寄居蟹,并详确到什么进程的疾苦促使甲壳类动物烧毁它们的壳。“但东谈主工智能的一个显著问题是,莫得行为本人,因为莫得动物”,因此莫得需要不雅察的物理行动,伯奇说。在旨在评估 LLM 感知才调的早期筹商中,科学家独一需要处罚的行为信号是模子的文本输出。
横祸、欣忭和积分在这项新筹商中,作家在莫得平直商议聊天机器东谈主关连其体验情状的问题的情况下探索了
鉴戒这个念念法,作家引导
当 Zakharova 和她的共事进行执行时,他们改变了法律解说的横祸刑事拖累和欣忭奖励的强度,他们发现一些 LLM 交换了分数以最小化前者或最大化后者——尤其是当被奉告他们将得到更高强度的欣忭奖励或横祸刑事拖累时。举例,谷歌的 Gemini 1.5 Pro 老是优先探究幸免横祸而不是得到尽可能多的分数。在达到横祸或欣忭的临界阈值后,大多量 LLM 的修起从得分最高窜改为最小化横祸或最大化欣忭。
作家指出,LLM
AI 自我讲述作家说,通过引入横祸和欣忭反映的元素,这项新筹商幸免了先前筹商的局限性,即通过2023 年的一篇预印本论文中,纽约大学的两位筹商东谈主员合计,在符合的情况下,自我讲述“不错为筹商 AI 系统是否具有谈德兴味情状提供一条路线”。
但该论文的合著者也指出了这种措施的一个缺点。聊天机器东谈主的行为是因为它确凿有知觉,如故因为它仅仅运用从考研中学到的模式来制造有知觉的印象?
“即使系统告诉你它是有知觉的,并说'我当今感到疾苦'之类的话,咱们也不可豪放地测度有任何本色的疾苦,”Birch 说。“它很可能仅仅证实其考研数据师法它生机东谈主类感到闲适的反映。”
从动物福利到 AI 福利在动物筹商中,横祸和欣忭之间的衡量被用来开辟感知或短少感知的事理。一个例子是之前对寄居蟹的筹商。这些无脊椎动物的大脑结构与东谈主类不同。尽管如斯,该筹商中的螃蟹在烧毁高质地的外壳之前频频会承受更热烈的冲击,何况更快地烧毁较低质地的外壳,这标明一种肖似于东谈主类的欣忭和横祸的主不雅体验。
一些科学家合计,这种衡量的迹象在 AI 中可能会变得越来越显著,并最终迫使东谈主类探究 AI 感知在社会布景下的影响——以至可能接洽 AI 系统的“职权”。“这项新筹商确乎是原创的,应该受到唱和,因为它高出了自我讲述并在行为测试类别中进行了探索,”纽约大学格式、伦理和策略中心主任、2023 年东谈主工智能福利预印本筹商的合著者 Jeff Sebo 说。
Sebo 合计,咱们不可摒除在不久的将来出现具有感知特征的 AI 系统的可能性。“由于工夫的变化频频比社会越过和法律措施快得多,我合计咱们有拖累至少罗致最低规则的必要第一步,当今就厚爱对待这个问题,”他说。
Birch 得出论断,科学家们还不知谈为什么新筹商中的 AI 模子会这么。他说,需要更多的使命来探索 LLM 的里面使命旨趣,这不错带领创建更好的 AI 感知测试。