OpenAI王炸第二弹强化微调：12个例子处理专科学习推理，Altman称为本年最大惊喜

发布日期：2025-01-03 15:28 点击次数：194

本文作家：李丹

着手：硬AI

OpenAI贯穿12天“王炸”的第二弹来了。不同于第一日聚焦东说念主工智能（AI）模子，第二日的王炸专注于干事企业等组织的一款新功能，天然看起来不太侧重于世俗豪侈者，但据先容它以致不错让陋劣版推理模子o1 mini的效力进步本周四发布的郑再版o1、所谓满血o1。

好意思东时辰12月6日周五，OpenAI在酬酢媒体X公布第二日行径的主题是新功能“强化微调”（Reinforcement Fine-Tuning）。这个主题是指，企业组织将简略通过“强化微调”微调o1 mini，自恃他们的特定需求。

OpenAI CEO Sam Altman在X发帖称，强化微调的效力额外棒，是他本年最大的惊喜之一，期待看到宇宙利用这种功能的创造。

OpenAI的相关员本周五先容，科学家、斥地东说念主员和相关东说念主员不错把柄我方的数据、而不是只是使用公开可用的数据，量身定制OpenAI的普遍推理模子o1。不同业业的东说念主不错使用强化学习来创建基于 o1 的巨匠模子，从而普及该规模的举座专科学问水平。斥地者、相关者和机器学习工程师将初度能期骗强化学习，打造能干他们各自专科规模的巨匠模子。

OpenAI的相关员称，强化微调并不是单单教模子模子输出，它的运作神志是，当模子发现一个问题的时候，相关者给模子空间区仔细念念考这个问题，然后评估模子给出的最终解答，期骗强化学习，相关者不错强化产生正确谜底的念念路，防止产生演叨谜底的念念路，只需要“几十个例子”（a few dozen examples）、以致12个例子，模子就能以灵验的新神志学习特定规模的推理。

通过强化学习，用户不错用大模子在特定数据上闇练其他模子。这关于触及到大齐数据的复杂规模或需要巨匠规模学问的新相关额外有用。相关者例如称，最近和汤森路透勾引，期骗强化微调微调o1 mini，让它充任法务助理，匡助他们的法律专科东说念主士完成大部分分析责任流。

OpenAI称，OpenAI的定制模子平台将复旧强化学习，强化学习亦然OpenAI里面用于闇练自家前沿模子的时代，如GPT-4o和o1系列模子。在OpenAi的内测中，强化微调照旧在死活一火学、安全、法律和医疗保健规模取得到手。OpenAI规划，2025年头让强化微调面向公众发布，目下已对企业、大学和相关院绽放央求测试通说念。

伯克利大学萧瑟遗传病相关员 Justin Reese参与了OpenAI本周五对o1 mini模子的现场演示。演示中，相关者试图从样本数据池中获得可能导致疾病的模子 ID 基因。

相关员展示了一个评估表，下图可见，第一滑是本周四OpenAI发布的郑再版o1测评表现，第二行是o1 mini的测评已矣 ,第三行已矣来自过程最终强化微调的o1 mini。相关员进行了三类评估，其中，top @1是测试模子给出的正确谜底出当今列表最前哨中的概率，top@5是正确谜底出当今前五列的概率，top@max是谜底出当今总计正确谜底列表的概率。

如图所示，郑再版o1的测试通过率为25%，o1 mini为17%，而强化微调后的o1 mini果真达到31%，进步了郑再版o1，比郑再版o1的测评已矣高24%，况且比拟未强化微调前，微调后的已矣普及了82.3%。

据OpenAI所说，用户不错玄虚期骗o1、微息争数据创建定制的微型 o1模子 o1 mini。用户要作念的便是提供数据，然后在强化微调方面，建筑一个数据集和一个“评分器”，把柄闇练和考据数据集评估模子的性能，其他责任交给OpenAI。

本文来自微信公众号“硬AI”，存眷更多AI前沿资讯请移步这里

风险指示及免责条件阛阓有风险，投资需严慎。本文不组成个东说念主投资提议，也未筹商到个别用户罕见的投资指标、财务景况或需要。用户应试虑本文中的任何办法、不雅点或论断是否适宜其特定景况。据此投资，背负自诩。

上一篇：手机良友适度安全吗?ToDesk提醒开启以下多种防骗安全缔造

下一篇：淘宝双12对准年青东说念主