栏目分类

热点资讯

创新思维

你的位置：智创未来网 > 创新思维 > OpenAI说明发布o3

OpenAI说明发布o3

发布日期：2025-01-18 05:39 点击次数：64

OpenAI说明发布o3

今天凌晨2点，OpenAI的12天直播，终于来到了最终章。

奥特曼，也在一派圣诞的气味中终于记忆。

为全球带来了临了的压轴大戏。

OpenAI o3。

又一次轶群，又一次把模子的才调，推到了新的高度。

也向全寰宇解说了，OpenAI，依然在铁王座上牢不可摧。

我也思起了OpenAI议论员在发布o1之前的那句话：

“咱们通往AGI的路上，如故莫得任何阻挠了”

之是以OpenAI奏凯发布o3莫得o2，原因也挺通俗的。

因为跟英国电信干事提供商O2可能存在版权或商标冲破，是以奏凯跳过了。。。

伸开剩余90%

奏凯到o3。

而OpenAI直播一完，X上基本就欣慰了。

o3的才调，对当今系数模子，实在王人奏凯是降维打击。

看下o3的才调吧。

一些粗的评测集通俗过一下。

左边的是软件工程测验（SWE-Bench Verified），这就像是一个考写门径的测验，比如你写一个软件要它快速、准确，还弗成有 bug（小空虚）。这是阅览 o3 是否能像一流的软件工程师雷同写出好意思满的代码。

o3 的获利：71.7%，比o1还强了不少。

右边的阿谁基准相比猛，Codeforces，一个全球著名的编码竞赛平台。

o3的得分是2727，这个得分，零星于系数这个词榜单的第175名，如故超过了99.99%的东谈主类了。

o1的代码才调如故强到爆炸了，而o3，又向AGI的山顶，前进了一大步。

数学竞赛AIEM 2024和博士级科学测验GPQA Diamond。

AIEM 2024接近满分，如果我没记错的话，这应该亦然第一次AI能达到有AIEM接近满分的水平。

博士级科学测验有进化，但没数学和编程进化的这样猛。

接下来的这个数学基准相比兴味少量。

FrontierMath， Epoch AI 开荒的一个数学基准测试，由 60多位顶尖数学家的协调开荒，旨在评估东谈主工智能在高档数学推理方面的才调。

况兼为了幸免数据混浊，系数的题目王人是原创的且从来莫得发布过的新题目。

之前 GPT-4 和 Gemini 1.5 Pro这种模子去评估的时候，告捷功率不及2%，与其他传统数学基准（如 GSM-8K 和 MATH）中跨越90%的告捷率酿成昭彰对比。

而这一次， o3奏凯达到了25.2。

当各大其他模子王人还在卷传统数学基准的时候，o3真实如故插足了另一个寰宇了。。。

就像全球还在大斗师阶段相互卷，你是五星大斗师，我是八星大斗师。

两者争论束缚，正准备要比试比试，忽然就看到一个斗宗英雄踏空而行，留住一地的卧槽。

这还比个鬼。

然后，即是我合计，系数这个词基准里，最兴味的一个基准了：

ARC-AGI。

先说说这是个啥玩意。

ARC-AGI于2019岁首度建议，旨在通过一系列详尽和推理任务来测试AI系统的才调。

主淌若因为传统的手段测量次序并弗成有用代表智能，因为它们频频依赖于先前学问和教会，而信得过的智能应体当今凡俗的符合才融合通用性上。

不错通俗的清晰成，找规则。

约略即是这样的。

相等的难且详尽。

畴昔几代模子的评分在此：

* GPT-2 (2019): 0%

* GPT-3 (2020): 0%

* GPT-4 (2023): 2%

* GPT-4o (2024): 5%

* o1-preview (2024): 21%

* o1 (2024): 32%

* o1 Pro (2024): ~50%

然则今天，o3的分数，达到了恐怖的87.5%。

从0%到5%，整整花了5年的时代，而如今，从5%到87.5%，只是只花了半年。

而对应的，东谈主类的阈值分数，是85%。

咱们通往AGI的路上，如故莫得任何阻挠了。

不外o3强归强，然则又是一个期货，OpenAI现时只对红队绽放，如果是巨佬的话，不错去央求试试。

网址在此：https://openai.com/index/early-access-for-safety-testing/

现时不知谈o3什么时候放出，然则OpenAI又基于o3，训了3个小尺寸的o3模子。

现时o3-mimi，预估在1月底不错对外绽放，然则嗅觉到时候，确定又是pro会员专属的模子了。

我越来越期待，2025年AI行业的进化了。

推理模子、Agent、AI硬件、寰宇模子。

每一个王人是比这个中间态的2024，王人更让东谈主欣喜的东西。

2025，必是AI行业，信得过的星辰大海。

咱们也在临了，追想一下这12天的直播吧。

Day 1：满血o1上线，ChatGPT Pro会员上线，o1 pro推出。

Day 2：基于o1的强化微调。

Day 3：Sora说明发布。

Day 4：ChatGPT Canvas全员绽放以及小功能更新。

Day 5：给苹果站台，宣传苹果全系接入GPT。

Day 6：4o的及时视频清晰上线。

Day 7：ChatGPT发布新建文献夹“技俩”功能。

Day 8：ChatGPT Search全量绽放，搜索体验大幅优化。

Day 9：发布了o1的API、更新了及时语音的API、发布了偏好微调才调（PFT）。

Day 10：物理真谛上的不错给ChatGPT打电话了。

Day 11：炒冷饭，ChatGPT 桌面版能读到别的期骗。

Day 12：OpenAI o3说明发布。

这12天，略微有点惊喜的日子约略惟有2、3天，其他王人是垃圾时代。

还好，今天的大货，补上了之前的灰暗。

临了，如故忍不住惊奇一声。

这12天，像一场漫长的马拉松。

咱们资历了夜深中罪戾累累的垃圾时代。

却也迎来了临了的高光技能。

这嗅觉。

还挺AI的。

发布于：北京市

上一篇：超等推理模子正靠近垒：谷歌版o1发布次日，OpenAI o1下一代o3登场

下一篇：摩根士丹利中国首席经济学家邢自立：“924”新政仅仅序曲，而不是终章