栏目分类

热点资讯

科技动态

你的位置：智创未来网 > 科技动态 > AI大模子泰斗评测：豆包中语对话最强，OpenAI o1推理和数学占优

AI大模子泰斗评测：豆包中语对话最强，OpenAI o1推理和数学占优

发布日期：2025-01-26 05:32 点击次数：105

作家 | 徐豫

裁剪 | 漠影

还有不到一周就2025年了，各大酬酢音娱平台接踵自调节出“年度陈说”的搜索选项。身处AI元年，AI模子这份年终答卷，当然也少不了。

智东西12月25日报说念，智源商讨院12月19日发布了FlagEval“百模”评测扫尾，本年国产大模子与国际大模子战况懆急。

在其闭源大模子评测身手总榜中，字节高出的豆包通用模子pro拿到主不雅评测最高分，OpenAI的o1-mini拿到客不雅评测最高分；多模态模子评测总榜前三名规律是OpenAI的GPT-4o、字节高出的豆包视觉知道模子、Anthropic的Claude 3.5 Sonnet。

▲谎言语模子评测身手榜单前三名（图片着手：智源商讨院）

这次评测包含国表里累计100多个开源和贸易闭源的话语、视觉话语、文生图、文生视频、语音话语大模子，新增了关于AI模子任务贬责身手、实在金融量化往来场景愚弄身手、狡辩身手的考量尺度。

同期，为了尽可能镌汰数据集清楚风险，并减少数据集豪阔度问题，本次评测吸纳了近期发布的数据集、捏续动态更新评测数据、替换了98%的题目以及擢升了题目标难度。

其实客岁6月，智源商讨院就上线了大模子评测平台FlagEval，到刻下该平台已有基于AI的提拔评测模子FlagJudge、多模态评测框架FlagEvalMM和针对大模子新身手的评测集。其与北京大学共建的HalluDial是刻下大众范围最大的、对话场景下的幻觉评测集，包含超18000个轮次对话和超14万个回报。

从智源评测最新扫尾不错看出，本年下半年大模子发展更侧重综称身手擢升与内容愚弄；多模态模子快速发展，该鸿沟内裸露了不少新厂商与新AI模子；话语模子的发展则相对放缓。

收获于多模态身手的擢升，AI模子最新K12学科老练详尽得分相较于半年前擢升了12.86%，但是仍与北京海淀学生平均水平存在差距。不外，AI模子无数存在“文强理弱”的偏科情况，在英语和历史文科试题的发扬上，已有AI模子超越了东说念主类考生的平平分。

谷歌Gemini 1.5 Pro、阿里巴巴Qwen-VL-Max、Anthropic Claude 3.5 Sonnet、阶跃星辰Step 1V、南洋理工大学LLaVA-Onevision等7家AI模子的英语学科详尽得分高于东说念主类考生；阶跃星辰Step 1V、阿里巴巴Qwen-VL和Qwen-VL-Max、谷歌Gemini 1.5 Pro、南洋理工大学LLaVA-Onevision等12家AI模子的历史学科详尽得分高于东说念主类考生。

▲大模子K12学科老练历史学科卷面分数榜单前五名（图片着手：智源商讨院）

一、豆包中语对话身手最强，OpenAI o1系列推理水平断层率先

基于智源评测扫尾，本年多款国产大模子综称身手超越国际著明大模子。

在闭源大模子主不雅评测中，豆包通用模子pro和百度ERNIE 4.0 Turbo的详尽评分均率先于OpenAI的o1-preview、o1-mini、GPT-4o；而在开源大模子主不雅评测中，阿里巴巴Qwen2.5的详尽评分高于Meta Llama 3.3和Llama 3.1。

主不雅评测更偏重窥察大模子中语身手，而国产大模子在中语话语身手上具有无数上风。

因此，从内容详尽评分不错看出，国产大模子占据了闭源大模子主不雅评测榜单的泰半壁山河。其前20名中共有15款国产大模子，占比75%，包括豆包通用模子pro、百度ERNIE 4.0 Turbo、阿里巴巴Qwen-Max、智谱华章GLM-4-Plus、阶跃星辰Step 2等。

▲谎言语模子评测身手榜单主不雅评测前五名（图片着手：智源商讨院）

不外，如若把大模子放在客不雅评测池子里比较，国产大模子的发扬仍与国际大模子有着一定差距。

OpenAI的o1-mini得到客不雅评测的最高分64.57，相通属于o1系列的o1-preview，以60.36的详尽评分位列榜单第二。该项评测中阿里巴巴的Qwen-Max和豆包通用模子pro各自的详尽评分为57.60和56.49，与o1-mini之间简略有7分的分差，与o1-preview之间简略有3分的分差。

▲谎言语模子评测身手榜单客不雅评测前五名（图片着手：智源商讨院）

麇集各项细分身手的评分来看，国产大模子更“重文轻理”，主要在推理、数学、代码等方面落伍于OpenAI的大模子。举例，即即是侧重中语语境，OpenAI o1-preview仍拿到主不雅评测任务贬责板块的最高分85.37，与第二名的79.52分和第三名的77.41分比较率先上风较为显着。

二、多模态评测，国产大模子各擅胜场

据智源商讨院调研，本年市面上面部模子的多模态身手得到大幅擢升，上半年参评的模子无数无法生成正确的中语笔墨，但年末参评的头部模子仍是具备中语笔墨生成身手。

从这次多模态模子评测数据来看，视觉话语模子平均排名前三折柳是OpenAI的GPT-4o、豆包视觉知道模子和Anthropic的Claude 3.5 Sonnet。这三者中豆包的通用学问、笔墨识别等中语身手与其他两家拉开了较大差距，若单看英文图表知道发扬则Claude的排名最靠前。

▲视觉话语模子名次榜前三名（图片着手：智源商讨院）

靠近文本、图片、视频、语音等多模态数据的处理时，豆包文生图模子、豆包视频生成模子“即梦P2.0 pro”折柳在相应测试中位列大众第二，腾讯Hunyuan Image文生图水平大众第一，快手可灵1.5（高品性版）文生视频水平大众第一，阿里巴巴Qwen2-Audio语音话语水平大众第一。

▲文生视频模子名次榜前三名（左），文生图模子名次榜前三名（右）（图片着手：智源商讨院）

刻下，AI文生图的技能合座趋于熟识，但AI文生视频鸿沟仍有较多挑战。现阶段，热点的AI文生视频模子有可灵1.5（高品性版）、即梦P2.0 pro、爱诗科技PixVerse V3、Minimax海螺AI、Pika同名AI模子Pika 1.5等。

其中，位列榜单第一、二名的可灵和即梦均可生成时长10s的视频，所生成的视频在图文一致性上也打成平手，但前者在AI视频实在性和视频质地后发先至，后者则在AI视频好意思学质地和分辨率上竣事反超。

上述几家多模态模子中，唯一阿里巴巴的走开源道路。关于多模态开源模子的内容后果，智源商讨院方面称，诚然开源模子架构趋同，即频繁禁受话语塔和视觉塔的架构，但具体发扬不一。其中较好的开源模子，在图文知道雇务上正在减轻与头部闭源模子的身手差距，而长尾视觉学问与笔墨识别，以及复杂图文数据分析身手仍有擢升起间。

三、AI模子更擅长反驳辩题，还可任职金融行业低级岗亭

智源商讨院在AI模子的年末评测中，新建造了对其狡辩身手和金融量化往来身手的考核维度。

不到3个月前，智源商讨院推出了一个名为FlagEval Debate的AI模子狡辩平台。该平台主要从逻辑推理、不雅点知道和话语抒发等中枢身手维度，真切评估AI话语模子的身手各异。

据最新评测扫尾，一方面AI大模子无数枯竭狡辩框架意志，不具备围绕辩题、以合座逻辑详尽敷陈的身手；另一方面AI大模子在狡辩中仍然存在“幻觉”问题，给出的论据频繁经不起谈判。

比较于“正方”，AI大模子似乎更相宜作念狡辩赛的“反方”。这次评测扫尾标明AI大模子更擅长反驳，各个模子所隆起的狡辩维度趋同。不外，遭遇不同的辩题时AI模子间的发扬差距会较为显赫。

总体来看，在FlagEval Debate评测中，Anthropic Claude 3.5 Sonnet、零一万物Yi-Lighting、OpenAI o1-preview的详尽水平名次前三。

而在金融量化往来鸿沟，这次评测发现大模子已具备生成有回撤收益的计谋代码的身手，能开采量化往来典型场景里的代码，头部AI模子身手已接近低级量化往来员的水平。

该榜单前5名规律是深度求索的DeepSeek-V2.5、OpenAI的GPT-4o、OpenAI的o1-mini、谷歌的Gemini 1.5 Pro和智谱华章的GLM-4-Plus。此外，百度、腾讯、字节高出、商汤、阿里巴巴、百川智能和零一万物等7家国产大模子开采商均有产物上榜。

▲金融量化往来评测榜单前五名（图片着手：智源商讨院）

智源商讨院主要用学问问答、往来计谋的跑通率和夏普指数、方针诡计的跑通率和准确率、诡计性能的跑通率这6项方针，来比较AI模子的金融量化往来身手。

其中，在学问问答方面，AI模子合座各异较小且合座分数偏高，大部分得分介于0.97到1之间，最低分为Meta Llama 3.1的0.69。关联词，靠近内容代码生成任务时，各AI模子各异较大，何况合座身手偏弱。

结语：国产大模子竞争加重，下半场比拼商用质地

在这场“各捏己见”中，国产大模子开采商们不仅闲适了其AI模子的中语身手上风，还进一步开采了文生图、文生视频、文生语音等多模态模子后劲。

以前一年，大模子鸿沟也迎来了诸多新拐点，Scaling Law相对放缓、AI模子的数学身手从中学生水平跃升到博士生水平、OpenAI 12月底刚发布的推理模子o3性能接近甚而超越了东说念主类水平、背靠AI模子的AI Agent办法和产物热度攀升。

下一步，AI模子将从卷参数目迈向卷愚弄场景，催熟贸易化落地的效力和效益。

上一篇：抖音完成100部经典港片4K高清配置责任：已上线抖音、西瓜视频

下一篇：上海：支柱恰当要求的银发经济关联企业刊行上市