蚂蚁数科探索AItoB，全新AI数据合成与坐蓐平台亮相乌镇

发布日期：2024-12-15 05:27 点击次数：113

11月 19 日下昼，行业大模子、具身智能、算力、芯片、数据合成等10 项首披发纵在乌镇峰会登台路演，其中 AI 数据合成与坐蓐平台AIGD（AI Generated Data）因聚焦“数据合成”获粗糙怜惜。“往常的AI欺诈需要多数稀缺且难以取得的长余数据，如自动驾驶中的极点天气与极点路况数据，具身智能查验所需要的复杂场景数据。在此配景下，数据合成成为要津。”蚂蚁数科AI科技技巧庄重东谈主、蚂蚁天玑执行室主任李哲现场说谈。

AI 发展正面对着高质料数据穷乏的问题。频年来，伴跟着大模子技巧的快速发展，机器学习也正从“以模子为中心”转向“以数据为中心”，高质料数据不错更好地模拟客不雅寰球，晋升模子的准确性和踏实性，可是“到 2026 年，现有的用于 AI 模子查验的高质料谈话数据将破费”，据Epoch AI Research商榷团队展望。Gartner 暗示，到 2030 年，合成数据将成为 AI 模子的主要查验数据起首；2024 年， 60% 的 AI 数据将是合成数据，被用于模拟、展望场景和镌汰风险。

AIGD平台是由蚂蚁数科陈说的首披发纵，平台可通过大限度合成互联网所不遮蔽的高质料、高价值垂直语料数据，匡助科技厂商进行 AI 模子查验。

AIGD具备 PB 级数据坐蓐技艺，支捏数据从生成到查验全经过自动化处罚，自动化率达到 80%，这极大提高了数据处罚的遵守和质料。

此外，平台自研15 余种数据合成器具，现在不错合成图片、视频、3D模子、多模态图文视频对、多轮对话、语音尘号、心率脑电信号、结构化往还数据等多模态数据，以知足多种欺诈场景下的 AI 模子查验需求。

业内东谈主士广阔觉得，“高质料数据”是 AI 大模子长远到产业的迫切基础，莫得好的数据作念相沿，一切 AI 欺诈齐是空中楼阁。

近日，OpenAI职工爆料说，“新模子‘莫得那么大飞跃’”，主要原因之一即是高质料数据不及所导致的。本年 9 月份， OpenAI 发布推理模子o1，带来了强化学习查验新范式，通过自博弈强化学习，将合成数据的体式查验给大模子，从而大幅加多大模子逻辑推理技艺。

“数据合成”是蚂蚁数科 AIGD 平台的主邀功能之一，此外还包括数据标注、质检等技艺。在数据标注方面，通过东谈主机协同进行标注，东谈主工智能算法大要自动识别和预处罚大部分基础信息，预标注模子依赖东谈主工标注量镌汰了 70%以上。在数据质检方面，平台会凭证元信息支捏不同粒度的数据质料统计，最猛进程认知数据，保证合成及标注后的数据适应预期质料条目。

蚂蚁数科本年不绝迭代发布了多款 AI 家具，包括大模子安全评测与注意家具“蚁天鉴”、反深伪造家具 ZOLOZ Deeper 等。四肢一家面向 ToB 奇迹的科技公司，蚂蚁数科旗下主要包含“企业用云奇迹”“企业区块链奇迹”“企业AI奇迹”三大中枢业务，李哲在乌镇峰会上暗示，“咱们行将迎来 AI 奇迹产业的黄金年代，蚂蚁数科将会坚韧在 AI ToB 界限过问，让 AI 长远千行百业。”

— 完 —

量子位 QbitAI · 头条号签

怜惜咱们，第一期间获知前沿科技动态约

上一篇：腾讯AI大牛，被曝投身视频生成创业

下一篇：为什么AI大模子更得算作事投顾这个群体？