栏目分类
发布日期:2024-12-15 05:27 点击次数:112
11月 19 日下昼,行业大模子、具身智能、算力、芯片、数据合成等10 项首披发纵在乌镇峰会登台路演, 其中 AI 数据合成与坐蓐平台AIGD(AI Generated Data)因聚焦“数据合成”获粗糙怜惜。“往常的AI欺诈需要多数稀缺且难以取得的长余数据,如自动驾驶中的极点天气与极点路况数据,具身智能查验所需要的复杂场景数据。在此配景下,数据合成成为要津。”蚂蚁数科AI科技技巧庄重东谈主、蚂蚁天玑执行室主任李哲现场说谈。
AI 发展正面对着高质料数据穷乏的问题。频年来,伴跟着大模子技巧的快速发展,机器学习也正从“以模子为中心”转向“以数据为中心”,高质料数据不错更好地模拟客不雅寰球,晋升模子的准确性和踏实性,可是“到 2026 年,现有的用于 AI 模子查验的高质料谈话数据将破费”,据Epoch AI Research商榷团队展望。Gartner 暗示,到 2030 年,合成数据将成为 AI 模子的主要查验数据起首;2024 年, 60% 的 AI 数据将是合成数据,被用于模拟、展望场景和镌汰风险。
AIGD平台是由蚂蚁数科陈说的首披发纵,平台可通过大限度合成互联网所不遮蔽的高质料、高价值垂直语料数据,匡助科技厂商进行 AI 模子查验。
AIGD具备 PB 级数据坐蓐技艺,支捏数据从生成到查验全经过自动化处罚,自动化率达到 80%,这极大提高了数据处罚的遵守和质料。
此外,平台自研15 余种数据合成器具,现在不错合成图片、视频、3D模子、多模态图文视频对、多轮对话、语音尘号、心率脑电信号、结构化往还数据等多模态数据,以知足多种欺诈场景下的 AI 模子查验需求。
业内东谈主士广阔觉得,“高质料数据”是 AI 大模子长远到产业的迫切基础,莫得好的数据作念相沿,一切 AI 欺诈齐是空中楼阁。
近日,OpenAI职工爆料说,“新模子‘莫得那么大飞跃’”,主要原因之一即是高质料数据不及所导致的。本年 9 月份, OpenAI 发布推理模子o1,带来了强化学习查验新范式,通过自博弈强化学习,将合成数据的体式查验给大模子,从而大幅加多大模子逻辑推理技艺。
“数据合成”是蚂蚁数科 AIGD 平台的主邀功能之一,此外还包括数据标注、质检等技艺。在数据标注方面,通过东谈主机协同进行标注,东谈主工智能算法大要自动识别和预处罚大部分基础信息,预标注模子依赖东谈主工标注量镌汰了 70%以上。在数据质检方面,平台会凭证元信息支捏不同粒度的数据质料统计,最猛进程认知数据,保证合成及标注后的数据适应预期质料条目。
蚂蚁数科本年不绝迭代发布了多款 AI 家具,包括大模子安全评测与注意家具“蚁天鉴”、反深伪造家具 ZOLOZ Deeper 等。四肢一家面向 ToB 奇迹的科技公司,蚂蚁数科旗下主要包含“企业用云奇迹”“企业区块链奇迹”“企业AI奇迹”三大中枢业务,李哲在乌镇峰会上暗示,“咱们行将迎来 AI 奇迹产业的黄金年代,蚂蚁数科将会坚韧在 AI ToB 界限过问,让 AI 长远千行百业。”
— 完 —
量子位 QbitAI · 头条号签
怜惜咱们,第一期间获知前沿科技动态约