栏目分类
发布日期:2025-02-13 14:50 点击次数:114
IT之家 1 月 11 日讯息,中国收集空间安全协会于 1 月 9 日发布公告,面向社会发布华文互联网语料资源平台,支合手行业范围、实践模态、体量范围等多种标签分类,便于用户下载与使用。
该协会暗示在中央网信办领导下,会同国度互联网济急中心,在前期发布华文互联网基础语料 1.0 的基础上,依托专委会确立的语料共建分享机制,会聚一批新的高质地真实数据,经由信源筛选、实践过滤、数据去重等一系列严格精雅的数据加工处理模范,酿成并对社会发布华文互联网基础语料 2.0,范围 120GB,数据 3800 万条。
IT之家注:现在平台共入驻 27 个语料数据集,数据总量约 2.7T,主要分三类:
一是中国收集空间安全协会会同国度互联网济急中心等成立的华文互联网基础语料;
二是东说念主民网、北京智源究诘院、上海东说念主工智能实验室等单元分享的互联网语料;
三是中国收集空间究诘院、中国国度版块馆、中国大百科全书出书社、中国社会科学院藏书楼等单元孝敬的优质华文基础语料样本。
用户登录中国收集空间安全协会网站(https://www.cybersac.cn/ newhome),点击“华文互联网语料资源平台”运动,通过注册、认证等门径,即可下载有关语料。
网安协会东说念主工智能安全处理专委会崇拜东说念主暗示,数据是发展东说念主工智能的基础关节资源,华文互联网基础语料 2.0 是各界协同共建高质地华文语料的又一迫切后果,专委会将合手续加强华文互联网基础语料成立,为东说念主工智能期间改进和产业发展提供有劲撑合手和保险。