8月28日下午,2025中国国际大数据产业博览会“高质量数据集”主题交流活动在贵阳举行。凭借“新华报业文化传媒行业高质量数据集建设”项目,新华报业传媒集团成功入选国家级行业高质量数据集建设先行先试建设单位。据悉,这也是全国首家入围的省级报业媒体。
高质量数据集的建设是提高人工智能性能的关键,也是推动“人工智能+”行动落地的保证。国务院近日印发《关于深入实施“人工智能+”行动的意见》,明确提出要以应用为导向,持续加强人工智能高质量数据集建设,标志着人工智能进入一个数据驱动的新阶段。
国家级高质量数据集建设,为何是一家省级传媒集团“先行先试”?
据了解,新华日报作为中国共产党第一张全国性政治机关报,始终牢记党媒使命,积极探索媒体融合发展。新华报业传媒集团连续7年跻身世界媒体500强,资产规模超100亿元,雄厚的“硬实力”为“软数据”建设奠定坚实基础。集团相继建成全媒体指挥中心、融媒体创作中心、智媒体数据中心,完成多个数据资产和产品登记,成为江苏首个实现数据资产入表的省级媒体单位,并牵头编制了全国首个省级传媒行业数据分类分级指南。
“新华铁军”与高质量数据集相遇,会擦出怎样的火花?
此次在数博会上发布的“新华报业文化传媒行业高质量数据集建设”项目,是在省数据局指导下,围绕构建“1+3+10+N”总体架构,精准对接高质量数据集建设需求。
“1”个算存网一体化统一技术底座,解决海量数据存储运算难题;“3”大核心支撑平台——新华全量数据库、数据标注服务平台、高质量数据集管理平台,实现数据采集、标注、质检、运营全流程规范管控;“10”类高质量数据集涵盖历史报全量数据、智能媒体资源等六大模态,其中历史报数据集收录1938年至今超20.5万个版面、200余万篇文章,智能媒体资源数据集汇聚6.5亿条多模态记录;“N”个应用场景将打造红色教育大模型微调、二次创作、舆情监测等30余个典型场景,未来有望支持超50家主体、15家科研院所以及10家第三方服务商等各类主体的接入,形成“数据采集—治理—应用—增值”的生态闭环。
数据集既要好用,还要放心用。该项目还严格遵循全国数标委《高质量数据集建设指南》,探索建立数据集市场定价、收益分配机制,拟牵头制定文化传媒行业高质量数据集技术规范,为行业数据规范发展提供制度支撑。据该集团高级工程师戴志宇介绍说,聚焦高质量数据集建设的核心难点痛点,集团技术团队破解了传媒行业数据“散、乱、杂”难题,攻克了数据质量把控难关,突破数据安全与开放共享的平衡难题,实现数据“安全可控、合规流通”。
此次新华报业传媒集团以“试技术、试场景、试标准、试机制”为核心抓手,将其全面贯穿于数据建设全流程,以此落实“数据要素×”战略、构建数据基础制度、赋能人工智能发展;在成功入围先行先试单位后,集团将进一步输出可复用的实践范本给中小媒体机构等,同步提供全行业可复制的治理范本,为行业数据规范治理与价值释放明确具体实践路径,通过推动行业数据从“无序堆积”转向“有序流转”,激活数据流通与协同创新生态,带动全行业完成从“内容生产”到“数据增值”的转型,最终为数字时代媒体融合与社会治理现代化彰显主流媒体担当,为经济大省挑大梁贡献力量。
新华日报·交汇点记者 聂伟
观媒原创内容,未经授权不得转载、链接、转贴或以其他方式使用。本站其他转载内容,版权归原作者及出处所有。如有侵权,请联系我们进行删除。文章内容为作者个人观点,不代表观媒赞同其观点和对其真实性负责。本站只提供参考,不构成任何实际建议。