CGTN等全球多家主流新闻机构原创心血被AI语料窃取

智媒观察

CGTN等全球多家主流新闻机构原创心血被AI语料窃取

本文发布于 2025-11-11 09:09

来源:AIGC观察站（公众号）

当千万条YouTube视频在创作者毫不知情时，被科技巨头悄然“喂”给AI模型，一场关于原创与掠夺的无声战争正在打响。

《大西洋月刊》历时数月调查，首次将这场隐秘的数据收割公之于众：从《纽约时报》、BBC到CGTN，从独立创作者的木工教学到政治评论，全球超1500万条YouTube 视频被科技公司未经授权下载，其中数以十万计来自新闻媒体和新闻创作者的内容，成为AI视频生成模型的“原材料”。

AIGC观察站转载来自可维咨询的一篇文章，该文章原始来源包括The Atlantic的主文、其互动搜索数据库，以及后续媒体如Nieman Lab的分析总结。

它有效地阐述了AI产业在发展过程中，对海量受版权保护的原创视频内容（尤其是新闻内容）的依赖，以及由此引发的关于知识产权、商业道德和原创内容价值的深刻问题。

《大西洋月刊》“AI Watchdog” 专栏近日发布最新调查研究，报道组经过数月跟访调查发现，YouTube 上大量优质视频素材，已经成为各大科技公司训练人工智能的重要 “原材料”。
调查组从至少13个科技公司、大学和研究机构的AI开发者分发的数据集中，找到超200万个YouTube频道的，超1580万条视频。

这些科技公司包括微软、Meta、亚马逊、英伟达、Runway、字节跳动、Snap和腾讯，而这些数据集通过诸如Hugging Face这样的在线AI开发中心网站进行分发。

《大西洋月刊》已经把其调查到的数据集，整理成可搜索的数据库，供读者自行搜索研究。

1500万条视频被“偷”：AI的“原材料”里藏着新闻人的原创心血

值得注意的是，数据集中，有数十万段视频，来自YouTube上最受欢迎的新闻媒体和新闻创作者频道，包括《纽约时报》《华盛顿邮报》《卫报》《华尔街日报》和半岛电视台AL Jazeera这样的国际大媒体：

英国广播公司BBC：数据集中包含至少33000个视频，涵盖BBC旗下各个品牌账号；

福克斯新闻FOX News：超88000段视频被包含在内，其中包括其旗舰账号和福克斯商业频道；

美国广播公司新闻频道 ABC News：大约70000段视频被包含在内，包括早间节目《早安美国》的大量视频；
彭博社Bloomberg：超55000段视频，包括彭博原创频道、彭博电视台和彭博科技频道；

《纽约时报》：超11604个视频别包含在内，包括旗下烹饪频道热门内容；

Vox：超30000段视频，包括Vox科普解释类视频、Eater的旅行纪录片，以及The Dodo的动物感人视频；
科技媒体The Verge：约有13900个视频被包含在内，其中包括 iOS 设备指南、旗舰播客《The Vergecast》剧集，以及对马克·扎克伯格等硅谷CEO 的采访；

此外，数据集还涵盖中央广播电视总台CGTN旗下多个频道的视频内容。

在搜索栏里输入CGTN，能发现CGTN旗下主账号、美国频道、非洲频道、法国频道、纪录片频道的视频都被收入在内。

当我搜索CGTN America，可以搜到11个数据集，收录了55133个CGTN在 YouTube 平台上美国频道账号的视频。

就像ChatGPT没有先“研读”莎士比亚的作品，就无法像他那样写作一样。一个视频生成AI，如果没有“观看”大量已录制的新闻节目，也无法制作出虚假的新闻报道。

近年来，AI科技公司在基础设施方面（芯片、服务器和数据中心）投入了前所未有的资金，以支持其模型更新迭代。
但当涉及到AI的核心产出内容，包括新闻报道、创意作品，这些科技公司的投入却少得可怜，他们的投入却少得可怜。

Vox Media 发言人劳伦·斯塔克（Lauren Starke）表示：“为了生存，AI 平台深知他们需要像我们这样高质量、可信的内容，以赋予其产品相关性和意义…没有我们的优质内容，这些平台的现实情况将会是：垃圾进，垃圾出。”

科技公司的“标签密码”：新闻视频被拆成“视觉语言”喂给模型

《大西洋月刊》报道组跟踪调查了十几个相关数据集，而其中一些数据集与现在市面上多个AI视频生成模型有明确关联。

比如这些数据集中，共11个数据集收录了《纽约时报》YouTube 频道约 11604 个视频，而其中超8000个视频来自同一个的训练数据源——Runway Gen-3，该数据集由Runway公司编制。

Runway是一家总部位于美国纽约的生成式人工智能公司，专注于为电影和视频制作开发多模态AI模型，其AI工具曾应用于奥斯卡获奖影片《瞬息全宇宙》的制作。

2024年6月，该公司发布新一代视频生成模型Gen-3 Alpha，在视频质量、生成速度和运动控制方面实现显著提升。
自该模型发布以来，好莱坞各大电影公司和电视制作公司已开始将Runway 的产品纳入其电影、电视和营销制作流程中。

彭博社今年夏天的一份报告称，网飞（Netflix）已经在其“内容制作”中使用了Runway的工具，而华特·迪士尼公司（Walt Disney Co.）也一直在测试其软件。

2024年，Runway累计融资2.36亿美元，估值达15亿美元。

今年8月，Runway与投资者洽谈新一轮约5亿美元（约合人民币36亿元）融资时，投前估值已超50亿美元（约合人民币359亿元），背后支持方不乏谷歌、英伟达、Salesforce等巨头。

去年，媒体404披露了一份名为《视频分享–代号Jupiter》的Runway内部“标注excel表格”，表格列出了数千个被认定为高质量的频道。

在这份excel表中：

《华尔街日报》YouTube频道约27000个视频被标记为：“大量图表、演示讲解、展示与讲述（lot of graphics, walkthroughs, show and tell）”

媒体CNET约22000个视频被描述为“技术评测（tech reviews）”，并被标记了关键词短语“使用笔记本电脑using a laptop”。

《华盛顿邮报》的21000个视频被标注为“大量新闻片段但也有大量背景素材（A lot of news clips, but also a lot of background material.）”。

《早安美国》节目约 35000 个视频被标注为“漱口（gargling）”，这是 AI 术语，指的是模型只表面上模仿其训练内容，但没有更深层次的“理解”。

《纽约时报》官方 YouTube 频道的视频被标注为“nyt 视频、观察报告、背景素材、对话、人类主体（nyt video, op docs, b-roll, talking, human subjects.）”。数百个《纽约时报》烹饪视频被标记为“炒蛋（scrambling eggs）”。

这份excel表格，还列出了 Runway 看重的某些频道的特点，包括“高镜头移动”“美丽的电影场景”“高质量的电影片段”“超高质量的科幻短片”。

还有一个频道被标注为“迄今为止汽车电影摄影的圣杯”；另一个则被标注为“仅有 4 个视频，但质量非常好”。
这种标注语言，一定程度上揭示了 Gen-3 被训练模仿特定视觉语言风格，甚至是具体的动作。

不止商业模型：研究型数据集里，新闻视频也在被“悄悄共享”

但并非所有数据集，都与商业 AI 视频产品有着明确的关联，其中一些数据集曾被大型人工智能公司的研究部门使用，包括 Meta、Snap、腾讯和字节跳动。

例如，一个名为 HD-VILA-100M 的训练数据集，最初是由微软亚洲研究院收集的，该研究院位于中国北京。
《大西洋月刊》报道称，HD-VILA-100M 由微软研究人员提供下载，随后被众多大型人工智能公司用于其自身的研究和开发。

Meta利用该数据集开发了其“制作视频”（Make-A-Video）文本转视频系统，并于 2022 年发布。

腾讯旗下的一个研究实验室使用HD-VILA-100M制作了一个可供公开使用的数据集，该数据集能够与OpenAI 用于其Sora视频生成模型的训练数据相媲美。

TikTok母公司Byetdance使用该模型训练其实验性的文本转视频模型“魔法视频”（MagicVideo）。

Snapchat 母公司Snap则将该模型用于研究，以改进人工智能视频标题生成、视频搜索工具和文本转视频生成技术。

HD-VILA-100M 在人工智能行业中历经数年传播，目前共集纳数万个新闻媒体YouTube视频。其中包括福克斯新闻YouTube频道超13000个视频、德国之声DW频道约6300个视频，以及半岛电视台英语频道约5520个视频等。

另一个名为 YT-Temporal-180M 数据集是由华盛顿大学和艾伦人工智能研究所（一家非营利性研究机构）的研究人员共同编制。

《大西洋月刊》报道称，该数据集托管在谷歌云服务器上，并可通过 Hugging Face 平台进行下载。

YT-Temporal-180M 包含了约36000条福克斯新闻的视频、约 34000 条彭博社的视频，以及约31000条美国广播公司新闻的视频等。

自2021年首次发布以来，YT-Temporal-180M 已在Hugging Face上被下载超1450次。

独立创作者内容被纳入段：为 AI 提供与主流媒体完全不同的创作风格

除了上述那些主流大媒体，这些数据集中还收录了大量YouTube独立创作者的视频，包括新闻聚合内容、访谈、脱口秀、政治评论节目等。

如《大卫·帕克曼秀（The David Pakman Show）》，该频道目前订阅量超300万，这些数据集涵盖该频道约15000个视频，被收录在HD-VILA-100M 和 YT-Temporal-180M 等多个数据集中。

该频道创始人兼主持人Pakman称，“我明白人工智能训练通常会涉及大量公开可用数据的采集，但当这种使用方式如此集中，比如某一位创作者的数万条视频被集中纳入训练集，就不是偶然，更像是未经同意的大规模知识产权提取。”

《连线》杂志（Wired）此前曾报道过帕克曼视频中的字幕，被用于训练语言模型。

另一个 YouTube 频道《萨姆·塞德主持的多数报告（The Majority Report with Sam Seder）》的近11000个视频也包含在数据集中，该频道在 YouTube 上拥有近200万订阅者。

Sam Seder推测，他频道的内容，可能为人工智能公司提供了与主流新闻媒体完全不同的“视觉和语言特定表达方式”。

该频道视频直播录制、听众来电节目和反应视频，风格类似电台主持人的那种政治评论。

此外还有大量个人创作者的“科普教学”视频被纳入数据集。

如在 YouTube 平台有约 100万订阅量的乔恩·彼得斯的木工频道，他自己是一名专业木工，频道主要内容是给木工爱好者的教学视频。

AI视频的“隐形入侵”：你刷到的“真实”，可能已经是AI的“拼接品”

AI 视频工具目前还不像聊天机器人或图像生成工具那样普及，但已经得到了广泛使用。
我们看过的很多内容可能已经是 AI 处理成果，只是我们并未意识到。
例如，TED 已经使用 AI 将演讲者的演讲翻译成不同的语言，包括视频和音频。而演讲者的嘴部会与新的词语同步，看起来像是他们在说日语、法语或俄语。

TED 总法律顾问称演讲者已知情并同意。

此外，还有一些面向消费者的工具，比如，如果您的面部看起来不太合适，可以使用诸如 “Facetune” 这样的面部增强工具，或者使用 “Facewow” 这样的面部替身工具来完全替换您的面部。通过Runway的“Aleph”，您可以改变物体的颜色，或者将阳光变成暴风雪。

还有一些工具文生视频、图生视频。谷歌鼓励Gemini用户为他们“最喜欢的图片”制作动画。

还有些“头像生成”工具被大量用于员工培训，如Vidnoz AI承诺生成“任何风格的逼真人工智能发言人”。还有一家名为 Arcads 的公司，可以生成完整的广告，包括演员和旁白。

字节跳动旗下TikTok开发了一款名为“Symphony Creative Studio”的产品。还有其他 AI 视频生成技术，可以完成虚拟试穿服装、生成定制视频游戏、为卡通角色和人物制作动画等操作。

今年 6 月，戛纳国际广告节将一项大奖授予了一则包含 AI “深度伪造”的广告。

广告公司 DM9 利用人工智能克隆技术，修改了一段演讲，并将其放入广告片中用于商业活动。当被发现后，戛纳国际广告节才撤销了该奖项。

享誉国际的广告节官方团队尚无法分辨 AI 视频的真假，普通人又该如何？！

新闻视频，为何成了AI的“香饽饽”？

新闻视频，为何成了 AI 的“香饽饽”？

科技公司非常清楚，新闻视频里藏着最鲜活的“人类经验”。
新闻片段里，有政客的微表情、突发新闻的现场混乱；纪录片里有历史事件的细节还原、人物采访的真挚情绪；地方台的民生新闻里有普通人的烟火气、社区问题的真实碰撞……

这些内容，恰恰是AI生成“真实感视频”最需要的“养料”。

就像学写作要先读经典，学画要先临名画，AI要生成“像真人拍的新闻”，必须先“看”够真人拍的新闻。
但讽刺的是，当科技公司用“偷”来的新闻视频，训练出能“一键生成新闻片段”的工具，普通人可能再也不需要看《纽约时报》的视频——反正 AI能“总结”出更“高效”的版本。

当我们需要学习一个专业木工技巧，只需向 AI 提问，聊天机器人就可以生成一个段和专业木工一样实用的教学视频。

而如今的原创作者，未来该如何立足，尚不可知。

但无论如何，AI的进步不该以摧毁原创为代价。

新闻的生命力，从来不是“更高效的生成”，而是“更真实的记录”；不是“更像真的”，而是“本来就是真的”。
毕竟，我们需要的从来不是“AI生成的新闻”，而是“人写就的历史”。

阅读量:2405

原标题:从《纽约时报》到 CGTN，数十万新闻媒体视频成为 AI 视频生成模型 “原材料”

CGTN等全球多家主流新闻机构原创心血被AI语料窃取

传递文明互鉴中国力量金熊猫奖走进深圳

每经科技推出雨燕智宣AIGC智创传播平台3.0版

中新社女记者半夜独闯柳州震中：一个人成为一支队伍

云南台副台长王珂、张莹通过试用期正式任职

《中国数智传播发展报告（2026）》发布

中宣部副部长莫高义：如何处理好人工智能与媒体变革关系

2026全国文化企业30强公布两家媒体旗下公司上榜（名单）

浙报集团社长姜军用数字人讲解社会责任报告

CGTN等全球多家主流新闻机构原创心血被AI语料窃取

传递文明互鉴中国力量 金熊猫奖走进深圳

每经科技推出雨燕智宣AIGC智创传播平台3.0版

中新社女记者半夜独闯柳州震中：一个人成为一支队伍

云南台副台长王珂、张莹通过试用期正式任职

《中国数智传播发展报告（2026）》发布

中宣部副部长莫高义：如何处理好人工智能与媒体变革关系

2026全国文化企业30强公布 两家媒体旗下公司上榜（名单）

浙报集团社长姜军用数字人讲解社会责任报告

传递文明互鉴中国力量金熊猫奖走进深圳

2026全国文化企业30强公布两家媒体旗下公司上榜（名单）