CGTN等全球多家主流新闻机构原创心血被AI语料窃取

本文发布于 2025-11-11 09:09
来源:AIGC观察站(公众号)   

当千万条YouTube视频在创作者毫不知情时,被科技巨头悄然“喂”给AI模型,一场关于原创与掠夺的无声战争正在打响。

28291

《大西洋月刊》历时数月调查,首次将这场隐秘的数据收割公之于众:从《纽约时报》、BBC到CGTN,从独立创作者的木工教学到政治评论,全球超1500万条YouTube 视频被科技公司未经授权下载,其中数以十万计来自新闻媒体和新闻创作者的内容,成为AI视频生成模型的“原材料”。

AIGC观察站转载来自可维咨询的一篇文章,该文章原始来源包括The Atlantic的主文、其互动搜索数据库,以及后续媒体如Nieman Lab的分析总结。

它有效地阐述了AI产业在发展过程中,对海量受版权保护的原创视频内容(尤其是新闻内容)的依赖,以及由此引发的关于知识产权、商业道德和原创内容价值的深刻问题。

《大西洋月刊》“AI Watchdog” 专栏近日发布最新调查研究,报道组经过数月跟访调查发现,YouTube 上大量优质视频素材,已经成为各大科技公司训练人工智能的重要 “原材料”。
调查组从至少13个科技公司、大学和研究机构的AI开发者分发的数据集中,找到超200万个YouTube频道的,超1580万条视频。

这些科技公司包括微软、Meta、亚马逊、英伟达、Runway、字节跳动、Snap和腾讯,而这些数据集通过诸如Hugging Face这样的在线AI开发中心网站进行分发。

《大西洋月刊》已经把其调查到的数据集,整理成可搜索的数据库,供读者自行搜索研究。

1500万条视频被“偷”:AI的“原材料”里藏着新闻人的原创心血

值得注意的是,数据集中,有数十万段视频,来自YouTube上最受欢迎的新闻媒体和新闻创作者频道,包括《纽约时报》《华盛顿邮报》《卫报》《华尔街日报》和半岛电视台AL Jazeera这样的国际大媒体:

英国广播公司BBC:数据集中包含至少33000个视频,涵盖BBC旗下各个品牌账号;

福克斯新闻FOX News:超88000段视频被包含在内,其中包括其旗舰账号和福克斯商业频道;

美国广播公司新闻频道 ABC News:大约70000段视频被包含在内,包括早间节目《早安美国》的大量视频;
彭博社Bloomberg:超55000段视频,包括彭博原创频道、彭博电视台和彭博科技频道;

《纽约时报》:超11604个视频别包含在内,包括旗下烹饪频道热门内容;

Vox:超30000段视频,包括Vox科普解释类视频、Eater的旅行纪录片,以及The Dodo的动物感人视频;
科技媒体The Verge:约有13900个视频被包含在内,其中包括 iOS 设备指南、旗舰播客《The Vergecast》剧集,以及对马克·扎克伯格等硅谷CEO 的采访;

此外,数据集还涵盖中央广播电视总台CGTN旗下多个频道的视频内容。

在搜索栏里输入CGTN,能发现CGTN旗下主账号、美国频道、非洲频道、法国频道、纪录片频道的视频都被收入在内。

当我搜索CGTN America,可以搜到11个数据集,收录了55133个CGTN在 YouTube 平台上美国频道账号的视频。

就像ChatGPT没有先“研读”莎士比亚的作品,就无法像他那样写作一样。一个视频生成AI,如果没有“观看”大量已录制的新闻节目,也无法制作出虚假的新闻报道。

近年来,AI科技公司在基础设施方面(芯片、服务器和数据中心)投入了前所未有的资金,以支持其模型更新迭代。
但当涉及到AI的核心产出内容,包括新闻报道、创意作品,这些科技公司的投入却少得可怜,他们的投入却少得可怜。

Vox Media 发言人劳伦·斯塔克(Lauren Starke)表示:“为了生存,AI 平台深知他们需要像我们这样高质量、可信的内容,以赋予其产品相关性和意义…没有我们的优质内容,这些平台的现实情况将会是:垃圾进,垃圾出。”

科技公司的“标签密码”:新闻视频被拆成“视觉语言”喂给模型

《大西洋月刊》报道组跟踪调查了十几个相关数据集,而其中一些数据集与现在市面上多个AI视频生成模型有明确关联。

比如这些数据集中,共11个数据集收录了《纽约时报》YouTube 频道约 11604 个视频,而其中超8000个视频来自同一个的训练数据源——Runway Gen-3,该数据集由Runway公司编制。

Runway是一家总部位于美国纽约的生成式人工智能公司,专注于为电影和视频制作开发多模态AI模型,其AI工具曾应用于奥斯卡获奖影片《瞬息全宇宙》的制作。

2024年6月,该公司发布新一代视频生成模型Gen-3 Alpha,在视频质量、生成速度和运动控制方面实现显著提升。
自该模型发布以来,好莱坞各大电影公司和电视制作公司已开始将Runway 的产品纳入其电影、电视和营销制作流程中。

彭博社今年夏天的一份报告称,网飞(Netflix)已经在其“内容制作”中使用了Runway的工具,而华特·迪士尼公司(Walt Disney Co.)也一直在测试其软件。

2024年,Runway累计融资2.36亿美元,估值达15亿美元。

今年8月,Runway与投资者洽谈新一轮约5亿美元(约合人民币36亿元)融资时,投前估值已超50亿美元(约合人民币359亿元),背后支持方不乏谷歌、英伟达、Salesforce等巨头。

去年,媒体404披露了一份名为《视频分享–代号Jupiter》的Runway内部“标注excel表格”,表格列出了数千个被认定为高质量的频道。

在这份excel表中:

《华尔街日报》YouTube频道约27000个视频被标记为:“大量图表、演示讲解、展示与讲述(lot of graphics, walkthroughs, show and tell)”

媒体CNET约22000个视频被描述为“技术评测(tech reviews)”,并被标记了关键词短语“使用笔记本电脑using a laptop”。

《华盛顿邮报》的21000个视频被标注为“大量新闻片段但也有大量背景素材(A lot of news clips, but also a lot of background material.)”。

《早安美国》节目约 35000 个视频被标注为“漱口(gargling)”,这是 AI 术语,指的是模型只表面上模仿其训练内容,但没有更深层次的“理解”。

《纽约时报》官方 YouTube 频道的视频被标注为“nyt 视频、观察报告、背景素材、对话、人类主体(nyt video, op docs, b-roll, talking, human subjects.)”。数百个《纽约时报》烹饪视频被标记为“炒蛋(scrambling eggs)”。

这份excel表格,还列出了 Runway 看重的某些频道的特点,包括“高镜头移动”“美丽的电影场景”“高质量的电影片段”“超高质量的科幻短片”。

还有一个频道被标注为“迄今为止汽车电影摄影的圣杯”;另一个则被标注为“仅有 4 个视频,但质量非常好”。
这种标注语言,一定程度上揭示了 Gen-3 被训练模仿特定视觉语言风格,甚至是具体的动作。

不止商业模型:研究型数据集里,新闻视频也在被“悄悄共享”

但并非所有数据集,都与商业 AI 视频产品有着明确的关联,其中一些数据集曾被大型人工智能公司的研究部门使用,包括 Meta、Snap、腾讯和字节跳动。

例如,一个名为 HD-VILA-100M 的训练数据集,最初是由微软亚洲研究院收集的,该研究院位于中国北京。
《大西洋月刊》报道称,HD-VILA-100M 由微软研究人员提供下载,随后被众多大型人工智能公司用于其自身的研究和开发。

Meta利用该数据集开发了其“制作视频”(Make-A-Video)文本转视频系统,并于 2022 年发布。

腾讯旗下的一个研究实验室使用HD-VILA-100M制作了一个可供公开使用的数据集,该数据集能够与OpenAI 用于其Sora视频生成模型的训练数据相媲美。

TikTok母公司Byetdance使用该模型训练其实验性的文本转视频模型“魔法视频”(MagicVideo)。

Snapchat 母公司Snap则将该模型用于研究,以改进人工智能视频标题生成、视频搜索工具和文本转视频生成技术。

HD-VILA-100M 在人工智能行业中历经数年传播,目前共集纳数万个新闻媒体YouTube视频。其中包括福克斯新闻YouTube频道超13000个视频、德国之声DW频道约6300个视频,以及半岛电视台英语频道约5520个视频等。

另一个名为 YT-Temporal-180M 数据集是由华盛顿大学和艾伦人工智能研究所(一家非营利性研究机构)的研究人员共同编制。

《大西洋月刊》报道称,该数据集托管在谷歌云服务器上,并可通过 Hugging Face 平台进行下载。

YT-Temporal-180M 包含了约36000条福克斯新闻的视频、约 34000 条彭博社的视频,以及约31000条美国广播公司新闻的视频等。

自2021年首次发布以来,YT-Temporal-180M 已在Hugging Face上被下载超1450次。

独立创作者内容被纳入段:为 AI 提供与主流媒体完全不同的创作风格

除了上述那些主流大媒体,这些数据集中还收录了大量YouTube独立创作者的视频,包括新闻聚合内容、访谈、脱口秀、政治评论节目等。

如《大卫·帕克曼秀(The David Pakman Show)》,该频道目前订阅量超300万,这些数据集涵盖该频道约15000个视频,被收录在HD-VILA-100M 和 YT-Temporal-180M 等多个数据集中。

该频道创始人兼主持人Pakman称,“我明白人工智能训练通常会涉及大量公开可用数据的采集,但当这种使用方式如此集中,比如某一位创作者的数万条视频被集中纳入训练集,就不是偶然,更像是未经同意的大规模知识产权提取。”

《连线》杂志(Wired)此前曾报道过帕克曼视频中的字幕,被用于训练语言模型。

另一个 YouTube 频道《萨姆·塞德主持的多数报告(The Majority Report with Sam Seder)》的近11000个视频也包含在数据集中,该频道在 YouTube 上拥有近200万订阅者。

Sam Seder推测,他频道的内容,可能为人工智能公司提供了与主流新闻媒体完全不同的“视觉和语言特定表达方式”。

该频道视频直播录制、听众来电节目和反应视频,风格类似电台主持人的那种政治评论。

此外还有大量个人创作者的“科普教学”视频被纳入数据集。

如在 YouTube 平台有约 100万订阅量的乔恩·彼得斯的木工频道,他自己是一名专业木工,频道主要内容是给木工爱好者的教学视频。

AI视频的“隐形入侵”:你刷到的“真实”,可能已经是AI的“拼接品”

AI 视频工具目前还不像聊天机器人或图像生成工具那样普及,但已经得到了广泛使用。
我们看过的很多内容可能已经是 AI 处理成果,只是我们并未意识到。
例如,TED 已经使用 AI 将演讲者的演讲翻译成不同的语言,包括视频和音频。而演讲者的嘴部会与新的词语同步,看起来像是他们在说日语、法语或俄语。

TED 总法律顾问称演讲者已知情并同意。

此外,还有一些面向消费者的工具,比如,如果您的面部看起来不太合适,可以使用诸如 “Facetune” 这样的面部增强工具,或者使用 “Facewow” 这样的面部替身工具来完全替换您的面部。通过Runway的“Aleph”,您可以改变物体的颜色,或者将阳光变成暴风雪。

还有一些工具文生视频、图生视频。谷歌鼓励Gemini用户为他们“最喜欢的图片”制作动画。

还有些“头像生成”工具被大量用于员工培训,如Vidnoz AI承诺生成“任何风格的逼真人工智能发言人”。还有一家名为 Arcads 的公司,可以生成完整的广告,包括演员和旁白。

字节跳动旗下TikTok开发了一款名为“Symphony Creative Studio”的产品。还有其他 AI 视频生成技术,可以完成虚拟试穿服装、生成定制视频游戏、为卡通角色和人物制作动画等操作。

今年 6 月,戛纳国际广告节将一项大奖授予了一则包含 AI “深度伪造”的广告。

广告公司 DM9 利用人工智能克隆技术,修改了一段演讲,并将其放入广告片中用于商业活动。当被发现后,戛纳国际广告节才撤销了该奖项。

享誉国际的广告节官方团队尚无法分辨 AI 视频的真假,普通人又该如何?!

新闻视频,为何成了AI的“香饽饽”?

新闻视频,为何成了 AI 的“香饽饽”?

科技公司非常清楚,新闻视频里藏着最鲜活的“人类经验”。
新闻片段里,有政客的微表情、突发新闻的现场混乱;纪录片里有历史事件的细节还原、人物采访的真挚情绪;地方台的民生新闻里有普通人的烟火气、社区问题的真实碰撞……

这些内容,恰恰是AI生成“真实感视频”最需要的“养料”。

就像学写作要先读经典,学画要先临名画,AI要生成“像真人拍的新闻”,必须先“看”够真人拍的新闻。
但讽刺的是,当科技公司用“偷”来的新闻视频,训练出能“一键生成新闻片段”的工具,普通人可能再也不需要看《纽约时报》的视频——反正 AI能“总结”出更“高效”的版本。

当我们需要学习一个专业木工技巧,只需向 AI 提问,聊天机器人就可以生成一个段和专业木工一样实用的教学视频。

而如今的原创作者,未来该如何立足,尚不可知。

但无论如何,AI的进步不该以摧毁原创为代价。

新闻的生命力,从来不是“更高效的生成”,而是“更真实的记录”;不是“更像真的”,而是“本来就是真的”。
毕竟,我们需要的从来不是“AI生成的新闻”,而是“人写就的历史”。


阅读量:2351
原标题:从《纽约时报》到 CGTN,数十万新闻媒体视频成为 AI 视频生成模型 “原材料”
推荐阅读
版权声明

观媒原创内容,未经授权不得转载、链接、转贴或以其他方式使用。本站其他转载内容,版权归原作者及出处所有。如有侵权,请联系我们进行删除。文章内容为作者个人观点,不代表观媒赞同其观点和对其真实性负责。本站只提供参考,不构成任何实际建议。