天创网偷数据的AI公司被抓到了

AI 还在想尽办法搜刮互联网数据天创网，这一回是偷偷利用互联网档案馆？！

最近，Reddit 平台发现，AI 公司正利用 Wayback Machine 的存档，巧妙绕过常规的数据获取限制，偷偷扒取大量数据用于模型训练。

互联网档案馆的 Wayback Machine 是公益性的数字存档工具，旨在保存网页历史版本。

AI 公司发现通过借助 Wayback Machine 开放性的特点抓取 Reddit 的历史数据，既无需遵守 Reddit 的付费、合规协议等政策，又能获取训练所需的大量内容。

于是，互联网档案馆就成了 AI 公司的"最佳数据后门"。

前情提要，此前 Reddit 为保护数据权益，对 AI 公司的直接抓取数据行为设置了严格限制。

若公司愿意付费则愿意提供数据，比如 Reddit 与谷歌达成数据交易，仅向这种付费合作方开放数据，还对搜索引擎爬取数据设置付费门槛。

但对于未经许可的数据抓取行为，尤其是 AI 训练滥用的情况，Reddit 坚决抵制。

这也是其 2023 年进行 API 更改的原因：由于 AI 公司滥用 API 进行数据抓取用于模型训练，于是它们调整了 API 政策导致部分第三方应用关闭。

此外，Reddit 还与 OpenAI 有合作天创网，然而在 6 月，Reddit 却起诉了 Anthropic。

原因是 Anthropic 在宣称停止抓取数据后仍在 Reddit 上抓取。

这正是为啥 AI 公司开始想歪招了——

Internet Archive 即互联网档案馆，它是一个非营利性数字图书馆，致力于提供数字资料的永久性免费存储及获取服务。

它的数据一部分由公众上传，大部分由自带的网络爬虫自动搜集，尽可能保存公开的网页信息。

Wayback Machine 是 Internet Archive 最广为人知的服务，能抓取并保存大量网页，用户借助它可查看网页的历史快照。

它自 1996 年开始缓存网页，在 2001 年推出时已存档超 100 亿个页面。

Wayback Machine 作为一个公益性的数字存档工具，本身就具有开放性，但这也给了部分 AI 公司可乘之机。

AI 公司发现通过 Wayback Machine 抓取 Reddit 的历史数据，既无需遵守 Reddit 的平台政策（如付费、合规协议），又能获取训练所需的大量内容，于是就利用这一漏洞开始了违规"曲线获取数据"的行为。

这些 AI 公司的爬虫程序在 Wayback Machine 的存档中肆意穿梭，抓取 Reddit 上的帖子、评论、用户资料等关键信息。

这种"曲线抓取数据"的行为，不仅侵犯了平台的权益和用户的隐私天创网，还打破了数据获取与使用的规则平衡。

Reddit 发言人 Tim Rathschmidt 透露，尽管互联网档案馆旨在开放网络，但 AI 公司的此类抓取行为严重违反了平台政策，危及用户隐私，还可能导致已删除内容的泄露。

Reddit 并非唯一受害者，Facebook（现 Meta）、Twitter（现 X）等均曾明确限制第三方爬虫抓取用户内容，尤其禁止将数据用于 AI 训练，但仍有 AI 公司试图通过缓存站点、镜像网站等间接渠道获取数据。

面对这一乱象，Reddit 已经宣布限制 Wayback Machine 对其内容进行索引，仅允许抓取主页，帖子详情、评论及用户资料等页面均被禁止访问。

为此，Wayback Machine 的负责人 Mark Graham 在接受采访时表示：

我们与 Reddit 有着长期的合作关系，并且将继续就此事进行讨论。

实际上不只 Wayback Machine，有网友发现 Reddit 对任何非住宅 IP 都有数据封锁。

但也有人认为这是 Reddit 是试图通过数据交易获取利益，但一手交钱一手交数据看上去也挺公平的……

不管怎么说，数据所有权、使用边界与 AI 训练需求之间的冲突正在悄悄升级。

参考链接：

[ 1 ] https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit

[ 2 ] https://news.ycombinator.com/item?id=44866698

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 希望了解 AI 产品最新趋势？

量子位智库「AI 100」2025 上半年

「旗舰产品榜」和「创新产品榜」

给出最新参考� �

� � 点亮星标 � �

科技前沿进展每日见天创网

配资网提示：文章来自网络，不代表本站观点。

天创网偷数据的AI公司被抓到了

元宝枫资本国有六大行晒出上半年“成绩单”，集体推出中期分红计划

银铺子配资韦东奕又去听王虹教授讲座了, 连续三天坐第一排听讲, 还有学生为王虹献花

通盈证券宝可梦Z-A预下载开启！首发避坑+新机制攻略，老玩家都在存

新玺配资上海市群众艺术馆荣获全国五一劳动奖状的背后：从市民艺术夜校到百姓“精神家园”

红腾网小因扎吉在亚洲执教玩不转亚冠无缘8强沙特超争冠掉队劝退防反

盛谷策略空调“续命”？沈阳喊你来避暑！这些地方超凉爽→_亮点_特点_稻田

51配资家的温暖从门口开始！换鞋区的软乎乎凳子 + 温馨画，归家超舒心

金贝街华为腾讯比亚迪名列“双榜”前十

亿盛资产吉田直树暗示《最终幻想14》接下来有望登陆NS2平台

e路配资欧洲股市延续跌势但汽车和房地产股跑赢

盟牛配资 2025年5月26日全国主要批发市场榛子价格行情

保宇配资 PC端XGPU发福利：LOL、瓦洛兰特等游戏超多精彩内容

汇巨福配资申通快递拟3.62亿元收购丹鸟物流加快品质网络构建

九融配资端建银国际：升华润啤酒目标价至35.1港元上半年核心盈利略胜预期

元宝枫资本 国有六大行晒出上半年“成绩单”，集体推出中期分红计划

银铺子配资 韦东奕又去听王虹教授讲座了, 连续三天坐第一排听讲, 还有学生为王虹献花

通盈证券 宝可梦Z-A预下载开启！首发避坑+新机制攻略，老玩家都在存

元宝枫资本国有六大行晒出上半年“成绩单”，集体推出中期分红计划

银铺子配资韦东奕又去听王虹教授讲座了, 连续三天坐第一排听讲, 还有学生为王虹献花

通盈证券宝可梦Z-A预下载开启！首发避坑+新机制攻略，老玩家都在存