AI 还在想尽办法搜刮互联网数据天创网 ,这一回是偷偷利用互联网档案馆?!
最近,Reddit 平台发现,AI 公司正利用 Wayback Machine 的存档,巧妙绕过常规的数据获取限制,偷偷扒取大量数据用于模型训练。
互联网档案馆的 Wayback Machine 是公益性的数字存档工具,旨在保存网页历史版本。
AI 公司发现通过借助 Wayback Machine 开放性的特点抓取 Reddit 的历史数据,既无需遵守 Reddit 的付费、合规协议等政策,又能获取训练所需的大量内容。
于是,互联网档案馆就成了 AI 公司的"最佳数据后门"。
前情提要,此前 Reddit 为保护数据权益,对 AI 公司的直接抓取数据行为设置了严格限制。
若公司愿意付费则愿意提供数据,比如 Reddit 与谷歌达成数据交易,仅向这种付费合作方开放数据,还对搜索引擎爬取数据设置付费门槛。
但对于未经许可的数据抓取行为,尤其是 AI 训练滥用的情况,Reddit 坚决抵制。
这也是其 2023 年进行 API 更改的原因:由于 AI 公司滥用 API 进行数据抓取用于模型训练,于是它们调整了 API 政策导致部分第三方应用关闭。
此外,Reddit 还与 OpenAI 有合作天创网 ,然而在 6 月,Reddit 却起诉了 Anthropic。
原因是 Anthropic 在宣称停止抓取数据后仍在 Reddit 上抓取。
这正是为啥 AI 公司开始想歪招了——
Internet Archive 即互联网档案馆,它是一个非营利性数字图书馆,致力于提供数字资料的永久性免费存储及获取服务。
它的数据一部分由公众上传,大部分由自带的网络爬虫自动搜集,尽可能保存公开的网页信息。
Wayback Machine 是 Internet Archive 最广为人知的服务,能抓取并保存大量网页,用户借助它可查看网页的历史快照。
它自 1996 年开始缓存网页,在 2001 年推出时已存档超 100 亿个页面。
Wayback Machine 作为一个公益性的数字存档工具,本身就具有开放性,但这也给了部分 AI 公司可乘之机。
AI 公司发现通过 Wayback Machine 抓取 Reddit 的历史数据,既无需遵守 Reddit 的平台政策(如付费、合规协议),又能获取训练所需的大量内容,于是就利用这一漏洞开始了违规"曲线获取数据"的行为。
这些 AI 公司的爬虫程序在 Wayback Machine 的存档中肆意穿梭,抓取 Reddit 上的帖子、评论、用户资料等关键信息。
这种"曲线抓取数据"的行为,不仅侵犯了平台的权益和用户的隐私天创网 ,还打破了数据获取与使用的规则平衡。
Reddit 发言人 Tim Rathschmidt 透露,尽管互联网档案馆旨在开放网络,但 AI 公司的此类抓取行为严重违反了平台政策,危及用户隐私,还可能导致已删除内容的泄露。
Reddit 并非唯一受害者,Facebook(现 Meta)、Twitter(现 X)等均曾明确限制第三方爬虫抓取用户内容,尤其禁止将数据用于 AI 训练,但仍有 AI 公司试图通过缓存站点、镜像网站等间接渠道获取数据。
面对这一乱象,Reddit 已经宣布限制 Wayback Machine 对其内容进行索引,仅允许抓取主页,帖子详情、评论及用户资料等页面均被禁止访问。
为此,Wayback Machine 的负责人 Mark Graham 在接受采访时表示:
我们与 Reddit 有着长期的合作关系,并且将继续就此事进行讨论。
实际上不只 Wayback Machine,有网友发现 Reddit 对任何非住宅 IP 都有数据封锁。
但也有人认为这是 Reddit 是试图通过数据交易获取利益,但一手交钱一手交数据看上去也挺公平的……
不管怎么说,数据所有权、使用边界与 AI 训练需求之间的冲突正在悄悄升级。
参考链接:
[ 1 ] https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit
[ 2 ] https://news.ycombinator.com/item?id=44866698
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 希望了解 AI 产品最新趋势?
量子位智库「AI 100」2025 上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考� �
� � 点亮星标 � �
科技前沿进展每日见天创网
配资网提示:文章来自网络,不代表本站观点。