24 · 06 · 16 号刊 第 55 期

诸位,展信佳!

前段时间,国内自媒体何加盐的一篇名为《中文互联网正在加速崩塌》的文章引起了广泛讨论,其内容提及的一些数据、事实以及作者的观点,乃至文章本身的命运,都一时间让许多人心有戚戚,知名博主月光博客也据此发表了一篇文章

其实,如果诸位一直有在阅读本通讯的话,对类似的观点应该非常熟悉了。第 50 期《社交媒体的终结》以及更早的速览中分享的大西洋月刊发布的《互联网正在腐败》等文章都或多或少地探讨了这一话题。

本期选文《当在线内容消失时》来自皮尤研究中心对互联网链接可访问性的研究,从详实的数据中我们能窥一斑而知全豹:所谓「互联网正在逐渐消失」的论断是一个全球性的问题,而不仅仅是中文互联网独有。甚至在我看来,这是互联网在当前技术发展阶段的本质属性之一。内容审查、平台竞争、信息载体的变迁等等因素的共同作用导致了这一趋势,并且这一趋势还将不可避免地继续下去。

希望对你有所启发。

博客竹白

让复杂的研究变得简单

Afforai

Afforai 是一个 AI 助理,可以搜索、总结和翻译多个来源的信息,以产生可靠的研究。

这项工具主要面向的是学术研究者,你可以将其作为一个参考文献管理器,但作为聊天机器人也未尝不可。除了手动上传文件、粘贴链接,你还可以使用 DOI / ISBN / arXiv 来导入文档。AI 模型支持 GPT-3.5 / 4 / 4o 以及 Claude 3 Sonnet / Haiku。如果这些模型还无法满足要求,你也可以通过 OpenRouter 来整合其他模型来处理文本。

了解更多 »

点击上面的链接注册并订阅,我能从中获得一定比例的返利)

当在线内容消失时

2013 年存在的 38% 网页,在十年后已无法访问

🔗
When Online Content Disappears
Athena Chapekis, Samuel Bestvater, Emma Remy, Gonzalo Rivero / Pew Research Center / 2024-05-17

我们是如何进行这项研究的

皮尤研究中心进行了分析,以研究曾经存在的在线内容有多少不再可访问。研究的第一部分是查看过去十年存在的网页的代表性样本,以了解今天还有多少仍然可访问。为了进行这项分析,我们从 2013 年到 2023 年每年从 Common Crawl 网络存储库中收集了一些页面样本。然后我们尝试访问这些页面,看看还有多少仍然存在。

研究的第二部分是查看现有网页上的链接,以了解有多少链接仍然有效。我们通过收集来自政府网站、新闻网站和在线百科全书维基百科的大量页面来进行这项工作。

我们使用来自受众数据公司 comScore 和相关政府域(在多个政府层级)的数据,以及来自 get.gov 的数据(get.gov 是 .gov 域名的官方管理者)来识别相关的新闻域。我们通过 Common Crawl 收集新闻和政府页面,通过维基媒体基金会维护的存档收集维基百科页面。对于每个集合,我们识别这些页面上的链接,并跟踪它们到目的地,以查看指向不再可访问站点的链接占比。

研究的第三部分关注社交媒体网站上个别帖子被删除或从公众视野中移除的频率。我们通过使用 Twitter Streaming API 实时收集社交媒体平台 X 上的大量公开推文来进行这项研究。然后,我们使用 Twitter Search API 跟踪这些推文的状态,持续三个月,以监测有多少仍然公开可见。有关更多详细信息,请参考报告方法论

互联网是一个无法想象的庞大现代生活知识库,拥有数百亿个被索引的网页。然而,尽管全世界的用户依赖互联网来获取书籍、图片、新闻文章和其他资源,但有时这些内容还是会从视野中消失。

一项新的皮尤研究中心分析显示了在线内容实际上是多么短暂:

  • 2013 年至 2023 年间存在过的所有网页中,截至 2023 年 10 月已有四分之一无法访问。在大多数情况下,这是因为某个页面在一个正常运作的网站上被删除或移除。
  • 对于较旧的内容,这种趋势更加明显。2013 年存在的网页中有 38% 如今已经无法访问,而 2023 年存在的网页中只有 8% 无法访问。

这种「数字腐败」现象发生在许多不同的在线空间中。我们调查了出现在政府和新闻网站上的链接,以及 2023 年春季维基百科页面的「参考资料」部分。这项分析发现:

  • 23% 的新闻网页至少包含一个损坏链接,政府网站的网页中也有 21% 包含损坏链接。网站流量高和流量低的新闻网站包含损坏链接的可能性大致相等。地方政府网页(隶属于市政府的网页)尤其容易出现损坏的链接。
  • 维基百科页面中有 54% 的页面在其「参考文献」部分至少包含一个指向已不存在页面的链接。

为了了解数字腐败在社交媒体上的表现,我们还在 2023 年春季在社交媒体平台 X 上收集了实时推文样本,并对其进行了三个月的跟踪。我们发现:

  • 在发布几个月后,近五分之一的推文在网站上已不再公开显示。在这些情况中,有 60% 的账户原始发布推文的账户已设为私密、冻结或注销。在另外的 40% 情况中,账户持有者删除了单个推文,但账户本身仍然存在。
  • 某些类型的推文往往比其他类型更容易消失。超过 40% 的土耳其语或阿拉伯语推文在发布后的三个月内在网站上不再可见。而使用默认账户设置的账户发布的推文尤其有可能从公众视野中消失。

这份报告是如何定义无法访问的链接和网页的

在互联网上,有许多方法可以定义过去存在的内容现在对试图访问它的人来说是无法访问的。例如,「无法访问」可能意味着:

  • 该页面不再存在于其主机服务器上,或者主机服务器本身不再存在。访问这种类型页面的人通常会收到「404 Not Found」或是这个报错的变体,而非他们正在寻找的内容。
  • 页面地址存在,但其内容已经发生了变化 —— 有时与最初的内容截然不同。
  • 该页面存在,但某些用户,比如那些视力受损的人,可能会发现阅读困难甚至不可读。

对于这份报告,我们专注于其中的第一个内容:不存在的页面。其他关于可访问性的定义超出了本研究的范围。

我们的方法是一种直接的方式来衡量在线内容是否易获取。但即便如此,仍然存在一些模糊不清。

首先,有数十个状态代码表示用户在尝试访问页面时可能遇到的问题。并非所有状态代码都明确指示页面是永久性失效还是暂时不可用。其次,出于安全考虑,许多网站积极防止我们用来测试所有链接的自动化数据收集。

因此,我们尽可能采用最保守的估计来决定一个网站是否真正可访问。我们只将页面视为不可访问,如果它们返回了九种错误代码中的一种,这些错误代码明确表明页面和/或其主机服务器已不存在或已失去功能 —— 无论它们如何被访问,以及由谁访问。我们在方法论中包含的错误代码完整列表。

这是我们对各种在线空间中数字腐败分析的一些发现:

十年前的网页

为了进行我们分析的这一部分,我们从 Common Crawl 的档案中收集了将近 100 万个随机网页样本。Common Crawl 是一个互联网档案服务,定期收集互联网在不同时间点的快照。我们抽样了从 2013 年到 2023 年每年 Common Crawl 收集的页面(每年大约 9 万页),并检查这些页面今天是否仍然存在。

我们发现,从 2013 年到 2023 年收集的所有页面中,有 25% 在 2023 年 10 月已无法访问。这个数字是两种不同类型的损坏页面之和:16% 的页面无法独立访问,但来自另一个正常运行的根域;另外 9% 是因为它们所在的整个根域不再可用。

毫不奇怪,我们收藏的较早的快照中,无法访问的链接所占比例最大。从 2013 年的快照中收集的页面中,有 38% 在 2023 年已无法访问。但即使是从 2021 年的快照中收集的页面,大约五分之一在仅仅两年后也无法访问。

政府网站上的链接

​我们使用 2023 年 3 月 / 4 月的 Common Crawl 互联网快照,从政府网站中抽样了大约 50 万个页面,包括联邦、州、地方等不同级别的政府。我们找到每个页面上的每个链接,并随机选择一些链接跟踪到其目的地,以查看它们所指向的页面是否仍然存在。

在我们抽样调查的政府网站中,共有 4200 万个链接。其中绝大多数链接(86%)是内部链接,意味着它们链接到同一网站上的不同页面。在国税局网站上链接到其他文件或表格的解释资源将是内部链接的一个例子。

我们抽样调查的政府网页中,大约四分之三的页面至少包含一个页面链接。典型(中位数)页面包含 50 个链接,但许多页面包含更多链接。排名在 90% 的页面包含 190 个链接,而排名在 99% 的页面(即链接数量最多的 1% 页面)有 740 个链接。

政府网页链接的其他相关信息:

  • 绝大多数人访问安全的 HTTP 页面(网址以 https://​ 开头)。
  • 6% 转到静态文件,比如 PDF 文档。
  • 目前有 16% 的链接重定向到与最初指向的不同的 URL。

当我们跟踪这些链接时,我们发现有 6% 的链接指向无法访问的页面。类似比例的内部和外部链接也已失效。

总体而言,我们调查的所有政府网页中,有至少一个损坏链接的比例为 21%。在我们调查的每个政府层级中,至少有 14% 的页面存在损坏链接;市政府页面的损坏链接率最高。

新闻网站上的链接

​为了进行这项分析,我们从 2063 个被观众度量公司 comScore 分类为「新闻/信息」的网站中抽取了 50 万个页面。这些页面是从 2023 年 3 月/4 月的 Common Crawl 互联网快照中收集的。

在所抽样的新闻网站中,这个集合包含超过 1400 万个链接指向外部网站。其中 94% 的页面至少包含一个外部链接。中位数页面包含 20 个链接,而链接数量排名前 10% 的页面有 56 个链接。

与政府网站类似,绝大多数这些链接指向安全的 HTTP 页面(即以 https://​ 开头的 URL)。大约 12% 的新闻网站链接指向静态文件,比如 PDF 文档。而 32% 的新闻网站链接重定向到与最初指向的 URL 不同的网址,略低于政府网站上 39% 的外部链接重定向比例。

当我们追踪这些链接到它们的目的地时,我们发现新闻网站页面上所有链接中有 5% 已不再可访问。在我们抽样的所有页面中,有 23% 至少包含一个失效链接。

在流量最高的新闻网站上,损坏链接的情况与流量最低的网站一样普遍。在流量排名前 20% 的新闻网站中,大约有 25% 的页面至少有一个损坏链接。这几乎与流量排名最低的 20% 的网站的 26% 相同。

维基百科上的参考链接

为了这项分析,我们收集了 5 万个随机样本的英语维基百科页面,并检查了它们「参考文献」部分的链接。这些页面中绝大多数(82%)至少包含一个参考链接 —— 即指向维基百科以外网页的链接。

总共,我们收集的所有页面中有超过 100 万个参考链接。典型页面有 4 个参考链接。

分析显示,维基百科上所有引用链接中有 11% 已无法访问。在包含引用链接的源页面中,大约有 2% 的页面上的每个链接都已损坏或无法访问,另外 53% 的页面包含至少一个损坏链接。

Twitter 上的推文

​对于这项分析,我们收集了从 2023 年 3 月 8 日到 4 月 27 日在社交媒体平台 X 上发布的近 500 万条推文,当时该平台被称为 Twitter。我们使用 Twitter 的 Streaming API 进行了这项工作,每 30 分钟实时收集 3000 条公共推文。这为我们提供了在该时期发布在平台上的所有推文的代表性样本。我们监控这些推文直到 2023 年 6 月 15 日,并每天检查它们是否仍然在网站上可用。

在观察期结束时,我们发现我们最初收集的推文中有 18% 在网站上不再公开可见。在大多数情况下,这是因为最初发布推文的账户已被设为私密、冻结或注销。对于剩下的推文,发布推文的账户仍然在网站上可见,但个别推文已被删除。

哪些推文往往会消失?

推文在我们收集期间特别容易被删除或移除,如果它们是:

  • 用某些语言书写。我们收集的土耳其语推文中,将近一半 —— 以及用阿拉伯语书写的推文比例略小一些 —— 在跟踪期结束时已不再可用。
  • 使用网站默认配置文件的账户发布的。在跟踪期结束时,使用默认头像的账户发出的推文超过一半已不再可用,而使用默认签名的账户发出的超过三分之一也不再可用。这些账户的推文往往会消失,因为整个账户已被删除或设为私密,而不是单个推文被删除。
  • 由未经验证的账户发布。

我们还发现,被删除或移除的推文往往来自关注者较少、在网站上活动较少的新账户。平均而言,在网站上不再可见的推文是由比那些推文仍然保留在网站上的账户晚约八个月左右发布的。

当分析那些不再可用的推文类型时,我们发现转发、引用推文和原创推文与整体平均水平并没有太大差异。但回复则相对不太可能被删除 —— 在我们的监测期结束时,仅有 12% 的回复无法访问。

大多数从网站上删除的推文往往在发布后不久就会消失。除了查看我们收集的推文中有多少在我们跟踪期结束时仍然可用之外,我们进行了存活分析,以了解这些推文通常保持可用的时间有多长。我们发现:

  • 1% 的推文在一小时内被删除
  • 3% 在一天内
  • 10% 在一周内
  • 15% 在一个月内

换句话说:平台上最终被删除的推文中,有一半在发布后的头六天内就无法访问。其中 90% 的推文在 46 天内无法访问。

推文并非总是永远消失。我们收集的推文中有大约 6% 的推文消失后又在以后重新出现。这可能是因为账户变为私密状态后又变为公开状态,或者是因为账户被暂停后又被恢复。在那些「重新出现」的推文中,绝大多数(90%)在监测期结束时仍然可以在 Twitter 上访问到。

👋如果你喜欢 CyberClip 并愿意帮助我更好地运营下去:

  • 转发给朋友或社交网络
  • 参见 Advertise 页面联系我投放广告
  • 爱发电或微信给我赞赏,欢迎备注称呼、邮箱
  • 点击下面带有👆标记的推广链接,你的每一次有效点击我都能收到一份微薄的赞助
  • 在你有需求的情况下,通过下面带有⚡标记的推广链接注册付费,我将能从你的支付中获得一定比例(有标注)的返利。请量力而行,理性消费。

❤️感谢你一直以来的支持!


这封邮件是你朋友转发或在社交平台上看到的吗?如果你觉得还不错,欢迎订阅

如果你有意愿在 CyberClip 投放广告,请参见我们的 Advertise 页面并与我取得联系。

CyberClip 是一份臻选互联网上有价值内容的赛博剪报。两周一期,涵盖新奇趣闻、热点议题、前沿科技以及其他关于生活、关于未来的事物。

👏 感谢阅读,欢迎回信,敬颂时祺。

👉 往期内容讨论群组个人博客备份归档