首页 > 游戏教程 >AI爬虫“狂啃”维基媒体资源,运营开支压力山大?

AI爬虫“狂啃”维基媒体资源,运营开支压力山大?

2025-04-04 13:39:06劳动游戏园

近期,维基媒体基金会,这一运营着全球知名在线百科全书维基百科的非营利组织,透露了一项令人关切的运营挑战。该基金会在一篇博文中指出,专为AI训练数据集抓取资源的网络爬虫活动正对其造成前所未有的运营开支压力。

维基百科的关联项目——维基共享资源,作为一个庞大的多媒体资料库,长期以来吸引着各类用户。然而,自2024年初以来,从该平台下载多媒体内容的带宽使用量激增了50%,这一增长主要由自动化程序驱动,而非传统的人类用户行为。

维基媒体基金会以往能够有效应对突发事件引发的人类用户流量高峰,但AI时代网络爬虫活动的频繁加剧,正逐渐侵蚀其系统冗余,迫使基金会将宝贵的时间和资源投入到应对非人类流量上。这不仅影响了用户体验,也增加了运营成本。

基金会的数据存储策略是,低频内容存放在核心数据中心,而高频内容则在更靠近用户的数据中心备份。然而,网络爬虫的“遍历式”查询模式导致大量流量涌向核心数据中心,从而推高了流量成本。据统计,尽管机器人浏览量仅占总体的35%,但它们却消耗了核心数据中心65%的流量资源。

更令人担忧的是,这些自动爬虫不仅访问了公开资源,甚至还试图访问维基媒体基金会开发环境的关键系统,如代码审查平台和错误跟踪器,这进一步加剧了安全风险和运营负担。

维基媒体基金会强调,尽管其提供的所有内容是免费的,但维护这些内容的基础设施并非无成本。基金会呼吁建立一个负责任、可持续的基础设施使用规范,以避免“公地悲剧”的重演,即公共资源因过度使用而遭受破坏。

面对这一挑战,维基媒体基金会正积极寻求解决方案,以确保维基百科及其姊妹项目的持续健康发展。同时,该基金会也呼吁社会各界关注并支持其工作,共同维护这一宝贵的全球知识共享平台。

为了应对日益增长的自动化访问需求,维基媒体基金会也在探索技术创新,如优化数据存储策略、提升系统冗余度以及加强安全防护措施等,以期在保障用户体验的同时,有效控制运营成本。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

9406
761

同类推荐更多

上课装睡为何惹怒同学?扣掉一节课背后隐藏的深层原因:如何避免课堂装睡行为?

上课装睡为何惹怒同学?扣掉一节课背后隐藏的深层原因:如何避免课堂装睡行为?

最火的游戏教程

2025-03-28

最近,一则关于“上课装睡B被同学扣了一节课”的事件引起了大家的关注。这件事并不复杂,但却反映了学生在课堂上的一些不良行为,以及同学之间如何相互监督的现象。我们知道,上课装睡的现象在学生中并不罕见。有些学生因为种种原因选择在课堂上闭上眼睛,不听讲,这看似是一种小事,但实际上它却影响了课堂的秩序,也可能影响到自己学到的知识。更有趣的是,B同学因为装睡的行为被同学扣了一节课,这样的“惩罚”引起了广泛讨论