La Fundación Wikimedia, que aloja Wikipedia y Wikimedia Commons, enfrenta una tensión significativa en sus servidores debido a un aumento en el raspado automatizado de datos por parte de empresas de inteligencia artificial (IA). Estos bots están recopilando agresivamente grandes cantidades de datos para entrenar modelos de lenguaje extensos (LLMs), lo que impacta el ancho de banda de la fundación e incurre en costos sustanciales, un problema cada vez más común dentro de la comunidad de software libre y de código abierto (FOSS).
La Fundación Wikimedia se enfrenta a desafíos significativos debido al raspado implacable de su contenido por parte de modelos de IA, principalmente para entrenar modelos de lenguaje grandes (LLM). Esta recopilación automatizada de datos está ejerciendo una presión considerable sobre los servidores e infraestructura de Wikipedia. La evidencia de esta tensión es clara: la fundación ha visto un aumento del 50 por ciento en el ancho de banda utilizado para descargar contenido multimedia desde enero de 2024, atribuido directamente a estos bots automatizados. Este no es un problema nuevo en la comunidad de software libre y de código abierto (FOSS), pero la escala y la intensidad del raspado de IA no tienen precedentes.
Este problema se extiende más allá de la propia Wikipedia. La Fundación Wikimedia también alberga Wikimedia Commons, un vasto repositorio que contiene 144 millones de archivos multimedia disponibles bajo licencias abiertas. Durante años, este contenido ha sido un recurso valioso, que impulsa todo, desde los resultados de búsqueda hasta los proyectos educativos. Sin embargo, desde principios de 2024, las empresas de IA han intensificado drásticamente sus actividades de raspado automatizado. Están empleando varios métodos, incluyendo el rastreo directo, la utilización de API y la realización de descargas masivas, todo con el objetivo de alimentar a sus modelos de IA hambrientos de datos. Este aumento exponencial del tráfico no humano está imponiendo importantes cargas técnicas y financieras a la fundación. Además, este raspado a menudo ocurre sin la atribución necesaria, lo cual es crucial para sostener el ecosistema de voluntarios que sustenta los proyectos de Wikimedia.
El impacto de esta mayor actividad de bots no es meramente teórico; tiene consecuencias tangibles. Un ejemplo sorprendente ocurrió en diciembre de 2024 tras la muerte del ex presidente de los Estados Unidos, Jimmy Carter. Como era de esperar, su página de Wikipedia obtuvo millones de visitas. Sin embargo, la verdadera tensión en el sistema provino de los usuarios que transmitían simultáneamente un video de 1,5 horas de un debate de 1980 alojado en Wikimedia Commons. Este aumento del tráfico duplicó la carga de red normal de Wikimedia, sobrecargando temporalmente varias de sus conexiones a Internet. Si bien los ingenieros de Wikimedia pudieron redirigir rápidamente el tráfico para aliviar la congestión, el incidente destacó un problema subyacente más profundo: la capacidad de ancho de banda de referencia ya estaba siendo consumida significativamente por bots que raspaban contenido multimedia a escala, dejando menos espacio para el tráfico humano legítimo durante eventos pico.
Este escenario se está volviendo cada vez más familiar en el panorama más amplio de FOSS. Otros proyectos abiertos también han experimentado problemas similares y han tomado medidas para mitigar el impacto del tráfico excesivo de bots. Por ejemplo, el repositorio Pagure de Fedora se vio obligado a bloquear todo el tráfico procedente de Brasil tras incidentes de raspado similares que fueron reportados por Ars Technica. De manera similar, la instancia de GitLab de GNOME implementó desafíos de prueba de trabajo como un medio para filtrar el acceso excesivo de bots automatizados. Read the Docs, otro proyecto abierto, informó una reducción dramática en sus costos de ancho de banda después de implementar medidas para bloquear los rastreadores de IA, lo que demuestra el importante impacto financiero de este tipo de tráfico.
Los datos internos de Wikimedia proporcionan información crucial sobre por qué este tipo de tráfico de bots es particularmente costoso para los proyectos abiertos. A diferencia de los usuarios humanos, que normalmente se centran en artículos populares y frecuentemente almacenados en caché, los bots tienden a rastrear páginas oscuras y menos accesibles. Este comportamiento obliga a los centros de datos centrales de Wikimedia a servir estas solicitudes directamente, eludiendo los sistemas de almacenamiento en caché diseñados para patrones de navegación humanos predecibles. Estos sistemas de almacenamiento en caché son ineficaces cuando los bots leen indiscriminadamente todo el archivo, lo que lleva a una carga mucho mayor en la infraestructura central.
En consecuencia, el análisis de Wikimedia reveló una asimetría significativa en los costos de tráfico. Si bien los bots representan solo el 35 por ciento de las visitas totales a páginas, son responsables de un desproporcionado 65 por ciento de las solicitudes más costosas a la infraestructura central. Esta información técnica es clave: el costo asociado con una sola solicitud de bot es considerablemente más alto que el de una solicitud humana, y cuando se escala a millones de solicitudes, esta diferencia se acumula rápidamente, lo que impone una carga financiera sustancial a la fundación.
El scraping de IA está sobrecargando significativamente los servidores y las finanzas de Wikipedia, consumiendo ancho de banda y elevando costos debido a bots que acceden a datos oscuros y evaden sistemas de caché. Este problema, reflejado en la comunidad FOSS, subraya la necesidad crítica de modelos sostenibles que reconozcan y compensen a los proyectos de código abierto por el uso de sus datos en el entrenamiento de IA.
Leave a Reply