Bots de IA: Wikipedia en riesgo, conocimiento libre amenazado

Los bots de inteligencia artificial (IA) están impactando cada vez más los sitios web con contenido escrito y multimedia, y la Fundación Wikimedia, que alberga Wikipedia y proyectos relacionados, está experimentando una tensión significativa. Desde principios de 2024, estos bots han estado extrayendo contenido agresivamente para entrenar modelos de IA, lo que ha provocado un aumento en el uso del ancho de banda y posibles interrupciones en el acceso para usuarios humanos.

Los bots de IA están impactando cada vez más en los sitios web, particularmente aquellos con contenido extenso como Wikipedia. Esto es impulsado por gigantes tecnológicos como OpenAI que buscan grandes cantidades de datos para entrenar sus modelos de IA. Esta actividad generalizada de scraping se está convirtiendo en un desafío significativo para las plataformas en línea.

La Fundación Wikimedia, que aloja Wikipedia y otros sitios populares, está experimentando una tensión significativa en su ancho de banda de internet debido a los bots de scraping de IA. Desde principios de 2024, ha habido un aumento sustancial en la demanda de contenido alojado en los servidores de Wikimedia, con empresas de IA consumiendo una cantidad abrumadora de tráfico específicamente para fines de entrenamiento.

Los proyectos de Wikimedia son repositorios masivos de conocimiento y medios de comunicación de acceso gratuito, utilizados por miles de millones de personas en todo el mundo. Wikimedia Commons, por ejemplo, alberga 144 millones de archivos bajo una licencia de dominio público, lo que lo convierte en un objetivo principal para el rastreo no regulado por parte de los bots de IA. Esto está impactando particularmente los recursos de la fundación.

La evidencia de este impacto es clara: la Fundación Wikimedia ha visto un aumento del 50 por ciento en el uso del ancho de banda para descargas multimedia desde enero de 2024, siendo los bots la principal fuente de este tráfico. Estos programas automatizados están rastreando activamente el catálogo de imágenes de Wikimedia Commons para alimentar contenido a los modelos de IA, un tipo de “tráfico de internet parasitario” que la infraestructura de la fundación no está diseñada para manejar.

Un incidente notable en diciembre de 2024 destacó aún más el problema. Cuando el expresidente de EE. UU. Jimmy Carter falleció, millones accedieron a su página de Wikipedia. Si bien los 2,8 millones de lectores fueron manejables, la transmisión de un video de 1,5 horas de su debate de 1980 con Ronald Reagan por parte de muchos usuarios aumentó significativamente el tráfico.

Esta duplicación del tráfico de red normal provocó congestión en un pequeño número de rutas de conexión a internet de Wikipedia durante aproximadamente una hora. Si bien el equipo de Fiabilidad del Sitio de Wikimedia redirigió con éxito el tráfico y restauró el acceso, el incidente subrayó la vulnerabilidad de su infraestructura a los aumentos repentinos, particularmente aquellos exacerbados por la actividad de los bots.

Una investigación adicional durante una migración del sistema reveló la magnitud del problema: al menos el 65 por ciento del tráfico más intensivo en recursos se originó en bots. Este tráfico eludió la infraestructura de caché e impactó directamente en el centro de datos principal de Wikimedia, lo que demuestra el profundo impacto de esta actividad de scraping.

En respuesta a este nuevo desafío de la red, que ahora está afectando a todo internet a medida que las empresas de IA y tecnología rastrean el contenido creado por humanos, la organización está buscando activamente soluciones. Reconocen su papel en un modelo de “conocimiento como servicio”, reconociendo que una parte significativa de internet se basa en el contenido de Wikimedia.

Para abordar esto, Wikimedia está abogando por un enfoque más responsable del acceso a la infraestructura y está buscando una mejor coordinación con los desarrolladores de IA. Sugieren que las API dedicadas podrían ayudar a aliviar la carga del ancho de banda y facilitar la identificación y mitigación de los “actores maliciosos” dentro de la industria de la IA, promoviendo un ecosistema digital más sostenible y colaborativo.

Los bots de IA que realizan scraping están sobrecargando significativamente los recursos de sitios web como Wikipedia y Wikimedia Commons, aumentando el uso de ancho de banda y la congestión de la red. La Fundación Wikimedia aboga por prácticas responsables en el desarrollo de la IA, incluyendo el uso de APIs dedicadas, para mitigar este tráfico “parasitario” y asegurar la accesibilidad continua de recursos de conocimiento vitales. El futuro del contenido de código abierto depende de fomentar un ecosistema colaborativo donde la innovación de la IA no se produzca a expensas de los pilares fundamentales de Internet.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *