Los modelos de IA son conocidos por tener dificultades con la precisión, a menudo “alucinan” información y se aferran obstinadamente a respuestas incorrectas. Un estudio reciente del Tow Center for Digital Journalism ha intentado cuantificar este problema, probando ocho motores de búsqueda de IA contra un conjunto de 200 artículos de noticias para evaluar su precisión al citar fuentes y proporcionar información correcta.
El desafío inherente a la precisión en los modelos de IA ha sido reconocido durante mucho tiempo, y las alucinaciones y la tendencia a aferrarse a información incorrecta plantean obstáculos significativos para los desarrolladores. Cuantificar la magnitud de esta imprecisión ha demostrado ser difícil debido a la vasta variación en los casos de uso individuales. Sin embargo, un estudio reciente del Tow Center for Digital Journalism ha intentado abordar esta brecha, proporcionando datos concretos sobre el rendimiento de varios motores de búsqueda de IA líderes. Esta investigación ofrece una confirmación contundente de una preocupación creciente: los modelos de lenguaje grandes (LLM) pueden presentar información falsa con confianza, a veces incluso argumentando en contra de las correcciones.
Para evaluar la precisión, el equipo del Tow Center llevó a cabo un estudio riguroso que involucró a ocho motores de búsqueda de IA: ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search y Copilot. La metodología consistió en seleccionar 200 artículos de noticias de 20 diferentes publicaciones, asegurando que cada artículo apareciera consistentemente dentro de los tres primeros resultados de búsqueda de Google cuando se utilizaba un extracto citado del artículo. Los investigadores luego replicaron estas consultas dentro de cada herramienta de búsqueda de IA, calificando meticulosamente la precisión según si la herramienta citaba correctamente el artículo, la organización de noticias y la URL. Las clasificaciones resultantes oscilaban entre “completamente correcto” y “completamente incorrecto”, proporcionando una visión granular del rendimiento.
Los hallazgos del estudio pintan un panorama preocupante. En todos los motores de búsqueda de IA probados, se observó una tasa de imprecisión colectiva del 60 por ciento. Además, los investigadores notaron un patrón inquietante: estos resultados inexactos a menudo eran reforzados por la aparente “confianza” de la IA en su veracidad. Esto hace eco de las preocupaciones planteadas en un artículo de 2023 de Ted Gioia (The Honest Broker), quien documentó numerosos casos de ChatGPT proporcionando información falsa con confianza, incluso cuando se le presentaba evidencia en sentido contrario. La evidencia anecdótica de Gioia, que abarcaba tanto consultas adversariales como generales, destacó la propensión del LLM a “mentir” con certeza inquebrantable. Incluso sugirió humorísticamente que creer la mitad de lo que ChatGPT afirmaba sería suficiente para confiarle la gestión de su publicación, una declaración destinada a subrayar las capacidades engañosas del bot.
La investigación confirmó una hipótesis de que los LLM parecen estar programados para proporcionar una respuesta a cada entrada del usuario, independientemente de la precisión. ChatGPT Search, si bien respondió a las 200 consultas de artículos, logró una calificación sorprendentemente baja del 28 por ciento “completamente correcto” y una asombrosa calificación del 57 por ciento “completamente incorrecto”. Esto demuestra una voluntad de generar respuestas, incluso si esas respuestas son demostrablemente falsas. Sin embargo, ChatGPT no fue el peor intérprete. Ambas versiones de Grok AI de X exhibieron una precisión particularmente pobre, con Grok-3 Search logrando una tasa de imprecisión de un desalentador 94 por ciento. Microsoft’s Copilot también tuvo dificultades, rechazando responder 104 de las 200 consultas. De las 96 restantes, solo 16 fueron consideradas “completamente correctas”, 14 fueron “parcialmente correctas” y un número sustancial de 66 fueron “completamente incorrectas”, lo que resulta en una tasa de imprecisión aproximada del 70 por ciento.
La falta de transparencia de estas empresas con respecto a las imprecisiones documentadas es particularmente preocupante, especialmente considerando las tarifas de suscripción asociadas con el acceso a sus últimos modelos de IA. Perplexity Pro ($20/mes) y Grok-3 Search ($40/mes) respondieron ligeramente más consultas correctamente que sus versiones gratuitas (Perplexity y Grok-2 Search), pero esto se produjo a costa de tasas de error significativamente más altas, lo que destaca aún más el compromiso entre capacidad de respuesta y fiabilidad. Esta práctica puede considerarse una táctica engañosa, que se aprovecha de la creciente fascinación del público por la IA al tiempo que se ocultan sus defectos inherentes.
A pesar de estos hallazgos preocupantes, algunos usuarios han informado experiencias positivas. Lance Ulanoff de TechRadar, por ejemplo, expresó una nueva renuencia a usar Google después de experimentar con ChatGPT Search, describiéndolo como rápido, consciente y preciso, con una interfaz limpia y sin publicidad. Esta perspectiva contrastante subraya la naturaleza subjetiva de la experiencia del usuario y el potencial de los casos de uso individuales para influir en la precisión percibida. Sin embargo, la metodología rigurosa del Tow Center y los datos cuantificables proporcionan una evaluación más objetiva del estado actual de la precisión de los motores de búsqueda de IA, lo que sugiere que se justifica la precaución y la evaluación crítica al confiar en estas herramientas para la recuperación de información.
Un reciente estudio confirma una amplia imprecisión en motores de búsqueda de IA como ChatGPT, Grok y Copilot, con tasas de error colectivas que alcanzan el 60% o más. A pesar de las afirmaciones de precisión y los testimonios de usuarios, estas herramientas a menudo presentan información falsa con confianza, incluso al ser corregidas. La falta de transparencia de las empresas que cobran por estos servicios, junto con un rendimiento inconsistente, genera serias preocupaciones sobre su fiabilidad y valor. Es crucial continuar investigando las capacidades y las implicaciones éticas de la IA.
Leave a Reply