Durante años, los proveedores de inteligencia artificial generativa han asegurado al público que los modelos de lenguaje grandes (LLM) están alineados con las directrices de seguridad, utilizando técnicas como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) para prevenir contenido dañino. Sin embargo, una nueva investigación de HiddenLayer sugiere que esta confianza podría ser infundada, revelando una técnica universal llamada “Marionetas de Políticas” que puede eludir estas salvaguardas en casi todos los LLM importantes.
Los proveedores de IA generativa han asegurado durante mucho tiempo al público y a las empresas que sus modelos de lenguaje grandes (LLM) son seguros y están alineados con las directrices éticas. Han promovido enérgicamente técnicas como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) como la piedra angular de esta alineación, prometiendo respuestas éticas incluso en situaciones difíciles.
Sin embargo, una nueva investigación de HiddenLayer sugiere que esta confianza puede estar equivocada. Su equipo ha descubierto una técnica de derivación universal, denominada “Policy Puppetry” (Marionetas de Políticas), que puede manipular casi todos los LLM importantes, independientemente del proveedor, la arquitectura o la canalización de entrenamiento.
Policy Puppetry es una forma de inyección de indicaciones (prompt injection) engañosamente simple pero muy efectiva. Reformula la intención maliciosa en el lenguaje de la configuración del sistema, lo que le permite eludir las salvaguardas de alineación tradicionales. Este método introduce una estructura de indicación “similar a una política”, que a menudo se asemeja a XML o JSON, que engaña al modelo para que interprete comandos dañinos como instrucciones legítimas del sistema.
Además, la técnica emplea codificación leetspeak y escenarios de juego de roles ficticios para evadir la detección y obligar al modelo a cumplir. Por ejemplo, los investigadores utilizaron con éxito esta técnica para generar contenido dañino utilizando ChatGPT 4o, y luego descubrieron que la misma indicación funcionaba contra prácticamente todos los demás modelos probados.
La lista de sistemas comprometidos incluye ChatGPT de OpenAI (o1 a 4o), la familia Gemini de Google, Claude de Anthropic, Copilot de Microsoft, LLaMA 3 y 4 de Meta, DeepSeek, Qwen y Mistral. Incluso los modelos más nuevos y aquellos ajustados para el razonamiento avanzado podrían verse comprometidos con pequeños ajustes en la estructura de la indicación.
Un elemento clave de Policy Puppetry es su dependencia de escenarios ficticios para eludir los filtros. Las indicaciones se enmarcan como escenas de dramas televisivos, como *House M.D.*, donde los personajes explican cómo crear sustancias peligrosas como esporas de ántrax o enriquecer uranio. Este uso de personajes ficticios y lenguaje codificado disfraza la naturaleza dañina del contenido.
Este método explota una limitación fundamental de los LLM: su incapacidad para distinguir entre historia e instrucción cuando las señales de alineación se subvierten. No es solo una evasión de los filtros de seguridad; es una redirección completa de la comprensión del modelo de lo que se le pide que haga.
Quizás aún más preocupante es la capacidad de Policy Puppetry para extraer indicaciones del sistema, los conjuntos de instrucciones centrales que rigen el comportamiento de un LLM. Estas indicaciones suelen contener directivas confidenciales, restricciones de seguridad y lógica propietaria.
Al cambiar sutilmente el juego de roles, los atacantes pueden hacer que un modelo emita su indicación completa del sistema textualmente. Esto expone los límites operativos del modelo y proporciona planos para diseñar ataques aún más dirigidos. Jason Martin, director de investigación adversaria en HiddenLayer, declaró que “La vulnerabilidad está arraigada en los datos de entrenamiento del modelo. No es tan fácil de solucionar como un simple fallo de código”.
Las implicaciones de esta vulnerabilidad se extienden más allá de las bromas digitales. Malcolm Harkins, director de confianza y seguridad de HiddenLayer, señala graves consecuencias en el mundo real. En la atención médica, los asistentes de chatbot podrían proporcionar consejos médicos peligrosos o exponer datos privados de pacientes. En finanzas, se podría exponer información confidencial de clientes. En la fabricación, la IA comprometida podría provocar pérdidas de rendimiento o tiempo de inactividad. En la aviación, la guía de IA corrupta podría comprometer la seguridad del mantenimiento.
En cada uno de estos escenarios, los sistemas de IA diseñados para mejorar la eficiencia o la seguridad podrían convertirse en vectores de riesgo.
La investigación pone en duda la eficacia de RLHF como único mecanismo de seguridad. Si bien los esfuerzos de alineación ayudan a reducir el uso indebido a nivel superficial, siguen siendo vulnerables a la manipulación de indicaciones a nivel estructural. Los modelos entrenados para evitar ciertas palabras o escenarios aún pueden ser engañados si la intención maliciosa se envuelve en el empaque correcto.
Chris “Tito” Sestito, cofundador y director ejecutivo de HiddenLayer, enfatiza que “El filtrado superficial y las barreras de protección demasiado simplistas a menudo enmascaran las debilidades de seguridad subyacentes de los LLM. Como muestra nuestra investigación, estos y muchos más puentes de acceso seguirán surgiendo, lo que hace que sea fundamental que las empresas y los gobiernos adopten soluciones de seguridad de IA dedicadas antes de que estas vulnerabilidades conduzcan a consecuencias en el mundo real”.
HiddenLayer aboga por un enfoque de defensa de doble capa, en lugar de depender únicamente del reentrenamiento del modelo o del ajuste fino de RLHF. Proponen plataformas externas de monitoreo de IA, como sus propias soluciones AISec y AIDR, que actúan como sistemas de detección de intrusiones. Estas plataformas escanean continuamente en busca de inyección de indicaciones, uso indebido y salidas inseguras.
Dichas soluciones permiten a las organizaciones responder en tiempo real a nuevas amenazas sin modificar el modelo en sí, un enfoque similar a la seguridad de confianza cero en la TI empresarial.
A medida que la IA generativa se integra cada vez más en los sistemas críticos, la superficie de ataque se está expandiendo más rápido de lo que la mayoría de las organizaciones pueden asegurar. Los hallazgos de HiddenLayer sirven como una advertencia sombría: la era de la IA segura por alineación puede haber terminado antes de que realmente comenzara.
La conclusión es que si una indicación puede desbloquear lo peor de lo que la IA puede producir, la seguridad necesita evolucionar de una restricción esperanzadora a una defensa continua e inteligente.
La investigación de HiddenLayer revela la técnica “Títeres de Políticas” que elude las medidas de seguridad en casi todos los LLMs principales, explotando su incapacidad para diferenciar historia de instrucción. Esto permite la extracción de prompts del sistema y la generación de contenido dañino, socavando la confianza en RLHF para la alineación. Los hallazgos exigen un cambio de la re-entrenamiento reactivo del modelo a soluciones proactivas y continuas de seguridad de la IA, ya que la era de la IA segura por alineación podría estar terminando.
Leave a Reply