Inyecciones de peticiones indirectas y estrategia de defensa por capas de Google para Gemini

Este artículo está dirigido a administradores de Google Workspace administrators. Usuarios de Gemini: descubre cómo te protege Google cuando usas la aplicación Gemini o las aplicaciones de Gemini en Workspace: Gmail, editores de Documentos, Drive y Chat.

La inyección de peticiones indirectas es una vulnerabilidad de seguridad sofisticada que afecta a los sistemas de IA generativa. En este artículo se explica la estrategia de defensa integral y por capas de Google para mitigar esta vulnerabilidad en la aplicación Gemini y Gemini en las aplicaciones de Workspace.

Secciones de esta página

¿Qué es una petición en el contexto de la IA generativa?

Una petición es una instrucción o una entrada que se proporciona a un modelo de IA generativa para guiar su resultado. Los modelos de IA generativa interpretan estas peticiones para crear contenido, como texto, imágenes o código, basándose en patrones que aprenden a partir de conjuntos enormes de datos.

¿Qué es una inyección de peticiones indirectas?

La inyección de peticiones indirectas es un tipo de vulnerabilidad de seguridad en los sistemas de IA, que consiste en ocultar instrucciones maliciosas en los datos externos que procesa el modelo de IA. Es decir, el usuario no da estas instrucciones directamente a la IA. El objetivo es manipular el comportamiento o el resultado del sistema sin que el usuario lo sepa explícitamente.

¿Cómo funcionan las inyecciones de peticiones indirectas?

Las inyecciones de peticiones indirectas se producen cuando un sistema de IA procesa datos externos, como contenido de sitios web, correos o documentos, que contienen instrucciones maliciosas insertadas. El sistema, sin ser consciente de los comandos ocultos o las instrucciones maliciosas, los ejecuta junto con su tarea principal. Esto puede dar lugar a acciones no deseadas o a la divulgación de información.

¿Cuáles son algunos ejemplos reales de ataques de inyección de peticiones indirectas?

  • Hackeo de un chatbot: se introduce una instrucción maliciosa en un chatbot de IA entrenado con datos externos en una página web, lo que provoca que revele información interna sensible.
  • Vulneración de un sistema de IA para resumir documentos: al pedirle a un sistema de IA que resuma un documento que contiene instrucciones ocultas, el sistema realiza una acción no autorizada, como enviar un correo.
  • Filtración externa de datos: se le pide a un sistema de IA que procese un archivo infectado. Sin darse cuenta, el sistema extrae y envía datos confidenciales a un destino externo.

¿Por qué suponen un problema importante las inyecciones de peticiones indirectas? ¿Qué riesgos conllevan?

Las inyecciones de peticiones indirectas son una amenaza importante para la seguridad de los sistemas de IA y la privacidad de los datos. Pueden provocar que se acceda a datos sin autorización, se manipule el comportamiento de la IA y se haga un uso inadecuado de la información. Esta vulnerabilidad socava la fiabilidad de la IA al ser víctima de ciberataques difíciles de detectar y prevenir mediante las medidas de seguridad tradicionales.

¿Qué enfoque adopta Google para mitigar los ataques de inyección de peticiones indirectas?

Google emplea un enfoque de seguridad integral y por capas para mitigar los ataques de inyección de peticiones indirectas, especialmente con Gemini. Con esta estrategia, se introducen medidas de seguridad diseñadas para cada fase del ciclo de vida de las peticiones, desde el endurecimiento de los modelos hasta el uso de protecciones a nivel del sistema y el diseño de modelos de aprendizaje automático pensados específicamente para evitar este tipo de vulnerabilidad. 

Desde que implementamos por primera vez nuestras defensas mejoradas contra la inyección de peticiones indirectas, nuestros sistemas de protección por capas han estado mitigando intentos de inyección de peticiones indirectas continuamente y se han adaptado a nuevos patrones de ataque. Nuestras funciones de monitorización continua y de respuesta rápida nos permiten aprender de cada caso y reforzar nuestras defensas.

¿Cuáles son las capas de defensa clave contra la inyección de peticiones indirectas?

El enfoque de seguridad por capas de Google incluye lo siguiente:

  • Clasificadores de contenido de inyección de peticiones: modelos de aprendizaje automático propios que detectan peticiones e instrucciones maliciosas en varios formatos de datos.
  • Refuerzo de la mentalidad de seguridad: instrucciones de seguridad específicas que se añaden al contenido de la petición. Estas instrucciones recuerdan al modelo de lenguaje extenso (LLM) que debe realizar la tarea que le ha pedido el usuario e ignorar las instrucciones maliciosas.
  • Saneamiento de Markdown y ocultamiento de URLs sospechosas: identificación y ocultamiento de URLs de imágenes externas y enlaces sospechosos mediante Navegación segura de Google para evitar ataques basados en URLs y filtraciones externas de datos.
  • Framework de confirmación del usuario: sistema contextual que requiere que el usuario confirme de forma explícita operaciones que pueden entrañar riesgos, como eliminar eventos del calendario.
  • Notificaciones de mitigación de seguridad para usuarios finales: información contextual que se proporciona a los usuarios cuando se detecta y se mitiga un incidente de seguridad. En estas notificaciones se anima a los usuarios a obtener más información en artículos del Centro de Ayuda específicos.
  • Resiliencia del modelo: robustez de los modelos de Gemini frente a ataques, que los protege de manipulaciones maliciosas explícitas.

¿Cómo funcionan los clasificadores de contenido de inyección de peticiones?

Los clasificadores de contenido de inyección de peticiones son la primera línea de defensa, ya que identifican y denuncian las entradas sospechosas de contener instrucciones maliciosas. Estos clasificadores analizan la estructura, las palabras clave y los patrones de las peticiones para detectar posibles intentos de inyección antes de que lleguen a afectar al comportamiento del modelo de IA, lo que permite filtrar el contenido dañino.

¿Qué es el refuerzo de la mentalidad de seguridad?

El refuerzo de la mentalidad de seguridad consiste en entrenar modelos de IA para que prioricen las cuestiones de seguridad en sus procesos de toma de decisiones. Esta técnica añade instrucciones de seguridad específicas en torno al contenido de la petición para recordar al LLM que se centre en la tarea que le ha pedido el usuario y que ignore cualquier instrucción adversa o maliciosa insertada en el contenido.

¿Cómo se mejora la seguridad mediante el saneamiento de Markdown y el ocultamiento de URLs sospechosas?

El saneamiento de Markdown elimina el código o los elementos de scripting potencialmente dañinos que se ocultan en el texto con formato Markdown e impide que se ejecuten. Con el ocultamiento de URLs sospechosas, se identifican y ocultan los enlaces que llevan a sitios web maliciosos conocidos, lo que impide que el sistema de IA acceda a contenido peligroso o lo propague. De esta forma, se evitan las inyecciones de peticiones indirectas que aprovechan las vulnerabilidades de formato o redirigen a la IA a recursos externos maliciosos.

¿Qué es el framework de confirmación del usuario?

El framework de confirmación del usuario introduce un paso por el que se requiere la aprobación explícita de las acciones o los resultados sensibles generados por IA. Antes de ejecutar comandos que puedan ser dañinos o compartir información confidencial, el sistema de IA pide al usuario que confirme su intención. Este enfoque con intervención humana (HITL) actúa como medida de protección final contra las acciones no autorizadas o no deseadas que se derivan de un ataque de inyección de peticiones exitoso.

¿Por qué son importantes las notificaciones de mitigación de seguridad para usuarios finales?

Mediante las notificaciones de mitigación de seguridad para usuarios finales se informa a los usuarios cuando se detecta o mitiga un posible riesgo de seguridad en un sistema de IA. Estas alertas proporcionan transparencia sobre las medidas de seguridad adoptadas e informan a los usuarios acerca de las posibles amenazas, lo que les permite tomar decisiones fundamentadas. De esta forma, se fomenta un enfoque colaborativo de la seguridad de la IA, lo que refuerza la confianza y promueve una interacción más segura con las aplicaciones de IA.

Recursos adicionales

Para obtener más información sobre los avances y las investigaciones de Google en relación con los atacantes, las técnicas de ataque y las vulnerabilidades de la IA generativa, consulta este artículo sobre mitigar ataques de inyección de peticiones con una estrategia de defensa por capas.

¿Te ha resultado útil esta información?

¿Cómo podemos mejorar esta página?
Búsqueda
Borrar búsqueda
Cerrar búsqueda
Aplicaciones de Google
Menú principal
17674915297502661308
true
Buscar en el Centro de ayuda
false
true
true
true
true
true
73010
false
false
false
false