CHATGPT Y GEMINI VULNERABLES A PROMPT INJECTION

La prompt injection es una vulnerabilidad que afecta a los LLM (Large Language Models), uno de los tipos de inteligencia artificial más utilizados dentro de los que se destacan ChatGPT, Gemini, entre otros.

Un prompt es una instrucción, pregunta o un texto que se utiliza para interactuar con sistemas de inteligencia artificial. En algunos casos, puede alterar la respuesta o el comportamiento de los LLM y dar un resultado que según su configuración o políticas de seguridad, no debería.

En este ataque, el cibercriminal puede manipular el modelo, y logra que produzca resultados indebidos, que son imperceptibles por el usuario. Esto podría permitir que, por ejemplo, el modelo transmita datos incorrectos a otras piezas del modelo, revele información restringida, o genere contenido malicioso. Incluso podrá influir en las decisiones o resoluciones tomadas por el modelo.
Esta vulnerabilidad puede permitir que los cibercriminales accedan a información confidencial y realicen acciones a través de integraciones con APIs (Application Programming Interface). 

Tipos de prompt injection

Directas: Cuando la entrada del usuario afecta directamente el comportamiento del LLM, ya sea de manera intencional (cuando el usuario lo planea y lo arma) o no intencional, cuando por accidente los usuarios envían un prompt que por sus características generan una alteración del funcionamiento esperado del LLM.

  • Ejemplo: Un atacante inyecta un mensaje en un chatbot de atención al cliente, instruyéndole que ignore las pautas anteriores, consulte almacenes de datos privados y envíe correos electrónicos, lo que lleva a un acceso no autorizado y una escalada de privilegios.

Indirectas: El modelo acepta prompts de fuentes externas o cuando el modelo acepta prompt de fuentes externas, como sitios web o archivos, cuyo contenido al ser interpretado genera la alteración. Nuevamente pueden ser intencionales o no.

  • Ejemplo: Un usuario emplea un LLM para resumir una página web que contiene instrucciones ocultas que hacen que el LLM inserte una imagen que enlaza con una URL, lo que lleva a la exfiltración de la conversación privada.

Impacto

  • Responder con información confidencial, tanto de usuarios como sobre la infraestructura del propio sistema
  • Generar resultados sesgados o incorrectos para otros usuarios,
  • Permitir acceso a distintas funciones del modelo (acceso que en principio no es abierto)
  • Manipular la toma de decisiones, entre otras posibles consecuencias.
  • Ejecución de código malicioso en dispositivos del usuario. Uno de los riesgos más graves a nivel de la ciberseguridad.

Fuente: https://www.welivesecurity.com/es/seguridad-digital/prompt-injection-ame...

Añadir nuevo comentario

Filtered HTML

  • Las direcciones de las páginas web y las de correo se convierten en enlaces automáticamente.
  • Etiquetas HTML permitidas: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Saltos automáticos de líneas y de párrafos.

Plain text

  • No se permiten etiquetas HTML.
  • Las direcciones de las páginas web y las de correo se convierten en enlaces automáticamente.
  • Saltos automáticos de líneas y de párrafos.