CHATGPT Y GEMINI VULNERABLES A PROMPT INJECTION

La prompt injection es una vulnerabilidad que afecta a los LLM (Large Language Models), uno de los tipos de inteligencia artificial más utilizados dentro de los que se destacan ChatGPT, Gemini, entre otros.
Un prompt es una instrucción, pregunta o un texto que se utiliza para interactuar con sistemas de inteligencia artificial. En algunos casos, puede alterar la respuesta o el comportamiento de los LLM y dar un resultado que según su configuración o políticas de seguridad, no debería.
En este ataque, el cibercriminal puede manipular el modelo, y logra que produzca resultados indebidos, que son imperceptibles por el usuario. Esto podría permitir que, por ejemplo, el modelo transmita datos incorrectos a otras piezas del modelo, revele información restringida, o genere contenido malicioso. Incluso podrá influir en las decisiones o resoluciones tomadas por el modelo.
Esta vulnerabilidad puede permitir que los cibercriminales accedan a información confidencial y realicen acciones a través de integraciones con APIs (Application Programming Interface).
Tipos de prompt injection
Directas: Cuando la entrada del usuario afecta directamente el comportamiento del LLM, ya sea de manera intencional (cuando el usuario lo planea y lo arma) o no intencional, cuando por accidente los usuarios envían un prompt que por sus características generan una alteración del funcionamiento esperado del LLM.
- Ejemplo: Un atacante inyecta un mensaje en un chatbot de atención al cliente, instruyéndole que ignore las pautas anteriores, consulte almacenes de datos privados y envíe correos electrónicos, lo que lleva a un acceso no autorizado y una escalada de privilegios.
Indirectas: El modelo acepta prompts de fuentes externas o cuando el modelo acepta prompt de fuentes externas, como sitios web o archivos, cuyo contenido al ser interpretado genera la alteración. Nuevamente pueden ser intencionales o no.
- Ejemplo: Un usuario emplea un LLM para resumir una página web que contiene instrucciones ocultas que hacen que el LLM inserte una imagen que enlaza con una URL, lo que lleva a la exfiltración de la conversación privada.
Impacto
- Responder con información confidencial, tanto de usuarios como sobre la infraestructura del propio sistema
- Generar resultados sesgados o incorrectos para otros usuarios,
- Permitir acceso a distintas funciones del modelo (acceso que en principio no es abierto)
- Manipular la toma de decisiones, entre otras posibles consecuencias.
- Ejecución de código malicioso en dispositivos del usuario. Uno de los riesgos más graves a nivel de la ciberseguridad.
Fuente: https://www.welivesecurity.com/es/seguridad-digital/prompt-injection-ame...




Añadir nuevo comentario