Investigadores descubren vulnerabilidades en ChatGPT que permiten a los atacantes engañar a la IA para que filtre datos.

Investigadores de ciberseguridad han revelado un nuevo conjunto de vulnerabilidades que afectan al chatbot de inteligencia artificial (IA) ChatGPT de OpenAI, que podrían ser explotadas por un atacante para robar información personal de los recuerdos y el historial de chat de los usuarios sin su conocimiento.

The hacker news

11/5/20256 min read

Según Tenable, las siete vulnerabilidades y técnicas de ataque se encontraron en los modelos GPT-4o y GPT-5 de OpenAI. OpenAI ya ha solucionado algunas de ellas .

Estos problemas exponen al sistema de IA a ataques de inyección de comandos indirectos , lo que permite a un atacante manipular el comportamiento esperado de un modelo de lenguaje grande (LLM) y engañarlo para que realice acciones no deseadas o maliciosas, según indicaron los investigadores de seguridad Moshe Bernstein y Liv Matan en un informe compartido con The Hacker News.

Las deficiencias detectadas se enumeran a continuación:

Vulnerabilidad de inyección indirecta de código malicioso a través de sitios de confianza en el contexto de navegación, que consiste en solicitar a ChatGPT que resuma el contenido de páginas web con instrucciones maliciosas añadidas en la sección de comentarios, lo que provoca que el LLM las ejecute.
Vulnerabilidad de inyección indirecta de mensajes sin clic en Search Context, que consiste en engañar al LLM para que ejecute instrucciones maliciosas simplemente preguntando sobre un sitio web en forma de consulta en lenguaje natural, debido a que el sitio puede haber sido indexado por motores de búsqueda como Bing y el rastreador de OpenAI asociado con SearchGPT.
Vulnerabilidad de inyección de prompts mediante un solo clic, que consiste en crear un enlace con el formato "chatgpt[.]com/?q={Prompt}", lo que provoca que el LLM ejecute automáticamente la consulta en el parámetro "q=".
Vulnerabilidad de omisión del mecanismo de seguridad, que aprovecha el hecho de que el dominio bing[.]com está en la lista de permitidos en ChatGPT como una URL segura para configurar enlaces de seguimiento de anuncios de Bing (bing[.]com/ck/a) para enmascarar URL maliciosas y permitir que se muestren en el chat.
La técnica de inyección de conversación consiste en insertar instrucciones maliciosas en un sitio web y pedirle a ChatGPT que resuma el sitio web, lo que provoca que el LLM responda a las interacciones posteriores con respuestas no deseadas debido a que la instrucción se coloca dentro del contexto conversacional (es decir, la salida de SearchGPT).
Técnica de ocultación de contenido malicioso, que consiste en ocultar mensajes maliciosos aprovechando un error en la forma en que ChatGPT renderiza Markdown, que provoca que no se rendericen los datos que aparecen en la misma línea que indican la apertura de un bloque de código delimitado (```) después de la primera palabra.
La técnica de inyección de memoria consiste en envenenar la memoria ChatGPT de un usuario ocultando instrucciones secretas en un sitio web y pidiéndole al LLM que resuma el sitio.

Esta revelación se produce poco después de una investigación que demuestra varios tipos de ataques de inyección rápida contra herramientas de IA capaces de eludir las medidas de seguridad y protección.

Una técnica llamada PromptJacking explota tres vulnerabilidades de ejecución remota de código en los conectores de Chrome, iMessage y Notas de Apple de Anthropic Claude para lograr la inyección de comandos sin sanitizar, lo que resulta en la inyección de prompts.
Existe una técnica denominada «pirata de Claude» que abusa de la API de archivos de Claude para la exfiltración de datos mediante inyecciones de prompts indirectas, aprovechando una vulnerabilidad en los controles de acceso a la red de Claude.
Una técnica denominada contrabando de sesión de agente que aprovecha el protocolo Agent2Agent ( A2A ) permite a un agente de IA malicioso explotar una sesión de comunicación entre agentes establecida para inyectar instrucciones adicionales entre una solicitud legítima del cliente y la respuesta del servidor, lo que resulta en envenenamiento de contexto, exfiltración de datos o ejecución no autorizada de herramientas.
Una técnica denominada incepción inmediata que emplea inyecciones inmediatas para dirigir un agente de IA hacia la amplificación de sesgos o falsedades, lo que conduce a la desinformación a gran escala.
Un ataque sin clic llamado shadow escape que se puede utilizar para robar datos confidenciales de sistemas interconectados aprovechando las configuraciones estándar del Protocolo de Contexto del Modelo ( MCP ) y los permisos MCP predeterminados mediante documentos especialmente diseñados que contienen "instrucciones shadow" que activan el comportamiento cuando se cargan en chatbots de IA.
Se ha implementado una inyección indirecta de código malicioso dirigida a Microsoft 365 Copilot que abusa de la compatibilidad integrada de la herramienta con los diagramas de Mermaid para la exfiltración de datos, aprovechando su compatibilidad con CSS.
Se ha detectado una vulnerabilidad en GitHub Copilot Chat denominada CamoLeak (puntuación CVSS: 9.6) que permite la exfiltración encubierta de secretos y código fuente de repositorios privados, así como el control total de las respuestas de Copilot. Esto se logra mediante la elusión de la Política de Seguridad de Contenido ( CSP ) y la inyección remota de mensajes de solicitud utilizando comentarios ocultos en las solicitudes de extracción.
Un ataque de jailbreak de caja blanca llamado LatentBreak genera prompts adversarios naturales con baja perplejidad , capaz de evadir mecanismos de seguridad sustituyendo palabras en el prompt de entrada por otras semánticamente equivalentes y preservando la intención inicial del prompt.

Los resultados muestran que exponer los chatbots de IA a herramientas y sistemas externos, un requisito clave para construir agentes de IA, amplía la superficie de ataque al presentar más vías para que los actores maliciosos oculten mensajes maliciosos que terminan siendo analizados por los modelos.

«La inyección de código es un problema conocido en el funcionamiento de los LLM y, lamentablemente, probablemente no se solucionará sistemáticamente en un futuro próximo», afirmaron los investigadores de Tenable. «Los proveedores de IA deben asegurarse de que todos sus mecanismos de seguridad (como url_safe) funcionen correctamente para limitar los posibles daños causados por la inyección de código».

Este avance surge a raíz de un estudio realizado por un grupo de académicos de Texas A&M, la Universidad de Texas y la Universidad de Purdue, quienes descubrieron que entrenar modelos de IA con "datos basura" puede provocar un "deterioro cerebral" en los modelos de aprendizaje automático (LLM), advirtiendo que "depender en gran medida de los datos de Internet lleva al preentrenamiento de los LLM a la trampa de la contaminación de contenido".

El mes pasado, un estudio de Anthropic, el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing también descubrió que es posible introducir con éxito puertas traseras en modelos de IA de diferentes tamaños (600 millones, 2 mil millones, 7 mil millones y 13 mil millones de parámetros) utilizando solo 250 documentos envenenados, lo que desmiente las suposiciones anteriores de que los atacantes necesitaban obtener el control de un cierto porcentaje de los datos de entrenamiento para manipular el comportamiento de un modelo.

Desde el punto de vista del ataque, los actores maliciosos podrían intentar envenenar el contenido web que se extrae para entrenar modelos de aprendizaje automático, o podrían crear y distribuir sus propias versiones envenenadas de modelos de código abierto.

«Si los atacantes solo necesitan inyectar un número fijo y reducido de documentos en lugar de un porcentaje de los datos de entrenamiento, los ataques de envenenamiento de datos podrían ser más factibles de lo que se creía», afirmó Anthropic. «Crear 250 documentos maliciosos es trivial comparado con crear millones, lo que hace que esta vulnerabilidad sea mucho más accesible para los posibles atacantes».

Y eso no es todo. Otra investigación realizada por científicos de la Universidad de Stanford descubrió que optimizar los LLM para lograr el éxito competitivo en ventas, elecciones y redes sociales puede provocar inadvertidamente una desalineación, un fenómeno conocido como el Pacto de Moloch.

"En consonancia con los incentivos del mercado, este procedimiento produce agentes que logran mayores ventas, mayores porcentajes de votantes y mayor participación", escribieron los investigadores Batu El y James Zou en un documento adjunto publicado el mes pasado.

"Sin embargo, este mismo procedimiento también genera, como efecto secundario, graves problemas de seguridad, como la representación engañosa de productos en las presentaciones de ventas y la información falsa en las publicaciones de redes sociales. En consecuencia, si no se controla, la competencia en el mercado corre el riesgo de convertirse en una carrera a la baja: el agente mejora el rendimiento a expensas de la seguridad."

Investigadores descubren vulnerabilidades en ChatGPT que permiten a los atacantes engañar a la IA para que filtre datos.

SISA Consultores.