¿La IA es vulnerable a ciberataques?: estrategias para no
ser víctima del PromptFix

Leonardo Aparicio
Coeditor web IDC Asesor Fiscal, Jurídico y Laboral

2025-12-04

Los ciberdelincuentes ya explotan modelos de IA para manipular sistemas, robar datos y vulnerar identidades a través de prompts maliciosos

La expansión del uso de inteligencia artificial en herramientas corporativas, servicios financieros, plataformas empresariales y aplicaciones públicas dio origen a un nuevo frente de riesgo digital, pues los ciberdelincuentes ya no solo atacan dispositivos o cuentas, atacan directamente a los modelos de IA que procesan información, generan respuestas o automatizan operaciones. Esto significa que cualquier organización que utilice IA chatbots, sistemas de análisis, asistentes, motores de búsqueda o flujos automatizados puede ser vulnerada si no implementa controles sólidos.

ÚNETE A IDC en nuestro canal de Whatsapp

¿Qué es el PromptFix y los riesgos que implica?

De acuerdo a un estudio de ESET, empresa especializada en ciberseguridad, identificó que la adopción masiva de modelos de lenguaje y asistentes conversacionales abrió la puerta a ataques más sofisticados que se apoyan tanto en el comportamiento humano como en la manipulación del propio modelo.

Entre las tácticas detectadas destaca el PromptFix, el cual es una variante del Prompt Injection, modelo diseñado para engañar a los asistentes de navegadores mediante instrucciones ocultas para los agentes de IA, el cual les permite interactuar con sitios maliciosos, o incluso recibir órdenes ocultas para descargar archivos de manera automática en los dispositivos de las víctimas.

“Los actores maliciosos insertan instrucciones ocultas en contenido aparentemente legítimo para que la IA realice ciertas acciones sin que el usuario lo sepa ni tenga que intervenir. Por ejemplo, hacer clic en botones invisibles que simulan verificaciones, descargar archivos maliciosos o interactuar con enlaces fraudulentos”, indicó Martina López, Investigadora de Seguridad Informática de ESET Latinoamérica.

El alcance de este nuevo modelo de ataque dirigido a la IA no se limita a sitios web comprometidos con información que controlan los atacantes, también a contenido que se encuentra en redes sociales como Reddit o Facebook.

El mecanismo es simple, el atacante esconde órdenes dentro de un una publicación, página de entrada, correo, documento, fragmento de código, URL, dato de usuario o incluso en texto incrustado en una imagen. Si la IA procesa ese contenido sin filtros, termina obedeciendo la instrucción maliciosa.

¿Cuáles son los riesgos de los ataques a la IA?

De acuerdo a un análisis de netwrix, los principales riesgos que tiene un agente que procesa “prompts maliciosos” de acuerdo a un son:

Revelación de datos internos y confidenciales como credenciales de inicio de sesión, emails, o datos bancarios
Saltos a funciones no autorizadas del sistema
Manipulación de flujos automatizados en empresas
Generación de contenido fraudulento en nombre del usuario, como el generar pronósticos financieros falsos, consejos médicos o noticias fabricadas
Acceso indirecto a sistemas conectados al modelo
Descarga o ejecución de acciones que comprometen infraestructura
Salidas maliciosas, como los correos electrónicos de phishing o el malware, amplifican el fraude y el daño a la reputación

La gravedad radica en que la víctima no necesita “hacer clic” en nada, solo basta que la IA procese el texto contaminado para ejecutar la acción.

¿Estrategias para no ser víctima de ataques contra IA o PromptFix?

Las recomendaciones de ESET para usuarios, empresas y equipos técnicos apuntan a fortalecer controles antes de que un modelo reciba información potencialmente peligrosa como es el aplicar las siguientes medidas de prevención:

No autorizar acciones automáticas por defecto: si la Inteligencia Artificial quiere hacer clic, enviar archivos o completar formularios, primero debe pedirlo y obtener la confirmación del usuario.
Limitar al agente: no otorgar permiso a la IA para que navegue libre por internet, para que acceda a las contraseñas guardadas ni tampoco para usar el autocompletado.
Revisar imágenes y archivos antes de procesarlos: dado que los ciberatacantes pueden esconder instrucciones dentro de imágenes o archivos, lo ideal es que se pase por un filtro que busque texto oculto o señales extrañas
Usar listas de sitios confiables: permitir que el agente solamente interactúe con sitios conocidos y confiables. Ante un link sospechoso, debe bloquearlo y pedir autorización.

Aunque la tecnología ofrece avances significativos, las vulnerabilidades asociadas requieren atención inmediata y estrategias preventivas claras. La clave no es dejar de usar IA, sino usarla con controles y supervisión para evitar que se convierta en una puerta abierta para ciberdelincuentes.