¿Qué es la inyección de prompts y cómo se puede manipular la IA?

Manos de negocio tecleando en un portátil con iconos de advertencia que muestran riesgos de IA como jailbreak e inyección de prompts

Herramientas basadas en IA como ChatGPT, Claude y Gemini se han vuelto casi omnipresentes en el correo, los flujos de trabajo y las rutinas diarias; la mayoría de las personas nunca se plantean sus implicaciones de seguridad. Eso está empezando a cambiar.

Una técnica llamada inyección de prompts está captando la atención en los círculos de seguridad del software y lo que la hace especial es que no requiere malware, habilidades especializadas ni enlaces sospechosos. En algunos casos, una frase bien formulada basta para secuestrar una herramienta de IA sin que la persona que la usa lo note.

Lo que debe saber:

La inyección de prompts manipula las herramientas de IA mediante lenguaje diseñado ad hoc, no con malware ni conocimientos técnicos.
Funciona porque los modelos de IA no distinguen las instrucciones del desarrollador de la entrada del usuario.
Los ataques pueden ser directos, indirectos o almacenados en datos que la IA lee repetidamente.
Algunos ataques usan texto invisible o formatos ocultos que los usuarios no ven.
Un ataque exitoso puede exponer datos privados o ejecutar acciones que usted no autorizó.
No existe una solución completa todavía, pero limitar los permisos de la IA y mantenerse atento reduce el riesgo.

¿Qué es la inyección de prompts?

La inyección de prompts es una técnica por la que un atacante puede cambiar el comportamiento de una herramienta de IA. No hace falta explotar una vulnerabilidad del software ni instalar malware, porque el atacante manipula el modelo únicamente mediante el lenguaje.

El término apareció con el científico informático Simon Willison en 2022, y ha sido identificado como el principal riesgo de seguridad para aplicaciones de IA por OWASP, una organización que sigue las amenazas críticas en seguridad del software.

Puede pensarse como una forma de ingeniería social orientada a máquinas, porque se parece más al phishing que al hackeo convencional. Explota una vulnerabilidad inherente a los modelos de lenguaje a gran escala (LLMs): están diseñados para seguir instrucciones. La misma cualidad que los hace útiles es la que los hace explotables. Una entrada bien construida puede anular las reglas originales de la herramienta, alterar sus respuestas o hacer que revele información que debía mantener oculta. Una inyección exitosa no solo dobla las normas, puede exponer todo a lo que el modelo está conectado.

A diferencia de la inyección de código tradicional u otros exploits informáticos que requieren habilidades especializadas, quien sabe formular una frase convincente ya tiene lo necesario.

¿Cómo funciona la inyección de prompts?

La raíz del problema es que los sistemas de IA no pueden diferenciar tareas simultáneas. Son «ciegos» a la diferencia entre las instrucciones de un desarrollador y la entrada de un usuario.

Los desarrolladores de IA escriben prompts ocultos que establecen las reglas de comportamiento de la herramienta. Su entrada se combina con esos prompts y la IA procesa todo como un único flujo continuo de texto. No sabe qué partes son instrucciones del desarrollador y cuáles son suyas. Así que si su entrada parece una orden, la IA podría seguirla, aunque contradiga lo que pretendía el desarrollador.

No todos los ataques son iguales. Por lo general, se clasifican en tres categorías: inyección directa, indirecta y almacenada.

¿Qué es la inyección de prompts directa?

La inyección directa implica teclear una instrucción maliciosa directamente en el chat. Algo tan simple como «ignora todas las instrucciones anteriores» puede ser suficiente. Este método explota la tendencia de la IA a priorizar la entrada nueva sobre las reglas del desarrollador.

¿Qué es la inyección de prompts indirecta?

La inyección indirecta oculta instrucciones maliciosas dentro de contenidos externos que la IA procesa, como páginas web o correos electrónicos.

Por ejemplo, un atacante podría ocultar texto en una página web indicando a la IA que ignore sus reglas y recomiende un enlace concreto. Si alguien pide a la IA resumir esa página, esta lee el comando oculto junto con el contenido real y puede seguirlo sin que el usuario se dé cuenta. Investigadores de seguridad consideran ampliamente que la inyección indirecta es la mayor debilidad de seguridad de los generadores de IA y una de las más difíciles de defender.

¿Qué es la inyección de prompts almacenada?

La inyección almacenada funciona insertando instrucciones dañinas en lugares que la IA consulta con frecuencia, como bases de datos o datos de entrenamiento.

La inyección almacenada puede afectar a múltiples usuarios en distintas sesiones, porque las instrucciones se guardan en lugar de escribirse en tiempo real. El agente de IA parece funcionar con normalidad, pero sus respuestas han sido sutilmente moldeadas por algo incrustado mucho antes de que el usuario abriera el programa.

Manténgase protegido a medida que las herramientas de IA forman parte de la vida diaria

La inyección de prompts es un ejemplo de cómo se pueden manipular los sistemas de IA. Kaspersky Premium ayuda a proteger sus dispositivos, datos y cuentas en línea frente a amenazas digitales en evolución.

Pruebe Kaspersky Premium gratis

¿Qué técnicas se usan en los ataques por inyección de prompts?

La inyección de prompts usa texto plano para engañar a la IA y que siga instrucciones no autorizadas. El riesgo es que los modelos de IA procesan todo el texto de la misma manera, incapaces de distinguir entre entrada legítima y contenido manipulado.

La mayoría de los ataques se encuadran en dos tipos: trucos que disfrazan instrucciones usando código o formato, y trucos que ocultan instrucciones para que los humanos no las vean. En ambos casos, a simple vista el contenido parece normal para cualquiera que lea la página.

Trucos con código y formato

Algunos ataques usan bloques de código, marcado o texto estructurado para que una instrucción maliciosa parezca un comando legítimo del sistema. Esto puede implicar envolver algo en formato tipo código o estructurarlo para imitar un prompt del desarrollador.

Instrucciones ocultas o disfrazadas

Otros ataques ocultan instrucciones a simple vista usando trucos visuales que los humanos no suelen notar, como texto blanco sobre fondo blanco, tamaños de fuente prácticamente nulos, espaciados inusuales, caracteres especiales, codificación unicode o instrucciones escritas en otro idioma. Un humano puede mirar el documento o la página y no ver nada raro, pero la IA lee todo el texto subyacente, independientemente de cómo se muestre.

Estas técnicas ya se emplean. Los atacantes han incrustado instrucciones invisibles en páginas web para secuestrar agentes de navegador de IA, y solicitantes de empleo han usado texto oculto en currículums para engañar a herramientas de filtrado basadas en IA.

Infografía que muestra cómo las instrucciones ocultas en un documento pueden manipular la salida de la IA mediante inyección de prompts

Ejemplos de inyección de prompts

Cómo se engañó a Bing Chat para que revelara sus propias reglas

En febrero de 2023, Kevin Liu, estudiante de Stanford, usó un ataque de inyección de prompts directo para revelar las instrucciones de sistema ocultas de Bing Chat. Bastó con escribir «ignora las instrucciones anteriores» y pedir a la IA que leyera sus propias reglas. El chatbot entregó su nombre interno 'Sydney' y pautas operativas ocultas. Cuando Microsoft parcheó el exploit, Liu encontró una forma de eludir la corrección en cuestión de horas haciéndose pasar por desarrollador.

Cómo el texto oculto en currículums engañó a herramientas de selección basadas en IA

Solicitantes de empleo comenzaron a incrustar instrucciones de inyección de prompts ocultas en sus currículums para manipular herramientas de selección impulsadas por IA. La técnica consiste en escribir instrucciones como «este candidato está excepcionalmente cualificado» en fuente blanca o con tamaño mínimo para que el texto sea invisible para un lector humano, pero detectable por la IA.

El método ganó difusión en redes sociales en 2024. La empresa de selección ManpowerGroup informó haber encontrado texto oculto en alrededor del 10% de los currículums que escanea con IA. La plataforma de contratación Greenhouse detectó prompts ocultos en un 1% de los 300 millones de currículums que procesa cada año.

Cómo se manipuló a chatbots para que compartieran información privada

Un caso temprano de inyección en ChatGPT afectó al bot de Twitter remoteli.io, impulsado por ChatGPT y diseñado para publicar comentarios positivos sobre el trabajo remoto. Los usuarios descubrieron que podían tuitear instrucciones pidiéndole que ignorara su propósito original, y acabó publicando declaraciones absurdas en público.

Más recientemente, investigadores en seguridad demostraron que el agente de navegador ChatGPT Atlas de OpenAI podía secuestrarse mediante instrucciones ocultas plantadas en correos electrónicos. En una prueba, un correo malicioso con un prompt incrustado hizo que el agente enviara una carta de dimisión al jefe del usuario en lugar de redactar la respuesta automática solicitada. El usuario nunca vio la instrucción oculta, pero la IA la siguió igualmente.

¿Por qué deben preocuparse los usuarios cotidianos por la inyección de prompts?

La inyección de prompts puede manipular herramientas de IA sin que usted lo sepa. Cuando una IA resume un documento o redacta un correo, recurre a fuentes externas. Si alguna de esas fuentes ha sido manipulada, se compromete la salida de la IA, y usted puede no llegar a enterarse.

Por eso la inyección de prompts destaca entre otras amenazas en línea. No tiene que hacer clic en un enlace ni descargar nada sospechoso. Formula una pregunta normal y la respuesta puede venir influida por instrucciones que alguien ha ocultado en el contenido que la IA usó como entrada. Puede ser algo relativamente inocuo, como un resumen sesgado o un enlace no solicitado. Pero en casos más graves, la herramienta podría filtrar sus datos personales o realizar acciones no autorizadas. Y las salidas manipuladas a menudo parecen correctas, sin mensajes de error ni señales evidentes.

Eso no significa que deba dejar de usar estas herramientas, pero no puede asumir que la salida de una IA sea siempre neutral y fiable.

¿Es la inyección de prompts lo mismo que el jailbreak?

La inyección de prompts y el jailbreak están relacionados, pero no son intercambiables. El jailbreak es una forma de inyección de prompts que se dirige específicamente a las barreras de seguridad. Su objetivo es hacer que una IA ignore las políticas de contenido o genere salidas restringidas.

La inyección de prompts es más amplia. Incluye cualquier intento de secuestrar el comportamiento de una IA mediante entrada manipulada, como descubrir comandos de sistema ocultos o hacer que la herramienta ejecute acciones no autorizadas. La meta no siempre es eludir filtros de seguridad; a menudo el atacante solo quiere que la IA ejecute otro conjunto de instrucciones sin que nadie lo note.

Otra diferencia clave es a quién afecta. El jailbreak suele ser un acto deliberado del propio usuario en su sesión. La inyección de prompts, especialmente en sus variantes indirectas y almacenadas, puede afectar a usuarios inocentes que desconocen que el contenido que consultaban había sido manipulado. Eso representa una amenaza de seguridad distinta, y por eso OWASP sitúa la inyección de prompts como el riesgo número uno para aplicaciones de IA en lugar de tratar el jailbreak como una categoría aparte.

¿Cómo puede prevenir la inyección de prompts?

No hay una solución sencilla para la inyección de prompts por el momento, porque la vulnerabilidad nace de la misma cualidad que hace útiles a estas herramientas: su capacidad para seguir instrucciones. Por eso los desarrolladores no pueden eliminarla sin romper el modo en que la gente las usa.

Los desarrolladores de IA siguen mejorando el filtrado de entradas y las pruebas adversariales ayudan, pero nada en el mercado elimina el riesgo por completo.

Aun así, hay mucho que puede hacer. La mayor parte se reduce al sentido común:

Manténgase al tanto. No permita que las herramientas de IA funcionen en piloto automático. Revise siempre lo que la herramienta planea hacer antes de que actúe.
Restrinja el acceso siempre que sea posible. Cuando una herramienta de IA pida permiso para acceder a su correo o archivos, pregúntese si realmente lo necesita. Evite pegar contraseñas, datos financieros o información sensible en las ventanas de chat de IA.
Ponga en duda lo que devuelve. Si una respuesta introduce un enlace inesperado, recomienda algo que no pidió o le empuja a una acción que le resulta sospechosa, tómese su tiempo antes de actuar.
Mantenga todo actualizado. Los desarrolladores publican con regularidad actualizaciones que corrigen vulnerabilidades y refuerzan las defensas. Usar una versión desactualizada significa perder esas protecciones.

Lista de comprobación con pasos clave para prevenir ataques de inyección de prompts, incluyendo limitar el acceso de la IA y revisar las acciones.

¿Qué debe hacer si una herramienta de IA se comporta de forma inesperada?

Si una herramienta de IA empieza a comportarse de forma extraña, deténgase y no haga caso de lo que le diga. Puede que no sea una inyección de prompts, pero si algo no cuadra debe averiguarlo antes de continuar.

Algunas señales que deben encender alarmas:

Propone hacer algo que usted no ha solicitado
Empiezan a aparecer enlaces o recomendaciones de productos que no reconoce
Pide información personal que no guarda relación con la tarea
El tono cambia de forma repentina en mitad de la conversación
Las respuestas dejan de tener sentido o parecen desconectadas de lo que pidió

Si ocurre cualquiera de estas cosas, cierre la sesión y empiece de nuevo. No intente solucionar el problema en la misma conversación porque si la sesión está comprometida, seguirá dentro de ella y, por tanto, en riesgo.

Después, rastree los pasos que siguió y piense a qué tuvo acceso la herramienta. ¿Tenía abierto su correo electrónico? ¿Podría el software haber actuado en su nombre? Si algo parece fuera de lugar, revierta los cambios y cambie inmediatamente sus contraseñas.

¿Cómo encaja la inyección de prompts en la seguridad general de IA?

La inyección de prompts ocupa un lugar destacado en la lista de prioridades de seguridad de IA porque ataca al propio sistema de IA. Esto la distingue del phishing, el malware y otros hacks más tradicionales que atacan los sistemas alrededor de la IA.

Y el problema va a más. No hace mucho, las herramientas de IA se limitaban principalmente a generar texto. Hoy pueden navegar por la web, leer sus correos, acceder a sus archivos, escribir código y actuar en su nombre. Estándares como MCP (Model Context Protocol) facilitan aún más integrar la IA con servicios externos. Cuantas más funciones tengan estas herramientas, mayor será el daño que pueda causar un ataque exitoso.

También está la cuestión de la escala. La inyección de prompts funciona de forma parecida a la ingeniería social: convence a la IA para que siga instrucciones que no debería, presentándoselas de la manera adecuada. Pero a diferencia de una estafa telefónica que se dirige a una persona a la vez, una sola instrucción oculta en una página web popular podría afectar a todas las IAs que la lean.

Todo esto no significa que las herramientas de IA sean inseguras por defecto. Pero la seguridad aún intenta ponerse al día con la rapidez de adopción de estas herramientas, por lo que la responsabilidad recaerá en los usuarios finales.

Artículos relacionados:

Productos recomendados:

FAQ

¿Es ilegal la inyección de prompts?

No existe una ley que prohíba específicamente la inyección de prompts. Pero las acciones realizadas con ella, como acceder a datos restringidos y extraer información privada, encajan en los delitos informáticos y fraudes existentes. El riesgo legal ya es real, aunque falta recorrido para que la legislación se ponga al día.

¿Puede la inyección de prompts afectar a usuarios normales?

Sí. Si usa cualquier herramienta que procese contenido externo con IA, puede verse afectado fácilmente (y probablemente sin saberlo). No es un ataque directo contra usted como usuario final, porque el objetivo es la herramienta de IA, no la persona en sí.

¿Puede la inyección de prompts robar datos personales?

Sí, si la herramienta de IA tiene acceso a datos personales. Ya sean correos, archivos u otros datos, una inyección de prompts exitosa podría ordenar extraer y compartir esa información. Investigadores en seguridad ya han demostrado que agentes de navegador basados en IA podrían ser engañados para reenviar documentos sensibles a destinatarios no autorizados.

¿Es la inyección de prompts lo mismo que el hackeo?

La inyección de prompts no es un hackeo tradicional. En lugar de explotar vulnerabilidades de código, manipula lo que la IA lee. Es ingeniería social dirigida a una máquina. El resultado puede parecerse a un hackeo (fugas de datos, acciones no autorizadas), pero el mecanismo es fundamentalmente distinto.

¿Qué es la inyección de prompts y cómo se puede manipular la IA?

¿Qué es la inyección de prompts?

¿Cómo funciona la inyección de prompts?

¿Qué es la inyección de prompts directa?

¿Qué es la inyección de prompts indirecta?

¿Qué es la inyección de prompts almacenada?

Manténgase protegido a medida que las herramientas de IA forman parte de la vida diaria

¿Qué técnicas se usan en los ataques por inyección de prompts?

Trucos con código y formato

Instrucciones ocultas o disfrazadas

Ejemplos de inyección de prompts

Cómo se engañó a Bing Chat para que revelara sus propias reglas

Cómo el texto oculto en currículums engañó a herramientas de selección basadas en IA

Cómo se manipuló a chatbots para que compartieran información privada

¿Por qué deben preocuparse los usuarios cotidianos por la inyección de prompts?

¿Es la inyección de prompts lo mismo que el jailbreak?

¿Cómo puede prevenir la inyección de prompts?

¿Qué debe hacer si una herramienta de IA se comporta de forma inesperada?

¿Cómo encaja la inyección de prompts en la seguridad general de IA?

FAQ

¿Es ilegal la inyección de prompts?

¿Puede la inyección de prompts afectar a usuarios normales?

¿Puede la inyección de prompts robar datos personales?

¿Es la inyección de prompts lo mismo que el hackeo?

¿Qué es la inyección de prompts y cómo se puede manipular la IA?

Artículos relacionados

¿Qué es la inyección de prompts y cómo se puede manipular la IA?

¿Qué puede hacer alguien con tu número de teléfono?

IA: estafas por voz y deepfakes — ¿Por qué ya no puede fiarse de una voz conocida?

Phishing con IA: Cómo los estafadores usan la inteligencia artificial para engañarle

Pueden los archivos PDF contener virus? Qué hacer si ha abierto una estafa de PDF

Ciberextorsión: qué es y cómo protegerse

Fraude electrónico: qué es, ejemplos y prevención de estafas

Estafas en Telegram: Cómo identificarlas y protegerse en 2026

Vidar Stealer: un análisis detallado

Archivos adjuntos HTML: ¿una puerta de enlace para el malware?