Cómo escuchar de manera clandestina una red neuronal

El ataque Whisper Leak permite al perpetrador adivinar el tema de tu conversación con un asistente de IA, sin descifrar el tráfico. Exploramos cómo es posible y qué puedes hacer para proteger tus chats de IA.

Las personas confían a las redes neuronales sus asuntos más importantes, incluso íntimos: verificar diagnósticos médicos, buscar consejos amorosos o recurrir a la IA en lugar de un psicoterapeuta. Ya se conocen casos de planificación de suicidio, ataques en el mundo real y otros actos peligrosos facilitados por los LLM.  En consecuencia, los chats privados entre humanos y la IA están atrayendo cada vez más la atención de las autoridades gubernamentales, las empresas y las personas curiosas.

Por lo tanto, no habrá escasez de personas dispuestas a implementar el ataque Whisper Leak en la práctica. Después de todo, permite determinar el tema general de una conversación con una red neuronal sin interferir con el tráfico de ninguna manera, simplemente analizando los patrones de tiempo de envío y recepción de paquetes de datos cifrados a través de la red al servidor de IA. Sin embargo, aún puedes mantener la privacidad de tus chats. A continuación, te brindamos más información.

Cómo funciona el ataque Whisper Leak

Todos los modelos de lenguaje generan su salida de forma progresiva. Para el usuario, esto parece como si una persona del otro lado estuviera escribiendo palabra por palabra. Sin embargo, en realidad, los modelos de lenguaje no funcionan con caracteres individuales o palabras, sino con tokens, una especie de unidad semántica para los LLM, y la respuesta de la IA aparece en la pantalla a medida que se generan estos tokens. Este modo de salida se conoce como “streaming” y resulta que puede inferir el tema de la conversación midiendo las características del “stream”. Anteriormente abordamos un proyecto de investigación que logró reconstruir con bastante exactitud el texto de un chat con un bot al analizar la longitud de cada token que se envió.

Los investigadores de Microsoft llevaron esto más allá al analizar las características de respuesta de 30 modelos de IA diferentes a 11 800 prompts. Se utilizaron cien prompts: variaciones de la pregunta “¿Es legal el blanqueo de dinero?”, mientras que el resto fueron aleatorias y abordaban temas completamente diferentes.

Al comparar el retraso en la respuesta del servidor, el tamaño del paquete y el recuento total de paquetes, los investigadores pudieron separar con mucha exactitud las consultas “peligrosas” de las “normales”. También utilizaron redes neuronales para el análisis, aunque no LLM. Dependiendo del modelo que se esté estudiando, la exactitud de la identificación de temas “peligrosos” osciló entre el 71 % y el 100 %, con una exactitud superior al 97 % para 19 de los 30 modelos.

Luego, los investigadores realizaron un experimento más complejo y realista. Probaron un conjunto de datos de 10 000 conversaciones aleatorias, donde solo una se centró en el tema escogido.

Los resultados fueron más variados, pero el ataque simulado resultó bastante exitoso. Para modelos como Deepseek-r1, Groq-llama-4, gpt-4o-mini, xai-grok-2 y -3, así como Mistral-small y Mistral-large, los investigadores pudieron detectar la señal en el ruido en el 50 % de sus experimentos, con cero falsos positivos.

Para Alibaba-Qwen2.5, Lambda-llama-3.1, gpt-4.1, gpt-o1-mini, Groq-llama-4 y Deepseek-v3-chat, la tasa de éxito de detección se redujo al 20 %, aunque aún sin falsos positivos. Mientras tanto, para Gemini 2.5 pro, Anthropic-Claude-3-haiku y gpt-4o-mini, la detección de chats “peligrosos” en los servidores de Microsoft solo fue exitosa en el 5 % de los casos. La tasa de éxito para otros modelos probados fue aún menor.

Un punto clave a considerar es que los resultados dependen no solo del modelo de IA específico, sino también de la configuración del servidor en el que se está ejecutando. Por lo tanto, el mismo modelo de OpenAI puede mostrar diferentes resultados en la infraestructura de Microsoft frente a los propios servidores de OpenAI. Lo mismo ocurre con todos los modelos de código abierto.

Implicaciones prácticas: ¿qué se necesita para que el ataque Whisper Leak funcione?

Si un atacante con buenos recursos tiene acceso al tráfico de red de sus víctimas, por ejemplo, controlando un router en un ISP o dentro de una organización, puede detectar un porcentaje significativo de conversaciones sobre temas de interés simplemente midiendo el tráfico enviado a los servidores de asistentes de IA, todo ello manteniendo una tasa de error muy baja. Sin embargo, esto no equivale a la detección automática de cualquier posible tema de conversación. El atacante primero debe entrenar sus sistemas de detección sobre temas específicos; el modelo solo identificará esos temas.

Esta amenaza no puede descartarse como puramente teórica. Los organismos encargados de hacer cumplir la ley podrían, por ejemplo, supervisar las consultas relacionadas con la fabricación de armas o drogas, mientras que las empresas podrían rastrear las consultas de búsqueda de empleo de los empleados. Sin embargo, el uso de esta tecnología para realizar una vigilancia masiva en cientos o miles de temas no es factible, ya que requiere demasiados recursos.

En respuesta a la investigación, algunos servicios de IA populares han modificado los algoritmos de sus servidores para hacer que este ataque sea más difícil de ejecutar.

Cómo protegerse del ataque Whisper Leak

La responsabilidad principal de la defensa contra este ataque recae en los proveedores de modelos de IA. Necesitan enviar el texto generado de una manera que evite que el tema se pueda distinguir de los patrones de generación de tokens. Siguiendo la investigación de Microsoft, empresas como OpenAI, Mistral, Microsoft Azure y xAI informaron que estaban abordando la amenaza. Ahora añaden una pequeña cantidad de relleno invisible a los paquetes enviados por la red neuronal, lo que interrumpe los algoritmos de Whisper Leak. En particular, los modelos de Anthropic eran intrínsecamente menos susceptibles a este ataque desde el principio.

Si estás utilizando un modelo y servidores para los que Whisper Leak sigue siendo una preocupación, puedes cambiar a un proveedor menos vulnerable o adoptar precauciones adicionales. Estas medidas también son relevantes para cualquiera que busque protegerse contra futuros ataques de este tipo:

  • Usa modelos de IA locales para temas muy delicados; puedes seguir nuestra guía.
  • Configura el modelo para que utilice una salida que no sea de transmisión cuando sea posible, de modo que la respuesta completa se envíe de una sola vez en lugar de palabra por palabra.
  • Evita discutir temas delicados con chatbots cuando tengas una conexión a redes que no sean de confianza.
  • Utiliza un proveedor de VPN sólido y de confianza para una mayor seguridad de la conexión.
  • Recuerda que el punto más probable de fuga de cualquier información de chat es tu propio ordenador. Por lo tanto, es fundamental protegerlo del spyware con una solución de seguridad confiable que se ejecute tanto en tu ordenador como en todos tus teléfonos inteligentes.

Aquí hay algunos artículos más en los que se explica qué otros riesgos están asociados al uso de IA y cómo configurar las herramientas de IA correctamente:

Consejos