La seguridad de los asistentes de voz

5 Feb 2019

Nuestra interacción con la tecnología pronto podría ser mayoritariamente por voz. De hecho, se trata de un juego bastante sencillo, solo tienes que comprobar la facilidad con la que los niños utilizan estos asistentes.

Pero las nuevas tecnologías siempre representan nuevas amenazas y el control de voz no es ninguna excepción. Los investigadores de ciberseguridad analizan dispositivos sin descanso para que los fabricantes puedan evitar que las amenazas se hagan realidad. En este artículo, vamos a hablar sobre un par de descubrimientos que, aunque no se aplican prácticamente, deberían estar en el radar de seguridad.

Controlar asistentes de voz con ultrasonidos y audios ocultos en los sonidos

Los dispositivos inteligentes escuchan y obedecen

Actualmente, se utilizan más de mil millones de dispositivos con reconocimiento de voz en todo el mundo, según un informe de voicebot.ai. La mayoría son smartphones, pero otros empiezan a ganar popularidad rápidamente. Por ejemplo, uno de cada cinco hogares en Estados Unidos cuenta con un altavoz inteligente que responde a comandos de voz.

Los comandos de voz se pueden utilizar para controlar tu reproductor musical o el GPS, solicitar servicios online, consultar las noticias y el tiempo o activar el despertador. Los fabricantes están aprovechando para añadir la función de control por voz a una gran variedad de dispositivos. Por ejemplo, Amazon lanzó hace poco un microondas que se puede vincular a un altavoz inteligente de Echo. Con tan solo escuchar “Calienta el café”, el microondas calcula el tiempo estimado y se pone en marcha. Tienes que ir hasta la cocina e introducir la taza en el microondas igualmente, por lo que, una vez allí, podrías pulsar por ti mismo un par de botones, pero ¿por qué íbamos a poner trabas al progreso?

Con algunos sistemas de domótica también puedes gestionar la luz y el aire acondicionado a través del control de voz o, incluso, cerrar la puerta principal. Como has podido comprobar, los asistentes de voz son muy sofisticados, por lo que no querrás que nadie utilice alguna de sus funciones con propósitos maliciosos, ¿verdad?

En el 2017, los personajes de la serie South Park realizaron un ataque masivo a su estilo, inimitable. La víctima fue Alexa, el asistente de voz que habita en los altavoces inteligentes Amazon Echo. Alexa recibió la orden de añadir al carrito artículos grotescos y de establecer una alarma a las 7 de la mañana. A pesar de la peculiar pronunciación de los personajes, los altavoces cuyos propietarios estaban viendo el episodio de South Park comenzaron a obedecer las órdenes del televisor.

Ultrasonidos: las máquinas pueden escucharlos, tú, no

Ya hemos comentado otras veces los peligros que suponen los dispositivos con control de voz. Y hoy nos vamos a centrar en los ataques “silenciados” que obligan a estos dispositivos a obedecer voces que tú no puedes oír.

Una forma de desarrollar este tipo de ataques es a través de ultrasonidos, ondas acústicas cuya frecuencia está por encima de la capacidad de audición del oído humano. En un artículo publicado en el 2017, los investigadores de la Universidad de Zhejiang presentaron una técnica para hacerse con el control de los asistentes de voz llamada DolphinAttack (ya que los delfines emiten ultrasonidos). El equipo de investigación transformó los comandos de voz en ondas ultrasónicas, con frecuencias demasiado elevadas para los humanos, pero totalmente reconocibles por los micrófonos de los dispositivos actuales.

El funcionamiento es simple: el ultrasonido se convierte en un impulso eléctrico en el dispositivo receptor (por ejemplo, un teléfono inteligente) y se restaura la señal original que contiene el comando de voz. El mecanismo es algo similar al efecto cuando la voz se distorsiona en una grabación; no hay ninguna función especial en el dispositivo, es simplemente una característica del proceso de conversión.

Como resultado, el dispositivo atacado escucha y ejecuta el comando de voz, facilitando el ataque. Los investigadores pudieron reproducirlo en la mayoría de los asistentes de voz más populares, como Amazon Alexa, Apple Siri, Google Now, Samsung S Voice y Microsoft Cortana.

Un coro de altavoces

Una de las debilidades de DolphinAttack (desde la perspectiva de los atacantes) es el pequeño margen de operación, aproximadamente un metro. No obstante, los investigadores de la Universidad de Illinois en Urbana-Champaign consiguieron aumentar esta distancia. Durante la investigación, dividieron un comando de ultrasonido convertido en varias bandas de frecuencia, que luego reprodujeron varios altavoces (más de 60). Los comandos de voz ocultos expedidos por este “coro” fueron detectados a una distancia de siete metros, a pesar de los ruidos externos. En tales condiciones, las posibilidades de éxito de DolphinAttack mejorarían considerablemente.

Una voz desde las profundidades

Los expertos de la Universidad de California en Berkeley utilizaron un principio diferente. Integraron en secreto comandos de voz en fragmentos de audio para engañar a Deep Speech, un sistema de reconocimiento de voz de Mozilla. Para el oído humano, el audio era prácticamente igual al original, pero el software puede detectar un comando oculto.

Fíjate en los audios del sitio web del equipo de investigación. En el primer ejemplo, la frase “Without the data set the article is useless” (“Sin el conjunto de datos, el artículo no es útil” en español) contiene un comando oculto para abrir un sitio web: “Okay Google, browse to evil.com” (“Ok Google, dirígete a evil.com” en español). En el segundo, los investigadores añadieron la frase “Speech can be embedded in music” (“Se puede añadir una frase en música” en español) en un fragmento de chelo de Bach.

Protección contra ataques inaudibles

Los fabricantes ya están buscando nuevas formas para proteger los dispositivos con reconocimiento de voz. Por ejemplo, los ataques de ultrasonido podrían evitarse detectando la alteración de la frecuencia en las señales recibidas. Sería una buena idea formar a los dispositivos inteligentes para que reconozcan la voz de sus propietarios, aunque, después de probarlo en su propio sistema, Google advierte de que esta seguridad se podría esquivar con una grabadora o con una imitación decente.

No obstante, investigadores y fabricantes aun están a tiempo de aportar soluciones. Como ya hemos comentado, controlar un asistente de voz en secreto solo es factible en un laboratorio, ya que acercar un altavoz ultrasónico al altavoz inteligente de alguien es complicado y la incorporación de comandos en las grabaciones de audio no merecen el tiempo y el esfuerzo necesarios.