Los 'deepfake' de voz ponen a prueba los oídos de los expertos en seguridad

Los 'deepfake' de voz ponen a prueba los oídos de los expertos en seguridad
FOTOLIA

Las firmas de ciberseguridad alertan de las escasas barreras de defensa ante estos ataques

JOSÉ ANTONIO GONZÁLEZ

En verano de 2018, los líderes políticos echaron a temblar con la aparición de vídeos manipulados por inteligencia artificial y que ponían en su boca palabras o frases que ellos nunca habían pronunciado. Los expertos los bautizaron como 'deepfakes'.

«Los sistemas de IA son capaces de generar grabaciones de voz sintéticas realistas de cualquier individuo para quien hay un conjunto de datos de entrenamiento de voz lo suficientemente grande», aseguraba el pasado año un estudio de Center for a New American Security.

El entrenamiento ha dado sus frutos y la inteligencia artificial ha mejorado sus virtudes y las estafas ahora pasan al audio y el futuro es inquietante. Sin embargo, los pasos son lentos y costosos debido a la complejidad técnica.

A principios de este mes, The Wall Street Journal a de una estafa con la inteligencia artificial como protagonista. Los delincuentes usaron software para hacerse pasar por la voz de un director ejecutivo y exigir una transferencia fraudulenta de 220,000 dólares en marzo en lo que los expertos en cibercrimen describieron como un caso inusual de inteligencia artificial utilizada en piratería informática.

El pasado mes de enero, Google lanzó una herramienta para que los investigadores pudieran acceder a una base de datos con la que pueden ayudar a los sistemas de IA a detectar las características de las voces falsas, igual que es posible detectar ciertos patrones en los 'deepfakes' de vídeo.

Facebook cambia voces

Un equipo de científicos de Facebook AI Research y de la Universidad de Tel Aviv han creado un sistema capaz de aprender a convertir unas voces en otras con sólo escuchar audios de las mismas durante 5-30 minutos.

La investigación está basada en la traducción de un cantante y que no modifica la canción. «No está condicionada por la letra ni por las notas, no requiere de datos de entrenamiento paralelos para los distintos cantantes, y no emplea sistemas de transcripción de audio ni para el texto ni para las notas», apuntan los investigadores de Facebook e israelíes.

Su sistema está basado en una herramienta de DeepMind, que estudia el diagrama y genera los elementos de audio correspondientes para ofrecer la voz sintetizada.

Las empresas ya apuestan por estos sistemas, aunque, concretamente, por sus bondades. Adobe ha desarrollado Poco, pero parece que no ha pasado la fase de experimento. Más avanzado parece el sistema Deep Voice de Baidu, un software que trata de simular una voz con una muestra de pocos segundos de audio de una persona hablando.

Facebook cambia voces

A pesar de que los deepfakes llegaron a los titulares poco hace poco más de un año y menos tiempo de vida los de audio, sus ataques siguen aumentando a medida que pasa el tiempo. Según Symantec, una firma de ciberseguridad, afirma que en los últimos meses tres grandes compañías han recibido, al menos, tres ataques con voces que suplantaban la identidad de sus directivos.

Axios eleva la alerta, ya que durante el último año ha habido un repunte en los ataques basados en deepfakes de audio sofisticado y avisan: «las defensas necesarias no están al alcance de la mayoría de las empresas que podrían sufrir estos ataques».