Los llamados «deepfakes» de voz permiten a los ciberdelincuentes hacerse pasar por un familiar, o por nuestro jefe
01 may 2024 . Actualizado a las 09:47 h.En el diccionario de ciberestafas, lleno de términos de terminan en ing —phishing, smishing, sexting— hay uno que tiene que ver con los timos por voz. Se llama vishing y consiste en que los ciberdelincuentes, a través de una llamada telefónica, suplanten la identidad de una empresa, organización o persona de confianza, con el fin de obtener información personal y sensible de la víctima. Y en esta tarea, los atacantes han encontrado en los últimos tiempos el mejor aliado: la inteligencia artificial.
Clonar la voz humana de forma fidedigna es posible. Tanto que, OpenAI, la firma propietaria de ChatGPT, presentó a finales del pasado mes un prototipo llamado Voice Engine. El modelo solo necesita una muestra de 15 segundos para generar habla natural. «Reconocemos que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos», ha admitido la compañía dirigida por Sam Altman que, por ahora, no lanzará la tecnología al público general. Pese a a allanar el camino a la suplantación de identidad, la empresa defiende también que la herramienta podrá tener usos positivos. Uno de ellos: ayudar a las personas con problemas de comunicación verbal a usar su voz para, por ejemplo, llamar por teléfono.
El modelo de OpenAI contribuirá a que la clonación de voces esté, en un futuro muy próximo, al alcance de todos. Como lo está ahora ChatGPT. Sin embargo, hace tiempo que se realiza con relativa facilidad. Hace un año, en Estados Unidos, el diario Washington Post publicaba la historia de un matrimonio de avanzada edad al que su nieto, de nombre Brandon, llamó un buen día para pedir auxilio. Estaba en la cárcel y necesitaba urgentemente dinero en efectivo para pagar la fianza. El hombre y la mujer retiraron la cantidad que les pedía hasta que, gracias a un trabajador de la sucursal de su banco, se dieron cuenta de que habían sido engañados. «Fuimos absorbidos», contó al periódico el matrimonio que, por teléfono, escuchaba una voz exactamente igual a la de Brandon.
Estos llamados deepfakes de voz se generan a través de herramientas de Inteligencia Artificial que crean copias sintéticas de la voz de otra persona. Esto es posible porque esta tecnología utiliza técnicas de aprendizaje profundo para replicar el habla con un audio realista y convincente. Las aplicaciones para las estafas son infinitas. La compañía estadounidense LastPass difundió recientemente un intento de timo a uno de sus trabajadores. Un buen día, el empleado en cuestión recibió en ssu Whatsapp una nota de voz del CEO de la firma, Karim Toubba, pidiéndole que se pusiera en contacto con él de manera urgente. Pero no se trataba del director ejecutivo, sino de un estafador.
¿Cómo consiguen nuestra voz?
La clonación de voces emplea la voz real de otro individuo para producir una interpretación realista de la original. Solo es necesario recopilar una muestra de la voz humana que se quiera copiar, ya sea a través del audio de un vídeo o mediante una grabación física de alguien hablando. Una vez recogida la muestra, se analiza con un software para identificar las características de la voz y se utiliza para entrenar un modelo de aprendizaje automático, con un algoritmo que sea capaz de imitar la voz original.
Obtener la voz de la víctima, en estos tiempos, no es especialmente difícil. Puede que en nuestra huella digital —los millones de datos nuestros que hay flotando por internet— haya algún rastro de nuestra voz. También los estafadores tienen forma de conseguirla con una simple llamada telefónica: nos graban para después clonar nuestra habla. No necesitan mucho: apenas cinco o diez segundos.