: Blog; 16 Octubre 2023

El auge del phishing mediante deepfakes de voz

Podríamos decir que la ciberseguridad (entre otras cosas) es una especie de competición entre ciberdelincuentes y defensores. Unos intentan mejorar para adaptarse a las nuevas amenazas, y otros responden refinando sus tácticas para encontrar vulnerabilidades.

Posiblemente, es uno de los entornos más dinámicos del mundo de la informática.

Una de las formas de ataque más fáciles, exitosas y cada vez más frecuentes, es la ingeniería social, mediante la cual los villanos intentan manipular a otros humanos con el fin de obtener acceso a información confidencial.

Y esta forma de ataque es más sofisticada que nunca.

¿Qué es un deepfake?

Básicamente, es una forma de inteligencia artificial (IA) que puede utilizarse para crear imágenes, sonidos y vídeos falsos, pero muy convincentes.

Su término, en inglés, surge del acrónimo formado por las palabras deep learning, el sistema de aprendizaje que emplea la inteligencia artificial (IA) y «fake» o falso

Como resultado, tiene la capacidad de crear personas que no existen, eventos que en realidad no sucedieron, y también imitar la voz de una persona.

No es una tecnología completamente nueva.

Originalmente, esta tecnología ganó su reputación por su uso en el entretenimiento y los medios de comunicación, pero ahora está al alcance de muchas personas a través de aplicaciones comerciales y gratuitas.

En este sentido, los videos falsos de YouTube y TikTok ya son todo un clásico.

La mecánica del phishing deepfake

Como todos a estas alturas ya sabemos, la forma en que funciona el phishing tradicional es bastante simple.

El villano envía correos electrónicos, mensajes de voz o de texto que intentan parecer legítimos con el fin de atraer a las víctimas para que proporcionen información confidencial, como credenciales de inicio de sesión o información financiera.

Esto se consigue manipulando emocionalmente a la futura víctima (mediante el miedo, la urgencia, la confianza, la avaricia, etc.) para que actúe sin pensar y no cuestione la autenticidad de la solicitud.

Y en este sentido, la tecnología deepfake puede amplificar esta manipulación emocional.

Los deepfakes se crean principalmente utilizando dos algoritmos: un generador y un discriminador.

El generador tiene la tarea de elaborar el contenido digital falso original de acuerdo con el resultado deseado.
A continuación, el discriminador evalúa el realismo del contenido creado.

Este proceso se repite en un bucle continuo.

Esto permite que el generador sea más hábil en la producción de contenido realista y mejora la capacidad del discriminador para detectar fallos.

Puede a llegar a ser tan preciso, que es capaz de pillar a más personas con la guardia baja y hacer que sea mucho más fácil manipular las mentes más racionales.

Su proximidad al habla humana natural está mejorando, y eso influye en nuestros sesgos cognitivos: el director del banco habla con una cadencia particular, así que si la persona que me deja un mensaje de voz habla de la misma forma debe ser él, ¿verdad?

No necesariamente.

Por ejemplo, el director ejecutivo de una empresa de energía del Reino Unido fue engañado para que creyera que estaba hablando con el director de la empresa matriz ubicada en Alemania.

La voz «deepfake» se hizo pasar por este último, y convenció al director del Reino Unido para que transfiriera 220.000 euros a la cuenta bancaria de un supuesto proveedor húngaro.

El CEO estafado le dijo a The Wall Street Journal que incluso reconoció su sutil acento alemán.

Reunir grabaciones claras de la voz de una persona es cada vez más fácil. Se pueden obtener grabando una conversación en un lugar público, a través de encuestas telefónicas, entrevistas en televisión, etc.

Si los estafadores pueden engañar tan fácilmente a un alto ejecutivo de una empresa, pueden engañar casi a cualquiera.

Al alcance de todos los públicos

Posiblemente, la mayor fortaleza del uso de deepfakes en ataques de phishing es la capacidad de poder eludir las medidas de seguridad convencionales.

La mayoría de los sistemas de ciberseguridad modernos están orientados contra las diferentes formas de malware.

Los filtros de correo electrónico pueden bloquear los intentos de phishing tradicionales, pero no están equipados para manejar una videollamada aparentemente legítima si parece provenir de una fuente confiable.

Por otro lado, «alimentando a la bestia» con unas cuantos clips de voz, y una suscripción a alguna herramienta de IA (las hay gratuitas), los piratas informáticos pueden perpetrar sus estafas sin necesidad de habilidades especiales.

¿Qué herramientas se utilizan para la clonación de voz?

Algunas de las herramientas que se pueden utilizar para estos menesteres son:

Vall-E de Microsoft.
my Own Voice.
Resemble AI.
Descript.
ReSpeecher.
iSpeech de OpenAI.

Detección y prevención

A medida que avanza la tecnología, también lo hacen los métodos para detectar deepfakes.

Por ejemplo, diversos equipos de investigación de todo el mundo trabajan para desarrollar algoritmos de detección de deepfakes.

En la página de deepware se puede analizar un vídeo sospechoso para descubrir si está manipulado sintéticamente.

También hay sitios de pago donde afirman que mediante el uso de una red neuronal profunda de última generación, se puede identificar falsificaciones de audio.

Además, algunas plataformas de redes sociales están recurriendo a la tecnología blockchain para verificar la fuente de videos e imágenes, proporcionando una capa adicional de protección.

Pero los ciberdelincuentes son seres muy astutos y adaptables, por lo que, lamentablemente, suelen tener éxito.

El phishing mediante deepfakes es simplemente otra forma más de desplegar sus estafas.

Debido a que los delincuentes buscan estafar a personas de «alto perfil» (hay que rentabilizar el esfuerzo), el riesgo de ser víctima de un fraude como este es relativamente pequeño, pero existe, por lo que vale la pena estar atentos.

En este sentido, debemos tratar estos mensajes igual que haríamos con los de phishing tradicional: el escepticismo, puede mitigar el éxito de los perpetradores.

Al fin y al cabo, tomar las decisiones correctas depende de la persona que está frente al dispositivo receptor.

Antes de confiar en cualquier cosa, adopta un enfoque de confianza cero: verifica dos y tres veces la fuente del mensaje.

Las solicitudes de transferencias financieras o de intercambio de datos por encima de un cierto nivel de confidencialidad, siempre deben verificarse a través de una fuente alternativa, especialmente un método fuera de línea como una llamada telefónica.

Temas: Ingeniería social