Especialistas en ciberseguridad advierten sobre una nueva modalidad de fraude que comienza a afectar a empresas en distintas regiones del mundo: llamadas telefónicas falsas generadas con inteligencia artificial capaces de imitar con gran precisión la voz de directivos y ejecutivos.
El avance de la inteligencia artificial generativa ha facilitado la creación de audios y videos manipulados con un nivel de realismo cada vez mayor. En este escenario, la clonación de voz mediante tecnología de deepfake se está convirtiendo en una herramienta utilizada por ciberdelincuentes para engañar a empleados y ejecutar estafas corporativas.
Expertos de la empresa de ciberseguridad ESET explican que actualmente producir un audio falso puede ser tan sencillo como utilizar herramientas automatizadas que replican la voz de una persona a partir de apenas unos segundos de grabación disponibles en internet.
Este tipo de tecnología permite copiar el tono, el ritmo y la entonación de un individuo, lo que facilita suplantar identidades en llamadas telefónicas dirigidas a departamentos sensibles dentro de las organizaciones.
Los especialistas señalan que los deepfakes pueden utilizarse con distintos fines, desde evadir sistemas de autenticación hasta infiltrarse en procesos de contratación mediante perfiles falsos generados digitalmente. No obstante, uno de los riesgos más graves es su uso en fraudes financieros, donde los atacantes buscan convencer a empleados de realizar transferencias bancarias o aprobar pagos urgentes.
Según datos del Gobierno del Reino Unido, durante el último año circularon hasta ocho millones de clips falsos generados con inteligencia artificial, una cifra significativamente superior a los cerca de 500 mil detectados en 2023, lo que refleja el rápido crecimiento de esta amenaza.
Un experimento realizado por Jake Moore, asesor global de seguridad de ESET, demostró lo sencillo que puede resultar ejecutar este tipo de ataques. Con una breve muestra de audio obtenida de redes sociales, entrevistas o presentaciones públicas, las herramientas de inteligencia artificial pueden generar una réplica muy convincente de la voz de una persona.
Cómo operan los ciberdelincuentes
De acuerdo con los investigadores de ESET, los atacantes suelen seguir una serie de pasos para concretar el fraude.
Primero identifican a la persona cuya voz desean suplantar, generalmente un alto ejecutivo como el director general (CEO) o el director financiero (CFO), aunque también pueden hacerse pasar por proveedores o socios comerciales.
Luego recopilan muestras de su voz disponibles en internet, algo relativamente común en el caso de directivos que participan en conferencias, entrevistas o eventos públicos.
Posteriormente investigan a la persona que será objetivo del engaño, normalmente empleados de áreas como finanzas, tecnología o soporte administrativo. Para ello utilizan información pública disponible en redes profesionales como LinkedIn.
Una vez recopilados los datos, realizan la llamada utilizando un audio generado mediante deepfake para simular que el ejecutivo solicita acciones urgentes, como transferencias de dinero, restablecimiento de contraseñas o aprobación de pagos.
Según Macio Micucci, investigador de seguridad informática de ESET Latinoamérica, este tipo de ataques se está volviendo cada vez más accesible para los delincuentes.
“El proceso es cada vez más barato, sencillo y convincente. Algunas herramientas incluso pueden añadir ruido ambiental, pausas o tartamudeos para que la voz falsa resulte más creíble”, explicó.
Además, los ciberdelincuentes suelen combinar estas técnicas con estrategias de ingeniería social, presionando a las víctimas para que actúen rápidamente. Al creer que reciben instrucciones directas de un superior, muchos empleados ejecutan las órdenes sin cuestionarlas.
Un caso emblemático ocurrió en 2020, cuando un trabajador de una empresa en Emiratos Árabes Unidos fue engañado mediante una llamada que imitaba la voz de su director. El empleado terminó autorizando una transferencia de 35 millones de dólares vinculada a una supuesta operación corporativa.
Señales para identificar una voz falsa
Aunque las herramientas de inteligencia artificial son cada vez más sofisticadas, los expertos señalan que todavía existen indicios que pueden ayudar a detectar un audio manipulado.
Entre las señales más comunes se encuentran un ritmo de habla poco natural, un tono emocional demasiado plano, la falta de pausas normales para respirar, sonidos robóticos en algunas frases o una uniformidad extraña en el ruido de fondo.
Para reducir los riesgos, los especialistas recomiendan que las empresas fortalezcan sus protocolos de ciberseguridad y capaciten a su personal para reconocer este tipo de amenazas.
Entre las principales medidas preventivas destacan verificar cualquier solicitud sensible a través de un canal alternativo de comunicación, exigir doble autorización para transferencias financieras relevantes y utilizar contraseñas o preguntas de verificación previamente acordadas para confirmar la identidad de quien realiza una llamada.




