Deepfakes de voz en tiempo real: la clonación de voz se extiende y convierte cualquier llamada en un posible riesgo de suplantación

La clonación de voz con software accesible ya permite engaños telefónicos casi perfectos. Los expertos recomiendan pactar una palabra clave con familiares y amigos y recuerdan que ni las llamadas de voz ni las videollamadas deben usarse como método único de verificación.

El salto tecnológico ha puesto la identidad vocal en el punto de mira. Con fragmentos de audio incluso de baja calidad, por ejemplo, tomados de redes sociales, cualquiera con conocimientos básicos puede entrenar un sistema que replique una voz con enorme precisión. ¿Quién te llama realmente? La pregunta ya no es retórica.

Cómo funcionan los deepfakes de voz en tiempo real y por qué preocupan

La tecnología que permite estas falsificaciones se ha democratizado: no hacen falta superordenadores. Bastan programas de código abierto y equipos modestos. Expertos de una firma de ciberseguridad señalan que con una tarjeta gráfica de gama media se genera una voz clonada en tiempo real con un retardo mínimo, en torno a medio segundo, suficiente para que la conversación fluya con naturalidad.

Por eso preocupa tanto: el interlocutor suena igual que la persona suplantada y la interacción no se “atasca”. En consecuencia, el fraude telefónico gana verosimilitud y exige replantear los métodos tradicionales de verificación.

Quiénes están en riesgo con la clonación de voz y qué pueden hacer

La suplantación de identidad ha alcanzado un nuevo nivel. Del imitador talentoso se ha pasado a sistemas que convierten pocos segundos de audio en una copia casi perfecta. ¿Cómo distinguir una llamada real de una clonada? La respuesta pasa por recuperar la desconfianza como primera línea de defensa.

En el ámbito profesional, ya se han observado intentos para infiltrarse en empresas, superando entrevistas por teléfono o videollamada al hacerse pasar por candidatos muy cualificados. De ahí que se recomiende revisar los protocolos de verificación en procesos de selección y en accesos sensibles.

Paso a paso para reforzar la verificación sin depender solo de llamadas

Antes de la lista, conviene recordar una idea clave: las llamadas, por sí solas, ya no son prueba de identidad. Más vale pecar de desconfiados que de confiados.

  • Acordar una palabra clave secreta con familiares y amigos para confirmar identidad.
  • Evitar usar llamadas de voz o de vídeo como único método de autenticación.
  • Mantener una desconfianza razonable ante peticiones inusuales, urgentes o que pidan datos sensibles.
  • En empresas, replantear protocolos de verificación en contratación y accesos internos.

Después de aplicar estas pautas, cualquier solicitud debería validarse con pasos adicionales definidos de antemano.

Diferencias entre audio y vídeo en fraudes con inteligencia artificial actual

La comparación ayuda a entender por qué el audio es hoy la vía más peligrosa y rápida para el engaño:

AspectoAudio (voz clonada en tiempo real)Vídeo (deepfake visual en tiempo real)
Realismo actualConversación con realismo casi perfectoAún hay fallos en expresiones y sincronización labial
Requisitos técnicosProgramas de código abierto y equipos modestosMayor complejidad técnica para sostener el engaño
LatenciaRetardo ínfimo de alrededor de medio segundoMás propenso a cortes o desajustes
Casos detectadosInfiltración en procesos de contrataciónMenos inmediato por fallos en directo

En resumen, la voz se ha convertido en el eslabón más vulnerable de la identidad digital. Por consiguiente, llamadas telefónicas y videollamadas no deben considerarse métodos de autenticación fiables por sí solos. Establecer contraseñas verbales familiares, revisar protocolos corporativos y mantener la guardia alta son medidas que ya marcan la diferencia.

Deja un comentario