Tendencias · Voz IA

Text-to-speech en 2026: de voces robóticas a locuciones naturales

Q: La evolución en tres actos

Acto 1: Concatenación (años 2000-2015). Se grababan miles de fragmentos de audio de un locutor humano y se pegaban entre sí. Sonaba reconocible pero artificial, con transiciones bruscas entre fonemas. Era lo que teníamos y funcionaba, pero nadie confundía esas voces con un humano. Acto 2: Síntesis n

2 de mayo de 2026 · 5 min de lectura

En 2018 configuré mi primer IVR con TTS. Era un Festival (sí, el motor open source) diciendo «por favor, introduzca su número de cuenta» con una voz que sonaba como si un robot estuviera leyendo un manual mientras masticaba arena. Los clientes colgaban antes de llegar al segundo menú.

Ocho años después, tenemos voces sintéticas que no distinguirías de una persona real en una llamada telefónica. El salto ha sido brutal, y quiero explicar qué ha cambiado técnicamente y por qué importa para la telefonía empresarial.

La evolución en tres actos

Acto 1: Concatenación (años 2000-2015). Se grababan miles de fragmentos de audio de un locutor humano y se pegaban entre sí. Sonaba reconocible pero artificial, con transiciones bruscas entre fonemas. Era lo que teníamos y funcionaba, pero nadie confundía esas voces con un humano.

Acto 2: Síntesis neuronal temprana (2016-2022). WaveNet de Google fue el punto de inflexión. En vez de pegar grabaciones, una red neuronal generaba el audio onda a onda. La calidad dio un salto enorme, pero la latencia era problemática. Generar un segundo de audio podía tardar varios segundos de cómputo. Para aplicaciones offline, genial. Para telefonía en tiempo real, inviable.

Acto 3: Modelos de difusión y streaming (2023-presente). Aquí estamos ahora. Los motores actuales generan audio de alta calidad en streaming, con latencias por debajo de 200 milisegundos para el primer chunk de audio. ElevenLabs, Play.ht, los modelos de voz de OpenAI, Cartesia… la competencia ha disparado la calidad y bajado la latencia a niveles que hacen viable la conversación telefónica en tiempo real.

Lo que hace que una voz suene humana

He pasado bastante tiempo evaluando motores TTS para Baxilio, y hay varios factores que diferencian una voz «casi humana» de una «claramente robot»:

Prosodia natural: la entonación sube y baja como en el habla real. Las preguntas suenan a preguntas. Las afirmaciones suenan seguras.
Respiraciones: los motores actuales incluyen micro-pausas y respiraciones sutiles. Suena a detalle absurdo, pero marca una diferencia enorme en la percepción de naturalidad.
Coarticulación: cómo un fonema se funde con el siguiente. Los humanos no pronunciamos cada sílaba aislada, arrastramos y conectamos sonidos. Los motores modernos replican esto.
Velocidad variable: hablamos más rápido en partes menos importantes y más lento cuando enfatizamos algo. Las voces robóticas mantienen velocidad constante.

El reto de la latencia en telefonía

Aquí es donde mi background en VoIP se cruza con la IA. En una conversación telefónica, cualquier retardo por encima de 300ms se percibe como molesto. Por encima de 500ms, la gente empieza a hablar encima del otro.

El TTS tiene que generar audio y ese audio tiene que recorrer el camino de vuelta: salir del motor TTS, pasar por nuestro servidor, transcodificarse a G.711, empaquetarse en RTP y llegar al teléfono del usuario. Cada paso añade milisegundos.

Durante el desarrollo de Baxilio optimizamos esto agresivamente. El streaming es clave: no esperamos a que se genere toda la frase, empezamos a enviar audio al canal RTP en cuanto tenemos el primer fragmento. El resultado es que el usuario percibe que el agente empieza a hablar casi inmediatamente después de su pregunta.

El español, ese reto particular

Una cosa que no se menciona suficiente: la calidad del TTS varía enormemente según el idioma. El inglés está muy por delante simplemente porque hay más datos de entrenamiento y más demanda. El español ha mejorado mucho, pero todavía hay matices — la «z» castellana vs latinoamericana, los acentos regionales, las muletillas conversacionales.

En nuestras pruebas internas, la voz que mejor funciona para el mercado español es la que suena neutra pero cálida, sin acento marcado de ninguna región específica. Algo parecido a lo que harían los locutores de telediario, que hablan un español «de ningún sitio». Curiosamente, eso es lo que los modelos TTS hacen naturalmente si no los fuerzas hacia un acento.

El TTS en 2026 ya no es el cuello de botella que era. La barrera ahora es otra: hacer que el contenido de lo que dice la voz sea relevante y útil. Pero eso es territorio del modelo de lenguaje y del sistema RAG, no del TTS.

Voces naturales para tu empresa

Los agentes de voz de Baxilio usan síntesis de última generación. Escúchalos tú mismo con una demo personalizada.

Escucha una demo →

Antonio Gutiérrez — Desarrollador e ingeniero informático en Baxilio

Antonio Gutiérrez

Desarrollador e ingeniero informático con más de 10 años de experiencia en telecomunicaciones y 8 años especializado en VoIP. Experto en desarrollo de plataformas SaaS, ha trabajado para Bayma y otros operadores de telecomunicaciones. En Baxilio lidera el desarrollo técnico de la plataforma de voz IA.

Te puede interesar

Grabación y transcripción de llamadas con IA: usos...

WhatsApp Business API: por qué decidimos no integrarla...

Cómo funciona la tecnología voice-to-voice: del audio al...