Guías · Voz IA
Grabación y transcripción de llamadas con IA: usos y legalidad
16 de mayo de 2026 · 7 min de lectura
Grabar llamadas es una de las funcionalidades que más piden las empresas y, al mismo tiempo, una de las que más dudas legales generan. Y con razón. En España no puedes grabar a quien quieras, cuando quieras, y hacer lo que quieras con esas grabaciones. He tenido que estudiar esto a fondo durante el desarrollo de Baxilio, y quiero compartir lo que he aprendido — tanto en lo técnico como en lo legal.
Aviso: no soy abogado. Lo que cuento aquí es mi entendimiento como desarrollador que ha tenido que implementar estos sistemas cumpliendo normativa. Para tu caso concreto, consulta con un profesional legal.
Lo técnico: cómo se graba una llamada VoIP
En telefonía IP, grabar una llamada es conceptualmente sencillo: capturas los paquetes RTP de ambos sentidos, los decodificas y los guardas en un archivo de audio. En la práctica, hay decisiones de diseño que importan.
En BPhone, la grabación se hace en el media server. Cuando el flujo de llamadas tiene la grabación activada, se crea un fork del stream RTP que escribe los paquetes en un buffer. Grabamos ambas pistas (llamante y agente) por separado en formato Ogg Vorbis — mucho más eficiente en almacenamiento que WAV sin comprimir, y con calidad más que suficiente para voz telefónica.
Las pistas separadas son importantes para la transcripción posterior. Si mezclas ambas voces en una sola pista, el motor de transcripción tiene más dificultad para diarizar (identificar quién dice qué). Con pistas separadas, la diarización es trivial: pista A es el cliente, pista B es el agente.
La transcripción: de audio a texto con IA
Una vez tienes la grabación, la transcripción es el siguiente paso natural. Usamos modelos de reconocimiento de voz (ASR) que han mejorado espectacularmente en los últimos años. El español ya se transcribe con una precisión superior al 95% en condiciones normales de llamada telefónica.
«Condiciones normales» es la clave. Audio telefónico a 8kHz con compresión G.711, ruido de fondo, acentos variados, jerga técnica… todo eso reduce la precisión. En nuestras pruebas internas, la tasa de error sube significativamente con llamadas desde móvil en entornos ruidosos. No es un problema resuelto al 100%, pero es perfectamente usable para la mayoría de casos.
Las transcripciones se generan de forma asíncrona. Cuando la llamada termina, se encola un trabajo que procesa el audio y genera la transcripción con timestamps. El resultado se almacena junto con la grabación y queda disponible en el panel para búsqueda y consulta.
Usos prácticos que vemos en clientes
- Control de calidad: supervisar cómo atienden los agentes sin tener que escuchar cada llamada. Las transcripciones permiten buscar por palabras clave.
- Formación: usar llamadas reales (anonimizadas) como material de entrenamiento para nuevos agentes.
- Resolución de disputas: «yo nunca dije eso» se resuelve muy rápido con una grabación.
- Análisis de sentimiento: motores de IA que analizan las transcripciones para detectar frustración, satisfacción, intención de baja…
- Alimentar el agente IA: las transcripciones de llamadas reales son oro para mejorar la base de conocimiento RAG del agente.
El marco legal en España: RGPD y LOPDGDD
Aquí es donde la cosa se pone seria. En España, la grabación de llamadas está regulada por el RGPD (Reglamento General de Protección de Datos) y la LOPDGDD (Ley Orgánica de Protección de Datos y Garantía de los Derechos Digitales).
Los puntos clave que hemos tenido que considerar al diseñar el sistema:
Consentimiento informado
El interlocutor debe ser informado de que la llamada se va a grabar antes de que empiece la grabación. No vale grabar y luego avisar. No vale un aviso genérico en la web. Tiene que ser claro, explícito y al inicio de la llamada.
En BPhone, esto se implementa con una locución automática al principio del flujo de llamadas: «Le informamos de que esta llamada puede ser grabada con fines de calidad y formación. Si no desea ser grabado, pulse 2 o comuníquelo al agente.» Si el usuario opta por no ser grabado, el sistema desactiva la grabación para esa llamada específica.
Base legal del tratamiento
El consentimiento es una base legal, pero no la única. Para empresas reguladas (banca, seguros, utilities), la base legal puede ser el cumplimiento de una obligación legal o la ejecución de un contrato. Para servicios de atención al cliente general, el interés legítimo puede ser aplicable, pero requiere un análisis de proporcionalidad documentado.
Retención y eliminación
No puedes guardar las grabaciones indefinidamente. Debes definir un periodo de retención proporcional a la finalidad. Si grabas para control de calidad, tres meses puede ser razonable. Si es para cumplimiento normativo en banca, los plazos pueden ser más largos.
En Baxilio, cada cuenta puede configurar su periodo de retención. Pasado ese periodo, las grabaciones se eliminan automáticamente. Esto no es una funcionalidad opcional — es un requisito legal que implementamos como parte core del sistema.
Acceso y portabilidad
El interesado tiene derecho a acceder a sus grabaciones y a solicitar su eliminación (derecho de supresión). Si un cliente llama y dice «quiero que borréis la grabación de mi última llamada», legalmente tienes que poder hacerlo. Diseñamos la API de BPhone con endpoints específicos para esto.
Seguridad del almacenamiento
Las grabaciones contienen datos personales (la voz en sí es un dato biométrico según el RGPD). Esto implica obligaciones de seguridad serias: cifrado en reposo, cifrado en tránsito, control de acceso basado en roles, logs de auditoría de quién accede a qué grabación y cuándo.
Almacenamos las grabaciones cifradas con AES-256. Las claves de cifrado se gestionan por cuenta, de forma que incluso si alguien accediera al almacenamiento, no podría reproducir grabaciones de cuentas que no le pertenecen. El acceso a las grabaciones queda registrado en logs de auditoría inmutables.
No voy a pretender que esto fue fácil de implementar. Fueron meses de trabajo, consultas con abogados especializados en protección de datos, y varias iteraciones del diseño. Pero es la base mínima para ofrecer grabación de llamadas de forma responsable.
Grabación y transcripción integradas
BPhone incluye grabación con transcripción IA, cumpliendo RGPD y LOPDGDD desde el diseño. Configura retención, acceso y eliminación desde el panel.
Conoce BPhone →Antonio Gutiérrez — Desarrollador e ingeniero informático en Baxilio
Antonio Gutiérrez
Desarrollador e ingeniero informático con más de 10 años de experiencia en telecomunicaciones y 8 años especializado en VoIP. Experto en desarrollo de plataformas SaaS, ha trabajado para Bayma y otros operadores de telecomunicaciones. En Baxilio lidera el desarrollo técnico de la plataforma de voz IA.