BYO API keys
SIVO no actúa de intermediario en tu coste de tokens. Tus claves de Deepgram, ElevenLabs, OpenAI, Groq, etc. viven cifradas (AES-256-GCM por tenant) en nuestra BD y se usan directamente contra los proveedores. Ventajas:
- Pagas la tarifa real del proveedor sin markup de SIVO.
- Tu cuota de uso y tu rate-limit (no compartido con otros tenants).
- Si negocias mejores tarifas enterprise, las disfrutas directamente.
- Compliance: si tu DPA exige proveedor IA específico (ej. región EU), eliges tú.
STT — Speech to Text
Deepgram (Nova-2 / Nova-3)
- WebSocket streaming, latencia < 300ms para primer parcial.
- Mejor relación precio/calidad para volumen.
- Diarización opcional (separación por hablante) en el mismo stream.
- Idiomas: 30+ con buena calidad en es, en, pt, fr, de, it.
ElevenLabs Scribe v2 Realtime
- WebSocket streaming auth con header
xi-api-key. - Excelente en entornos ruidosos y voces no nativas.
- Modelos:
scribe_v2_realtime(streaming) yscribe_v2(batch). - Latencia ligeramente superior a Deepgram, calidad superior en casos difíciles.
OpenAI Whisper
- Para clientes que necesitan alojamiento self-managed del modelo por compliance — SIVO lo despliega en tu región (Enterprise).
- Calidad máxima en idiomas minoritarios.
- Latencia mayor (no streaming nativo) — recomendado para post-call, no live.
LLM — Razonamiento
Cualquier endpoint OpenAI-compatible funciona. Probados en producción:
- OpenAI (GPT-4o, GPT-4o-mini, GPT-4.1) — TTFT 667-2400ms.
- Groq (Llama 3.x, Mixtral) — TTFT ~120ms, mejor para baja latencia.
- Cerebras (Llama 3.x) — TTFT competitivo.
- Together.ai (modelos open-source) — flexibilidad de modelos.
- Anthropic Claude — via proxy compatible OpenAI.
Nota técnica: stream_options: {include_usage: true}
no es compatible con Groq — SIVO lo omite automáticamente al detectar
groq.com en la base URL.
TTS — Text to Speech
ElevenLabs v2 (multilingual)
- WebSocket streaming (
stream-inputendpoint). - 30+ idiomas con buena consistencia de acento.
- NO soporta audio tags
[laughs],[sighs]. - Latencia más baja, recomendado para producción.
ElevenLabs v3
- Solo HTTP streaming (WS retorna 403).
- Soporta audio tags — el LLM puede inyectar
[laughs],[sighs],[whispers]. - Calidad superior, recomendado para IA agents premium.
OpenAI TTS
- Voces: alloy, echo, fable, onyx, nova, shimmer.
- Coste menor que ElevenLabs, calidad respetable.
- Latencia razonable, sin audio tags.
Combinación recomendada
Para casos de uso típicos de IVR + IA:
- Mejor latencia: Deepgram Nova-2 + Groq Llama 3 + ElevenLabs v2 → ~600ms end-to-end.
- Mejor calidad: ElevenLabs Scribe v2 Realtime + OpenAI GPT-4o + ElevenLabs v3 → ~1.2s end-to-end.
- Mejor coste: Deepgram Nova-2 + Groq Llama 3 + OpenAI TTS → ~700ms end-to-end con coste mínimo.