BYO API keys

SIVO no actúa de intermediario en tu coste de tokens. Tus claves de Deepgram, ElevenLabs, OpenAI, Groq, etc. viven cifradas (AES-256-GCM por tenant) en nuestra BD y se usan directamente contra los proveedores. Ventajas:

Pagas la tarifa real del proveedor sin markup de SIVO.
Tu cuota de uso y tu rate-limit (no compartido con otros tenants).
Si negocias mejores tarifas enterprise, las disfrutas directamente.
Compliance: si tu DPA exige proveedor IA específico (ej. región EU), eliges tú.

STT — Speech to Text

Deepgram (Nova-2 / Nova-3)

WebSocket streaming, latencia < 300ms para primer parcial.
Mejor relación precio/calidad para volumen.
Diarización opcional (separación por hablante) en el mismo stream.
Idiomas: 30+ con buena calidad en es, en, pt, fr, de, it.

ElevenLabs Scribe v2 Realtime

WebSocket streaming auth con header xi-api-key.
Excelente en entornos ruidosos y voces no nativas.
Modelos: scribe_v2_realtime (streaming) y scribe_v2 (batch).
Latencia ligeramente superior a Deepgram, calidad superior en casos difíciles.

OpenAI Whisper

Para clientes que necesitan alojamiento self-managed del modelo por compliance — SIVO lo despliega en tu región (Enterprise).
Calidad máxima en idiomas minoritarios.
Latencia mayor (no streaming nativo) — recomendado para post-call, no live.

LLM — Razonamiento

Cualquier endpoint OpenAI-compatible funciona. Probados en producción:

OpenAI (GPT-4o, GPT-4o-mini, GPT-4.1) — TTFT 667-2400ms.
Groq (Llama 3.x, Mixtral) — TTFT ~120ms, mejor para baja latencia.
Cerebras (Llama 3.x) — TTFT competitivo.
Together.ai (modelos open-source) — flexibilidad de modelos.
Anthropic Claude — via proxy compatible OpenAI.

Nota técnica: stream_options: {include_usage: true} no es compatible con Groq — SIVO lo omite automáticamente al detectar groq.com en la base URL.

TTS — Text to Speech

ElevenLabs v2 (multilingual)

WebSocket streaming (stream-input endpoint).
30+ idiomas con buena consistencia de acento.
NO soporta audio tags [laughs], [sighs].
Latencia más baja, recomendado para producción.

ElevenLabs v3

Solo HTTP streaming (WS retorna 403).
Soporta audio tags — el LLM puede inyectar [laughs], [sighs], [whispers].
Calidad superior, recomendado para IA agents premium.

OpenAI TTS

Voces: alloy, echo, fable, onyx, nova, shimmer.
Coste menor que ElevenLabs, calidad respetable.
Latencia razonable, sin audio tags.

Combinación recomendada

Para casos de uso típicos de IVR + IA:

Mejor latencia: Deepgram Nova-2 + Groq Llama 3 + ElevenLabs v2 → ~600ms end-to-end.
Mejor calidad: ElevenLabs Scribe v2 Realtime + OpenAI GPT-4o + ElevenLabs v3 → ~1.2s end-to-end.
Mejor coste: Deepgram Nova-2 + Groq Llama 3 + OpenAI TTS → ~700ms end-to-end con coste mínimo.

→ Guía completa de proveedores en docs

STT, LLM y TTS BYO — Deepgram, ElevenLabs, Whisper, OpenAI, Groq