Integraciones
Proveedores STT, LLM y TTS
Cómo conectar SIVO con tus proveedores de IA preferidos. BYO keys, tu coste, tu rate-limit.
SIVO orquesta tres servicios de IA por llamada (en agentes IA y transcripción):
- STT (Speech to Text) — convierte audio en texto.
- LLM (modelo de lenguaje) — razona, decide, genera respuesta.
- TTS (Text to Speech) — convierte respuesta del LLM en voz.
Tú traes tus propias claves API. SIVO orquesta, tú pagas a tu proveedor.
Por qué BYO
- Sin markup de SIVO sobre el coste de tokens.
- Tu cuota y rate-limit dedicados (no compartidos con otros tenants).
- Si negocias tarifas Enterprise con OpenAI/ElevenLabs, las disfrutas tú.
- Compliance: si tu DPA exige proveedor IA específico o región, eliges tú.
STT — Speech to Text
| Proveedor | Streaming | Mejor para |
|---|---|---|
| Deepgram Nova-2/Nova-3 | WebSocket | Mejor relación coste/calidad. Default recomendado. |
| ElevenLabs Scribe v2 Realtime | WebSocket | Entornos ruidosos, voces no nativas. |
| OpenAI Whisper | No (batch) | Post-call only. Idiomas minoritarios. |
Configurar Deepgram
- Settings → Secretos → + Proveedor STT → Deepgram.
- Pega tu API key.
- Elige modelo (
nova-2-generalrecomendado). - Guarda.
Configurar ElevenLabs
- Settings → Secretos → + Proveedor STT → ElevenLabs.
- Modelo: usa
scribe_v2_realtime(con sufijo_realtime).scribe_v2es batch y no funciona con streaming. - Header de autenticación:
xi-api-key(SIVO lo configura solo).
LLM — modelos de razonamiento
Cualquier endpoint OpenAI-compatible funciona. Probados:
| Proveedor | TTFT (primer token) | Recomendación |
|---|---|---|
| OpenAI GPT-4o | 667-2400ms | Calidad alta, latencia variable. |
| OpenAI GPT-4o-mini | 350-800ms | Buena ratio calidad/latencia/coste. |
| Groq Llama 3.1 70B | ~120ms | Mejor latencia. Default para voz. |
| Cerebras Llama 3.1 70B | ~150ms | Alternativa a Groq, throughput alto. |
| Together.ai | Variable | Para modelos open-source específicos. |
| Anthropic Claude | ~500ms | Via proxy OpenAI-compatible. |
Configurar Groq
- Settings → Secretos → + Proveedor LLM → Groq.
- API key + modelo (
llama-3.1-70b-versatile). - SIVO detecta
groq.comen la base URL y omitestream_options.include_usageautomáticamente (Groq no lo soporta).
Configurar cualquier OpenAI-compatible
- Settings → Secretos → + Proveedor LLM → Custom.
- Rellena:
- Base URL (ej.
https://api.openai.com/v1,https://api.groq.com/openai/v1). - API key.
- Modelo por defecto.
- Base URL (ej.
- Para Anthropic: usa un proxy OpenAI-compatible (LiteLLM, OpenRouter).
TTS — Text to Speech
| Proveedor | Streaming | Audio tags | Latencia |
|---|---|---|---|
| ElevenLabs v2 multilingual | WebSocket | ❌ | Más baja |
| ElevenLabs v3 | HTTP (no WS) | ✅ [laughs], [sighs] | Media |
| OpenAI TTS | Stream | ❌ | Media |
Configurar ElevenLabs
- Settings → Secretos → + Proveedor TTS → ElevenLabs.
- Modelo:
eleven_multilingual_v2— WebSocket, sin audio tags, baja latencia. Default para voz.eleven_v3— HTTP solo, con audio tags. Premium.
- Voice ID (elige de la librería ElevenLabs).
language_codepara consistencia de acento (es,en, etc.).
Combinaciones recomendadas
Por caso de uso típico:
Mejor latencia (voz en directo)
- STT: Deepgram Nova-2
- LLM: Groq Llama 3.1 70B
- TTS: ElevenLabs v2
Resultado: ~600ms end-to-end desde silencio hasta primer audio del bot.
Mejor calidad (premium)
- STT: ElevenLabs Scribe v2 Realtime
- LLM: OpenAI GPT-4o
- TTS: ElevenLabs v3 con audio tags
Resultado: ~1.2s end-to-end. La voz suena más natural.
Mejor coste
- STT: Deepgram Nova-2
- LLM: Groq Llama 3.1 70B
- TTS: OpenAI TTS
Resultado: ~700ms end-to-end con coste mínimo (≈$0.05/min conversado).
Asignación a agentes IA
Una vez configurados los proveedores, asignas cada uno a un agente IA:
- AI Agents → tu agente → Configuración.
- Selecciona los providers de STT, LLM y TTS.
- Define el prompt del sistema, las funciones disponibles y los nodos de transferencia.
Un mismo agente IA puede tener distintas configuraciones por entorno (sandbox vs prod) para A/B testing.
Seguridad
- Las API keys se cifran con AES-256-GCM por tenant en BD.
- No salen del backend SIVO — los proveedores nunca ven tu identidad de cliente.
- Rotación: cambia la key en el panel y SIVO usa la nueva en la siguiente llamada (sin reiniciar nada).
- Si revocas la key sin sustituirla, las llamadas con IA fallan con
provider_unavailable— el flujo IVR puede definir unerrorNodeIdde fallback.
Costes estimados
Para 1 hora de conversación IA continua con la combinación de baja latencia:
| Etapa | Coste aprox. |
|---|---|
| STT (Deepgram Nova-2) | ~$0.78 |
| LLM (Groq Llama 3.1 70B) | ~$0.72 |
| TTS (ElevenLabs v2) | ~$10.80 |
| Total | ~$12.30/h conversado |
Premium (con GPT-4o + ElevenLabs v3) sube a ~$30-40/hora. Coste mínimo con OpenAI TTS baja a ~$5-7/hora.
→ Esto es tu coste con tu proveedor. SIVO no facturado encima.