Integraciones

Proveedores STT, LLM y TTS

Cómo conectar SIVO con tus proveedores de IA preferidos. BYO keys, tu coste, tu rate-limit.

Actualizado: 20 de mayo de 2026

aisttllmttsintegraciones

SIVO orquesta tres servicios de IA por llamada (en agentes IA y transcripción):

Tú traes tus propias claves API. SIVO orquesta, tú pagas a tu proveedor.

Por qué BYO

Proveedor	Streaming	Mejor para
Deepgram Nova-2/Nova-3	WebSocket	Mejor relación coste/calidad. Default recomendado.
ElevenLabs Scribe v2 Realtime	WebSocket	Entornos ruidosos, voces no nativas.
OpenAI Whisper	No (batch)	Post-call only. Idiomas minoritarios.

Settings → Secretos → + Proveedor STT → ElevenLabs.
Modelo: usa scribe_v2_realtime (con sufijo _realtime). scribe_v2 es batch y no funciona con streaming.
Header de autenticación: xi-api-key (SIVO lo configura solo).

Cualquier endpoint OpenAI-compatible funciona. Probados:

Proveedor	TTFT (primer token)	Recomendación
OpenAI GPT-4o	667-2400ms	Calidad alta, latencia variable.
OpenAI GPT-4o-mini	350-800ms	Buena ratio calidad/latencia/coste.
Groq Llama 3.1 70B	~120ms	Mejor latencia. Default para voz.
Cerebras Llama 3.1 70B	~150ms	Alternativa a Groq, throughput alto.
Together.ai	Variable	Para modelos open-source específicos.
Anthropic Claude	~500ms	Via proxy OpenAI-compatible.

Settings → Secretos → + Proveedor LLM → Groq.
API key + modelo (llama-3.1-70b-versatile).
SIVO detecta groq.com en la base URL y omite stream_options.include_usage automáticamente (Groq no lo soporta).

Settings → Secretos → + Proveedor LLM → Custom.
Rellena:
- Base URL (ej. https://api.openai.com/v1, https://api.groq.com/openai/v1).
- API key.
- Modelo por defecto.
Para Anthropic: usa un proxy OpenAI-compatible (LiteLLM, OpenRouter).

Proveedor	Streaming	Audio tags	Latencia
ElevenLabs v2 multilingual	WebSocket	❌	Más baja
ElevenLabs v3	HTTP (no WS)	✅ `[laughs]`, `[sighs]`	Media
OpenAI TTS	Stream	❌	Media

Settings → Secretos → + Proveedor TTS → ElevenLabs.
Modelo:
- eleven_multilingual_v2 — WebSocket, sin audio tags, baja latencia. Default para voz.
- eleven_v3 — HTTP solo, con audio tags. Premium.
Voice ID (elige de la librería ElevenLabs).
language_code para consistencia de acento (es, en, etc.).

Por caso de uso típico:

Resultado: ~600ms end-to-end desde silencio hasta primer audio del bot.

Resultado: ~1.2s end-to-end. La voz suena más natural.

Resultado: ~700ms end-to-end con coste mínimo (≈$0.05/min conversado).

Una vez configurados los proveedores, asignas cada uno a un agente IA:

AI Agents → tu agente → Configuración.
Selecciona los providers de STT, LLM y TTS.
Define el prompt del sistema, las funciones disponibles y los nodos de transferencia.

Un mismo agente IA puede tener distintas configuraciones por entorno (sandbox vs prod) para A/B testing.

Las API keys se cifran con AES-256-GCM por tenant en BD.
No salen del backend SIVO — los proveedores nunca ven tu identidad de cliente.
Rotación: cambia la key en el panel y SIVO usa la nueva en la siguiente llamada (sin reiniciar nada).
Si revocas la key sin sustituirla, las llamadas con IA fallan con provider_unavailable — el flujo IVR puede definir un errorNodeId de fallback.

Para 1 hora de conversación IA continua con la combinación de baja latencia:

Premium (con GPT-4o + ElevenLabs v3) sube a ~$30-40/hora. Coste mínimo con OpenAI TTS baja a ~$5-7/hora.

→ Esto es tu coste con tu proveedor. SIVO no facturado encima.