SIVO
Proveedores STT, LLM y TTS

Integraciones

Proveedores STT, LLM y TTS

Cómo conectar SIVO con tus proveedores de IA preferidos. BYO keys, tu coste, tu rate-limit.

Actualizado:
aisttllmttsintegraciones

SIVO orquesta tres servicios de IA por llamada (en agentes IA y transcripción):

  • STT (Speech to Text) — convierte audio en texto.
  • LLM (modelo de lenguaje) — razona, decide, genera respuesta.
  • TTS (Text to Speech) — convierte respuesta del LLM en voz.

Tú traes tus propias claves API. SIVO orquesta, tú pagas a tu proveedor.

Por qué BYO

  • Sin markup de SIVO sobre el coste de tokens.
  • Tu cuota y rate-limit dedicados (no compartidos con otros tenants).
  • Si negocias tarifas Enterprise con OpenAI/ElevenLabs, las disfrutas tú.
  • Compliance: si tu DPA exige proveedor IA específico o región, eliges tú.

STT — Speech to Text

ProveedorStreamingMejor para
Deepgram Nova-2/Nova-3WebSocketMejor relación coste/calidad. Default recomendado.
ElevenLabs Scribe v2 RealtimeWebSocketEntornos ruidosos, voces no nativas.
OpenAI WhisperNo (batch)Post-call only. Idiomas minoritarios.

Configurar Deepgram

  1. Settings → Secretos → + Proveedor STT → Deepgram.
  2. Pega tu API key.
  3. Elige modelo (nova-2-general recomendado).
  4. Guarda.

Configurar ElevenLabs

  1. Settings → Secretos → + Proveedor STT → ElevenLabs.
  2. Modelo: usa scribe_v2_realtime (con sufijo _realtime). scribe_v2 es batch y no funciona con streaming.
  3. Header de autenticación: xi-api-key (SIVO lo configura solo).

LLM — modelos de razonamiento

Cualquier endpoint OpenAI-compatible funciona. Probados:

ProveedorTTFT (primer token)Recomendación
OpenAI GPT-4o667-2400msCalidad alta, latencia variable.
OpenAI GPT-4o-mini350-800msBuena ratio calidad/latencia/coste.
Groq Llama 3.1 70B~120msMejor latencia. Default para voz.
Cerebras Llama 3.1 70B~150msAlternativa a Groq, throughput alto.
Together.aiVariablePara modelos open-source específicos.
Anthropic Claude~500msVia proxy OpenAI-compatible.

Configurar Groq

  1. Settings → Secretos → + Proveedor LLM → Groq.
  2. API key + modelo (llama-3.1-70b-versatile).
  3. SIVO detecta groq.com en la base URL y omite stream_options.include_usage automáticamente (Groq no lo soporta).

Configurar cualquier OpenAI-compatible

  1. Settings → Secretos → + Proveedor LLM → Custom.
  2. Rellena:
    • Base URL (ej. https://api.openai.com/v1, https://api.groq.com/openai/v1).
    • API key.
    • Modelo por defecto.
  3. Para Anthropic: usa un proxy OpenAI-compatible (LiteLLM, OpenRouter).

TTS — Text to Speech

ProveedorStreamingAudio tagsLatencia
ElevenLabs v2 multilingualWebSocketMás baja
ElevenLabs v3HTTP (no WS)[laughs], [sighs]Media
OpenAI TTSStreamMedia

Configurar ElevenLabs

  1. Settings → Secretos → + Proveedor TTS → ElevenLabs.
  2. Modelo:
    • eleven_multilingual_v2 — WebSocket, sin audio tags, baja latencia. Default para voz.
    • eleven_v3 — HTTP solo, con audio tags. Premium.
  3. Voice ID (elige de la librería ElevenLabs).
  4. language_code para consistencia de acento (es, en, etc.).

Combinaciones recomendadas

Por caso de uso típico:

Mejor latencia (voz en directo)

  • STT: Deepgram Nova-2
  • LLM: Groq Llama 3.1 70B
  • TTS: ElevenLabs v2

Resultado: ~600ms end-to-end desde silencio hasta primer audio del bot.

Mejor calidad (premium)

  • STT: ElevenLabs Scribe v2 Realtime
  • LLM: OpenAI GPT-4o
  • TTS: ElevenLabs v3 con audio tags

Resultado: ~1.2s end-to-end. La voz suena más natural.

Mejor coste

  • STT: Deepgram Nova-2
  • LLM: Groq Llama 3.1 70B
  • TTS: OpenAI TTS

Resultado: ~700ms end-to-end con coste mínimo (≈$0.05/min conversado).

Asignación a agentes IA

Una vez configurados los proveedores, asignas cada uno a un agente IA:

  1. AI Agents → tu agente → Configuración.
  2. Selecciona los providers de STT, LLM y TTS.
  3. Define el prompt del sistema, las funciones disponibles y los nodos de transferencia.

Un mismo agente IA puede tener distintas configuraciones por entorno (sandbox vs prod) para A/B testing.

Seguridad

  • Las API keys se cifran con AES-256-GCM por tenant en BD.
  • No salen del backend SIVO — los proveedores nunca ven tu identidad de cliente.
  • Rotación: cambia la key en el panel y SIVO usa la nueva en la siguiente llamada (sin reiniciar nada).
  • Si revocas la key sin sustituirla, las llamadas con IA fallan con provider_unavailable — el flujo IVR puede definir un errorNodeId de fallback.

Costes estimados

Para 1 hora de conversación IA continua con la combinación de baja latencia:

EtapaCoste aprox.
STT (Deepgram Nova-2)~$0.78
LLM (Groq Llama 3.1 70B)~$0.72
TTS (ElevenLabs v2)~$10.80
Total~$12.30/h conversado

Premium (con GPT-4o + ElevenLabs v3) sube a ~$30-40/hora. Coste mínimo con OpenAI TTS baja a ~$5-7/hora.

→ Esto es tu coste con tu proveedor. SIVO no facturado encima.