SIVO
Integraciones
Integraciones

STT, LLM y TTS BYO — Deepgram, ElevenLabs, Whisper, OpenAI, Groq

Trae tus propias claves de proveedores IA. SIVO orquesta, tú pagas a tu proveedor.

BYO API keys

SIVO no actúa de intermediario en tu coste de tokens. Tus claves de Deepgram, ElevenLabs, OpenAI, Groq, etc. viven cifradas (AES-256-GCM por tenant) en nuestra BD y se usan directamente contra los proveedores. Ventajas:

  • Pagas la tarifa real del proveedor sin markup de SIVO.
  • Tu cuota de uso y tu rate-limit (no compartido con otros tenants).
  • Si negocias mejores tarifas enterprise, las disfrutas directamente.
  • Compliance: si tu DPA exige proveedor IA específico (ej. región EU), eliges tú.

STT — Speech to Text

Deepgram (Nova-2 / Nova-3)

  • WebSocket streaming, latencia < 300ms para primer parcial.
  • Mejor relación precio/calidad para volumen.
  • Diarización opcional (separación por hablante) en el mismo stream.
  • Idiomas: 30+ con buena calidad en es, en, pt, fr, de, it.

ElevenLabs Scribe v2 Realtime

  • WebSocket streaming auth con header xi-api-key.
  • Excelente en entornos ruidosos y voces no nativas.
  • Modelos: scribe_v2_realtime (streaming) y scribe_v2 (batch).
  • Latencia ligeramente superior a Deepgram, calidad superior en casos difíciles.

OpenAI Whisper

  • Para clientes que necesitan alojamiento self-managed del modelo por compliance — SIVO lo despliega en tu región (Enterprise).
  • Calidad máxima en idiomas minoritarios.
  • Latencia mayor (no streaming nativo) — recomendado para post-call, no live.

LLM — Razonamiento

Cualquier endpoint OpenAI-compatible funciona. Probados en producción:

  • OpenAI (GPT-4o, GPT-4o-mini, GPT-4.1) — TTFT 667-2400ms.
  • Groq (Llama 3.x, Mixtral) — TTFT ~120ms, mejor para baja latencia.
  • Cerebras (Llama 3.x) — TTFT competitivo.
  • Together.ai (modelos open-source) — flexibilidad de modelos.
  • Anthropic Claude — via proxy compatible OpenAI.

Nota técnica: stream_options: {include_usage: true} no es compatible con Groq — SIVO lo omite automáticamente al detectar groq.com en la base URL.

TTS — Text to Speech

ElevenLabs v2 (multilingual)

  • WebSocket streaming (stream-input endpoint).
  • 30+ idiomas con buena consistencia de acento.
  • NO soporta audio tags [laughs], [sighs].
  • Latencia más baja, recomendado para producción.

ElevenLabs v3

  • Solo HTTP streaming (WS retorna 403).
  • Soporta audio tags — el LLM puede inyectar [laughs], [sighs], [whispers].
  • Calidad superior, recomendado para IA agents premium.

OpenAI TTS

  • Voces: alloy, echo, fable, onyx, nova, shimmer.
  • Coste menor que ElevenLabs, calidad respetable.
  • Latencia razonable, sin audio tags.

Combinación recomendada

Para casos de uso típicos de IVR + IA:

  • Mejor latencia: Deepgram Nova-2 + Groq Llama 3 + ElevenLabs v2 → ~600ms end-to-end.
  • Mejor calidad: ElevenLabs Scribe v2 Realtime + OpenAI GPT-4o + ElevenLabs v3 → ~1.2s end-to-end.
  • Mejor coste: Deepgram Nova-2 + Groq Llama 3 + OpenAI TTS → ~700ms end-to-end con coste mínimo.

→ Guía completa de proveedores en docs

Tu centralita con superpoderes IA, en minutos.

Empieza con 14 días gratis. Sin tarjeta. Sin permanencia.