Sync frame-accurateREST async + webhooksOutput hasta 4KReintentos idempotentes

Impulsa flujos de lip-sync para 900+ equipos de ingeniería

API de Lip Sync.

Lip-sync como servicio. Suelta una URL de cara, una URL de audio, recibe un MP4 con lip-sync frame-accurate — latencia sub-minuto, webhooks asíncronos.

Petición de ejemplo

Output

Llamada API de ejemplo

POST /v1/lipsync
Authorization: Bearer sk_live_***

{
  "face_url": "https://cdn.example.com/face.jpg",
  "audio_url": "https://cdn.example.com/voice.mp3",
  "format": "16-9",
  "resolution": "1080p"
}

→ 202 Accepted
{ "job_id": "ls_8a2...", "webhook": "..." }

REST async · latencia sub-minuto · idempotente

118k renders de lip-sync servidos los últimos 30 días

— Ejemplo de salida

▸ preview9:16 · 1080p

00:00 / 00:45▸

— Endpoints

Sincroniza cualquier cara a cualquier audio.

— Petición de ejemplo

endpoint · 1/3

Endpoint

110 params

POST /v1/lipsync con { face_url, audio_url }. Foto + audio → MP4 con movimiento de labios fotorreal. Hasta 4K.

AuthBearer API key

LímitesEscalonados por plan

Endpoint

POST /v1/lipsync

REST · Async

— Payload de webhook

200 OK

● En vivo9:16 · 1080p

Respuesta del webhook

slot · webhook

00:00 / 00:45▸

— Cómo funciona

De petición a render con lip-sync en 3 pasos simples.

Step 1

Obtén una API key

Regístrate, genera una key live en el dashboard. Keys sandbox para desarrollo.

Step 2

POST URLs de cara + audio

Envía URLs firmadas a imagen/video de cara y audio. La API extrae el modelo facial y el timing de fonemas.

Step 3

Recibe webhook

Al completar, hacemos POST de una URL MP4 firmada a tu webhook. O haz polling al endpoint del job hasta terminar.

— Docs

¿Cómo doblar 100k videos vía API sin romper el banco?

De auth a handler de webhook con muestras de código en TypeScript y Python.

▸ Docs · 16:9

Doblé 10.000 demos de producto vía API en 4 h (paso a paso).

— Para quién

Hecho para equipos de ingeniería.

Localización

Plataformas de localización

Ofrece doblaje de video como servicio vía API. Frame-accurate, multilingüe, a escala.

L&D

Plataformas L&D

Re-sincroniza audio de narrador entre actualizaciones de cursos. Mismo instructor, nuevas líneas, sin re-filmar.

Medios

Medios y noticias

Auto-dobla clips de noticias para audiencias internacionales. Mismo presentador, cada idioma, cada clip.

SaaS

SaaS de medios personalizados

Genera videos con lip-sync personalizados a escala — outreach de ventas, onboarding, transaccionales.

— Comparativa

DIY lip-sync vs ClipNova Lip Sync API.

Construirlo tú mismo = meses de infraestructura ML. ClipNova lo lanza detrás de un único endpoint REST.

Característica

Lip Sync API

Infra DIY

Setup

Una API key, un endpoint

Levantar GPU farm + modelos

Tiempo al primer sync

Minutos

Meses de trabajo ML

Calidad

Frame-accurate, fotorreal

Contratar equipo ML para igualar

Idempotencia

Integrada

Construir tú

Compliance

SOC 2 + residencia EU

Auditar tú

— Casos de uso

Mira lo que los equipos construyen con esto.

Despliegues en producción por categoría.

Doblaje de video a escala.

Una empresa de medios dobla 10.000 clips de noticias por semana a 8 idiomas. Mismo presentador, misma energía, cada idioma.

Endpoints por lotes
8 idiomas por pasada
Consistencia de presentador preservada
Webhook por cada clip

16:9

Suelta el ejemplo aquí

slot · dub-api

Outreach de ventas personalizado.

Un SaaS envía a cada prospecto un pitch en video con lip-sync del fundador, personalizado a su empresa.

Renderizado por prospecto
Cara del fundador + voz clonada
Latencia sub-minuto
Logs de auditoría

16:9

Suelta el ejemplo aquí

slot · outreach-api

Actualizaciones de narrador L&D.

Un LMS empuja actualizaciones de guion a lecciones existentes. Mismo narrador, nuevas líneas, sin re-filmar — solo un re-sync.

Updates solo de audio
Continuidad visual preservada
Control de versiones
Endpoints por lotes

16:9

Suelta el ejemplo aquí

slot · lms-api

— FAQ

Preguntas frecuentes.

¿Qué es la API de Lip Sync?

Un endpoint REST que toma una URL de cara y una URL de audio, y devuelve un MP4 con lip-sync frame-accurate. Diseñado para uso programático de alto volumen.

¿Qué inputs se aceptan?

Cara: JPG, PNG, MP4, MOV. Audio: MP3, WAV, M4A. Ambos pasados como URLs firmadas (o subidos vía endpoint /uploads).

¿Calidad comparada con UI de ClipNova?

Mismo modelo, misma calidad. La API es el mismo motor que impulsa la herramienta UI.

¿Latencia?

Bajo 2 minutos para un video fuente de 60 s. Los renders 4K tardan 4–6 min.

¿Idempotencia?

Sí. Cada petición acepta un header Idempotency-Key. Seguro de reintentar.

¿Fiabilidad de webhooks?

Payloads firmados, reintentados con exponential backoff por 24h, logs completos en dashboard.

¿Compliance?

SOC 2 Type II. Residencia de datos EU disponible en enterprise. Sin entrenamiento con inputs de usuario.