Sync frame-accurateREST async + webhooksSaída até 4KRetries idempotentes

Impulsiona workflows de lip-sync para 900+ times de engenharia

API Lip Sync.

Lip-sync como serviço. Solte uma URL de rosto, uma URL de áudio, receba um MP4 com lip-sync frame-accurate — latência sub-minuto, webhooks assíncronos.

Requisição de exemplo

Saída

Chamada API de exemplo

POST /v1/lipsync
Authorization: Bearer sk_live_***

{
  "face_url": "https://cdn.example.com/face.jpg",
  "audio_url": "https://cdn.example.com/voice.mp3",
  "format": "16-9",
  "resolution": "1080p"
}

→ 202 Accepted
{ "job_id": "ls_8a2...", "webhook": "..." }

REST async · latência sub-minuto · idempotente

118k renders de lip-sync servidos nos últimos 30 dias

— Exemplo de saída

▸ preview9:16 · 1080p

00:00 / 00:45▸

— Endpoints

Lip-sync qualquer rosto a qualquer áudio.

— Requisição de exemplo

endpoint · 1/3

Endpoint

111 params

POST /v1/lipsync com { face_url, audio_url }. Foto + áudio → MP4 com movimento de lábios fotorrealista. Até 4K.

AuthBearer chave API

LimitesEm tiers por plano

Endpoint

POST /v1/lipsync

REST · Async

— Payload do webhook

200 OK

● Ao vivo9:16 · 1080p

Resposta do webhook

slot · webhook

00:00 / 00:45▸

— Como funciona

Da requisição ao render com lip-sync em 3 passos simples.

Step 1

Obtenha uma chave API

Cadastre-se, gere uma chave live no dashboard. Chaves sandbox para desenvolvimento.

Step 2

POST URLs de rosto + áudio

Envie URLs assinadas de imagem/vídeo de rosto e áudio. A API extrai o modelo facial e o timing de fonemas.

Step 3

Receba webhook

Ao completar, fazemos POST de uma URL MP4 assinada para seu webhook. Ou faça polling no endpoint do job até concluir.

— Docs

Como dublar 100k vídeos via API sem estourar o orçamento?

Da auth ao handler de webhook com exemplos de código em TypeScript e Python.

▸ Docs · 16:9

Dublei 10.000 demos de produto via API em 4 h (passo a passo).

— Para quem

Feito para times de engenharia.

Localização

Plataformas de localização

Ofereça dublagem de vídeo como serviço via API. Frame-accurate, multilíngue, em escala.

T&D

Plataformas T&D

Re-sincronize áudio de narrador entre atualizações de curso. Mesmo instrutor, novas falas, sem refilmar.

Mídia

Mídia e notícias

Auto-duble clipes de notícias para audiências internacionais. Mesmo apresentador, cada idioma, cada clipe.

SaaS

SaaS de mídia personalizada

Gere vídeos com lip-sync personalizados em escala — outreach de vendas, onboarding, transacionais.

— Comparativo

DIY lip-sync vs ClipNova Lip Sync API.

Construir isso sozinho = meses de infra ML. ClipNova entrega por trás de um único endpoint REST.

Característica

Lip Sync API

Infra DIY

Setup

Uma chave API, um endpoint

Subir GPU farm + modelos

Tempo ao primeiro sync

Minutos

Meses de trabalho ML

Qualidade

Frame-accurate, fotorrealista

Contratar time ML para igualar

Idempotência

Embutida

Construir você mesmo

Compliance

SOC 2 + residência UE

Auditar você mesmo

— Casos de uso

Veja o que as equipes constroem com isso.

Deploys em produção por categoria.

Dublagem de vídeo em escala.

Uma empresa de mídia dubla 10.000 clipes de notícias por semana em 8 idiomas. Mesmo apresentador, mesma energia, cada idioma.

Endpoints em batch
8 idiomas por passada
Consistência de apresentador preservada
Webhook em cada clipe

16:9

Solte o exemplo aqui

slot · dub-api

Outreach de vendas personalizado.

Um SaaS envia a cada prospect um pitch em vídeo com lip-sync do fundador, personalizado para a empresa dele.

Render por prospect
Rosto do fundador + voz clonada
Latência sub-minuto
Logs de auditoria

16:9

Solte o exemplo aqui

slot · outreach-api

Atualizações de narrador T&D.

Um LMS empurra atualizações de roteiro para aulas existentes. Mesmo narrador, novas falas, sem refilmar — só um re-sync.

Updates só de áudio
Continuidade visual preservada
Versionamento
Endpoints em batch

16:9

Solte o exemplo aqui

slot · lms-api

— FAQ

Perguntas frequentes.

O que é a API Lip Sync?

Um endpoint REST que pega uma URL de rosto e uma URL de áudio, e retorna um MP4 com lip-sync frame-accurate. Projetado para uso programático de alto volume.

Quais inputs são aceitos?

Rosto: JPG, PNG, MP4, MOV. Áudio: MP3, WAV, M4A. Ambos passados como URLs assinadas (ou upload via endpoint /uploads).

Qualidade comparada com a UI ClipNova?

Mesmo modelo, mesma qualidade. A API é o mesmo motor que impulsiona a ferramenta da UI.

Latência?

Abaixo de 2 minutos para um vídeo fonte de 60 s. Renders 4K levam 4–6 min.

Idempotência?

Sim. Cada requisição aceita um header Idempotency-Key. Seguro para retentar.

Confiabilidade de webhooks?

Payloads assinados, retries com exponential backoff por 24h, logs completos no dashboard.

Compliance?

SOC 2 Type II. Residência de dados UE disponível em enterprise. Sem treinamento em inputs de usuário.