Mimic — Roadmap MVP
Roadmap — Mimic
Fase 0: Validação técnica (1 semana)
- Rodar MimicMotion local em 4090, validar qualidade
- Rodar F5-TTS PT-BR, validar clone voz
- Rodar LatentSync, validar lip-sync PT-BR
- Pipeline manual fim-a-fim (1 vídeo de teste) — gera 1 output
Fase 1: Backend base (sem IA) — semanas 1-2
- Repo monorepo (Bun workspaces): web, api, worker, shared
- Frontend Next.js 16 + shadcn + Tailwind
- API Elysia + Drizzle + Postgres
- Auth (Better-Auth, OAuth Google)
- Busca TikTok + download (yt-dlp via Python service)
- Storage R2 + signed URLs
- UI: busca, preview, fila jobs
Fase 2: Áudio pipeline — semana 3
- Worker
audio: Demucs + WhisperX + F5-TTS - Endpoint "gerar áudio com voz clonada"
- Onboarding voz (user grava 30s, salva embedding)
- Demo só áudio: usuário clica → recebe MP3 c/ voz dele lendo transcrição
Fase 3: Avatar onboarding — semanas 4-5
- Upload 20-50 fotos
- Pipeline LoRA training (SDXL ou Flux) em RunPod
- Consent check obrigatório (selfie c/ código no papel)
- Preview LoRA: gera 4 fotos teste pro user aprovar
Fase 4: Vídeo gen — semanas 6-8
- Worker
video: pose extraction (DWPose) + segmentação (SAM2) - Integra MimicMotion ou AnimateAnyone
- BG compositing (mantém original)
- Sincroniza c/ áudio gerado da Fase 2
Fase 5: Lip-sync + polish — semana 9
- Integra LatentSync na saída do video worker
- Pipeline pós-proc: RealESRGAN + RIFE
- Watermark invisível (anti-misuse)
Fase 6: Billing + monetização — semanas 10-11
- Stripe + créditos pré-pagos
- Planos: free trial (1 vídeo) → starter $19/mês 10 vídeos → pro $49/mês 30 vídeos
- Dashboard uso/saldo
Fase 7: Launch — semana 12
- Landing copy + página pricing
- Vídeos demo
- Waitlist + cupom early
- Deploy produção (web Vercel, API/workers VPS+RunPod)
Marcos críticos
| Marco | Quando | Sinal de sucesso |
|---|---|---|
| Áudio clone funcional | Sem 3 | Voz clone qualidade ≥ ElevenLabs em PT-BR (blind test) |
| Avatar visual ok | Sem 5 | 4 fotos teste passam blind test família/amigos |
| Vídeo end-to-end | Sem 8 | Vídeo 15s c/ identidade + motion preservados |
| Lip-sync aceitável | Sem 9 | Sem "rosto borrachento" perceptível em 720p |
| Primeira venda | Sem 12 | $19 cobrado de stranger |