K
Kodama Vault
knowledge hub
Vault
HomeBoardMap of ContentChatConversasAuditoria
Agentes
AgentsIssuesTerminalPreviews
Sistema
MCPSetup MCPSettings
Brain
Global agent instructions
Análise custos migração — evitar senha no payloadLevantamento fluxo registro + duplicados StripeRelatório segurança + pentes finos (Cláudio)Revisão security concerns e race conditionsMagic link / esqueceu senha via SupabaseCorrigir erros pós-upgrade TypeScriptTestar PRs do agente Vault para mergeAnálise de 3 issues para iniciarErro no terminal do VSCodePR #173 — aguardando aprovação do LeoTestar fluxo ponta a ponta — criação de clients no StripePR #172 — testar e subir correção de funções deprecatedPitch de vendas SaaS — agendar call de conversãoOrganizar issues e bugs rápidos para a semanaMerge PR cadastro-novo — funcionalidades e correçõesCorrigir bugs PR #173 e #172 — image domainsPR mesosóico — página de acesso mobile + segurança OTPRefatoração de códigos — PR #202Ajustes em PRs abertos de ontemEstudo de jornada de compra e técnicas de fechamentoDefinir preço e entregável do produtoProspecção de reuniões para esta semanaAgente anti AI slop — centralização de conhecimento ConnfitPR #179 — resolver conflitos e erros de teste CLIAlinhamento de preços e usos da ConffitFix adicional para PR #183 — perfil do usuárioCorrigir estilização da Connfit para identidade visualSubir modificações no copy da ConnfitCriação de 4 campanhas no Meta AdsRevisão de PRs do GilinesExploração do Roblox EditorRelatório João — devolutiva TikTok ShopReunião presencial Zassi Uniformes — diagnóstico automaçõesCriar repositório de diagnósticos e relatórios de entrevistasDiagnóstico da ZassiGeração de relatórios para reuniões de fechamentoProposta Zassi — apresentação amanhãProspecção — Clínica Odontológica Dr. But
VPS Hermes — acesso e estrutura
Always Commit Push DeployHermes Voice GeminiHermes VPSKodama Prospects TrackerMEMORYObsidian VaultRoblox Mining Sim
OpenSpec -- Spec-Driven Development no VaultPlano de Teste — OpenSpec Vault Persistence
CaumzitoNyxzZanini
Mimic — Arquitetura técnicaMimic — Plataforma de geração de vídeo IA com avatar swapMimic — Custos GPU e margensMimic — Decisões técnicasMimic — Riscos legais e mitigaçõesMimic — Roadmap MVPMimic — Estado atual e progresso
Claude Code — Setup MCP VaultClaude Desktop — Setup MCP Vault (remote)VS Code + Copilot — Setup MCP Vault
Skill — Carousel Designer (Paper Style)
Standup 2026-05-14Standup 2026-05-15Standup 2026-05-16Standup 2026-05-17Standup 2026-05-18Standup 2026-05-19Standup 2026-05-20Standup 2026-05-21Standup 2026-05-22Standup 2026-05-25Standup 2026-05-26Standup 2026-05-27Standup 2026-05-28Standup 2026-05-29Standup 2026-06-01Standup 2026-06-02Standup 2026-06-03Standup 2026-06-05Standup 2026-06-11Standup 2026-06-15Standup 2026-06-16Standup 2026-06-17Standups
MOCWelcome
v0.3
K
Kodama Vault
brain / projects / mimic

Mimic — Arquitetura técnica

Arquitetura — Mimic

Fluxo end-to-end

[user busca produto]
    → scrape TikTok → lista vídeos
[user seleciona vídeo + avatar]
    → download vídeo (yt-dlp)
    → separa voz/música (Demucs)
    → transcreve (Whisper Large v3) com timestamps
    → extrai pose/motion (DWPose / MediaPipe)
    → segmenta pessoa (SAM 2)
    → clona voz (F5-TTS) lendo transcrição
    → gera vídeo: avatar + motion (MimicMotion/AnimateAnyone)
    → lip-sync refinement (LatentSync)
    → composita BG original ou novo
    → upscale + interp (RealESRGAN + RIFE)
    → mix áudio (voz clonada + música original)
    → entrega

Componentes por etapa

1. Busca TikTok

  • yt-dlp + TikTok-Api (unofficial) ou Apify
  • Cache Redis (TTL 1h) por query
  • Fallback: user cola URL direto

2. Áudio

  • Demucs v4: separa vocal/instrumental
  • WhisperX: transcrição + timestamps por palavra
  • F5-TTS: clone zero-shot (PT-BR ok), embedding pré-treinado por user

3. Motion

  • DWPose: skeleton 2D + face landmarks
  • SAM 2: segmentação pessoa do BG
  • Salva sequência poses por frame em JSON

4. Geração vídeo

Opção A (MVP): MimicMotion ou AnimateAnyone — pose-guided, identity preserved
Opção B (V2): Wan 2.2 I2V + LoRA do avatar + ControlNet pose

5. Lip-sync

  • LatentSync (ByteDance) — SOTA atual
  • Fallback: MuseTalk (mais rápido, menor qualidade)

6. Background

  • Mantém BG original: composita avatar segmentado via alpha blend
  • Opcional: gera BG novo via SDXL/Flux

7. Pós

  • Upscale: RealESRGAN + CodeFormer (rosto)
  • Frame interp: RIFE 30→60fps
  • Color match avatar ↔ BG

Arquitetura sistema

Frontend Next.js 16 (App Router, Cache Components)
    ↓
API Elysia (Bun) + Better-Auth + Stripe
    ↓
Redis + BullMQ (filas: scrape | audio | video | postproc)
    ↓
Worker pool (containers Docker)
    - scrape: CPU
    - audio: L4
    - video: H100 / A100
    - postproc: RTX 4090
    ↓
Storage: Cloudflare R2 (sem egress) ou MinIO self-host
DB: Postgres + Drizzle

Schema DB (rascunho)

users (id, email, plan, credits_balance)
avatars (id, user_id, name, lora_path, status)
voices (id, user_id, name, embedding_path, ref_audio_path)
jobs (id, user_id, tiktok_url, avatar_id, voice_id,
      status, progress, steps_log, output_url, cost_credits)
job_steps (id, job_id, name, status, started_at, finished_at, gpu_type)

Treinamento avatar (1x por user)

  • 20-50 fotos user → SDXL/Flux LoRA training (~20min A100)
  • Salva /avatars/{uid}/lora.safetensors (~200MB)
  • Custo treino: ~$1

Treinamento voz (1x por user)

  • 30s áudio user → F5-TTS reference embedding (~10s)
  • Salva /voices/{uid}/ref.wav + embedding
  • Custo: ~$0.01

GPU infra

  • RunPod Serverless: autoscale, paga uso
  • Cold start: 30-60s — mantém 1 worker quente em pico
  • Alternativa custo fixo: VPS Hetzner GEX44 (~€180/mês RTX4000)

Observabilidade

  • PostHog (analytics produto)
  • Sentry (erros)
  • Grafana + Loki (workers GPU, métricas custo/job)
notas relacionadas
carregando…