Mapa da trilha
⚙️ Parâmetros e sintaxe
MJ, Sora, Veo, Runway, Flux, Seedance, Kling, Nano Banana
🧰 Controle de composição
i2i, ControlNet, char consistency, inpaint, upscale
🎥 Movimento e câmera em vídeo
Verbos de câmera, keyframes, slow-mo, loops
🏋️ Exercícios práticos
6 desafios em ferramentas diferentes
🗺️ Passo-a-passo: clip de 10s
Do storyboard ao MP4 entregue
Conteúdo detalhado
Clique nos tópicos para abrir o resumo.
⚙️ Parâmetros e sintaxe
Cada gerador fala um dialeto. Aqui você aprende o vocabulário técnico das 9 ferramentas mais relevantes em maio/2026.
A ferramenta com sintaxe mais densa de parâmetros: --ar (proporção), --s (stylize), --chaos (variação), --sref (style reference), --cref (character reference), --no (negative), --weird.
MJ continua referência estética em 2026. Quem domina sref/cref consegue séries coerentes que outros geradores ainda lutam pra entregar.
--ar 21:9 (cinema) · --s 750 (estilo médio) · --chaos 0-30 · --sref [URL] [URL] · --cref [URL] --cw 100.
Modelo OpenAI focado em clipes de 10-20s com áudio gerado junto. Prompt em linguagem natural, sem parâmetros simbólicos — descrição cinematográfica direta.
Em 2026 é a referência para clipes narrativos com som ambiente sincronizado. Não dá pra mais entregar vídeo sem áudio diegético quando essa ferramenta existe.
Prompt descritivo cinematográfico · "with diegetic sound of [...]" · referência por imagem de partida · controle de câmera em linguagem natural.
Modelo Google focado em fotorrealismo cinematográfico e controle de câmera muito preciso. Aceita first-frame, last-frame e câmera path detalhado.
Continua sendo a ferramenta mais "cinema" pra planos paisagem, drone, beauty product. Quando o cliente pede "parece comercial de carro", Veo entrega.
Camera path explícito · "shot on Arri Alexa, anamorphic" · first/last frame com imagens · seed para iterar.
Plataforma com modelo Gen-4 (vídeo) + Frames (still). Forte em "references" — você sobe imagens de personagem/locação/estilo e o modelo respeita.
É a ferramenta mais usada em produção comercial real porque tem timeline, ACT (animação de pessoas reais), e API estável.
References (até 3) · ACT One para captura de performance · prompt curto + reference forte · motion brush.
Família Black Forest Labs. Flux 1.1 Pro gera imagens com texto legível (placas, cardápios). Flux Kontext é a versão de edição (modifica imagem existente seguindo descrição).
Quando o prompt tem texto que precisa sair certo (ex: cartaz, embalagem), Flux é mais confiável que MJ. Kontext substitui Photoshop pra edits descritivos.
Prompt longo descritivo · texto entre aspas duplas · Kontext: "change the X to Y while keeping everything else identical".
Editor de imagem do Gemini. Você manda imagem + instrução em linguagem natural ("troque a parede por tijolo aparente, mantenha o resto") e ele edita.
Mais rápido que Photoshop pra edição descritiva. Estabilidade do sujeito muito boa entre edições — você itera várias vezes sem perder o personagem.
Instrução conversacional · pode tomar múltiplas imagens como entrada · "compose A with B" pra fusão.
🧰 Controle de composição
Image-to-image, inpainting, ControlNet, character consistency e upscale. Quando texto sozinho não basta.
Forneça uma imagem como ponto de partida ou referência de estilo. O modelo usa composição, cor ou estilo dela como guia.
É a maneira mais rápida de garantir coerência visual entre múltiplas gerações sem escrever um prompt de 300 caracteres toda vez.
MJ --sref · Runway "style reference" · Flux Redux · Nano Banana multi-imagem · força/peso da referência.
Inpainting: editar uma área selecionada mantendo o resto. Outpainting: expandir a imagem além das bordas originais.
Resolve 80% dos problemas pequenos sem regenerar tudo. "Mãos erradas" deixaram de ser problema com inpaint preciso.
Máscara · prompt da área · respeitar contexto · zoom out para outpaint · feather na borda da máscara.
Família de controladores que força o modelo a respeitar uma geometria: pose humana, mapa de profundidade, contorno (canny), linhas (lineart).
Quando o cliente quer "a mesma pose, outra pessoa, outro cenário". Sem ControlNet, isso é loteria.
OpenPose · depth map · canny edges · lineart · disponível em Stable Diffusion / Flux com plugins.
Manter a aparência de um personagem entre múltiplas imagens/clipes. Em 2026: MJ --cref, Runway character refs, Nano Banana multi-imagem, IP-Adapter no Flux.
É o requisito que separa um still de IA de uma campanha. Sem consistência, não tem mascote, não tem série, não tem narrativa.
Imagem-base de qualidade · 3-5 ângulos do personagem · peso 80-100 · iterar do mesmo seed.
Dividir o prompt em partes com pesos. Em MJ: "subject A ::2 setting B ::1". Em SD: "(subject:1.4) (setting:0.8)".
Quando um elemento do prompt está sendo ignorado, em vez de gritar mais, você sobe o peso. Resolve "modelo não está pintando a chuva" com cirurgia.
Sintaxe varia por ferramenta · peso 1.0-2.0 raramente > 2 · pesos negativos para suprimir.
Subir a resolução de uma imagem mantendo o estilo. Topaz Gigapixel, Magnific, Krea Enhance, Upscaler do MJ.
Cliente pede 4K. Modelo entrega 1024px. Sem upscale bom, sua entrega tem resolução de avatar de Twitter.
Cuidado com upscale "criativo" que muda o sujeito · Topaz para fidelidade, Magnific para detalhe extra · prompt no upscale.
🎥 Movimento e câmera em vídeo
Verbos de câmera que o modelo entende, movimento do sujeito vs câmera, keyframing e loops perfeitos.
Termos técnicos de cinema que os modelos foram treinados a reconhecer: dolly in/out, pan left/right, tilt up/down, crane shot, tracking shot, push-in.
"The camera moves" não diz nada. "Slow dolly in toward the subject" diz tudo. Dialetos técnicos > descritivos.
Sempre adjetivo + verbo + alvo: "slow dolly in to the actor's face" não só "dolly in".
Distinguir explicitamente: "subject walks forward" + "camera stays still" OU "subject is still" + "camera dollies out". A confusão dos dois gera vídeo errado.
É o erro #1 de quem começa em vídeo IA. "A girl running" pode virar câmera correndo + garota parada.
Sempre nomear os 2 eixos · "static camera" se a câmera não move · "subject motionless" se o sujeito não move.
Slow motion = movimento lento dramático. Time-lapse = aceleração. Speed ramp = transição entre velocidades dentro do mesmo clipe.
Em comercial e clipe musical, controle de tempo é metade do impacto visual. Saber o nome certo entrega o efeito.
"shot in slow motion, 240fps look" · "time-lapse, clouds moving fast" · "speed ramp from real-time to slow-mo".
Fornecer a imagem do primeiro frame E do último frame; o modelo interpola o movimento entre os dois. Disponível em Runway, Veo, Kling.
É a forma mais precisa de controlar o que acontece. Você escolhe os pontos exatos de início/fim — o modelo só preenche o meio.
Frames muito diferentes geram morphing estranho · frames próximos geram movimento sutil convincente · pode combinar com prompt para guiar.
Usar o último frame de um clipe como first-frame do próximo. Garante zero salto de personagem, luz e enquadramento.
É como você monta uma cena de 30s com clipes de 5s sem que o espectador veja a costura.
Extract last frame → upload as first frame → novo prompt · refinar luz se a iluminação se desvia.
Vídeo que termina exatamente onde começa, sem salto perceptível. Seedance 2 é a ferramenta especializada; truque comum: first frame = last frame.
Background loops para sites, displays em loja, projeções de evento — tudo precisa loop perfeito.
Cena de circulação contínua (água, fumaça, ondas, partículas) · evitar elementos pontuais (relógio batendo) · Seedance prompt = mood + ação cíclica.
🏋️ Exercícios práticos
6 desafios que forçam você a usar cada ferramenta para o que ela é melhor.
Pegue o prompt-régua que você criou na T1 e gere em 4 ferramentas diferentes. Compare lado a lado.
Cada ferramenta tem viés. Descobrir empiricamente vale mais que ler benchmark.
Critério de feito: você consegue dizer qual ferramenta é melhor para 3 cenários diferentes (retrato, paisagem, produto).
Gere um cartaz de cinema com título "ÚLTIMO TREM PARA SANTOS" legível, sem typos. Use Flux ou Ideogram 3.
Texto em imagem era o calcanhar de Aquiles da IA. Agora é resolvido — mas só com ferramentas certas.
Texto entre aspas · família tipográfica explícita · evitar texto longo (10+ palavras ainda erra).
Crie um personagem (foto-base) e gere essa pessoa em 5 cenários: cozinha, praia, escritório, floresta, ônibus.
É o teste real de consistency. Se o personagem muda de rosto, sua referência está fraca ou cenário forte demais.
Foto-base nítida e frontal · descrever roupa em cada prompt · peso de referência alto (--cw 100).
Gere 5s onde a câmera faz "slow dolly in" enquanto o sujeito permanece imóvel. Depois 5s com "tracking shot" lateral do sujeito andando.
Treina sua habilidade de pedir câmera específica. Se o modelo "interpreta", você não dirigiu — só sugeriu.
Camera path + subject motion separados · velocidade explícita · "static subject" para garantir.
Crie um loop seamless de 6s pra background de hero de site: tema livre, cena de circulação contínua.
Critério profissional: passa de cabeça pra ninguém ver o "ponto da emenda".
Movimento cíclico · sem eventos pontuais · paleta consistente · testar replay 5x sem perceber a costura.
Pegue uma imagem que você gerou e faça 5 edits sequenciais sem perder o sujeito: roupa, fundo, hora do dia, expressão, objeto em mão.
É o workflow do dia-a-dia em produção. Cliente sempre quer "isso mesmo, só muda X".
"Change X while keeping everything else identical" · um edit por vez · salvar versões.
🗺️ Passo-a-passo: clip de 10 segundos
Do storyboard ao MP4 entregue. Aplica tudo da T2 em um projeto único.
Briefing: "Abertura de um podcast sobre cidade. 10s. Skyline + transição para entrevistada em estúdio." Quebrar em 2 shots.
Em 2026 ainda é mais barato e melhor fazer 2 clipes de 5s do que 1 clipe de 10s — a coerência cai com a duração.
Shot 1: drone aéreo da cidade ao amanhecer · Shot 2: entrevistada sentando no estúdio · ponto de cut: luz.
Gerar em MJ ou Flux o primeiro frame de cada shot. Iterar até estar bom como foto.
É 10x mais barato refinar still do que vídeo. Resolver a composição em imagem e só depois animar.
2 imagens base · idêntica paleta · idêntica hora do dia · mesma referência de filme.
Subir a imagem-base como first frame. Prompt: "slow drone push forward over the skyline at sunrise, golden light, atmospheric haze". Veo entrega o melhor aéreo.
Aéreo é onde Veo brilha mais que outras opções. Escolha de ferramenta importa por tipo de plano.
Câmera lenta · uma direção só · 5s exatos · áudio ambiente sutil de cidade despertando.
Runway com character reference da entrevistada (3 fotos da pessoa). Prompt: "she sits down, adjusts the microphone, looks slightly off-camera, soft natural movement". 5s.
Quando tem pessoa real, Runway com refs é a melhor opção pra preservar identidade.
Movimento sutil · sujeito não fala (mais difícil) · áudio ambiente de estúdio.
Montar os 2 clipes em um editor (DaVinci Resolve free ou CapCut). Cross-fade de luz no cut. Música ambiente do ElevenLabs Music ou Suno.
IA gera matéria-prima. Edição faz o produto. Não pular essa etapa.
Cut motivado (luz, som, movimento) · áudio sobe e desce · final cleano.
Topaz Video AI para upscale 1080p limpo, exportar H.264 alto bitrate. Entregar arquivo único, com naming convention.
Entrega é parte do trabalho. Arquivo com nome misterioso de IA não fica em ata de reunião.
Resolução padrão · bitrate alto · nome com data e versão · alt 9:16 para Reels.