Verificando acesso...

TRILHA 2

🔵 Técnicas

A engenharia por trás do prompt. Sintaxe, parâmetros, controle de composição e movimento em vídeo. Aqui você sai do "escrevi e gerei" para "controlei e entreguei".

5
Módulos
30
Tópicos
~5h
Duração
Médio
Nível

Mapa da trilha

Conteúdo detalhado

Clique nos tópicos para abrir o resumo.

2.1~60 min

⚙️ Parâmetros e sintaxe

Cada gerador fala um dialeto. Aqui você aprende o vocabulário técnico das 9 ferramentas mais relevantes em maio/2026.

O que é:

A ferramenta com sintaxe mais densa de parâmetros: --ar (proporção), --s (stylize), --chaos (variação), --sref (style reference), --cref (character reference), --no (negative), --weird.

Por que aprender:

MJ continua referência estética em 2026. Quem domina sref/cref consegue séries coerentes que outros geradores ainda lutam pra entregar.

Conceitos-chave:

--ar 21:9 (cinema) · --s 750 (estilo médio) · --chaos 0-30 · --sref [URL] [URL] · --cref [URL] --cw 100.

O que é:

Modelo OpenAI focado em clipes de 10-20s com áudio gerado junto. Prompt em linguagem natural, sem parâmetros simbólicos — descrição cinematográfica direta.

Por que aprender:

Em 2026 é a referência para clipes narrativos com som ambiente sincronizado. Não dá pra mais entregar vídeo sem áudio diegético quando essa ferramenta existe.

Conceitos-chave:

Prompt descritivo cinematográfico · "with diegetic sound of [...]" · referência por imagem de partida · controle de câmera em linguagem natural.

O que é:

Modelo Google focado em fotorrealismo cinematográfico e controle de câmera muito preciso. Aceita first-frame, last-frame e câmera path detalhado.

Por que aprender:

Continua sendo a ferramenta mais "cinema" pra planos paisagem, drone, beauty product. Quando o cliente pede "parece comercial de carro", Veo entrega.

Conceitos-chave:

Camera path explícito · "shot on Arri Alexa, anamorphic" · first/last frame com imagens · seed para iterar.

O que é:

Plataforma com modelo Gen-4 (vídeo) + Frames (still). Forte em "references" — você sobe imagens de personagem/locação/estilo e o modelo respeita.

Por que aprender:

É a ferramenta mais usada em produção comercial real porque tem timeline, ACT (animação de pessoas reais), e API estável.

Conceitos-chave:

References (até 3) · ACT One para captura de performance · prompt curto + reference forte · motion brush.

O que é:

Família Black Forest Labs. Flux 1.1 Pro gera imagens com texto legível (placas, cardápios). Flux Kontext é a versão de edição (modifica imagem existente seguindo descrição).

Por que aprender:

Quando o prompt tem texto que precisa sair certo (ex: cartaz, embalagem), Flux é mais confiável que MJ. Kontext substitui Photoshop pra edits descritivos.

Conceitos-chave:

Prompt longo descritivo · texto entre aspas duplas · Kontext: "change the X to Y while keeping everything else identical".

O que é:

Editor de imagem do Gemini. Você manda imagem + instrução em linguagem natural ("troque a parede por tijolo aparente, mantenha o resto") e ele edita.

Por que aprender:

Mais rápido que Photoshop pra edição descritiva. Estabilidade do sujeito muito boa entre edições — você itera várias vezes sem perder o personagem.

Conceitos-chave:

Instrução conversacional · pode tomar múltiplas imagens como entrada · "compose A with B" pra fusão.

2.2~55 min

🧰 Controle de composição

Image-to-image, inpainting, ControlNet, character consistency e upscale. Quando texto sozinho não basta.

O que é:

Forneça uma imagem como ponto de partida ou referência de estilo. O modelo usa composição, cor ou estilo dela como guia.

Por que aprender:

É a maneira mais rápida de garantir coerência visual entre múltiplas gerações sem escrever um prompt de 300 caracteres toda vez.

Conceitos-chave:

MJ --sref · Runway "style reference" · Flux Redux · Nano Banana multi-imagem · força/peso da referência.

O que é:

Inpainting: editar uma área selecionada mantendo o resto. Outpainting: expandir a imagem além das bordas originais.

Por que aprender:

Resolve 80% dos problemas pequenos sem regenerar tudo. "Mãos erradas" deixaram de ser problema com inpaint preciso.

Conceitos-chave:

Máscara · prompt da área · respeitar contexto · zoom out para outpaint · feather na borda da máscara.

O que é:

Família de controladores que força o modelo a respeitar uma geometria: pose humana, mapa de profundidade, contorno (canny), linhas (lineart).

Por que aprender:

Quando o cliente quer "a mesma pose, outra pessoa, outro cenário". Sem ControlNet, isso é loteria.

Conceitos-chave:

OpenPose · depth map · canny edges · lineart · disponível em Stable Diffusion / Flux com plugins.

O que é:

Manter a aparência de um personagem entre múltiplas imagens/clipes. Em 2026: MJ --cref, Runway character refs, Nano Banana multi-imagem, IP-Adapter no Flux.

Por que aprender:

É o requisito que separa um still de IA de uma campanha. Sem consistência, não tem mascote, não tem série, não tem narrativa.

Conceitos-chave:

Imagem-base de qualidade · 3-5 ângulos do personagem · peso 80-100 · iterar do mesmo seed.

O que é:

Dividir o prompt em partes com pesos. Em MJ: "subject A ::2 setting B ::1". Em SD: "(subject:1.4) (setting:0.8)".

Por que aprender:

Quando um elemento do prompt está sendo ignorado, em vez de gritar mais, você sobe o peso. Resolve "modelo não está pintando a chuva" com cirurgia.

Conceitos-chave:

Sintaxe varia por ferramenta · peso 1.0-2.0 raramente > 2 · pesos negativos para suprimir.

O que é:

Subir a resolução de uma imagem mantendo o estilo. Topaz Gigapixel, Magnific, Krea Enhance, Upscaler do MJ.

Por que aprender:

Cliente pede 4K. Modelo entrega 1024px. Sem upscale bom, sua entrega tem resolução de avatar de Twitter.

Conceitos-chave:

Cuidado com upscale "criativo" que muda o sujeito · Topaz para fidelidade, Magnific para detalhe extra · prompt no upscale.

2.3~55 min

🎥 Movimento e câmera em vídeo

Verbos de câmera que o modelo entende, movimento do sujeito vs câmera, keyframing e loops perfeitos.

O que é:

Termos técnicos de cinema que os modelos foram treinados a reconhecer: dolly in/out, pan left/right, tilt up/down, crane shot, tracking shot, push-in.

Por que aprender:

"The camera moves" não diz nada. "Slow dolly in toward the subject" diz tudo. Dialetos técnicos > descritivos.

Conceitos-chave:

Sempre adjetivo + verbo + alvo: "slow dolly in to the actor's face" não só "dolly in".

O que é:

Distinguir explicitamente: "subject walks forward" + "camera stays still" OU "subject is still" + "camera dollies out". A confusão dos dois gera vídeo errado.

Por que aprender:

É o erro #1 de quem começa em vídeo IA. "A girl running" pode virar câmera correndo + garota parada.

Conceitos-chave:

Sempre nomear os 2 eixos · "static camera" se a câmera não move · "subject motionless" se o sujeito não move.

O que é:

Slow motion = movimento lento dramático. Time-lapse = aceleração. Speed ramp = transição entre velocidades dentro do mesmo clipe.

Por que aprender:

Em comercial e clipe musical, controle de tempo é metade do impacto visual. Saber o nome certo entrega o efeito.

Conceitos-chave:

"shot in slow motion, 240fps look" · "time-lapse, clouds moving fast" · "speed ramp from real-time to slow-mo".

O que é:

Fornecer a imagem do primeiro frame E do último frame; o modelo interpola o movimento entre os dois. Disponível em Runway, Veo, Kling.

Por que aprender:

É a forma mais precisa de controlar o que acontece. Você escolhe os pontos exatos de início/fim — o modelo só preenche o meio.

Conceitos-chave:

Frames muito diferentes geram morphing estranho · frames próximos geram movimento sutil convincente · pode combinar com prompt para guiar.

O que é:

Usar o último frame de um clipe como first-frame do próximo. Garante zero salto de personagem, luz e enquadramento.

Por que aprender:

É como você monta uma cena de 30s com clipes de 5s sem que o espectador veja a costura.

Conceitos-chave:

Extract last frame → upload as first frame → novo prompt · refinar luz se a iluminação se desvia.

O que é:

Vídeo que termina exatamente onde começa, sem salto perceptível. Seedance 2 é a ferramenta especializada; truque comum: first frame = last frame.

Por que aprender:

Background loops para sites, displays em loja, projeções de evento — tudo precisa loop perfeito.

Conceitos-chave:

Cena de circulação contínua (água, fumaça, ondas, partículas) · evitar elementos pontuais (relógio batendo) · Seedance prompt = mood + ação cíclica.

2.4~50 min

🏋️ Exercícios práticos

6 desafios que forçam você a usar cada ferramenta para o que ela é melhor.

O que é:

Pegue o prompt-régua que você criou na T1 e gere em 4 ferramentas diferentes. Compare lado a lado.

Por que aprender:

Cada ferramenta tem viés. Descobrir empiricamente vale mais que ler benchmark.

Conceitos-chave:

Critério de feito: você consegue dizer qual ferramenta é melhor para 3 cenários diferentes (retrato, paisagem, produto).

O que é:

Gere um cartaz de cinema com título "ÚLTIMO TREM PARA SANTOS" legível, sem typos. Use Flux ou Ideogram 3.

Por que aprender:

Texto em imagem era o calcanhar de Aquiles da IA. Agora é resolvido — mas só com ferramentas certas.

Conceitos-chave:

Texto entre aspas · família tipográfica explícita · evitar texto longo (10+ palavras ainda erra).

O que é:

Crie um personagem (foto-base) e gere essa pessoa em 5 cenários: cozinha, praia, escritório, floresta, ônibus.

Por que aprender:

É o teste real de consistency. Se o personagem muda de rosto, sua referência está fraca ou cenário forte demais.

Conceitos-chave:

Foto-base nítida e frontal · descrever roupa em cada prompt · peso de referência alto (--cw 100).

O que é:

Gere 5s onde a câmera faz "slow dolly in" enquanto o sujeito permanece imóvel. Depois 5s com "tracking shot" lateral do sujeito andando.

Por que aprender:

Treina sua habilidade de pedir câmera específica. Se o modelo "interpreta", você não dirigiu — só sugeriu.

Conceitos-chave:

Camera path + subject motion separados · velocidade explícita · "static subject" para garantir.

O que é:

Crie um loop seamless de 6s pra background de hero de site: tema livre, cena de circulação contínua.

Por que aprender:

Critério profissional: passa de cabeça pra ninguém ver o "ponto da emenda".

Conceitos-chave:

Movimento cíclico · sem eventos pontuais · paleta consistente · testar replay 5x sem perceber a costura.

O que é:

Pegue uma imagem que você gerou e faça 5 edits sequenciais sem perder o sujeito: roupa, fundo, hora do dia, expressão, objeto em mão.

Por que aprender:

É o workflow do dia-a-dia em produção. Cliente sempre quer "isso mesmo, só muda X".

Conceitos-chave:

"Change X while keeping everything else identical" · um edit por vez · salvar versões.

2.5~50 min

🗺️ Passo-a-passo: clip de 10 segundos

Do storyboard ao MP4 entregue. Aplica tudo da T2 em um projeto único.

O que é:

Briefing: "Abertura de um podcast sobre cidade. 10s. Skyline + transição para entrevistada em estúdio." Quebrar em 2 shots.

Por que aprender:

Em 2026 ainda é mais barato e melhor fazer 2 clipes de 5s do que 1 clipe de 10s — a coerência cai com a duração.

Conceitos-chave:

Shot 1: drone aéreo da cidade ao amanhecer · Shot 2: entrevistada sentando no estúdio · ponto de cut: luz.

O que é:

Gerar em MJ ou Flux o primeiro frame de cada shot. Iterar até estar bom como foto.

Por que aprender:

É 10x mais barato refinar still do que vídeo. Resolver a composição em imagem e só depois animar.

Conceitos-chave:

2 imagens base · idêntica paleta · idêntica hora do dia · mesma referência de filme.

O que é:

Subir a imagem-base como first frame. Prompt: "slow drone push forward over the skyline at sunrise, golden light, atmospheric haze". Veo entrega o melhor aéreo.

Por que aprender:

Aéreo é onde Veo brilha mais que outras opções. Escolha de ferramenta importa por tipo de plano.

Conceitos-chave:

Câmera lenta · uma direção só · 5s exatos · áudio ambiente sutil de cidade despertando.

O que é:

Runway com character reference da entrevistada (3 fotos da pessoa). Prompt: "she sits down, adjusts the microphone, looks slightly off-camera, soft natural movement". 5s.

Por que aprender:

Quando tem pessoa real, Runway com refs é a melhor opção pra preservar identidade.

Conceitos-chave:

Movimento sutil · sujeito não fala (mais difícil) · áudio ambiente de estúdio.

O que é:

Montar os 2 clipes em um editor (DaVinci Resolve free ou CapCut). Cross-fade de luz no cut. Música ambiente do ElevenLabs Music ou Suno.

Por que aprender:

IA gera matéria-prima. Edição faz o produto. Não pular essa etapa.

Conceitos-chave:

Cut motivado (luz, som, movimento) · áudio sobe e desce · final cleano.

O que é:

Topaz Video AI para upscale 1080p limpo, exportar H.264 alto bitrate. Entregar arquivo único, com naming convention.

Por que aprender:

Entrega é parte do trabalho. Arquivo com nome misterioso de IA não fica em ata de reunião.

Conceitos-chave:

Resolução padrão · bitrate alto · nome com data e versão · alt 9:16 para Reels.

← Trilha 1 Trilha 3: Avançado →