ZORG & BLOOP | SALLE DES MACHINES

Stack Technique

ARCHIVE_FILE_002

Image — Flux 2 Klein 4B LOCAL

Rôle	Fichier	Notes
UNET	flux-2-klein-4b-fp8.safetensors	Flux 2 Klein 4B en fp8
VAE	flux2-vae.safetensors	VAE Flux 2
CLIP / Text Encoder	qwen_3_4b.safetensors	Type `flux2`
Scheduler	Flux2Scheduler	Custom Flux 2
Latent	EmptyFlux2LatentImage	—

Vidéo — LTX 2.3 i2v ☁ CLOUD COMFYUI

Rôle	Fichier	Notes
Checkpoint	ltx-2.3-22b-dev-fp8.safetensors	Modèle principal
VAE vidéo	LTX23_video_vae_bf16.safetensors	Décodage vidéo
VAE audio	LTX23_audio_vae_bf16.safetensors	Lip-sync audio
Text encoder	gemma_3_12B_it_fp4_mixed.safetensors	Compréhension prompts
LoRA distilled	ltx-2.3-22b-distilled-lora-384.safetensors	Accélération · strength 0.5

Voix — Voicebox

Moteur expressifChatterbox Turbo

Moteur clonageQwen3-TTS

Profil Zorgzorg_2026_clone.flac

Profil Bloopbloop_2026_clone.flac

SFX — Stable Audio Open

Checkpointstable-audio-open-1.0

CLIPt5-base.safetensors

Steps50

CFG4.98

Masques — Florence2 + SAM2

VLMFlorence-2-large fp16

Segmentationsam2_hiera_base_plus

Mode VLMcaption_to_phrase_grounding

Prompt"aliens"

Pipelines

ARCHIVE_FILE_003

▶ Pipeline Image — Flux 2 Klein 4B // GÉNÉRATION FRAMES DE BASE LOCAL

Paramètres Validés

Paramètre	Valeur	Raison
ImageScaleToTotalPixels (refs)	1024×1024	Fidélité personnages
Flux2Scheduler width/height	1024×1024	Suit les refs
EmptyFlux2LatentImage	1280×720	Sortie 16:9 pour LTX
Steps	20	Qualité supérieure

Identity Anchoring — Règles

✅ Ancrage Inline (validé)

Intégrer le mapping personnage/image directement dans la prose du prompt. Couleur minimale + nom + from image1/2. Résultat supérieur à la ligne déclarative séparée.

❌ À Proscrire

Description morphologique lourde (ventre, taille, traits simiens…). Accessoires déjà présents dans les refs visuelles. Tout trait physique au-delà de la couleur de base.

⚠️ Contrainte Lipsync

Ne jamais placer de cigarette aux lèvres dans l'image. Utiliser held in a lowered hand — la bouche doit rester libre pour LTX.

Images de Référence

Image 1 — Zorg

ComfyUI_00389_.png

Image 2 — Bloop

ComfyUI_00449_.png

Image 4 — Bread

Bread_flux-01.png

Image 3 — Env.

Cockpit Nebula-7

⚙️ Ordre des slots ComfyUI : Image 1 = Zorg | Image 2 = Bloop | Image 4 = Bread — toujours dans cet ordre.

▶ Pipeline Vidéo — LTX 2.3 i2v + Lipsync // ANIMATION + SYNCHRONISATION LABIALE ☁ CLOUD

Paramètres Validés

Nœud	Valeur	Notes
CFGGuider	3.0	Conditioning audio sans over-fit
LTXVImgToVideoInplace	0.6	Mouvement sans perdre la fidélité image
LTXVPreprocess	8	Descendre à 6 si lipsync démarre tard
LoRA strength	0.5	Accélération distilled
Duration	= durée audio	⚠️ CRITIQUE — jamais plus long

Règles Lipsync

❌ Ne jamais décrire la bouche

Le conditioning audio pilote seul le lipsync. Toute mention de la bouche dans le prompt crée une compétition texte/audio — l'audio perd.

✅ Listener = Immobile

Le personnage qui écoute doit toujours être décrit comme completely still + subtle breathing.

✅ Caméra Statique

Toujours Static fixed shot, no camera movement sauf intention précise.

Gestion des Masques

Règle Absolue

Un seul personnage parle par segment → un seul masque. Si deux parlent dans le même segment : couper en sous-segments.

Positionnement

Le masque doit couvrir uniquement la bouche et le bas du visage du personnage actif. Blanc = actif · Noir = inactif.

Workflow Cloud

cloud.comfyui.org · Fichier : LTX_zorg_et_bloop_talk_2026.json

▶ Pipeline SFX — Stable Audio Open 1.0 // AMBIANCES & EFFETS SONORES LOCAL

KSampler — Paramètres

Paramètre	Valeur
Seed	randomize
Steps	50
CFG	4.98
Sampler	dpmpp_3m_sde_gpu
Scheduler	exponential
Denoise	1.0

Banque SFX — Par Scène

S01 Cockpit · beeps électroniques, bourdonnement écrans, moteur spatial rétro-futuriste

S02 Crash · déchirement métal, sirènes alarme, explosion, impact dans la neige

S03 Enfer Blanc · vent arctique, blizzard, glace craquante, grondement basse fréquence

S04 Bête Grillée · chalet en bois, grincements, mécanisme toaster, pop, braises

S05 Éveil Pain · boot rétro, synthétiseur, glitchs digitaux, activation conscience IA

💡 Layering : empiler 2-3 couches (ambient + event + texture) dans un même prompt.

💡 Keywords cinématiques : "low rumble", "tension drone", "sub-bass", "foley".

💡 Éviter : "music", "melody", "song" pour du SFX pur.

▶ Pipeline Masques — Florence2 + SAM2 // SEGMENTATION PERSONNAGES LOCAL

Configuration

Nœud	Paramètre
Florence2Run	caption_to_phrase_grounding · prompt "aliens"
Sam2Segmentation	single_image · fp32
GrowMaskWithBlur	Lissage des bords du masque

📌 Alternative : les masks zorg_mask.png et bloop_mask.png peuvent être utilisés directement sans Florence2+SAM2.

Règles d'Application

Blanc = personnage actif (parle) · Noir = personnage passif (écoute).

Un seul personnage actif par run LTX. Jamais deux masques blancs en même temps.

Couvre uniquement la bouche + bas du visage. Un masque trop large génère des artefacts sur tout le corps.

Pipeline Voix

ARCHIVE_FILE_004

Voicebox

Studio TTS local — alternative open-source à ElevenLabs. Tourne entièrement sur machine. Clonage vocal zero-shot, 23 langues, effets post-traitement intégrés.

Versionv0.5.0 (avril 2026)

LicenceMIT

Port local127.0.0.1:17493

InstallPinokio · 1-click

Les 7 Moteurs TTS

Chatterbox Turbo EN · tags émotionnels

Qwen3-TTS 10 lang · clonage HQ

Chatterbox Multilingual 23 lang

TADA 3B 700s+ continu

Qwen CustomVoice 9 presets

LuxTTS EN · 150× temps réel

Kokoro 50 voix preset

Tags Paralinguistiques — Chatterbox Turbo

Dans l'interface Voicebox, taper / pour ouvrir l'inserteur de tags.

[laugh]

[chuckle]

[gasp]

[sigh]

[groan]

[cough]

[sniff]

[clear throat]

Workflow par Épisode

①Passages neutres → Qwen3-TTS (clone voix)

②Passages expressifs → Chatterbox Turbo + tags

③Montage · Stories Editor ou CapCut

Anti-Drift

ARCHIVE_FILE_005

Flux Kontext
Ré-injection Identité

Le Problème

Toutes les 3–4 clips LTX, les personnages dérivent visuellement — couleur de peau, vêtements, traits. Le "drift" s'accumule au fil des runs si aucune correction n'est appliquée.

La Solution

Régénérer une frame de recalibrage via Flux Kontext en mode img2img avec 3 références (Zorg ref + Bloop ref + dernière frame LTX). Le résultat relance la séquence avec l'identité restaurée.

Modèle : flux1-dev-kontext_fp8_scaled.safetensors

Configuration Slots img2img

Slot	Image	Rôle	Poids
Image 1	Zorg ref canonique	Identité Zorg	25%
Image 2	Bloop ref canonique	Identité Bloop	25%
Image 3	Last frame LTX (frames-3)	Composition + pose	25%
Latent	VAEEncode ← Image 3	Base img2img	—

Paramètre Clé : Denoise

0.70 Continuité max

0.75 ★ Valeur de départ

0.80 Recalibrage max

0.70 = proche de la last frame (continuité) · 0.80 = plus de liberté (légère rupture possible)

SALLE DES MACHINES