Catalogue opérationnel des systèmes de génération — Station Nebula-7. Infrastructure IA locale & cloud pour la production Zorg & Bloop.
| Rôle | Fichier | Notes |
|---|---|---|
| UNET | flux-2-klein-4b-fp8.safetensors | Flux 2 Klein 4B en fp8 |
| VAE | flux2-vae.safetensors | VAE Flux 2 |
| CLIP / Text Encoder | qwen_3_4b.safetensors | Type flux2 |
| Scheduler | Flux2Scheduler | Custom Flux 2 |
| Latent | EmptyFlux2LatentImage | — |
| Rôle | Fichier | Notes |
|---|---|---|
| Checkpoint | ltx-2.3-22b-dev-fp8.safetensors | Modèle principal |
| VAE vidéo | LTX23_video_vae_bf16.safetensors | Décodage vidéo |
| VAE audio | LTX23_audio_vae_bf16.safetensors | Lip-sync audio |
| Text encoder | gemma_3_12B_it_fp4_mixed.safetensors | Compréhension prompts |
| LoRA distilled | ltx-2.3-22b-distilled-lora-384.safetensors | Accélération · strength 0.5 |
| Paramètre | Valeur | Raison |
|---|---|---|
| ImageScaleToTotalPixels (refs) | 1024×1024 | Fidélité personnages |
| Flux2Scheduler width/height | 1024×1024 | Suit les refs |
| EmptyFlux2LatentImage | 1280×720 | Sortie 16:9 pour LTX |
| Steps | 20 | Qualité supérieure |
from image1/2.
Résultat supérieur à la ligne déclarative séparée.
held in a lowered hand — la bouche doit rester libre pour LTX.
| Nœud | Valeur | Notes |
|---|---|---|
| CFGGuider | 3.0 | Conditioning audio sans over-fit |
| LTXVImgToVideoInplace | 0.6 | Mouvement sans perdre la fidélité image |
| LTXVPreprocess | 8 | Descendre à 6 si lipsync démarre tard |
| LoRA strength | 0.5 | Accélération distilled |
| Duration | = durée audio | ⚠️ CRITIQUE — jamais plus long |
completely still + subtle breathing.
Static fixed shot, no camera movement sauf intention précise.
LTX_zorg_et_bloop_talk_2026.json
| Paramètre | Valeur |
|---|---|
| Seed | randomize |
| Steps | 50 |
| CFG | 4.98 |
| Sampler | dpmpp_3m_sde_gpu |
| Scheduler | exponential |
| Denoise | 1.0 |
"low rumble", "tension drone", "sub-bass", "foley"."music", "melody", "song" pour du SFX pur.| Nœud | Paramètre |
|---|---|
| Florence2Run | caption_to_phrase_grounding · prompt "aliens" |
| Sam2Segmentation | single_image · fp32 |
| GrowMaskWithBlur | Lissage des bords du masque |
zorg_mask.png et bloop_mask.png peuvent être utilisés directement sans Florence2+SAM2.
Studio TTS local — alternative open-source à ElevenLabs. Tourne entièrement sur machine. Clonage vocal zero-shot, 23 langues, effets post-traitement intégrés.
Dans l'interface Voicebox, taper / pour ouvrir l'inserteur de tags.
Toutes les 3–4 clips LTX, les personnages dérivent visuellement — couleur de peau, vêtements, traits. Le "drift" s'accumule au fil des runs si aucune correction n'est appliquée.
Régénérer une frame de recalibrage via Flux Kontext en mode img2img avec 3 références (Zorg ref + Bloop ref + dernière frame LTX). Le résultat relance la séquence avec l'identité restaurée.
flux1-dev-kontext_fp8_scaled.safetensors
| Slot | Image | Rôle | Poids |
|---|---|---|---|
| Image 1 | Zorg ref canonique | Identité Zorg | 25% |
| Image 2 | Bloop ref canonique | Identité Bloop | 25% |
| Image 3 | Last frame LTX (frames-3) | Composition + pose | 25% |
| Latent | VAEEncode ← Image 3 | Base img2img | — |