Étiquette : ComfyUI

Création d’un Modèle LoRA pour le CF-104 Starfighter dans ComfyUI : Guide Complet et Bonnes Pratiques

Auteur : Steve Prud’Homme

Cet article a été généré grâce à l’aide de plusieurs outils d’intelligence artificielle.

Résumé

Ce rapport détaille la méthodologie pour créer un modèle LoRA (Low-Rank Adaptation) précis du CF-104 Starfighter dans ComfyUI, une interface visuelle basée sur des nœuds. Le processus débute par la préparation d’un jeu de données d’images de haute qualité (20-40 images, 512×512 pixels), variées en angles, éclairage et arrière-plans, avec une attention particulière aux détails mécaniques de l’avion. L’utilisation d’images avec arrière-plans transparents est possible mais nécessite une gestion spécifique par l’outil d’entraînement pour éviter les problèmes de généralisation. Le légendage précis des images est crucial, en omettant les caractéristiques fixes de l’avion et en incluant les éléments variables, tout en utilisant un mot-clé de déclenchement unique. La configuration du workflow dans ComfyUI implique l’installation de nœuds personnalisés comme « ComfyUI-FluxTrainer » et la bonne organisation des répertoires d’entrée et de sortie. L’optimisation des hyperparamètres est essentielle, notamment network_dim (64-128 pour le réalisme) et network_alpha (généralement la moitié de dim), le taux d’apprentissage (0.0001-0.0004), le nombre d’epochs et de répétitions, et la taille de lot, en utilisant des stratégies d’augmentation de données comme le retournement horizontal. Pour prévenir le sur-apprentissage (overfitting) ou le sous-apprentissage (underfitting), des ajustements de ces paramètres et l’utilisation d’un jeu de données de régularisation sont recommandés. Enfin, l’évaluation et le raffinement itératif du modèle sont réalisés par inspection visuelle des images générées, des tests avec des prompts variés et des seeds fixes, et l’analyse des courbes de perte, soulignant l’importance de la patience et de l’expérimentation continue pour obtenir un LoRA performant et polyvalent.

Mots-clés : LoRA, ComfyUI, CF-104 Starfighter, Fine-tuning, Modèle génératif, Stable Diffusion, Jeu de données, Images de haute qualité, Légendage, Mots-clés, Hyperparamètres, network_dim, network_alpha, Taux d’apprentissage, Overfitting, Underfitting, Régularisation, Évaluation de modèle, Intelligence artificielle.

1. Introduction au Fine-Tuning LoRA et ComfyUI

Qu’est-ce qu’un LoRA et pourquoi est-il idéal pour des objets spécifiques comme le CF-104?

Le Low-Rank Adaptation (LoRA) constitue une technique de fine-tuning hautement efficace, conçue pour adapter de grands modèles génératifs, tels que Stable Diffusion, à des tâches spécifiques. Cette méthode se distingue par sa capacité à modifier une fraction minime des paramètres du modèle pré-entraîné, en introduisant des matrices de faible rang. Cette approche réduit considérablement les exigences computationnelles et de stockage par rapport au réentraînement complet du modèle de base (ArXiv, 2025c; Cloudflare, s. d.; RunDiffusion, 2025b; SeaArt Guide, 2025a).

Les modèles LoRA sont intrinsèquement plus compacts et plus simples à entraîner que leurs homologues de base (Cloudflare, s. d.; SeaArt Guide, 2025a). Cette caractéristique permet une personnalisation ciblée du modèle pour des applications précises, comme la génération d’un objet distinctif tel que le CF-104 Starfighter, sans altérer le modèle fondamental (Cloudflare, s. d.; RunDiffusion, 2025b; SeaArt Guide, 2025a).

Le CF-104 Starfighter est un objet de niche et complexe, et un modèle Stable Diffusion générique pourrait ne pas le rendre avec la précision ou la cohérence souhaitées en raison de sa représentation potentiellement limitée dans les données d’entraînement du modèle de base. La capacité fondamentale de LoRA à adapter un modèle large à des contextes spécifiques et nouveaux, sans les coûts prohibitifs d’un réentraînement complet, le rend exceptionnellement adapté à une telle entreprise. Cette méthodologie permet au modèle d’acquérir une compréhension approfondie des caractéristiques uniques du Starfighter tout en conservant les vastes capacités génératives du modèle de base pour la création de scènes et de styles variés. En substance, cette approche permet d’enseigner au modèle l’apparence exacte d’un Starfighter sans qu’il soit nécessaire de lui réapprendre de zéro ce qu’est un « avion ».

Vue d’ensemble de l’environnement ComfyUI pour l’entraînement de modèles

ComfyUI est une interface utilisateur basée sur des nœuds, offrant une approche visuelle pour la construction de workflows complexes (ComfyUI Documentation, s. d.a; Stable Diffusion Art, 2025a). Chaque nœud au sein de ComfyUI exécute une fonction spécifique, et les connexions filaires entre ces nœuds définissent le flux logique du processus (ComfyUI Documentation, s. d.a; Stable Diffusion Art, 2025a).

Pour l’entraînement de modèles LoRA, ComfyUI peut être étendu par l’intégration de nœuds personnalisés. Ces extensions incluent des solutions basées sur des backends tels que Kohya-ss (SeaArt Guide, 2025a), ou des systèmes intégrés comme « Lora-Training-in-Comfy » (runcomfy.com, 2024) et « ComfyUI-FluxTrainer » (Geekatplay, s. d.b; RunComfy, 2025).

L’architecture basée sur les nœuds de ComfyUI favorise intrinsèquement la modularité et l’expérimentation. Pour l’entraînement LoRA, cela signifie que les utilisateurs peuvent facilement interchanger différents composants, tels que les nœuds de préparation de jeu de données, les boucles d’entraînement ou les méthodes de validation. Cette flexibilité inhérente est particulièrement avantageuse lors du fine-tuning de sujets complexes comme le CF-104, car elle facilite l’itération rapide et l’analyse comparative de diverses stratégies d’entraînement et configurations d’hyperparamètres (RunComfy, 2025). La capacité à construire des workflows spécifiquement pour comparer différents paramètres soutient directement le processus itératif nécessaire pour atteindre une performance optimale du modèle.

2. Préparation du Jeu de Données (Dataset) pour le CF-104 Starfighter

Collecte d’images de haute qualité : quantité, résolution et diversité (angles, éclairage, arrière-plans)

La qualité du jeu de données est un facteur déterminant pour l’efficacité de l’entraînement d’un modèle LoRA (RunDiffusion, 2025b; SeaArt Guide, 2025a). Il est impératif d’utiliser des images de haute résolution, d’une netteté impeccable, bien éclairées et exemptes de tout artefact ou filtre (RunDiffusion, 2025b; SeaArt Guide, 2025a).

Pour un objet précis tel que le CF-104, un jeu de données de 10 à 25 images de haute qualité est généralement suffisant, bien que des recommandations plus larges de 20 à 40 images soient souvent citées pour des objets ou des caractères en général (Reddit, 2024e; RunDiffusion, 2025b; SeaArt Guide, 2025a). Il est important de noter que la quantité d’images ne garantit pas nécessairement une meilleure qualité ; un jeu de données plus restreint mais méticuleusement organisé est préférable à un ensemble volumineux de faible qualité (Reddit, 2024e; SeaArt Guide, 2025a).

La résolution des images doit être adaptée au modèle de base employé. Pour les modèles Flux, une résolution de 512×512 pixels est conseillée, tandis que pour les modèles SDXL, une résolution de 1024×1024 est recommandée (RunDiffusion, 2025b; SeaArt Guide, 2025a).

La diversité des images est cruciale pour assurer la capacité de généralisation du modèle. Dans le cas du CF-104, cela implique d’inclure des images sous une multitude d’angles (vues de face, de côté, de l’arrière, trois-quarts, de dessus, de dessous), avec de subtiles variations de pose (par exemple, train d’atterrissage déployé ou rétracté, volets ajustés), et sous diverses conditions d’éclairage (lumière du jour, nocturne, aube/crépuscule) (Reddit, 2024e; RunDiffusion, 2025b).

Pour les objets mécaniques comme les aéronefs, la complexité géométrique et les états opérationnels (par exemple, l’entrée d’air du moteur, l’échappement, le train d’atterrissage, la verrière du cockpit, les réservoirs de bout d’aile) sont primordiaux. Par conséquent, l’exigence de « différents angles » pour le CF-104 s’étend au-delà des simples vues de face/côté pour englober une représentation complète à 360 degrés sur plusieurs axes (tangage, roulis, lacet) et diverses configurations fonctionnelles (par exemple, stationné, en vol, au décollage/atterrissage) (Reddit, 2024e). Cette couverture angulaire détaillée est essentielle pour que le modèle génère l’aéronef de manière réaliste sous n’importe quelle perspective souhaitée, contribuant directement à la précision du LoRA résultant.

L’utilisation d’arrière-plans variés (intérieurs de hangar, pistes d’atterrissage, ciel, paysages diversifiés) est essentielle pour que le modèle apprenne à isoler l’objet (le CF-104) plutôt que de mémoriser un environnement statique (RunDiffusion, 2025b). Cette pratique, qui consiste à utiliser des arrière-plans variés, est une stratégie fondamentale pour atténuer le sur-apprentissage aux contextes environnementaux (RunDiffusion, 2025b). Pour un aéronef tel que le CF-104, cette considération est particulièrement pertinente. Si les données d’entraînement ne présentent l’aéronef que sur un tarmac, le LoRA pourrait montrer des limitations dans sa capacité à le générer en vol ou dans des environnements alternatifs. En diversifiant les arrière-plans, le modèle est contraint d’apprendre les caractéristiques intrinsèques du CF-104, améliorant ainsi sa robustesse et sa flexibilité pour des générations futures dans des contextes variés. Cette adaptabilité est une caractéristique distinctive d’un LoRA de haute qualité et généralisable.

Avant de procéder à l’entraînement, il est impératif de supprimer toutes les images dupliquées ou quasi-dupliquées, le contenu flou ou non pertinent, ainsi que les superpositions ou filigranes (RunDiffusion, 2025b).

Bonnes pratiques spécifiques aux objets mécaniques et avions

Il est impératif que le sujet principal, le CF-104, soit clairement visible et non obstrué dans l’intégralité des images (RunDiffusion, 2025b). Le jeu de données doit impérativement représenter un concept unique : il ne doit contenir que des images du CF-104 Starfighter, sans y inclure d’autres types d’avions ou d’objets (RunDiffusion, 2025b). La clarté et la cohérence du sujet sont des facteurs déterminants qui garantiront l’efficacité du LoRA et sa réactivité aux prompts (RunDiffusion, 2025b).

Contrairement aux sujets organiques, les entités mécaniques telles que le CF-104 possèdent des composants fonctionnels distincts (par exemple, l’entrée d’air du moteur, l’échappement, le train d’atterrissage, la verrière du cockpit, les réservoirs de bout d’aile). Le jeu de données doit donc inclure méticuleusement des images qui mettent en évidence ces détails spécifiques sous une multitude de perspectives. Cela garantit que le LoRA acquiert non seulement la forme globale, mais aussi les attributs complexes et définissant du Starfighter, contribuant ainsi de manière significative à la « précision » recherchée. Cette approche représente une application du principe de « contenu diversifié » adaptée aux spécificités de l’ingénierie mécanique.

Utilisation d’images avec arrière-plans transparents (canal alpha)

L’utilisation d’images avec des arrière-plans transparents (canal alpha) lors de l’entraînement d’un modèle LoRA est possible, mais elle requiert une attention particulière.

Les entraîneurs LoRA traditionnels peuvent ignorer le canal alpha des images transparentes, ce qui peut entraîner des arrière-plans noirs ou des bords irréguliers dans les images générées (Reddit, 2024g; Reddit, 2024h). Cependant, certains outils d’entraînement, comme Kohya-SS, peuvent prendre en charge la transparence en utilisant un masque pour l’entraînement avec « perte masquée » (masked loss training). Cette méthode permet au modèle de se concentrer sur l’objet principal et d’ignorer les zones transparentes (Reddit, 2024g).

Avantages et inconvénients :

Avantages : L’utilisation d’arrière-plans simples ou supprimés (rendus transparents) peut améliorer la qualité de l’entraînement en aidant le modèle à se concentrer sur le sujet principal, car il n’est pas distrait par des détails d’arrière-plan complexes (Sanj.dev, s. d.). Des outils comme remove.bg ou Photoshop sont souvent utilisés pour cette préparation (Sanj.dev, s. d.). L’utilisation de fichiers PNG de haute qualité est préférable pour conserver l’intégrité de l’image (Sanj.dev, s. d.).
Inconvénients : Si toutes les images de votre jeu de données ont un arrière-plan transparent ou uniforme, le modèle LoRA pourrait apprendre que « pas d’arrière-plan » fait partie intégrante du concept de l’objet. Cela pourrait limiter sa capacité à générer l’objet dans des scènes variées ou avec des arrière-plans différents à l’avenir (Reddit, 2024g).

Bonnes pratiques pour la généralisation :

Pour une meilleure généralisation et pour que le modèle apprenne à isoler l’objet plutôt que de mémoriser un environnement statique, il est généralement recommandé d’utiliser des arrière-plans variés dans votre jeu de données (RunDiffusion, 2025b; SeaArt Guide, 2025a). Si vous choisissez d’utiliser des images avec des arrière-plans transparents, il est crucial de comprendre comment le logiciel d’entraînement gère ces images. Certains systèmes peuvent « aplatir » l’arrière-plan transparent en une couleur unie (par exemple, blanc ou gris) pendant le processus d’entraînement. Dans ce cas, il est important de légender l’arrière-plan en conséquence (par exemple, « fond blanc », « fond gris ») pour guider le modèle (Reddit, 2024g).

Il est à noter que des modèles spécialisés, comme LayerDiffuse dans ComfyUI, sont entraînés pour générer des images avec un canal alpha (transparence). Les modifications apportées au modèle de base (U-Net) pour permettre cette capacité sont stockées sous forme de modèle LoRA (RunComfy, 2025a; Stable Diffusion Art, 2025d). Cela signifie que les LoRA peuvent être conçus pour produire des images transparentes, ce qui est une application différente de l’entraînement avec des images transparentes.

Tableau : Recommandations pour le Dataset du CF-104 (Quantité, Résolution, Variété)

Catégorie d’Objet	Quantité d’Images Recommandée	Résolution Recommandée (pour Flux/SD 1.5)	Aspects de Variété	Qualité Requise
Objet spécifique (CF-104 Starfighter)	20-40 images (qualité > quantité) (Reddit, 2024e; RunDiffusion, 2025b; SeaArt Guide, 2025a)	512×512 pixels (RunDiffusion, 2025b; SeaArt Guide, 2025a)	Angles : Vues frontales, latérales, arrière, trois-quarts, dessus, dessous (couverture 360°) (Reddit, 2024e). Conditions d’Éclairage : Jour, nuit, différentes directions d’éclairage (RunDiffusion, 2025b). Arrière-plans : Pistes, hangars, ciel, paysages variés (pour isoler l’objet) (RunDiffusion, 2025b). Détails Fonctionnels : Train d’atterrissage (sorti/rentré), volets, aérofreins, marquages spécifiques (si souhaité)	Net, haute résolution, bien éclairé, sans filigrane, sujet clair et non obstrué, pas de duplicata (RunDiffusion, 2025b; SeaArt Guide, 2025a)

3. Légendage (Captioning) des Images : Stratégies Avancées

Importance du légendage précis pour les détails techniques du CF-104

Le légendage des images est une étape cruciale pour l’obtention d’un modèle LoRA performant (SeaArt Guide, 2025a). Il sert de guide au modèle, lui indiquant précisément ce qu’il doit apprendre et ce qu’il peut ignorer (Reddit, 2024a). Pour les modèles Flux, les légendes doivent être formulées en langage naturel, être concises (idéalement entre 12 et 30 mots) et décrire des concepts complets incluant le sujet, le cadre, l’action et le style pertinent (Reddit, 2024a; RunDiffusion, 2025b). Il est conseillé d’éviter les listes de mots-clés ou l’utilisation excessive de jargon technique (RunDiffusion, 2025b).

Un principe fondamental du légendage efficace implique d’omettre les caractéristiques qui devraient être intrinsèquement présentes lorsque le LoRA est appliqué, tout en incluant explicitement les caractéristiques destinées à être variables ou dépendantes du prompt (Reddit, 2024a). Pour le CF-104 Starfighter, cela se traduit par les considérations suivantes :

Caractéristiques Fixes (à omettre des légendes) : La forme unique de son aile delta, la conception spécifique de son cône de nez, l’échappement du moteur unique, la verrière du cockpit et sa silhouette globale élancée et en forme de flèche. Ces attributs sont des caractéristiques intrinsèques du CF-104 que le LoRA devrait apprendre naturellement comme faisant partie du concept « CF-104 Starfighter ». Si ces éléments sont légendés, le modèle pourrait les interpréter comme des attributs variables, nécessitant leur inclusion dans chaque prompt, ou, pire encore, les rendant incohérents dans les générations.
Caractéristiques Variables (à inclure dans les légendes) : L’arrière-plan (par exemple, « sur une piste », « dans le ciel », « au-dessus des montagnes »), l’éclairage (par exemple, « éclairage dramatique », « coucher de soleil »), les marquages ou livrées spécifiques (par exemple, « livrée des Forces canadiennes », « marquages de la NASA »), et les états fonctionnels (par exemple, « train d’atterrissage sorti », « volets déployés »). Ces aspects sont ceux que les utilisateurs souhaiteront contrôler via des prompts.

Cette approche nuancée garantit que le LoRA est à la fois précis dans son sujet principal et flexible dans son application, répondant directement au besoin de l’utilisateur d’un modèle « bien précis » tout en permettant des variations créatives.

Utilisation de mots-clés (Trigger Words) et de descriptions naturelles

L’intégration d’un mot-clé unique (Trigger Word) est essentielle pour activer le LoRA et le différencier des concepts déjà présents dans le modèle de base (Reddit, 2024a; SeaArt Guide, 2025a). Ce mot-clé doit impérativement être inclus dans les prompts lors de la phase d’inférence pour garantir l’activation du modèle LoRA.

Pour le CF-104, un mot-clé tel que « cf104starfighter » ou « starfighterjet » pourrait être employé. Il est généralement recommandé de limiter ce mot-clé à un ou deux tokens pour une efficacité optimale (Reddit, 2024a). Les légendes doivent également contenir un token de sujet clair ou une chaîne personnalisée, le contexte de la scène (par exemple, portrait, plein corps, gros plan), des indications sur l’éclairage ou l’environnement, et des descripteurs de style ou de caméra facultatifs (RunDiffusion, 2025b).

Bien que les objets génériques ne nécessitent pas toujours un mot-clé unique si leurs caractéristiques sont suffisamment distinctes, pour un modèle spécifique comme le CF-104, un mot-clé est indispensable (Reddit, 2024a; SeaArt Guide, 2025a). Il fonctionne comme la « clé d’activation » (SeaArt Guide, 2025a) qui indique au modèle : « Je veux ce Starfighter spécifique, pas n’importe quel jet générique. » Sans cela, le modèle pourrait avoir du mal à reproduire de manière cohérente les détails exacts du CF-104, générant potentiellement un avion de chasse générique à la place. Cela garantit que l’exigence d’une sortie « bien précise » est respectée pendant la génération.

Outils de légendage automatique et conseils pour la révision manuelle

Des outils tels que BLIP ou Deepbooru sont disponibles pour générer automatiquement des légendes (SeaArt Guide, 2025a). BLIP fonctionne comme un tagger en langage naturel, produisant des descriptions narratives, tandis que Deepbooru génère des étiquettes sous forme de phrases (SeaArt Guide, 2025a). Le seuil de taggage peut être ajusté (par exemple, 0.6 est une valeur recommandée) ; une valeur plus basse produira des descriptions plus fines et plus détaillées (SeaArt Guide, 2025a).

Malgré la commodité du légendage automatique, une révision manuelle est fortement conseillée pour affiner les légendes (SeaArt Guide, 2025a). Cette étape permet de supprimer les tags superflus ou redondants et de s’assurer que les légendes décrivent l’image sans inclure les caractéristiques fixes du LoRA (Reddit, 2024a; SeaArt Guide, 2025a). Certains outils, comme Roboflow Annotate (Roboflow, 2024) ou OneTrainer (Geekatplay, s. d.b), offrent des fonctionnalités d’étiquetage assisté par l’IA, ce qui peut accélérer le processus pour les jeux de données volumineux.

Bien que les outils de légendage automatique soient pratiques (SeaArt Guide, 2025a), leur production pourrait ne pas capturer toutes les nuances spécifiques d’un objet mécanique comme le CF-104. Par exemple, un tagger automatique pourrait simplement identifier « avion à réaction » mais omettre des caractéristiques d’identification cruciales telles que « aile delta » ou « faible envergure ». La révision manuelle (SeaArt Guide, 2025a) est donc essentielle pour insérer une terminologie hautement spécifique et précise, vitale pour que le modèle apprenne la « précision » du CF-104. Cette intervention humaine permet également la suppression stratégique des tags pour les caractéristiques fixes, comme discuté précédemment. Cette supervision méticuleuse est cruciale pour atteindre une haute fidélité pour des sujets complexes et détaillés.

4. Configuration du Workflow d’Entraînement LoRA dans ComfyUI

Installation des nœuds personnalisés essentiels (ex: Flux Trainer, Lora-Training-in-Comfy)

ComfyUI est conçu pour être extensible grâce à l’intégration de nœuds personnalisés (ComfyUI Documentation, s. d.a; Stable Diffusion Art, 2025a). Pour l’entraînement de modèles LoRA, des suites de nœuds telles que « ComfyUI-FluxTrainer » (Geekatplay, s. d.b; RunComfy, 2025; SeaArt Guide, 2025a) ou « Lora-Training-in-Comfy » (runcomfy.com, 2024) sont fréquemment utilisées par la communauté.

L’installation de ces nœuds s’effectue généralement via le gestionnaire intégré de ComfyUI (ComfyUI Manager). Pour ce faire, il faut cliquer sur le bouton « Manager » dans le menu principal, sélectionner « Install Custom Nodes », rechercher le nom du nœud désiré, puis procéder à son installation (ComfyUI Documentation, s. d.a; runcomfy.com, 2024). Après l’installation, un redémarrage de l’application ComfyUI et un rafraîchissement du navigateur web sont nécessaires pour que les nouveaux nœuds soient correctement chargés et accessibles (runcomfy.com, 2024).

Le développement de nœuds personnalisés intégrés au sein de ComfyUI, tels que « Lora-Training-in-Comfy » (runcomfy.com, 2024) ou « ComfyUI-FluxTrainer » (RunComfy, 2025), représente une avancée significative dans la démocratisation des processus de fine-tuning. Ces nœuds encapsulent des opérations complexes de backend dans une interface visuelle intuitive et conviviale, élargissant ainsi l’accès à l’entraînement LoRA à un public plus large, y compris les utilisateurs déjà familiarisés avec les workflows de ComfyUI. Cette simplification abaisse efficacement la barrière technique, permettant aux utilisateurs de se concentrer davantage sur des aspects critiques tels que la qualité des données et l’optimisation des hyperparamètres, plutôt que sur la configuration de l’infrastructure.

Présentation détaillée des nœuds clés : Dataset, Settings & Init, et Training (FluxTrainLoop, FluxTrainSave, FluxTrainValidate)

Les workflows d’entraînement LoRA au sein de ComfyUI, en particulier ceux conçus pour le modèle Flux, sont structurés en trois sections principales : Dataset, Settings and Init, et Training (RunComfy, 2025).

Dans la Section Dataset, on retrouve des nœuds essentiels pour la préparation des données :

Le nœud TrainDatasetGeneralConfig permet de définir les paramètres globaux du jeu de données d’entraînement. Il offre un contrôle sur des aspects tels que l’activation de l’augmentation de couleur, le retournement horizontal des images (flip augmentation) pour accroître la diversité des échantillons, et la possibilité de mélanger ou d’appliquer un taux de dropout aux légendes afin de réduire le sur-apprentissage (RunComfy, 2025).
Le nœud TrainDatasetAdd est utilisé pour spécifier et configurer les données d’entraînement à inclure dans le processus (RunComfy, 2025).

La Section Training est le cœur du processus d’apprentissage :

Le nœud FluxTrainLoop est responsable de l’exécution de la boucle d’entraînement pour un nombre d’étapes prédéfini (par exemple, 250 étapes) (RunComfy, 2025).
Le nœud FluxTrainSave assure la sauvegarde régulière du modèle entraîné à des intervalles spécifiés. Cela crée des points de contrôle (checkpoints) qui sont précieux pour suivre la progression de l’entraînement et pour récupérer en cas d’ interruption inattendue (RunComfy, 2025).
Le nœud FluxTrainValidate est utilisé pour évaluer la performance du modèle. Il utilise un jeu de données de validation distinct des données d’entraînement et génère des images d’échantillon, offrant une représentation visuelle de la sortie du modèle à ce stade (RunComfy, 2025).
Le nœud VisualizeLoss fournit une visualisation graphique de la perte d’entraînement au fil du temps, permettant de surveiller l’efficacité de l’apprentissage du modèle et sa convergence vers une solution optimale (RunComfy, 2025).

Il est courant que les workflows incluent plusieurs étapes d’entraînement séquentielles (par exemple, Train_01, Train_02, Train_03, Train_04) pour permettre un raffinement progressif du modèle (RunComfy, 2025).

La décomposition modulaire du workflow d’entraînement en sections distinctes « Dataset », « Settings and Init » et « Training », chacune dotée de nœuds spécialisés (RunComfy, 2025), sert un objectif allant au-delà de la simple organisation. Ce choix architectural simplifie considérablement le débogage et l’optimisation itérative. Chaque nœud, tel que TrainDatasetGeneralConfig pour l’augmentation des données, FluxTrainValidate pour le retour visuel des performances et VisualizeLoss pour la surveillance quantitative, offre un point de contrôle et d’observabilité clair. Cette granularité permet aux utilisateurs d’isoler efficacement les problèmes — en distinguant, par exemple, les problèmes découlant d’une mauvaise qualité du jeu de données par rapport à des configurations d’hyperparamètres incorrectes — et de mettre en œuvre des ajustements ciblés. Une telle approche systématique est indispensable pour développer un LoRA de haute qualité pour un objet complexe comme le CF-104.

Configuration des répertoires d’entrée et de sortie

Une configuration correcte des répertoires d’entrée (contenant les images d’entraînement) et de sortie (où les modèles LoRA entraînés seront sauvegardés) est essentielle pour le bon déroulement du processus (SeaArt Guide, 2025a). Pour les utilisateurs de la version portable de ComfyUI sous Windows, il est impératif de créer le répertoire « training » dans le même dossier que le répertoire « ComfyUI_windows_portable » (SeaArt Guide, 2025a; Tenofas, s. d.).

Bien que cela puisse sembler un détail opérationnel mineur, la configuration précise des chemins de fichiers est une source fréquente d’erreurs dans les workflows d’entraînement (SeaArt Guide, 2025a). Pour un utilisateur qui entreprend le processus potentiellement long d’entraînement d’un LoRA pour un objet complexe, s’assurer que ces chemins sont correctement établis dès le départ est crucial. Cette mesure proactive prévient les erreurs frustrantes d’exécution et évite le gaspillage de ressources computationnelles, contribuant ainsi directement à l’exécution réussie de l’ensemble du processus d’entraînement.

5. Optimisation des Hyperparamètres pour un LoRA d’Objet

Comprendre `network_dim` (Rank) et `network_alpha` : leur impact sur la taille, la fidélité et la flexibilité du modèle

Le paramètre network_dim (également appelé Rank ou Net Dim) exerce une influence directe sur la « puissance » du modèle à capturer et à reproduire les concepts entraînés, ainsi que sur la taille finale du fichier LoRA (Civitai Education, 2025a; SeaArt Guide, 2025a). Des valeurs plus élevées pour ce paramètre (par exemple, 64 ou 128) se traduisent par un modèle LoRA plus volumineux et un temps d’entraînement accru. Cependant, elles permettent également une meilleure fidélité dans la capture des détails complexes de l’élément à entraîner (Civitai Education, 2025a; SeaArt Guide, 2025a; Stable Diffusion Art, 2025b).

Pour des objets réalistes et hautement détaillés comme le CF-104, des valeurs de network_dim de 64 ou 128 sont généralement recommandées (SeaArt Guide, 2025a). Il convient toutefois d’être vigilant, car une valeur excessivement élevée peut conduire à un apprentissage trop profond, où le modèle capture des détails non pertinents, entraînant ainsi un sur-apprentissage (overfitting) (SeaArt Guide, 2025a).

Le paramètre network_alpha peut être interprété comme le degré d’influence que le LoRA exerce sur les poids du modèle original (Civitai Education, 2025a; SeaArt Guide, 2025a). Plus la valeur d’alpha est proche de celle de rank, moins l’influence est prononcée. Inversement, plus elle est proche de zéro, plus l’influence sur le modèle original est marquée (SeaArt Guide, 2025a). Généralement, la valeur d’alpha ne doit pas excéder celle de rank et est souvent fixée à la moitié de rank (SeaArt Guide, 2025a). Si alpha et rank sont égaux, il n’y a pas d’effet sur le taux d’apprentissage (microsoft, s. d.). Le rapport alpha/lora_dim agit comme un facteur d’échelle qui module l’impact du LoRA (microsoft, s. d.).

Pour un sujet très détaillé comme le CF-104, un network_dim plus élevé (par exemple, 64 ou 128) est souvent indispensable pour capturer avec précision ses caractéristiques complexes (SeaArt Guide, 2025a). Cependant, une augmentation de dim sans une considération attentive de alpha et du learning_rate peut entraîner un sur-apprentissage, où le modèle mémorise simplement les images d’entraînement au lieu d’acquérir une compréhension généralisée du concept du Starfighter (SeaArt Guide, 2025a). Le paramètre alpha fonctionne comme un amortisseur du taux d’apprentissage (Civitai Education, 2025a), modulant efficacement l’agressivité avec laquelle le LoRA modifie le modèle de base. Pour le CF-104, atteindre le juste équilibre entre un dim élevé (pour le détail) et un alpha correctement mis à l’échelle (pour prévenir une mémorisation excessive et préserver la flexibilité) est primordial. Cet équilibre garantit la génération de nouvelles images variées de l’avion tout en maintenant son identité indubitable de CF-104. Cette relation illustre directement le lien de causalité entre ces paramètres et la qualité de sortie souhaitée.

Réglage du taux d’apprentissage (`learning_rate`) et choix de l’optimiseur

Le taux d’apprentissage (learning_rate) est un hyperparamètre qui détermine l’intensité des ajustements apportés par l’IA aux poids du modèle à chaque étape d’entraînement (Civitai Education, 2025a; Reddit, 2024c; SeaArt Guide, 2025a; Unsloth Documentation, 2025). Un taux d’apprentissage élevé peut accélérer la convergence initiale, mais il risque de rendre l’entraînement instable ou d’empêcher le modèle d’atteindre un optimum stable (Unsloth Documentation, 2025). À l’inverse, un taux d’apprentissage plus faible favorise un entraînement plus stable et précis, mais peut nécessiter un plus grand nombre d’epochs pour converger (Unsloth Documentation, 2025).

Pour les caractères, un taux de 0.0001 est souvent jugé efficace (Reddit, 2024c). Pour des objets réalistes, il est recommandé de commencer avec une valeur par défaut (par exemple, 0.0004 pour Flux (SeaArt Guide, 2025a)) et d’ajuster progressivement à partir d’un taux initialement plus bas (par exemple, 0.0001) (SeaArt Guide, 2025a).

L’optimiseur est l’algorithme qui contrôle la manière dont les poids du réseau neuronal sont mis à jour pendant l’entraînement (Civitai Education, 2025a; SeaArt Guide, 2025a). AdamW8bit est un choix courant pour Stable Diffusion 1.5 en raison de sa consommation optimisée de VRAM et de sa bonne précision (Civitai Education, 2025a; SeaArt Guide, 2025a). Prodigy est une option intéressante pour les débutants, car il ajuste automatiquement le taux d’apprentissage pour obtenir les meilleurs résultats (SeaArt Guide, 2025a).

Pour un objet mécanique précis comme le CF-104, la préservation de l’intégrité structurelle et la précision des proportions sont d’une importance capitale. Un taux d’apprentissage trop élevé peut amener le modèle à s’écarter significativement du chemin optimal (Reddit, 2024c), entraînant un entraînement instable et potentiellement des sorties déformées où la forme de l’aéronef n’est pas fidèlement reproduite. Inversement, un taux d’apprentissage plus faible et plus stable (par exemple, 0.0001 à 0.0004) (Reddit, 2024c; SeaArt Guide, 2025a) est crucial. Il permet au modèle d’apprendre méticuleusement la géométrie complexe et cohérente du Starfighter, garantissant ainsi une haute fidélité au matériel source et prévenant les déformations indésirables.

Gestion des étapes d’entraînement (`epochs`, `repeats`) et de la taille de lot (`batch_size`)

Le paramètre Max training steps représente le nombre total d’étapes d’entraînement que le modèle effectuera. Pour les modèles LoRA, un intervalle de 1000 à 4000 étapes est généralement suggéré (SeaArt Guide, 2025a). Pour des jeux de données plus volumineux, ce nombre peut être étendu jusqu’à 4500 étapes (Hugging Face, 2025).

Les Epochs définissent le nombre de cycles complets durant lesquels le modèle parcourt l’intégralité du jeu de données d’entraînement (SeaArt Guide, 2025a; Shakker.AI Wiki, s. d.; Stable Diffusion Art, 2025c). Un cycle correspond au nombre d’images du jeu de données multiplié par le paramètre Repeats (SeaArt Guide, 2025a). Pour les objets réalistes, il est souvent suggéré d’utiliser environ 10 epochs (SeaArt Guide, 2025a).

Le paramètre Repeat (Single Image Repetitions) indique le nombre de fois qu’une image individuelle du jeu de données est traitée par le modèle au cours de chaque epoch (SeaArt Guide, 2025a; Shakker.AI Wiki, s. d.; Stable Diffusion Art, 2025c). Un nombre plus élevé de répétitions peut améliorer l’apprentissage des détails, mais une quantité excessive peut entraîner une rigidité de l’image, signe de sur-apprentissage (SeaArt Guide, 2025a; Shakker.AI Wiki, s. d.). Pour un rendu réaliste, 15 répétitions sont couramment suggérées (SeaArt Guide, 2025a).

Le train_batch_size (taille de lot) correspond au nombre d’images traitées simultanément. Une taille de lot plus grande tend généralement à favoriser un entraînement plus stable (Unsloth Documentation, 2025). Pour les jeux de données de petite taille, une taille de lot de 2 est souvent recommandée (Hugging Face, 2025).

Les paramètres epochs et repeats contrôlent directement l’étendue de l’exposition du modèle aux données d’entraînement (SeaArt Guide, 2025a; Stable Diffusion Art, 2025c). Pour un objet détaillé comme le CF-104, une exposition suffisante est nécessaire pour capturer toutes ses nuances. Cependant, un nombre excessif de repeats ou d’epochs peut conduire à un « sur-cuisson » (Stable Diffusion Art, 2025c), un état où le LoRA mémorise les images d’entraînement spécifiques plutôt que d’apprendre le concept sous-jacent du Starfighter. Cela se manifeste par le fait que le CF-104 généré apparaît systématiquement dans la même pose ou le même éclairage que les données d’entraînement, limitant ainsi son utilité pratique. L’objectif est d’identifier le « sweet spot » (Stable Diffusion Art, 2025c) où le modèle a assimilé l’identité de l’objet sans devenir rigide, un processus qui nécessite intrinsèquement des tests et des ajustements itératifs.

Stratégies d’augmentation de données (augmentation des couleurs, retournement horizontal)

L’augmentation de données est une technique essentielle pour améliorer la capacité de généralisation d’un modèle et sa robustesse face aux variations. Des méthodes telles que l’augmentation de couleur et le retournement horizontal (flip augmentation) peuvent être appliquées pour diversifier le jeu de données d’entraînement (RunComfy, 2025).

Le retournement horizontal est particulièrement bénéfique pour les objets symétriques, car il permet de doubler efficacement la taille perçue du jeu de données pour les caractéristiques symétriques sans nécessiter l’ajout de nouvelles images (RunComfy, 2025).

Pour un objet symétrique tel qu’un avion, l’flip augmentation (RunComfy, 2025) offre des avantages particuliers. Elle double efficacement la taille perçue du jeu de données pour les caractéristiques symétriques sans nécessiter l’ajout de nouvelles images, aidant ainsi le modèle à apprendre la forme de l’avion sous les perspectives gauche et droite. Ce processus améliore la robustesse du LoRA, lui permettant de générer le CF-104 avec précision quelle que soit son orientation dans le prompt final, ce qui contribue à un modèle plus polyvalent et précis.

Tableau : Hyperparamètres Clés et Leurs Effets pour l’Entraînement d’Objets

Paramètre	Description	Valeurs Recommandées (CF-104)	Impact sur le Modèle	Notes
`network_dim` (Rank)	« Puissance » du modèle à capturer les détails. Affecte la taille du LoRA.	64-128 (pour réalisme) (SeaArt Guide, 2025a)	Plus de détails capturés, fichier LoRA plus grand. Risque d’overfitting si trop élevé.	Essentiel pour la fidélité des formes complexes.
`network_alpha`	Degré d’influence du LoRA sur le modèle de base.	Généralement `network_dim` / 2 (SeaArt Guide, 2025a)	Contrôle la « force » de l’apprentissage. Peut amortir le taux d’apprentissage.	Aide à prévenir l’overfitting.
`learning_rate`	Intensité des ajustements du modèle à chaque étape.	0.0001 – 0.0004 (Reddit, 2024c; SeaArt Guide, 2025a)	Plus élevé = apprentissage plus rapide mais instable. Plus bas = plus stable, plus long.	Crucial pour la stabilité des formes complexes.
`max_train_steps`	Nombre total d’étapes d’entraînement.	1000-4000 (SeaArt Guide, 2025a), jusqu’à 4500 pour grands datasets (Hugging Face, 2025)	Détermine la durée de l’entraînement.	Ajuster en fonction des `epochs` et `repeats`.
`epochs`	Nombre de cycles complets sur le dataset.	10-20 (SeaArt Guide, 2025a; Shakker.AI Wiki, s. d.)	Influence la profondeur de l’apprentissage.	Trop d’epochs = overfitting.
`repeats` (Single Image Repetitions)	Nombre de fois qu’une image est traitée par epoch.	10-15 (pour réalisme) (SeaArt Guide, 2025a)	Améliore l’apprentissage des détails.	Trop de répétitions = rigidité de l’image.
`train_batch_size`	Nombre d’images traitées simultanément.	2 (pour petits datasets) (Hugging Face, 2025)	Plus grand = entraînement plus stable.	Dépend de la VRAM disponible.
`Optimizer`	Algorithme de mise à jour des poids du réseau.	AdamW8bit (défaut), Prodigy (débutants) (Civitai Education, 2025a; SeaArt Guide, 2025a)	Impacte l’efficacité de l’apprentissage.	AdamW8bit est économe en VRAM.
`Flip Augmentation`	Retournement horizontal des images.	Activé (RunComfy, 2025)	Améliore la généralisation, utile pour objets symétriques.	Réduit l’overfitting.

6. Prévention et Résolution de l’Overfitting et de l’Underfitting

Identification des signes d’overfitting (sur-apprentissage) et d’underfitting (sous-apprentissage) pour des objets complexes

La distinction entre le sur-apprentissage (overfitting) et le sous-apprentissage (underfitting) est fondamentale pour optimiser la performance d’un modèle LoRA.

Overfitting (Sur-apprentissage) : Ce phénomène se produit lorsque le modèle mémorise trop précisément les données du jeu d’entraînement, ce qui compromet sa capacité à généraliser à de nouvelles données non vues (Reddit, 2025a; SeaArt Guide, 2025a; Unsloth Documentation, 2025).

Signes distinctifs : Les images générées ressemblent excessivement aux images du jeu d’entraînement (SeaArt Guide, 2025a). Le sujet peut présenter une saturation des couleurs ou des arrière-plans identiques à ceux du jeu de données (Reddit, 2025a; Stable Diffusion Art, 2025b). Le LoRA démontre une flexibilité limitée, ne pouvant générer que des variations très proches des images originales (Reddit, 2024e). Une perte (loss) qui continue de diminuer sur le jeu d’entraînement mais augmente sur le jeu de validation est un indicateur clé (RunComfy, 2025; Unsloth Documentation, 2025).
Pour le CF-104, le sur-apprentissage ne se limiterait pas à une simple similarité excessive des images. Il impliquerait spécifiquement que le modèle génère systématiquement l’aéronef dans la même attitude de vol exacte, la même position au sol ou les mêmes conditions d’éclairage que celles observées dans les données d’entraînement, même lorsque le prompt demande des variations (Reddit, 2024e; SeaArt Guide, 2025a). En outre, le modèle pourrait avoir des difficultés à combiner le CF-104 avec des éléments nouveaux spécifiés dans le prompt, ce qui indiquerait un manque de généralisation au-delà du contexte d’entraînement. Cela constitue un indicateur diagnostique crucial pour les objets très spécifiques.

Underfitting (Sous-apprentissage) : Ce phénomène survient lorsque le modèle ne parvient pas à apprendre adéquatement les caractéristiques du jeu de données (SeaArt Guide, 2025a).

Signes distinctifs : Les images générées ne correspondent pas bien au jeu de données et échouent à préserver les caractéristiques essentielles du CF-104 (SeaArt Guide, 2025a). Le sujet peut être insuffisamment représenté ou présenter des déformations (Stable Diffusion Art, 2025b). Le LoRA réagit faiblement aux prompts ou nécessite une force (strength) très élevée pour produire un effet notable (Reddit, 2024e).
Pour le CF-104, le sous-apprentissage se manifesterait par un aéronef généré ressemblant à un avion de chasse générique plutôt qu’au Starfighter distinct. Les caractéristiques d’identification clés, telles que la forme unique de son aile, son fuselage long et élancé, ou son entrée/sortie de moteur spécifique, pourraient être perdues ou mal rendues (SeaArt Guide, 2025a). Cela compromet directement l’objectif de l’utilisateur de générer un CF-104 « précis ».

Techniques pour améliorer la généralisation du modèle (dataset de régularisation, ajustement des paramètres)

Pour prévenir et résoudre les problèmes de sur-apprentissage et de sous-apprentissage, diverses stratégies d’ajustement des hyperparamètres et de préparation du jeu de données peuvent être employées :

Prévention de l’Overfitting :

Diminuer le taux d’apprentissage : Un taux plus faible réduit l’agressivité des mises à jour du modèle, favorisant un apprentissage plus fin (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
Réduire le nombre d’epochs ou de répétitions : Limiter l’exposition du modèle aux données d’entraînement peut empêcher la mémorisation excessive (Shakker.AI Wiki, s. d.; SeaArt Guide, 2025a; Stable Diffusion Art, 2025b; Unsloth Documentation, 2025).
Réduire Rank et augmenter Alpha : Cette combinaison tend à diminuer la complexité du LoRA et à amortir son influence, réduisant ainsi le risque de sur-apprentissage (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
Utiliser un jeu de données de régularisation : Il s’agit d’inclure des images de la même classe (par exemple, d’autres avions de chasse) mais distinctes du CF-104 lui-même (Civitai Education, 2025a; Reddit, 2024a; SeaArt Guide, 2025a). Cette pratique aide le modèle à mieux généraliser la catégorie « avion de chasse » tout en se spécialisant sur les spécificités du CF-104. Il est recommandé d’avoir 10 à 20 images de régularisation non légendées (SeaArt Guide, 2025a). L’application d’un « jeu de données de régularisation » (Civitai Education, 2025a; Reddit, 2024a; SeaArt Guide, 2025a) constitue une stratégie essentielle contre le sur-apprentissage. Pour le CF-104, cela implique d’incorporer des images d’autres avions de chasse (par exemple, F-16, MiG-21) dans un dossier séparé. Cette pratique enseigne au modèle ce qu’il ne doit pas apprendre comme étant unique au CF-104 (par exemple, les caractéristiques générales d’un « jet » comme le fait d’avoir des ailes) tout en renforçant les attributs spécifiques du Starfighter. Cette double approche permet au LoRA de généraliser sa compréhension de la catégorie « avion » tout en se spécialisant sur le CF-104, empêchant ainsi la génération d’avions génériques lorsque le Starfighter est demandé, ou, inversement, évitant la limitation de ne générer le Starfighter que dans les poses exactes sur lesquelles il a été entraîné.
Augmenter la taille du jeu de données d’entraînement : L’ajout d’images de haute qualité et variées peut enrichir la compréhension du modèle (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
Augmenter weight_decay ou lora_dropout : Ces paramètres introduisent une régularisation supplémentaire, pénalisant les poids trop importants ou désactivant aléatoirement des neurones pendant l’entraînement (Reddit, 2025a; Unsloth Documentation, 2025).
Activer le shuffle_caption : Mélanger l’ordre des légendes peut décourager le modèle d’apprendre une dépendance à un ordre de prompt spécifique (Reddit, 2025a; RunComfy, 2025).

Prévention de l’Underfitting :

Augmenter le taux d’apprentissage : Un taux plus élevé peut aider le modèle à apprendre plus rapidement si l’apprentissage est insuffisant (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
Augmenter le nombre d’epochs ou de répétitions : Une exposition prolongée aux données peut permettre au modèle d’acquérir les caractéristiques manquantes (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
Augmenter Rank et réduire Alpha : Cela accroît la capacité du LoRA à apprendre des détails plus complexes et à influencer davantage le modèle de base (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
Ajouter plus de fonctionnalités de haute qualité au jeu de données : Enrichir le dataset avec des images plus variées et détaillées peut améliorer l’apprentissage (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
Diminuer la taille de lot à 1 : Cela peut entraîner des mises à jour plus « vigoureuses » des poids du modèle, potentiellement aidant à sortir de l’underfitting (Unsloth Documentation, 2025).

7. Évaluation et Raffinement Itératif du Modèle LoRA

Méthodes d’évaluation visuelle des résultats générés

L’évaluation visuelle est une méthode fondamentale pour apprécier la qualité d’un modèle LoRA (Reddit, 2024f; Shakker.AI Wiki, s. d.; Stable Diffusion Art, 2025b). Il est recommandé de générer des images d’échantillon à la fois pendant et après le processus d’entraînement. Cela peut être réalisé en utilisant le nœud FluxTrainValidate (RunComfy, 2025) ou en configurant le système pour qu’il génère des échantillons à des intervalles réguliers (Geekatplay, s. d.c).

La comparaison des sorties du modèle avec les images du jeu de données d’entraînement est cruciale pour évaluer la fidélité du modèle et sa capacité de généralisation (Reddit, 2024f; Stable Diffusion Art, 2025b).

Lors de l’inspection visuelle des images générées du CF-104, l’attention doit dépasser la ressemblance générale. Il est impératif d’évaluer la précision des caractéristiques spécifiques et définissantes : la forme de l’aile delta est-elle correcte? Les réservoirs de bout d’aile sont-ils présents et proportionnellement exacts? Le fuselage long et élancé est-il précis? L’entrée/sortie de moteur unique est-elle fidèlement reproduite? (Ceci est implicite dans la demande de l’utilisateur pour un « avion bien précis »). Ce sont les « détails difficiles à reproduire » (RunDiffusion, 2025b) qu’un bon LoRA pour un objet complexe doit capturer. Cela élève l’évaluation d’un simple « ça a l’air bien » à une évaluation plus objective de la précision technique.

Test du modèle avec des prompts variés et des seeds fixes pour évaluer la cohérence et la flexibilité

Pour évaluer la cohérence et la flexibilité du modèle LoRA, il est essentiel de le tester en générant des images avec une variété de prompts (incluant le mot-clé de déclenchement) et en maintenant des seeds fixes (Reddit, 2024f). Cette approche permet de déterminer la fiabilité avec laquelle le modèle reproduit le CF-104 et sa capacité à générer l’aéronef dans des situations ou des styles inédits (Reddit, 2024f).

Il est également utile de comparer les images générées avec et sans l’application du LoRA pour observer son impact direct sur les sorties (Cloudflare, s. d.). L’évaluation doit aussi porter sur la capacité du LoRA à interagir harmonieusement avec d’autres modèles LoRA ou checkpoints, et à s’adapter aux changements de style demandés (Reddit, 2024f).

Pour le CF-104, la flexibilité signifie la capacité de le générer « dans le ciel », « sur une piste », « dans un hangar », ou même « dans une peinture stylisée » (Reddit, 2024f; RunDiffusion, 2025b). Un bon LoRA ne devrait pas être sur-entraîné au point de ne produire l’avion que dans un seul contexte mémorisé. Tester avec des prompts variés qui introduisent de nouveaux arrière-plans, éclairages ou styles artistiques (Reddit, 2024f) est crucial pour déterminer si le LoRA a véritablement appris le concept du CF-104 ou s’il a simplement mémorisé ses images d’entraînement. Cette capacité est fondamentale pour que l’utilisateur puisse utiliser le LoRA de manière créative.

Analyse de la perte (`loss`) et des images de validation pour suivre la progression

Le nœud VisualizeLoss est un outil précieux pour suivre l’évolution de la perte d’entraînement au fil du temps (RunComfy, 2025). Une diminution progressive de cette perte est généralement un indicateur que le modèle apprend de manière appropriée (SeaArt Guide, 2025a).

Il est également crucial de surveiller la perte de validation. Une augmentation de la perte de validation, alors que la perte d’entraînement continue de diminuer, est un signe classique de sur-apprentissage (Reddit, 2025a; Shakker.AI Wiki, s. d.; Unsloth Documentation, 2025). Les images générées par le nœud FluxTrainValidate offrent une représentation visuelle concrète de la performance du modèle à diverses étapes du processus d’entraînement (RunComfy, 2025; Shakker.AI Wiki, s. d.).

Bien que l’inspection visuelle offre une évaluation subjective de la qualité (Reddit, 2024f; Stable Diffusion Art, 2025b), la surveillance de la courbe de loss (RunComfy, 2025; SeaArt Guide, 2025a) fournit des données objectives et quantitatives sur la progression de l’apprentissage du modèle. L’élément crucial ici est la nécessité de corréler ces deux points de données : une perte constamment décroissante devrait correspondre à une amélioration de la qualité visuelle, et, inversement, une perte de validation croissante devrait coïncider avec des indicateurs visuels de sur-apprentissage (Reddit, 2025a; SeaArt Guide, 2025a; Unsloth Documentation, 2025). Une divergence entre ces deux signaux suggère un problème plus profond au sein du jeu de données ou de la configuration d’entraînement, nécessitant une enquête plus approfondie. Cette approche intégrée représente une bonne pratique pour un développement de modèle robuste.

Conseils pour l’amélioration continue du modèle LoRA

L’entraînement d’un modèle LoRA est un processus intrinsèquement itératif, exigeant patience et expérimentation (Novita.AI, 2024a; Stable Diffusion Art, 2025b). Il est recommandé de considérer les paramètres par défaut comme un point de départ et de les ajuster de manière séquentielle, un par un, en observant attentivement l’impact de chaque modification (Stable Diffusion Art, 2025b).

La sauvegarde de points de contrôle (checkpoints) à intervalles réguliers est une pratique judicieuse. Cela permet de comparer les performances du modèle à différentes étapes de l’entraînement et de sélectionner le point optimal pour le déploiement ou un fine-tuning ultérieur (RunComfy, 2025; Shakker.AI Wiki, s. d.). En cas de détection de sur-apprentissage ou de sous-apprentissage, il convient de se référer aux stratégies d’ajustement des hyperparamètres et de la préparation du jeu de données précédemment détaillées (SeaArt Guide, 2025a; Unsloth Documentation, 2025).

8. Conclusion et Prochaines Étapes

La création d’un modèle LoRA précis pour un objet spécifique comme le CF-104 Starfighter dans ComfyUI est un processus méthodique qui combine une préparation rigoureuse des données, une configuration attentive des hyperparamètres et une évaluation itérative. Les étapes clés comprennent la collecte d’un jeu de données d’images de haute qualité, variées en angles et en contextes pour capturer la complexité géométrique de l’avion et prévenir le sur-apprentissage contextuel. Un légendage précis, distinguant les caractéristiques fixes des variables et utilisant un mot-clé de déclenchement unique, est essentiel pour la fidélité et la flexibilité du modèle.

L’utilisation de l’environnement modulaire de ComfyUI, avec ses nœuds personnalisés dédiés à l’entraînement LoRA, simplifie le processus et facilite le débogage. L’optimisation des hyperparamètres tels que network_dim et network_alpha est cruciale pour équilibrer la fidélité des détails techniques et la capacité de généralisation. Le réglage du taux d’apprentissage et la gestion des étapes d’entraînement (epochs, repeats) sont également fondamentaux pour la stabilité des formes complexes et pour éviter le sur-apprentissage ou le sous-apprentissage. L’intégration d’un jeu de données de régularisation est une stratégie efficace pour renforcer la généralisation du modèle.

Enfin, l’évaluation visuelle des résultats, corrélée à l’analyse des courbes de perte, permet un raffinement continu. Tester le modèle avec des prompts variés et des seeds fixes est indispensable pour confirmer sa cohérence et sa flexibilité dans différents contextes.

Pour les prochaines étapes, il est fortement encouragé de poursuivre l’expérimentation avec différents paramètres et configurations de jeu de données. Le partage des workflows et des résultats au sein de la communauté ComfyUI peut accélérer l’apprentissage collectif et la découverte de nouvelles bonnes pratiques. La documentation méticuleuse des workflows et des paramètres utilisés est également primordiale pour assurer la reproductibilité des résultats et faciliter les améliorations futures.

Bibliographie

ACL Anthology. (2025, 19 janvier). LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation. Consulté le 31 juillet 2025, de https://aclanthology.org/2025.coling-main.371.pdf

ArXiv. (s. d.). arXiv. Wikipédia. Consulté le 31 juillet 2025, de https://en.wikipedia.org/wiki/ArXiv

ArXiv. (2025a, 21 janvier). FOCUS: First Order Concentrated Updating Scheme. Consulté le 31 juillet 2025, de https://arxiv.org/abs/2501.12243

ArXiv. (2025b, 22 janvier). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. Consulté le 31 juillet 2025, de https://arxiv.org/abs/2501.12948

ArXiv. (2025c, 31 juillet). Focus Training. Consulté le 31 juillet 2025, de https://arxiv.org/html/2507.08477v1

ArXiv. (2025d, 21 mai). LoFT: Local Proxy Fine-tuning Improves Transferability to Large Language Model Attacks. Consulté le 31 juillet 2025, de https://arxiv.org/html/2505.11703v1

ArXiv. (2025e, 31 juillet). Local time at arxiv.org. Consulté le 31 juillet 2025, de https://arxiv.org/localtime

bmaltais. (s. d.). LoRA training parameters. GitHub. Consulté le 31 juillet 2025, de(https://github.com/bmaltais/kohya_ss/wiki/LoRA-training-parameters)

Civitai Education. (2025a, 9 janvier). LoRA Training Glossary. Consulté le 31 juillet 2025, de https://education.civitai.com/lora-training-glossary/

Civitai Education. (2025b, 30 juillet). Quickstart Guide to Flux.1. Consulté le 31 juillet 2025, de https://education.civitai.com/quickstart-guide-to-flux-1/

Civitai Education. (2023, 16 novembre). Quickstart Guide to LCM LoRA – Acceleration Modules! Consulté le 31 juillet 2025, de https://education.civitai.com/quickstart-guide-to-lcm-lora-acceleration-modules/

Cloudflare. (s. d.). What is LoRA? | Low-rank adaptation. Consulté le 31 juillet 2025, de https://www.cloudflare.com/learning/ai/what-is-lora/

ComfyAI.run. (s. d.). ComfyUI_Wan2_1_lora_trainer Node for Effective AI Training. Consulté le 31 juillet 2025, de(https://comfyai.run/custom_node/ComfyUI_Wan2_1_lora_trainer)

ComfyUI Documentation. (s. d.a). ComfyUI. Consulté le 31 juillet 2025, de https://github.com/comfyanonymous/ComfyUI

ComfyUI Documentation. (s. d.b). LoRA. Consulté le 31 juillet 2025, de https://docs.comfy.org/tutorials/basic/lora

d8ahazard. (s. d.). sd_dreambooth_extension/issues/1184. GitHub. Consulté le 31 juillet 2025, de https://github.com/d8ahazard/sd_dreambooth_extension/issues/1184

fal.ai. (2025, 26 juin). Announcing Flux 1 Kontext Dev Inference & Training. Consulté le 31 juillet 2025, de https://blog.fal.ai/announcing-flux-1-kontext-dev-inference-training/

Geekatplay. (s. d.a). How to Train Custom LoRA Models Inside ComfyUI. YouTube. Consulté le 31 juillet 2025, de(((https://www.youtube.com/watch?v=m3ENCAwWDXc)))

Geekatplay. (s. d.b). Trainer for LoRA, Checkpoints, and Diffusion Models. YouTube. Consulté le 31 juillet 2025, de(((https://www.youtube.com/watch?v=-KNyKQBonlU)))

Geekatplay. (s. d.c). Train Better LoRAs with ComfyUI – Auto Descriptions. YouTube. Consulté le 31 juillet 2025, de https://www.youtube.com/watch?v=U4nc1kc746U

Google Cloud. (2025, 30 juin). Determine evaluation metrics for generative AI models. Consulté le 31 juillet 2025, de https://cloud.google.com/vertex-ai/generative-ai/docs/models/determine-eval

Hugging Face. (2025, 24 mars). Perfect LoRA training parameters (human character). Consulté le 31 juillet 2025, de https://discuss.huggingface.co/t/perfect-lora-training-parameters-human-character/147211

Hugging Face. (2024, 18 juin). Thoughts on LoRA Training #1. Consulté le 31 juillet 2025, de https://huggingface.co/blog/alvdansen/thoughts-on-lora-training-1

Jancovich, L., Pitches, C., & Stevenson, D. (2025, 28 juillet). Failures in impact evaluation. Research Evaluation, 34. Consulté le 31 juillet 2025, de https://academic.oup.com/rev/article/doi/10.1093/reseval/rvaf033/8215691

jaimitoes. (s. d.). jaimitoes/ComfyUI_Wan2_1_lora_trainer. GitHub. Consulté le 31 juillet 2025, de(https://github.com/jaimitoes/ComfyUI_Wan2_1_lora_trainer)

MimicPC. (2025, 30 mai). Kohya-SS Tutorial: LoRA Training and Testing. Consulté le 31 juillet 2025, de https://www.mimicpc.com/ja/learn/kohya-ss-lora-training-guide

MimicPC. (2025, 3 juillet). How to train Flux LoRA with Kohya_SS. Consulté le 31 juillet 2025, de https://www.mimicpc.com/learn/steps-to-use-kohya-ss-for-flux-lora-training

MimicPC. (s. d.a). Free AI Generator Online. Consulté le 31 juillet 2025, de https://www.mimicpc.com/demo/kohya-ss

MimicPC. (s. d.b). How to Use Kohya-SS for Stable Diffusion 3 LoRA Training?. YouTube. Consulté le 31 juillet 2025, de(https://www.youtube.com/watch?v=FkhpWZNjWj8)

MimicPC. (s. d.c). Using Kohya-SS for Efficient AI Model Training. YouTube. Consulté le 31 juillet 2025, de(https://www.youtube.com/watch?v=wTVI0SONkpc)

microsoft. (s. d.). microsoft/LoRA. GitHub. Consulté le 31 juillet 2025, de(https://github.com/microsoft/LoRA)

Microsoft. (2025, 31 juillet). Phi Silica task specialization using LoRA in Microsoft Learning Zone: A technical deep dive. Consulté le 31 juillet 2025, de https://blogs.windows.com/windowsdeveloper/2025/07/31/phi-silica-task-specialization-using-lora-in-microsoft-learning-zone-a-technical-deep-dive/

Novita.AI. (2024a, 29 janvier). Accelerate Your Skills: LoRA Training Guide. Consulté le 31 juillet 2025, de https://blogs.novita.ai/accelerate-your-skills-lora-training-guide/

Novita.AI. (2024b, 18 mars). Mastering Lora AI: Your Ultimate Guide. Consulté le 31 juillet 2025, de https://blogs.novita.ai/mastering-lora-ai-your-ultimate-guide/

Prompting Pixels. (2024, 30 avril). How to Add a LoRa to Your Workflow in ComfyUI. Medium. Consulté le 31 juillet 2025, de https://medium.com/@promptingpixels/how-to-add-a-lora-to-your-workflow-in-comfyui-b5635cd7a8aa

Reddit. (2024a, 25 janvier). So how DO you caption images for training a lora? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1i97uar/so_how_do_you_caption_images_for_training_a_lora/)))

Reddit. (2024b, 25 janvier). LoRA image captioning best practices. Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1cxx3z2/lora_image_captioning_best_practices/)))

Reddit. (2024c, 24 mars). How exactly does the learning rate and precision work? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1bjbbo4/how_exactly_does_the_learning_rate_and_precision/)))

Reddit. (2024d, 17 octobre). Creating detailed training data for Lora. Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/17iek27/creating_detailed_training_data_for_lora/)))

Reddit. (2024e, 10 juillet). Most posts I’ve read says that no more than 25-30 images should be used when training a Flux LoRA, but I’ve also seen some that have been trained on 100+ images and looks great. When should you use more than 25-30 images, and how can you ensure that it doesn’t get overtrained when using 100+ images? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1j8ntgi/most_posts_ive_read_says_that_no_more_than_2530/)))

Reddit. (2024f, 4 septembre). Quantifying LoRA quality. Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1f8y4em/quantifying_lora_quality/)))

Reddit. (2024g, 25 février). Training LoRAs with transparency (PNG). Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1b9snd3/training_loras_with_transparency_png/)))

Reddit. (2024h, 25 février). Hey guys, is there any tutorial on how to make a lora on how to make a lora with transparent background? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1kzn560/hey_guys_is_there_any_tutorial_on_how_to_make_a/)))

Reddit. (2025a, 5 février). LoRA training both overfits and underfits, what is the solution? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1ii4c6s/lora_training_both_overfits_and_underfits_what_is/)))

Reddit. (2025b, 29 juillet). Native Lora trainer nodes in ComfyUI, how to use? Consulté le 31 juillet 2025, de https://www.reddit.com/r/comfyui/comments/1ljjzaq/native_lora_trainer_nodes_in_comfyui_how_to_use/

Reddit. (2025c, 31 mai). What’s the best way of creating a dataset from 1 image? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1l8zi09/whats_the_best_way_of_creating_a_dataset-from-1/)))

rgthree. (s. d.). rgthree/rgthree-comfy. GitHub. Consulté le 31 juillet 2025, de https://github.com/rgthree/rgthree-comfy

Roboflow. (2024, 20 août). Roboflow Annotate: Label Images Faster Than Ever. Consulté le 31 juillet 2025, de https://roboflow.com/annotate

RunComfy. (2025, 16 juin). ComfyUI FLUX LoRA Training: Detailed Guides. Consulté le 31 juillet 2025, de https://www.runcomfy.com/comfyui-workflows/comfyui-flux-lora-training-detailed-guides

RunComfy. (2025a, 16 juin). Generating Transparent Images with LayerDiffuse in ComfyUI. Consulté le 31 juillet 2025, de https://www.runcomfy.com/comfyui-workflows/generating-transparent-images-with-layerdiffuse-in-comfyui

RunDiffusion. (2025a, 20 mars). Basic LoRa Training with Kohya. Consulté le 31 juillet 2025, de https://learn.rundiffusion.com/basic-lora-training-with-kohya/

RunDiffusion. (2025b, 21 juillet). How to Prepare a Dataset for Model Training on RunDiffusion. Consulté le 31 juillet 2025, de https://learn.rundiffusion.com/how-to-prepare-a-dataset-for-model-training-on-rundiffusion/

runcomfy.com. (2024, 5 août). Lora-Training-in-Comfy. Consulté le 31 juillet 2025, de(((https://www.runcomfy.com/comfyui-nodes/Lora-Training-in-Comfy)))

Sanj.dev. (s. d.). How to Train Stable Diffusion LoRA Self-Portraits. Consulté le 31 juillet 2025, de https://sanj.dev/post/train-stable-diffusion-lora-self-portraits

SeaArt Guide. (2025a, 25 juin). 3-2 LoRA Training (Advance). Consulté le 31 juillet 2025, de https://docs.seaart.ai/guide-1/3-advanced-guide/3-2-lora-training-advance

SeaArt Guide. (2025b, 10 juillet). Image Training – SeaArt Guide. Consulté le 31 juillet 2025, de https://docs.seaart.ai/guide-1/3-advanced-guide/3-2-lora-training-advance/image-training

Shakker.AI Wiki. (s. d.). LoRA Training Parameters: The Role of Single Image Training Count, Epochs, Batch Size, and Precision. Consulté le 31 juillet 2025, de https://wiki.shakker.ai/en/lora-training-parameters

Stable Diffusion Art. (2025a, 21 février). Beginner’s Guide to ComfyUI. Consulté le 31 juillet 2025, de https://stable-diffusion-art.com/comfyui/

Stable Diffusion Art. (2025b, 17 janvier). How to train Lora models. Consulté le 31 juillet 2025, de https://stable-diffusion-art.com/train-lora/

Stable Diffusion Art. (2025c, 17 janvier). How to train SDXL LoRA models. Consulté le 31 juillet 2025, de https://stable-diffusion-art.com/train-lora-sdxl/

Stable Diffusion Art. (2025d, 21 février). How to Generate Transparent Background Images with Stable Diffusion. Consulté le 31 juillet 2025, de https://stable-diffusion-art.com/transparent-background/

Tamanna. (2025, 16 juin). Evaluating Prompts in Large Language Models. Methods, Quality Processes, and Semantic Measurement with Amazon Bedrock (Claude). Medium. Consulté le 31 juillet 2025, de https://medium.com/@tam.tamanna18/evaluating-prompts-in-large-language-models-ed2e30c6de34

Tenofas. (s. d.). Flux LoRA Trainer 2.0. OpenArt. Consulté le 31 juillet 2025, de(((https://openart.ai/workflows/tenofas/flux-lora-trainer-20/VmxcKxjxRoN2Lrs9ESU7)))

ThinkDiffusion. (2025). ComfyUI LoRAs: The Ultimate Guide. Consulté le 31 juillet 2025, de https://learn.thinkdiffusion.com/comfyui-loras-the-ultimate-guide/

Unsloth Documentation. (2025, 3 juillet). LoRA Hyperparameters Guide. Consulté le 31 juillet 2025, de https://docs.unsloth.ai/get-started/fine-tuning-llms-guide/lora-hyperparameters-guide

Warmbutter. (s. d.). Image Caption Tool for LoRA Training. Consulté le 31 juillet 2025, de https://warmbutter.com/ai-toolkit/image-caption/

août 6, 2025

Création de prompts ComfyUI : Nouvelle-France sensuelle

Introduction : Un Nouveau Chapitre d’Exploration Visuelle

Ce second article prolonge notre exploration artistique de la Nouvelle-France en déplaçant l’objectif de la femme seule vers l’unité fondamentale de la société coloniale : le couple hétérosexuel. La mission demeure la même : créer une série de vingt portraits photographiques saisissants de réalisme et de profondeur psychologique, en utilisant l’esthétique dramatique du clair-obscur pour sculpter les corps et les émotions. Cependant, le sujet nous invite à sonder des dynamiques nouvelles : celles du partenariat, de la hiérarchie, de la tension et de la tendresse au sein de l’union conjugale.

L’approche méthodologique reste fidèle à la rigueur du projet initial. La première partie de ce rapport se consacre à une analyse historique ciblée sur la réalité du couple en Nouvelle-France. Elle examine non seulement la condition de la femme, déjà explorée, mais aussi celle de l’homme – le censitaire, le soldat, l’artisan – et la nature même du lien matrimonial, qui est avant tout un contrat social et économique. La deuxième partie réitère le cadre technique, en confirmant l’adéquation de la suite d’outils ComfyUI pour capturer la complexité de deux figures en interaction. Enfin, la troisième partie présente un compendium de vingt prompts inédits, chacun étant une fenêtre ouverte sur un moment de la vie partagée d’un homme et d’une femme, façonnés par leur environnement, leur labeur et les structures sociales de leur temps.

Ce projet ne cherche pas à illustrer une romance anachronique. Il vise plutôt à capturer la vérité d’une intimité forgée dans l’épreuve, où la survie est le premier impératif. La sensualité qui en émerge n’est pas celle de la séduction, mais celle d’une complicité silencieuse, d’un corps-à-corps avec la terre, et de la chaleur d’un foyer arrachée à la rigueur d’un hiver infini.

Partie I : Le Contexte – L’Homme, la Femme et l’Union en Nouvelle-France

Pour représenter le couple de manière authentique, il est essentiel de comprendre les rôles, les contraintes et les réalités physiques de chaque partenaire, ainsi que la nature du lien qui les unit.

A. L’Homme de la Nouvelle-France : Pilier et Pourvoyeur

La figure masculine en Nouvelle-France est définie par le travail physique, la responsabilité et une position d’autorité incontestée au sein de la famille et de la société.

Le Corps et le Labeur

Qu’il soit habitant (paysan), artisan ou soldat démobilisé, l’homme de la colonie est avant tout un travailleur de force (RECITS, s.d.). Sa vie est rythmée par les durs travaux des champs, le défrichage de nouvelles terres, la construction et l’entretien de la maison et des outils (RECITS, s.d.). Son corps est un instrument de travail, marqué par l’effort : mains calleuses, muscles développés par des années de labeur, peau tannée par le soleil et le vent. L’espérance de vie au XVIIIe siècle ne dépassant guère 35-38 ans, un homme de 30 ans est déjà un homme mûr, portant les stigmates de sa vie laborieuse (Les Enfants du Patrimoine, s.d.).

Le Costume et l’Apparence

Le vêtement masculin reflète cette réalité fonctionnelle et la hiérarchie sociale. L’habitant paysan porte des vêtements simples et robustes : une chemise de lin, une culotte de couleur sobre (souvent marron), des bas de laine et des sabots ou des souliers de cuir (Les Enfants du Patrimoine, s.d.). En hiver, il s’enveloppe dans une longue cape à capuchon ou un « capot », une sorte de manteau adapté au climat local, souvent ceinturé (Gousse, 2021).

L’élite – seigneurs, marchands, administrateurs – se distingue par le port de « l’habit à la française », composé d’un justaucorps, une veste et une culotte, confectionnés dans des tissus de meilleure qualité et aux couleurs plus vives (Les Enfants du Patrimoine, s.d. ; MAD, 2018). La perruque poudrée et le tricorne complètent la tenue de l’homme de statut (MAD, 2018). Cependant, même chez les plus aisés, la coquetterie n’exclut pas une certaine rusticité imposée par la vie coloniale.

Le Rôle de Pater Familias

Au sein du foyer, l’homme incarne l’autorité absolue. En tant que pater familias (père de famille), il est le chef incontesté, responsable de sa femme et de ses enfants (Bosse, c. 1633). Cette domination est consacrée par la loi et la religion, qui voient en lui le représentant de l’autorité du Roi et de Dieu au sein de sa maisonnée (Bosse, c. 1633). Il a la responsabilité d’abriter et de nourrir sa famille, et en retour, il attend une soumission complète (RECITS, s.d.). Cette structure hiérarchique est le fondement de toutes les relations conjugales de l’époque.

B. La Nature de l’Union Conjugale : Entre Contrat et Affection

Le mariage en Nouvelle-France est moins une affaire de cœur qu’une nécessité économique et sociale. C’est un partenariat dont le but premier est la survie, la procréation et la mise en valeur d’une terre.

Un Partenariat pour la Survie

Dans une colonie où la main-d’œuvre est rare et le travail écrasant, le célibat est une anomalie. Le mariage est une institution pragmatique où les rôles sont clairement définis et complémentaires : l’homme s’occupe des durs travaux des champs et de la construction, tandis que la femme gère le potager, les animaux de la basse-cour, la préparation des repas, la confection des vêtements et l’éducation des enfants (RECITS, s.d.). Le couple forme une unité de production économique indispensable à la survie (RECITS, s.d.). Le remariage, en cas de veuvage, est d’ailleurs extrêmement rapide, car il est presque impossible pour un homme ou une femme de gérer seul une exploitation et une famille (Musée canadien de l’histoire, s.d.).

La Hiérarchie du Couple

La relation est fondamentalement inégalitaire. La femme, bien que partenaire économique essentielle, est légalement et socialement subordonnée à son mari (Bosse, c. 1633). La coutume autorise même le mari à exercer un « droit de correction modérée » sur son épouse, une pratique qui, bien que parfois contestée, est perçue comme la manifestation d’un ordre social juste (Bosse, c. 1633 ; Lachance, 2007). Cette tension entre la nécessité d’une collaboration de tous les instants et la réalité d’une domination masculine structure la dynamique intime du couple.

L’Intimité et la Sexualité

L’intimité physique se déploie dans un cadre strict, dicté par la morale catholique et les conditions de vie (Turcot, 2018). La chambre conjugale, souvent la seule pièce de la maison, offre peu d’intimité réelle, surtout dans les familles nombreuses (Les Enfants du Patrimoine, s.d.). La sexualité est avant tout orientée vers la procréation, essentielle au peuplement de la colonie (Gagnon, 2018). Les familles de six à huit enfants au XVIIe siècle, et de quatre à six au XVIIIe, sont la norme (Gagnon, 2018).

Cependant, les archives judiciaires témoignent que la réalité vécue n’est pas toujours conforme aux préceptes de l’Église. Des cas d’adultère, de séduction et de conflits conjugaux montrent que les passions, les désirs et les tensions humaines existent, même sous le vernis d’une société pieuse et ordonnée (Lachance, 2007 ; Séguin, 2017). La sensualité, dans ce contexte, est moins une affaire de séduction que de moments volés, de gestes de réconfort après une journée de labeur, ou de la simple chaleur d’un corps contre un autre durant les longs hivers.

Partie II : La Méthode – Cadre Artistique et Technique

La méthodologie technique reste identique à celle du projet précédent, sa pertinence étant confirmée. La synergie entre le modèle juggernautXL_ragnarokBy et les LoRA sélectionnés (add-detail-xl, Chiaroscuro Lighting Style v1, Hand v2, SDXL_FILM_PHOTOGRAPHY_STYLE_V1) demeure la stratégie optimale pour atteindre l’esthétique photographique en clair-obscur recherchée.

La principale difficulté technique nouvelle réside dans la génération de deux personnages cohérents au sein d’une même image. Il sera donc crucial d’utiliser des prompts précis décrivant l’interaction, la proximité et la relation physique entre l’homme et la femme pour guider l’IA. Des termes comme a couple embracing, standing side-by-side, a man looking down at his wife seront essentiels pour structurer la composition.

Tableau 1 : Composants Techniques et Syntaxe de Prompting (Rappel)

Composant	Type	Fonction dans ce Projet	Syntaxe de Prompting / Mot-Déclencheur	Poids Recommandé
juggernautXL_ragnarokBy	Checkpoint	Fournit l’image de base photoréaliste et anatomiquement robuste.	N/A (Modèle de base)	N/A
add-detail-xl	LoRA	Améliore les détails fins et les textures sur la peau, les tissus et le bois pour augmenter le réalisme.	add detail	0.5 à 1.0
Chiaroscuro Lighting Style v1	LoRA	Le principal moteur de l’effet d’éclairage dramatique à fort contraste.	chiaroscuro	0.7 à 0.9
Hand v2	LoRA	Corrige et améliore le rendu des mains et des doigts.	(perfect hands)	0.8 à 1.0
SDXL_FILM_PHOTOGRAPHY_STYLE_V1	LoRA	Applique une qualité filmique, ajoutant du grain et une réponse tonale spécifique.	(film photography style:1.5) + modificateurs	0.8

Partie III : Le Compendium – Une Série de 20 Prompts pour les Couples de la Nouvelle-France

Cette section présente vingt prompts conçus pour explorer la complexité de la vie de couple en Nouvelle-France. Chaque ensemble inclut le prompt positif, le prompt négatif, une justification narrative et une section détaillée des paramètres techniques recommandés pour obtenir le meilleur résultat.

Paire 1 : La Nuit de Noces

Thème : La rencontre de deux étrangers liés par contrat. L’intimité est maladroite, mêlée d’appréhension et de devoir.
Contexte : Une petite chambre rudimentaire, juste après le mariage d’un colon et d’une Fille du Roi.

Prompt Positif :

(masterpiece, best quality, ultra realistic, high detail, sharp focus), (film photography style:1.5), medium grain, a portrait of a newly married couple on their wedding night, New France circa 1670. A French colonist (30s, bearded, weathered face) and a young Fille du Roi (20s) are nude, sitting awkwardly on a simple straw mattress bed. The only light is a single tallow candle, creating intense chiaroscuro shadows. He looks at her with a mixture of ownership and uncertainty; she avoids his gaze, looking down with apprehension. The room is sparse, with rough timber walls. Their bodies are natural, unshaven. The atmosphere is tense, a silent contract being fulfilled. Inspired by Georges de La Tour.

Prompt Négatif :

painting, illustration, drawing, sketch, cartoon, anime, 3d, cgi. deformed, mutated, disfigured, bad anatomy, blurry. modern, makeup, shaved, smiling, romantic, passionate, comfortable, relaxed. bright room, multiple light sources.

Justification : Ce prompt capture la réalité du mariage arrangé, loin de toute romance moderne (Lachance, 2007). L’homme est décrit comme un colon au visage « buriné » (weathered), et elle comme une jeune Fille du Roi, soulignant leur parcours (Pinsonneault, 2018). Leur posture « maladroite » et leurs regards divergents (« il la regarde avec un mélange de possession et d’incertitude ; elle évite son regard ») traduisent la tension d’une union de convenance. L’ambiance est définie comme « un contrat silencieux en cours d’exécution », reflétant la nature pragmatique du mariage à l’époque (Lachance, 2007).

Paramètres Recommandés

LoRA Settings :
- add-detail-xl : weight = 0.7.
  - Rôle : Augmente le réalisme des textures (peau, bois, paille).
  - Raison : Un poids modéré pour ajouter du détail sans surcharger la scène, qui doit rester sobre.
- Chiaroscuro Lighting Style v1 : weight = 0.8.
  - Rôle : Crée l’effet de lumière dramatique et contrasté de la bougie.
  - Raison : Un poids élevé pour un effet ténébriste prononcé, essentiel à l’ambiance.
- Hand v2 : weight = 1.0.
  - Rôle : Assure que les mains des personnages soient anatomiquement correctes.
  - Raison : Poids maximal pour une correction fiable, les mains étant souvent un point faible.
- SDXL_FILM_PHOTOGRAPHY_STYLE_V1 : weight = 0.8.
  - Rôle : Donne un rendu photographique argentique.
  - Raison : Poids standard recommandé pour ce LoRA afin d’obtenir un grain et une colorimétrie réalistes.
Empty Latent Image Node :
- width : 832, height : 1216.
  - Rôle : Définit la résolution de l’image de départ.
  - Raison : C’est une résolution verticale native pour les modèles SDXL, idéale pour les portraits de deux personnages et recommandée par le créateur de Juggernaut XL pour une stabilité optimale (KandooAI, 2024).
KSampler Node :
- seed / control_after_generate : randomize.
  - Rôle : La seed est le point de départ aléatoire de l’image. randomize en génère une nouvelle à chaque fois.
  - Raison : Permet de générer une grande variété de couples et de compositions.
- steps : 35.
  - Rôle : Nombre de pas de calcul pour raffiner l’image.
  - Raison : Une valeur entre 30 et 40 est recommandée pour Juggernaut XL, offrant un bon équilibre entre détail et temps de calcul (KandooAI, 2024).
- cfg : 4.5.
  - Rôle : Contrôle à quel point l’IA doit suivre le prompt.
  - Raison : Une valeur basse (entre 3 et 6) est conseillée pour Juggernaut XL pour un rendu plus photoréaliste et moins « brûlé » (KandooAI, 2024).
- sampler_name : dpmpp_2m_sde.
  - Rôle : L’algorithme utilisé pour générer l’image à partir du bruit.
  - Raison : C’est l’échantillonneur spécifiquement recommandé par le créateur de Juggernaut Ragnarok (KandooAI, 2024).
- scheduler : karras.
  - Rôle : Gère la vitesse à laquelle le « bruit » est retiré de l’image à chaque étape.
  - Raison : Le scheduler Karras est réputé pour produire des résultats de haute qualité avec les échantillonneurs DPM++.
- denoise : 1.0.
  - Rôle : Détermine l’influence du prompt sur l’image latente de départ.
  - Raison : Une valeur de 1.0 est standard pour une génération texte-vers-image pure, signifiant que l’image est créée à 100% à partir du prompt et non d’une image existante.

Paire 2 : Le Repos du Laboureur

Thème : La fatigue partagée après une journée de travail harassant. La sensualité naît de l’épuisement commun et du simple réconfort physique.
Contexte : Un couple d’habitants (paysans) près de l’âtre après le travail aux champs.

Prompt Positif :

(masterpiece, best quality, ultra realistic, high detail, sharp focus), (film photography style:1.5), heavy grain, a powerful portrait of a habitant couple resting after a long day of farm labor. The man and woman are nude, slumped together on a rough wooden bench before the hearth. The fire is the only light, casting a warm, flickering glow and deep, sculptural shadows (tenebrism). Their bodies are strong, covered in a sheen of sweat and dirt from the fields. Their hands and feet are calloused. They are not looking at each other, but their bodies lean together in shared exhaustion. The mood is one of profound fatigue and silent companionship. Inspired by Caravaggio.

Prompt Négatif :

painting, illustration, drawing, sketch, cartoon, anime, 3d, cgi. deformed, mutated, disfigured, bad anatomy, blurry. modern, makeup, shaved, clean, pristine skin, slender, delicate, energetic, talking, smiling. bright room, daylight.

Justification : Ce prompt met en scène le travail d’équipe essentiel à la survie (RECITS, s.d.). Les détails physiques (« luisant de sueur et de saleté », « mains et pieds calleux ») ancrent la scène dans la réalité du labeur agricole (Les Enfants du Patrimoine, s.d.). L’interaction est subtile : « ils ne se regardent pas, mais leurs corps s’appuient l’un contre l’autre dans un épuisement partagé », suggérant une forme de complicité qui transcende les mots, née de l’épreuve commune.

Paramètres Recommandés

LoRA Settings :
- add-detail-xl : weight = 0.9.
  - Rôle : Accentue les textures de la peau (sueur, saleté, callosités) et du bois brut.
  - Raison : Un poids élevé est utilisé ici pour souligner la physicalité et la rudesse de la scène.
- Chiaroscuro Lighting Style v1 : weight = 0.9.
  - Rôle : Crée l’éclairage intense et sculptural du feu de l’âtre.
  - Raison : Poids maximal pour un effet ténébriste très marqué, à la manière du Caravage.
- Hand v2 : weight = 1.0.
  - Rôle : Correction anatomique des mains.
  - Raison : Indispensable pour le réalisme, surtout avec des mains potentiellement crispées par la fatigue.
- SDXL_FILM_PHOTOGRAPHY_STYLE_V1 : weight = 0.8.
  - Rôle : Applique une esthétique de photographie argentique.
  - Raison : Le poids standard assure un grain visible (heavy grain) qui renforce l’aspect brut de l’image.
Empty Latent Image Node :
- width : 1216, height : 832.
  - Rôle : Définit la résolution de l’image de départ.
  - Raison : Une résolution horizontale native SDXL, adaptée à une scène de couple assis côte à côte (KandooAI, 2024).
KSampler Node :
- seed / control_after_generate : randomize.
  - Rôle : Génère une nouvelle image à chaque fois.
  - Raison : Pour explorer différentes physionomies de « laboureurs ».
- steps : 40.
  - Rôle : Nombre de pas de calcul.
  - Raison : Un nombre de pas légèrement plus élevé pour permettre au modèle de bien définir les textures complexes (peau, bois, feu).
- cfg : 4.0.
  - Rôle : Adhérence au prompt.
  - Raison : Une valeur basse pour un réalisme brut, évitant un aspect trop stylisé ou « numérique ».
- sampler_name : dpmpp_2m_sde.
  - Rôle : Algorithme de génération.
  - Raison : Recommandé par le créateur du modèle pour sa qualité (KandooAI, 2024).
- scheduler : karras.
  - Rôle : Gestion du bruit.
  - Raison : Assure une convergence stable et détaillée de l’image.
- denoise : 1.0.
  - Rôle : Génération à partir de zéro.
  - Raison : Standard pour le text-to-image.

Paire 3 : La Chaleur de l’Hiver

Thème : La promiscuité forcée et le réconfort mutuel face à la menace existentielle du froid.
Contexte : Un couple blotti sous des peaux de bêtes pendant une nuit d’hiver glaciale.

Prompt Positif :

(masterpiece, best quality, ultra realistic, high detail, sharp focus), (film photography style:1.5), medium grain, an intimate portrait of a couple huddled together for warmth during a harsh New France winter. The man and woman are nude, wrapped tightly in thick beaver and moose pelts on a bed. The room is dark, lit only by the faint glow of dying embers in the hearth, creating soft but deep shadows. Frost is visible on the inside of a small window pane. Their bodies are pressed together, a silent testament to their mutual dependence for survival. The mood is one of quiet intimacy and shared vulnerability.

Prompt Négatif :

painting, illustration, drawing, sketch, cartoon, anime, 3d, cgi. deformed, bad anatomy, blurry. modern, shaved, makeup, spacious room, warm, comfortable, separate beds, electric light. sexualized, passionate.

Justification : Ce prompt explore la relation face à l’adversité climatique. L’utilisation de « peaux de castor et d’orignal » est historiquement exacte (Digital Museums Canada, s.d.). La lumière des « braises mourantes » est à la fois réaliste et symbolique, une source de chaleur précaire. L’interaction est décrite comme un « témoignage silencieux de leur dépendance mutuelle pour la survie », soulignant que l’intimité est ici une conséquence de la nécessité.

Paramètres Recommandés

LoRA Settings :
- add-detail-xl : weight = 1.0.
  - Rôle : Maximise les détails des textures contrastées : la douceur de la fourrure, la rugosité du bois, le givre et la texture de la peau.
  - Raison : La scène repose sur le contraste tactile, un poids élevé est donc justifié pour un rendu sensoriel.
- Chiaroscuro Lighting Style v1 : weight = 0.7.
  - Rôle : Crée un éclairage doux mais contrasté, venant des braises.
  - Raison : Un poids légèrement réduit pour obtenir des ombres profondes mais douces (soft but deep shadows), plutôt qu’un éclairage dur.
- Hand v2 : weight = 1.0.
  - Rôle : Correction des mains.
  - Raison : Poids maximal pour une correction fiable.
- SDXL_FILM_PHOTOGRAPHY_STYLE_V1 : weight = 0.8.
  - Rôle : Applique une esthétique de film.
  - Raison : Poids standard pour un rendu photographique authentique.
Empty Latent Image Node :
- width : 1216, height : 832.
  - Rôle : Définit la résolution de départ.
  - Raison : Format horizontal adapté à une scène de couple allongé (KandooAI, 2024).
KSampler Node :
- seed / control_after_generate : randomize.
  - Rôle : Génère une nouvelle image à chaque fois.
  - Raison : Permet de varier les personnages et les compositions de l’étreinte.
- steps : 35.
  - Rôle : Nombre de pas de calcul.
  - Raison : Valeur standard pour un bon équilibre qualité/vitesse (KandooAI, 2024).
- cfg : 5.0.
  - Rôle : Adhérence au prompt.
  - Raison : Une valeur au milieu de la plage recommandée (3-6) pour bien marquer les contrastes de lumière tout en gardant un aspect naturel (KandooAI, 2024).
- sampler_name : dpmpp_2m_sde.
  - Rôle : Algorithme de génération.
  - Raison : Recommandé pour Juggernaut Ragnarok (KandooAI, 2024).
- scheduler : karras.
  - Rôle : Gestion du bruit.
  - Raison : Assure une convergence stable et détaillée.
- denoise : 1.0.
  - Rôle : Génération à partir de zéro.
  - Raison : Standard pour le text-to-image.

Paire 4 : Le Droit de Correction

Thème : La tension et la violence latente inhérentes à la structure patriarcale du mariage.
Contexte : Une scène de conflit, inspirée par les gravures d’époque sur l’ordre domestique.

Prompt Positif :

(masterpiece, best quality, ultra realistic, high detail, sharp focus), (film photography style:1.5), heavy grain, a tense portrait of a couple in conflict, inspired by Abraham Bosse’s engravings. A man, partially clothed in his breeches, stands over his nude wife who is kneeling on the wooden floor. A single, harsh light from the side illuminates the scene, creating dramatic, sharp shadows. His expression is one of stern authority; hers is a mix of fear and defiant submission. The atmosphere is oppressive, capturing the reality of the ‘pater familias’ and the husband’s right of correction.

Prompt Négatif :

painting, illustration, drawing, sketch, cartoon, anime, 3d, cgi. deformed, bad anatomy, blurry. modern, smiling, happy, loving, equal, gentle, romantic, peaceful. soft lighting, bright room.

Justification : Ce prompt aborde directement la hiérarchie brutale du couple, en se référant explicitement aux gravures d’Abraham Bosse qui illustraient l’ordre patriarcal comme la norme (Bosse, c. 1633). La posture (lui debout, elle à genoux) et les expressions (« autorité sévère », « mélange de peur et de soumission rebelle ») sont des instructions directes pour visualiser cette dynamique de pouvoir. Le prompt utilise les termes historiques « pater familias » et « droit de correction » pour ancrer la scène dans son contexte social et juridique (Lachance, 2007).

Paramètres Recommandés

LoRA Settings :
- add-detail-xl : weight = 0.7.
  - Rôle : Ajoute du détail aux textures du bois et de la peau.
  - Raison : Un poids modéré pour ne pas détourner l’attention de la tension dramatique de la scène.
- Chiaroscuro Lighting Style v1 : weight = 0.9.
  - Rôle : Crée un éclairage latéral très dur et contrasté.
  - Raison : Poids maximal pour des ombres nettes (sharp shadows) qui accentuent la dureté et l’oppression de la scène.
- Hand v2 : weight = 1.0.
  - Rôle : Correction des mains.
  - Raison : Essentiel pour le réalisme, surtout pour des mains potentiellement crispées.
- SDXL_FILM_PHOTOGRAPHY_STYLE_V1 : weight = 0.8.
  - Rôle : Applique une esthétique de film.
  - Raison : Le heavy grain et le poids standard renforcent l’aspect brut et documentaire de l’image.
Empty Latent Image Node :
- width : 832, height : 1216.
  - Rôle : Définit la résolution de départ.
  - Raison : Format vertical pour accentuer la dynamique de pouvoir entre le personnage debout et celui agenouillé.
KSampler Node :
- seed / control_after_generate : randomize.
  - Rôle : Génère une nouvelle image à chaque fois.
  - Raison : Pour explorer différentes physionomies et compositions de cette scène tendue.
- steps : 35.
  - Rôle : Nombre de pas de calcul.
  - Raison : Valeur standard suffisante pour cette scène moins texturée.
- cfg : 4.0.
  - Rôle : Adhérence au prompt.
  - Raison : Une valeur basse pour un réalisme cru, presque brutal, en accord avec le sujet.
- sampler_name : dpmpp_2m_sde.
  - Rôle : Algorithme de génération.
  - Raison : Recommandé pour Juggernaut Ragnarok (KandooAI, 2024).
- scheduler : karras.
  - Rôle : Gestion du bruit.
  - Raison : Assure une convergence de qualité.
- denoise : 1.0.
  - Rôle : Génération à partir de zéro.
  - Raison : Standard pour le text-to-image.

Paire 5 : La Complicité Silencieuse

Thème : Un moment de connexion non verbale, une intimité qui se passe de mots.
Contexte : Un couple partageant une tâche simple à la fin de la journée.

Prompt Positif :

(masterpiece, best quality, ultra realistic, high detail, sharp focus), (film photography style:1.5), medium grain, a quiet portrait of a couple sharing a moment of silent complicity. The nude man and woman are sitting at a simple wooden table. He is sharpening a tool with a whetstone, she is mending a piece of linen. A single oil lamp between them casts a pool of warm light, leaving the rest of the room in deep shadow. They are focused on their tasks, but a subtle, shared glance passes between them. The mood is peaceful, intimate, and deeply connected.

Prompt Négatif :

painting, illustration, drawing, sketch, cartoon, anime, 3d, cgi. deformed, bad anatomy, blurry. modern, talking, laughing, arguing, distracted, idle. bright lighting, daylight.

Justification : Ce prompt cherche à capturer une forme d’intimité plus subtile, née de la routine et de la vie partagée. Les tâches (aiguiser un outil, raccommoder du linge) sont des activités quotidiennes plausibles (RECITS, s.d.). L’élément clé est « un regard subtil et partagé passe entre eux », suggérant une communication et une affection qui n’ont pas besoin d’être verbalisées, un répit dans une vie de labeur.

Paramètres Recommandés

LoRA Settings :
- add-detail-xl : weight = 0.8.
  - Rôle : Met en valeur la texture du lin, de la pierre à aiguiser et du bois de la table.
  - Raison : Un poids assez élevé pour que les objets du quotidien aient une présence tangible.
- Chiaroscuro Lighting Style v1 : weight = 0.8.
  - Rôle : Crée un éclairage chaleureux et concentré de la lampe à huile.
  - Raison : Poids élevé pour un effet « cocon de lumière » qui isole le couple dans son intimité.
- Hand v2 : weight = 1.0.
  - Rôle : Correction des mains.
  - Raison : Crucial car les mains sont au centre de l’action (aiguisage, couture).
- SDXL_FILM_PHOTOGRAPHY_STYLE_V1 : weight = 0.8.
  - Rôle : Applique une esthétique de film.
  - Raison : Poids standard pour un rendu doux et photographique.
Empty Latent Image Node :
- width : 1216, height : 832.
  - Rôle : Définit la résolution de départ.
  - Raison : Format horizontal pour une scène de table, permettant de voir les deux personnages et leurs actions.
KSampler Node :
- seed / control_after_generate : randomize.
  - Rôle : Génère une nouvelle image à chaque fois.
  - Raison : Pour varier les physionomies et les petits détails de la scène.
- steps : 35.
  - Rôle : Nombre de pas de calcul.
  - Raison : Valeur standard pour un bon équilibre qualité/vitesse.
- cfg : 5.5.
  - Rôle : Adhérence au prompt.
  - Raison : Légèrement plus élevé pour s’assurer que le « regard partagé » soit bien interprété par le modèle.
- sampler_name : dpmpp_2m_sde.
  - Rôle : Algorithme de génération.
  - Raison : Recommandé pour Juggernaut Ragnarok (KandooAI, 2024).
- scheduler : karras.
  - Rôle : Gestion du bruit.
  - Raison : Assure une convergence de qualité.
- denoise : 1.0.
  - Rôle : Génération à partir de zéro.
  - Raison : Standard pour le text-to-image.

Paire 6 : Le Retour du Voyageur

Thème : Les retrouvailles après une longue absence, mêlant soulagement, désir et une certaine étrangeté.
Contexte : Un coureur des bois ou un soldat rentre chez lui après des mois d’absence.

Prompt Positif :

(masterpiece, best quality, ultra realistic, high detail, sharp focus), (film photography style:1.5), heavy grain, a portrait of a coureur des bois returning to his wife. He is rugged, bearded, still wearing parts of his leather and fur clothing, his body hardened by the wilderness. She is nude, having just emerged from the shadows of their dark log cabin to greet him. The light from the open doorway silhouettes them, creating a dramatic Rembrandt lighting effect. He reaches for her, his expression a mix of longing and exhaustion. She looks at him with relief, but also as if reacquainting herself with a stranger.

Prompt Négatif :

painting, illustration, drawing, sketch, cartoon, anime, 3d, cgi. deformed, bad anatomy, blurry. modern, clean-shaven, well-dressed, smiling, casual greeting. indoor lighting, bright room.

Justification : Ce prompt explore la dynamique des couples séparés par les nécessités économiques ou militaires, comme les coureurs des bois (Fournier, 2021). L’homme est décrit comme « robuste, barbu… durci par la nature sauvage » pour contraster avec l’espace domestique. L’expression de la femme (« le regarde avec soulagement, mais aussi comme si elle se familiarisait à nouveau avec un étranger ») capture la complexité émotionnelle de ces retrouvailles, qui ne sont pas de simples explosions de joie.

Paramètres Recommandés

LoRA Settings :
- add-detail-xl : weight = 0.8.
  - Rôle : Souligne les textures du cuir, de la fourrure et de la peau burinée de l’homme.
  - Raison : Le contraste des textures entre l’homme « sauvage » et l’intérieur domestique est clé.
- Chiaroscuro Lighting Style v1 : weight = 0.9.
  - Rôle : Crée un contre-jour puissant depuis la porte ouverte.
  - Raison : Poids élevé pour un effet de silhouette et un éclairage Rembrandt dramatique sur les visages.
- Hand v2 : weight = 1.0.
  - Rôle : Correction des mains.
  - Raison : Poids maximal pour une correction fiable.
- SDXL_FILM_PHOTOGRAPHY_STYLE_V1 : weight = 0.8.
  - Rôle : Applique une esthétique de film.
  - Raison : Poids standard pour un rendu photographique authentique.
Empty Latent Image Node :
- width : 832, height : 1216.
  - Rôle : Définit la résolution de départ.
  - Raison : Format vertical idéal pour une scène de porte, encadrant les deux personnages.
KSampler Node :
- seed / control_after_generate : randomize.
  - Rôle : Génère une nouvelle image à chaque fois.
  - Raison : Pour varier les personnages et l’intensité de la lumière.
- steps : 35.
  - Rôle : Nombre de pas de calcul.
  - Raison : Valeur standard pour un bon équilibre qualité/vitesse.
- cfg : 5.0.
  - Rôle : Adhérence au prompt.
  - Raison : Valeur moyenne pour bien capturer les émotions complexes demandées.
- sampler_name : dpmpp_2m_sde.
  - Rôle : Algorithme de génération.
  - Raison : Recommandé pour Juggernaut Ragnarok (KandooAI, 2024).
- scheduler : karras.
  - Rôle : Gestion du bruit.
  - Raison : Assure une convergence de qualité.
- denoise : 1.0.
  - Rôle : Génération à partir de zéro.
  - Raison : Standard pour le text-to-image.

Paire 7 : La Prière du Soir

Thème : La foi partagée comme pilier de l’union et de la vie quotidienne.
Contexte : Un couple en prière avant de se coucher.

Prompt Positif :

(masterpiece, best quality, ultra realistic, high detail, sharp focus), (film photography style:1.5), light grain, a pious, intimate portrait of a couple praying before bed. The nude man and woman are kneeling side-by-side next to their simple bed. A single candle on a nearby chest illuminates their faces and upper bodies from below, casting long shadows on the wall behind them. Their eyes are closed, hands clasped in prayer. A wooden crucifix hangs on the wall. The atmosphere is one of shared faith, quiet devotion, and vulnerability before God. Inspired by Georges de La Tour’s religious paintings.

Prompt Négatif :

painting, illustration, drawing, sketch, cartoon, anime, 3d, cgi. deformed, bad anatomy, blurry. modern, secular, talking, sleeping, arguing. bright room, electric light.

Justification : La religion catholique est au cœur de la vie en Nouvelle-France (Jaenen, 1967). Ce prompt vise à représenter la foi comme un élément structurant de l’intimité du couple. L’éclairage par le bas (« illuminés par en dessous ») est un choix stylistique qui ajoute au drame et au recueillement, rappelant les scènes de saints de La Tour (Thuillier, 2013). La présence du « crucifix en bois » ancre la scène dans son contexte religieux.

Paramètres Recommandés

LoRA Settings :
- add-detail-xl : weight = 0.6.
  - Rôle : Ajoute un léger détail sans distraire de l’ambiance spirituelle.
  - Raison : L’accent est mis sur l’émotion et la lumière, pas sur la texture.
- Chiaroscuro Lighting Style v1 : weight = 0.8.
  - Rôle : Crée l’éclairage ascendant de la bougie.
  - Raison : Poids élevé pour un effet dramatique et pieux, avec de longues ombres portées.
- Hand v2 : weight = 1.0.
  - Rôle : Correction des mains.
  - Raison : Essentiel car les mains en prière sont un point focal de l’image.
- SDXL_FILM_PHOTOGRAPHY_STYLE_V1 : weight = 0.8.
  - Rôle : Applique une esthétique de film.
  - Raison : Le light grain et le poids standard créent une image douce et respectueuse.
Empty Latent Image Node :
- width : 832, height : 1216.
  - Rôle : Définit la résolution de départ.
  - Raison : Format vertical adapté à la posture agenouillée et à l’élévation spirituelle.
KSampler Node :
- seed / control_after_generate : randomize.
  - Rôle : Génère une nouvelle image à chaque fois.
  - Raison : Pour varier les physionomies et l’angle de la lumière.
- steps : 35.
  - Rôle : Nombre de pas de calcul.
  - Raison : Valeur standard pour un bon équilibre qualité/vitesse.
- cfg : 5.0.
  - Rôle : Adhérence au prompt.
  - Raison : Valeur moyenne pour bien capturer l’ambiance de dévotion.
- sampler_name : dpmpp_2m_sde.
  - Rôle : Algorithme de génération.
  - Raison : Recommandé pour Juggernaut Ragnarok (KandooAI, 2024).
- scheduler : karras.
  - Rôle : Gestion du bruit.
  - Raison : Assure une convergence de qualité.
- denoise : 1.0.
  - Rôle : Génération à partir de zéro.
  - Raison : Standard pour le text-to-image.

Paire 8 : Le Secret de l’Alcofôve

Thème : La transgression, l’adultère et le désir coupable.
Contexte : Une scène suggérant une relation illicite, où l’un des partenaires est marié.

Prompt Positif :

(masterpiece, best quality, ultra realistic, high detail, sharp focus), (film photography style:1.5), heavy grain, a tense, erotic portrait of a clandestine couple. A nude woman and a partially dressed man (wearing only his chemise) are in a hurried, fearful embrace in a dark room, perhaps a barn or an attic. A sliver of moonlight from a crack in the wall provides a harsh, revealing light. Their expressions are a mix of passion and acute fear of being discovered. The shadows are deep and conspiratorial. The scene hints at adultery, a forbidden act in the rigid society of New France.

Prompt Négatif :

painting, illustration, drawing, sketch, cartoon, anime, 3d, cgi. deformed, bad anatomy, blurry. married couple, safe, relaxed, public, daylight, innocent, serene.

Justification : S’appuyant sur les archives judiciaires qui font état de relations extraconjugales (Séguin, 2017), ce prompt explore le thème de la transgression. Le lieu (« une grange ou un grenier ») et la lumière (« une fente de clair de lune ») renforcent le caractère clandestin de la rencontre. Les émotions (« passion et peur aiguë d’être découvert ») sont au cœur de la scène, créant une tension narrative et psychologique.

Paramètres Recommandés

LoRA Settings :
- add-detail-xl : weight = 0.7.
  - Rôle : Ajoute du détail aux textures environnantes (paille, bois brut).
  - Raison : Poids modéré pour garder le focus sur les personnages et l’ambiance.
- Chiaroscuro Lighting Style v1 : weight = 0.9.
  - Rôle : Crée un éclairage très directionnel et dur, comme un rayon de lune.
  - Raison : Poids maximal pour des ombres très sombres (conspiratorial) et un contraste élevé qui souligne le danger.
- Hand v2 : weight = 1.0.
  - Rôle : Correction des mains.
  - Raison : Poids maximal pour une correction fiable.
- SDXL_FILM_PHOTOGRAPHY_STYLE_V1 : weight = 0.8.
  - Rôle : Applique une esthétique de film.
  - Raison : Le heavy grain renforce l’aspect « volé » et brut de la scène.
Empty Latent Image Node :
- width : 1216, height : 832.
  - Rôle : Définit la résolution de départ.
  - Raison : Format horizontal adapté à une scène d’étreinte.
KSampler Node :
- seed / control_after_generate : randomize.
  - Rôle : Génère une nouvelle image à chaque fois.
  - Raison : Pour varier les poses et l’intensité de l’émotion.
- steps : 40.
  - Rôle : Nombre de pas de calcul.
  - Raison : Un peu plus de pas pour bien définir la lumière complexe et les expressions faciales.
- cfg : 4.5.
  - Rôle : Adhérence au prompt.
  - Raison : Valeur assez basse pour un réalisme qui accentue la tension.
- sampler_name : dpmpp_2m_sde.
  - Rôle : Algorithme de génération.
  - Raison : Recommandé pour Juggernaut Ragnarok (KandooAI, 2024).
- scheduler : karras.
  - Rôle : Gestion du bruit.
  - Raison : Assure une convergence de qualité.
- denoise : 1.0.
  - Rôle : Génération à partir de zéro.
  - Raison : Standard pour le text-to-image.

Paire 9 : Le Fardeau de la Stérilité

Thème : La pression sociale et la détresse d’un couple sans enfant dans une société obsédée par la procréation.
Contexte : Un couple mûr, seul, dans le silence de leur maison.

Prompt Positif :

(masterpiece, best quality, ultra realistic, high detail, sharp focus), (film photography style:1.5), medium grain, a somber portrait of a childless couple in their 40s. They are nude, sitting apart on opposite sides of their cold hearth. The fire is out, the only light is a weak, grey light from a small window. The space between them feels vast and heavy. Her expression is one of deep sorrow and shame; his is one of frustration and quiet despair. Their bodies are weathered by years of work, but their home is silent. The mood is one of unspoken grief and social failure.

Prompt Négatif :

painting, illustration, drawing, sketch, cartoon, anime, 3d, cgi. deformed, bad anatomy, blurry. young couple, with children, happy, smiling, warm, comfortable. bright fire, candlelight.

Justification : Dans une colonie où la fertilité était primordiale, l’incapacité à avoir des enfants était une source de honte et de mépris social, souvent imputée à la femme (Gagnon, 2018). Ce prompt vise à capturer cette détresse. Le « foyer froid » et la « lumière grise et faible » sont des métaphores visuelles de leur situation. La distance physique entre eux (« assis séparément ») et leurs expressions (« profond chagrin et honte », « frustration et désespoir silencieux ») traduisent le poids de cet « échec social ».

Paramètres Recommandés

LoRA Settings :
- add-detail-xl : weight = 0.8.
  - Rôle : Souligne les marques de l’âge et du travail sur leurs corps.
  - Raison : Le détail physique renforce le sentiment d’une vie de labeur sans la « récompense » des enfants.
- Chiaroscuro Lighting Style v1 : weight = 0.7.
  - Rôle : Crée un éclairage plat et triste.
  - Raison : Un poids plus faible pour éviter le drame et favoriser une lumière grise et sans relief, accentuant le désespoir.
- Hand v2 : weight = 1.0.
  - Rôle : Correction des mains.
  - Raison : Poids maximal pour une correction fiable.
- SDXL_FILM_PHOTOGRAPHY_STYLE_V1 : weight = 0.8.
  - Rôle : Applique une esthétique de film.
  - Raison : Poids standard pour un rendu photographique sobre.
Empty Latent Image Node :
- width : 1216, height : 832.
  - Rôle : Définit la résolution de départ.
  - Raison : Le format horizontal accentue la distance et l’espace vide entre les deux personnages.
KSampler Node :
- seed / control_after_generate : randomize.
  - Rôle : Génère une nouvelle image à chaque fois.
  - Raison : Pour explorer différentes expressions de chagrin et de distance.
- steps : 35.
  - Rôle : Nombre de pas de calcul.
  - Raison : Valeur standard pour un bon équilibre qualité/vitesse.
- cfg : 4.0.
  - Rôle : Adhérence au prompt.
  - Raison : Une valeur basse pour un réalisme sans fard, presque documentaire.
- sampler_name : dpmpp_2m_sde.
  - Rôle : Algorithme de génération.
  - Raison : Recommandé pour Juggernaut Ragnarok (KandooAI, 2024).
- scheduler : karras.
  - Rôle : Gestion du bruit.
  - Raison : Assure une convergence de qualité.
- denoise : 1.0.
  - Rôle : Génération à partir de zéro.
  - Raison : Standard pour le text-to-image.

Paire 10 : La Tendresse d’une Vie

Thème : L’affection et la complicité qui peuvent naître d’une vie entière passée ensemble.
Contexte : Un couple âgé, partageant un moment de tendresse simple et pudique.

Prompt Positif :

(masterpiece, best quality, ultra realistic, high detail, sharp focus), (film photography style:1.5), heavy grain, a powerful portrait of an elderly couple. They are nude, sitting on the edge of their bed, the room lit by the soft morning light from a window (natural Rembrandt lighting). His aged, wrinkled hand rests gently on her sagging shoulder. Their bodies show a lifetime of hardship, but their expressions are serene. He looks at her with a deep, quiet affection born of decades together. She offers a small, tired smile. The nudity is one of acceptance and shared history, not provocation.

Prompt Négatif :

painting, illustration, drawing, sketch, cartoon, anime, 3d, cgi. deformed, bad anatomy, blurry. young, smooth skin, firm bodies, beautiful, glamorous, passionate, sexualized. dark room, night.

Justification : Ce prompt offre une vision de l’amour qui n’est pas la passion initiale, mais le produit du temps et des épreuves partagées. Les détails physiques (« main ridée », « épaule affaissée », « corps montrant une vie de difficultés ») sont essentiels pour l’authenticité. L’interaction est un geste simple mais profond : « sa main repose doucement sur son épaule ». Leurs expressions (« affection profonde et tranquille », « petit sourire fatigué ») suggèrent une relation apaisée, une complicité qui a survécu à tout.

Paramètres Recommandés

LoRA Settings :
- add-detail-xl : weight = 1.0.
  - Rôle : Maximise les détails de la peau âgée (rides, taches, texture).
  - Raison : Le poids maximal est ici pour célébrer les marques du temps comme une carte de leur vie partagée.
- Chiaroscuro Lighting Style v1 : weight = 0.7.
  - Rôle : Crée une lumière douce et naturelle venant de la fenêtre.
  - Raison : Un poids modéré pour un effet Rembrandt naturel et doux, qui évoque la sérénité plutôt que le drame.
- Hand v2 : weight = 1.0.
  - Rôle : Correction des mains.
  - Raison : Essentiel pour le réalisme de la main de l’homme, un point focal de la tendresse.
- SDXL_FILM_PHOTOGRAPHY_STYLE_V1 : weight = 0.8.
  - Rôle : Applique une esthétique de film.
  - Raison : Le heavy grain ajoute une texture intemporelle, comme une vieille photographie de famille.
Empty Latent Image Node :
- width : 832, height : 1216.
  - Rôle : Définit la résolution de départ.
  - Raison : Format vertical pour un portrait intime du couple assis.
KSampler Node :
- seed / control_after_generate : randomize.
  - Rôle : Génère une nouvelle image à chaque fois.
  - Raison : Pour trouver la composition et l’expression parfaites qui incarnent cette tendresse.
- steps : 40.
  - Rôle : Nombre de pas de calcul.
  - Raison : Un nombre de pas plus élevé pour bien rendre les détails complexes de la peau âgée.
- cfg : 5.0.
  - Rôle : Adhérence au prompt.
  - Raison : Valeur moyenne pour un équilibre entre réalisme et la douceur de l’émotion.
- sampler_name : dpmpp_2m_sde.
  - Rôle : Algorithme de génération.
  - Raison : Recommandé pour Juggernaut Ragnarok (KandooAI, 2024).
- scheduler : karras.
  - Rôle : Gestion du bruit.
  - Raison : Assure une convergence de qualité.
- denoise : 1.0.
  - Rôle : Génération à partir de zéro.
  - Raison : Standard pour le text-to-image.

Conclusion : Une Mosaïque de l’Intimité

En déplaçant notre regard vers le couple, ce projet révèle une nouvelle couche de complexité dans la réalité de la Nouvelle-France. L’intimité n’y est pas un idéal romantique, mais une construction quotidienne, un équilibre précaire entre la domination et le partenariat, le devoir et l’affection, la foi et la transgression. La relation hétérosexuelle, pilier de la colonie, est un microcosme où se jouent toutes les tensions d’une société en construction.

La recherche a mis en lumière la dualité des rôles : l’homme, figure d’autorité et travailleur de force ; la femme, subordonnée mais partenaire économique indispensable. Leur union est un contrat de survie, mais aussi un espace où peuvent naître, au fil d’une vie de labeur partagé, des formes de tendresse et de complicité profondes.

La méthodologie technique, éprouvée et précise, reste un outil puissant pour donner corps à ces réalités. Les prompts et paramètres détaillés dans ce rapport sont conçus pour explorer toute la gamme de ces dynamiques de couple, des moments de tension aux instants de grâce silencieuse. Ils invitent à créer des images qui ne se contentent pas de représenter des corps dans un décor, mais qui racontent l’histoire complexe et souvent non écrite de deux vies entrelacées, sculptées par la lumière crue d’une seule flamme dans l’immensité du Nouveau Monde.

Bibliographie

Bosse, A. (c. 1633). Le mari qui bat sa femme [Gravure]. Bibliothèque nationale de France, Paris, France.

Digital Museums Canada. (s.d.). A l’intérieur d’une pièce, les peaux étaient placées fourrure contre fourrure. Repéré à https://digital.library.mcgill.ca/nwc/french/history/01b.htm

Dufresne, A. (2021). L’honneur féminin à Montréal à travers les archives judiciaires (1698-1756). [Mémoire de maîtrise, Université de Montréal]. Papyrus.

Fournier, M. (2021, 12 avril). La figure littéraire du coureur des bois. Revue Les libraires. Repéré à https://revue.leslibraires.ca/articles/sur-le-livre/la-figure-litteraire-du-coureur-des-bois/

Gagnon, F. (2018). La Mère de famille. The French-Canadian Genealogist. Repéré à https://www.tfcg.ca/mere-de-famille-nouvelle-france

Gousse, S. (2021, 21 janvier). L’habillement à la canadienne en Nouvelle-France [Vidéo]. YouTube. https://www.youtube.com/watch?v=p_yoEgdGzUE

Jaenen, C. J. (1967). The Role of the Church in New France. McGraw-Hill Ryerson.

KandooAI. (2024). Juggernaut XL. Tensor.art. Repéré à https://tensor.art/models/860635972000347893

Lachance, A. (2007). Séduction, amour et mariages en Nouvelle-France. Libre Expression.

Les Enfants du Patrimoine. (s.d.). Le costume paysan. Repéré à https://www.les-enfants-du-patrimoine.fr/uploads/media/document/0001/03/0c701f3528cfb832574cdd79a33715d57753674e.pdf

MAD. (2018). Chronologie de la mode 1715-1914. Repéré à https://madparis.fr/Chronologie-de-la-mode-1715-1914

Musée canadien de l’histoire. (s.d.). Groupes sociaux. Musée virtuel de la Nouvelle-France. Repéré à https://www.museedelhistoire.ca/musee-virtuel-de-la-nouvelle-france/population/groupes-sociaux/

Pinsonneault, D. (2018). Les Filles du roi. Société d’histoire des Filles du Roy.

RECITS. (s.d.). À chacun ses corvées. Service national du Récit de l’univers social. Repéré à https://primaire.recitus.qc.ca/sujet/organisation/nouvelle-france-1745/content/a-chacun-ses-corvees

Séguin, R.-L. (2017). La vie libertine en Nouvelle-France au XVIIe siècle. (Original publié en 1972). Septentrion.

Thuillier, J. (2013). Georges de La Tour. Flammarion.

Turcot, L. (2018, 26 novembre). URBANUIT : LA NOUVELLE-FRANCE XXX. Urbania. Repéré à https://urbania.ca/article/urbanuit-la-nouvelle-france-xxx

juillet 26, 2025

Étiquette : ComfyUI

Création d’un Modèle LoRA pour le CF-104 Starfighter dans ComfyUI : Guide Complet et Bonnes Pratiques

1. Introduction au Fine-Tuning LoRA et ComfyUI

Qu’est-ce qu’un LoRA et pourquoi est-il idéal pour des objets spécifiques comme le CF-104?

Vue d’ensemble de l’environnement ComfyUI pour l’entraînement de modèles

2. Préparation du Jeu de Données (Dataset) pour le CF-104 Starfighter

Collecte d’images de haute qualité : quantité, résolution et diversité (angles, éclairage, arrière-plans)

Bonnes pratiques spécifiques aux objets mécaniques et avions

Utilisation d’images avec arrière-plans transparents (canal alpha)

Tableau : Recommandations pour le Dataset du CF-104 (Quantité, Résolution, Variété)

3. Légendage (Captioning) des Images : Stratégies Avancées

Importance du légendage précis pour les détails techniques du CF-104

Utilisation de mots-clés (Trigger Words) et de descriptions naturelles

Outils de légendage automatique et conseils pour la révision manuelle

4. Configuration du Workflow d’Entraînement LoRA dans ComfyUI

Installation des nœuds personnalisés essentiels (ex: Flux Trainer, Lora-Training-in-Comfy)

Présentation détaillée des nœuds clés : Dataset, Settings & Init, et Training (FluxTrainLoop, FluxTrainSave, FluxTrainValidate)

Configuration des répertoires d’entrée et de sortie

5. Optimisation des Hyperparamètres pour un LoRA d’Objet

Comprendre network_dim (Rank) et network_alpha : leur impact sur la taille, la fidélité et la flexibilité du modèle

Réglage du taux d’apprentissage (learning_rate) et choix de l’optimiseur

Gestion des étapes d’entraînement (epochs, repeats) et de la taille de lot (batch_size)

Stratégies d’augmentation de données (augmentation des couleurs, retournement horizontal)

Tableau : Hyperparamètres Clés et Leurs Effets pour l’Entraînement d’Objets

6. Prévention et Résolution de l’Overfitting et de l’Underfitting

Identification des signes d’overfitting (sur-apprentissage) et d’underfitting (sous-apprentissage) pour des objets complexes

Techniques pour améliorer la généralisation du modèle (dataset de régularisation, ajustement des paramètres)

7. Évaluation et Raffinement Itératif du Modèle LoRA

Méthodes d’évaluation visuelle des résultats générés

Test du modèle avec des prompts variés et des seeds fixes pour évaluer la cohérence et la flexibilité

Analyse de la perte (loss) et des images de validation pour suivre la progression

Conseils pour l’amélioration continue du modèle LoRA

8. Conclusion et Prochaines Étapes

Bibliographie

Création de prompts ComfyUI : Nouvelle-France sensuelle

Introduction : Un Nouveau Chapitre d’Exploration Visuelle

Partie I : Le Contexte – L’Homme, la Femme et l’Union en Nouvelle-France

A. L’Homme de la Nouvelle-France : Pilier et Pourvoyeur

Le Corps et le Labeur

Le Costume et l’Apparence

Le Rôle de Pater Familias

B. La Nature de l’Union Conjugale : Entre Contrat et Affection

Un Partenariat pour la Survie

La Hiérarchie du Couple

L’Intimité et la Sexualité

Partie II : La Méthode – Cadre Artistique et Technique

Tableau 1 : Composants Techniques et Syntaxe de Prompting (Rappel)

Partie III : Le Compendium – Une Série de 20 Prompts pour les Couples de la Nouvelle-France

Paire 1 : La Nuit de Noces

Paire 2 : Le Repos du Laboureur

Paire 3 : La Chaleur de l’Hiver

Paire 4 : Le Droit de Correction

Paire 5 : La Complicité Silencieuse

Paire 6 : Le Retour du Voyageur

Paire 7 : La Prière du Soir

Paire 8 : Le Secret de l’Alcofôve

Paire 9 : Le Fardeau de la Stérilité

Paire 10 : La Tendresse d’une Vie

Conclusion : Une Mosaïque de l’Intimité

Bibliographie

Comprendre `network_dim` (Rank) et `network_alpha` : leur impact sur la taille, la fidélité et la flexibilité du modèle

Réglage du taux d’apprentissage (`learning_rate`) et choix de l’optimiseur

Gestion des étapes d’entraînement (`epochs`, `repeats`) et de la taille de lot (`batch_size`)

Analyse de la perte (`loss`) et des images de validation pour suivre la progression