Auteur : Steve Prud’Homme
Cet article a été généré grâce à l’aide de plusieurs outils d’intelligence artificielle.
Résumé
Ce rapport détaille la méthodologie pour créer un modèle LoRA (Low-Rank Adaptation) précis du CF-104 Starfighter dans ComfyUI, une interface visuelle basée sur des nœuds. Le processus débute par la préparation d’un jeu de données d’images de haute qualité (20-40 images, 512×512 pixels), variées en angles, éclairage et arrière-plans, avec une attention particulière aux détails mécaniques de l’avion. L’utilisation d’images avec arrière-plans transparents est possible mais nécessite une gestion spécifique par l’outil d’entraînement pour éviter les problèmes de généralisation. Le légendage précis des images est crucial, en omettant les caractéristiques fixes de l’avion et en incluant les éléments variables, tout en utilisant un mot-clé de déclenchement unique. La configuration du workflow dans ComfyUI implique l’installation de nœuds personnalisés comme « ComfyUI-FluxTrainer » et la bonne organisation des répertoires d’entrée et de sortie. L’optimisation des hyperparamètres est essentielle, notamment network_dim (64-128 pour le réalisme) et network_alpha (généralement la moitié de dim), le taux d’apprentissage (0.0001-0.0004), le nombre d’epochs et de répétitions, et la taille de lot, en utilisant des stratégies d’augmentation de données comme le retournement horizontal. Pour prévenir le sur-apprentissage (overfitting) ou le sous-apprentissage (underfitting), des ajustements de ces paramètres et l’utilisation d’un jeu de données de régularisation sont recommandés. Enfin, l’évaluation et le raffinement itératif du modèle sont réalisés par inspection visuelle des images générées, des tests avec des prompts variés et des seeds fixes, et l’analyse des courbes de perte, soulignant l’importance de la patience et de l’expérimentation continue pour obtenir un LoRA performant et polyvalent.
Mots-clés : LoRA, ComfyUI, CF-104 Starfighter, Fine-tuning, Modèle génératif, Stable Diffusion, Jeu de données, Images de haute qualité, Légendage, Mots-clés, Hyperparamètres, network_dim, network_alpha, Taux d’apprentissage, Overfitting, Underfitting, Régularisation, Évaluation de modèle, Intelligence artificielle.
1. Introduction au Fine-Tuning LoRA et ComfyUI
Qu’est-ce qu’un LoRA et pourquoi est-il idéal pour des objets spécifiques comme le CF-104?
Le Low-Rank Adaptation (LoRA) constitue une technique de fine-tuning hautement efficace, conçue pour adapter de grands modèles génératifs, tels que Stable Diffusion, à des tâches spécifiques. Cette méthode se distingue par sa capacité à modifier une fraction minime des paramètres du modèle pré-entraîné, en introduisant des matrices de faible rang. Cette approche réduit considérablement les exigences computationnelles et de stockage par rapport au réentraînement complet du modèle de base (ArXiv, 2025c; Cloudflare, s. d.; RunDiffusion, 2025b; SeaArt Guide, 2025a).
Les modèles LoRA sont intrinsèquement plus compacts et plus simples à entraîner que leurs homologues de base (Cloudflare, s. d.; SeaArt Guide, 2025a). Cette caractéristique permet une personnalisation ciblée du modèle pour des applications précises, comme la génération d’un objet distinctif tel que le CF-104 Starfighter, sans altérer le modèle fondamental (Cloudflare, s. d.; RunDiffusion, 2025b; SeaArt Guide, 2025a).
Le CF-104 Starfighter est un objet de niche et complexe, et un modèle Stable Diffusion générique pourrait ne pas le rendre avec la précision ou la cohérence souhaitées en raison de sa représentation potentiellement limitée dans les données d’entraînement du modèle de base. La capacité fondamentale de LoRA à adapter un modèle large à des contextes spécifiques et nouveaux, sans les coûts prohibitifs d’un réentraînement complet, le rend exceptionnellement adapté à une telle entreprise. Cette méthodologie permet au modèle d’acquérir une compréhension approfondie des caractéristiques uniques du Starfighter tout en conservant les vastes capacités génératives du modèle de base pour la création de scènes et de styles variés. En substance, cette approche permet d’enseigner au modèle l’apparence exacte d’un Starfighter sans qu’il soit nécessaire de lui réapprendre de zéro ce qu’est un « avion ».
Vue d’ensemble de l’environnement ComfyUI pour l’entraînement de modèles
ComfyUI est une interface utilisateur basée sur des nœuds, offrant une approche visuelle pour la construction de workflows complexes (ComfyUI Documentation, s. d.a; Stable Diffusion Art, 2025a). Chaque nœud au sein de ComfyUI exécute une fonction spécifique, et les connexions filaires entre ces nœuds définissent le flux logique du processus (ComfyUI Documentation, s. d.a; Stable Diffusion Art, 2025a).
Pour l’entraînement de modèles LoRA, ComfyUI peut être étendu par l’intégration de nœuds personnalisés. Ces extensions incluent des solutions basées sur des backends tels que Kohya-ss (SeaArt Guide, 2025a), ou des systèmes intégrés comme « Lora-Training-in-Comfy » (runcomfy.com, 2024) et « ComfyUI-FluxTrainer » (Geekatplay, s. d.b; RunComfy, 2025).
L’architecture basée sur les nœuds de ComfyUI favorise intrinsèquement la modularité et l’expérimentation. Pour l’entraînement LoRA, cela signifie que les utilisateurs peuvent facilement interchanger différents composants, tels que les nœuds de préparation de jeu de données, les boucles d’entraînement ou les méthodes de validation. Cette flexibilité inhérente est particulièrement avantageuse lors du fine-tuning de sujets complexes comme le CF-104, car elle facilite l’itération rapide et l’analyse comparative de diverses stratégies d’entraînement et configurations d’hyperparamètres (RunComfy, 2025). La capacité à construire des workflows spécifiquement pour comparer différents paramètres soutient directement le processus itératif nécessaire pour atteindre une performance optimale du modèle.
2. Préparation du Jeu de Données (Dataset) pour le CF-104 Starfighter
Collecte d’images de haute qualité : quantité, résolution et diversité (angles, éclairage, arrière-plans)
La qualité du jeu de données est un facteur déterminant pour l’efficacité de l’entraînement d’un modèle LoRA (RunDiffusion, 2025b; SeaArt Guide, 2025a). Il est impératif d’utiliser des images de haute résolution, d’une netteté impeccable, bien éclairées et exemptes de tout artefact ou filtre (RunDiffusion, 2025b; SeaArt Guide, 2025a).
Pour un objet précis tel que le CF-104, un jeu de données de 10 à 25 images de haute qualité est généralement suffisant, bien que des recommandations plus larges de 20 à 40 images soient souvent citées pour des objets ou des caractères en général (Reddit, 2024e; RunDiffusion, 2025b; SeaArt Guide, 2025a). Il est important de noter que la quantité d’images ne garantit pas nécessairement une meilleure qualité ; un jeu de données plus restreint mais méticuleusement organisé est préférable à un ensemble volumineux de faible qualité (Reddit, 2024e; SeaArt Guide, 2025a).
La résolution des images doit être adaptée au modèle de base employé. Pour les modèles Flux, une résolution de 512×512 pixels est conseillée, tandis que pour les modèles SDXL, une résolution de 1024×1024 est recommandée (RunDiffusion, 2025b; SeaArt Guide, 2025a).
La diversité des images est cruciale pour assurer la capacité de généralisation du modèle. Dans le cas du CF-104, cela implique d’inclure des images sous une multitude d’angles (vues de face, de côté, de l’arrière, trois-quarts, de dessus, de dessous), avec de subtiles variations de pose (par exemple, train d’atterrissage déployé ou rétracté, volets ajustés), et sous diverses conditions d’éclairage (lumière du jour, nocturne, aube/crépuscule) (Reddit, 2024e; RunDiffusion, 2025b).
Pour les objets mécaniques comme les aéronefs, la complexité géométrique et les états opérationnels (par exemple, l’entrée d’air du moteur, l’échappement, le train d’atterrissage, la verrière du cockpit, les réservoirs de bout d’aile) sont primordiaux. Par conséquent, l’exigence de « différents angles » pour le CF-104 s’étend au-delà des simples vues de face/côté pour englober une représentation complète à 360 degrés sur plusieurs axes (tangage, roulis, lacet) et diverses configurations fonctionnelles (par exemple, stationné, en vol, au décollage/atterrissage) (Reddit, 2024e). Cette couverture angulaire détaillée est essentielle pour que le modèle génère l’aéronef de manière réaliste sous n’importe quelle perspective souhaitée, contribuant directement à la précision du LoRA résultant.
L’utilisation d’arrière-plans variés (intérieurs de hangar, pistes d’atterrissage, ciel, paysages diversifiés) est essentielle pour que le modèle apprenne à isoler l’objet (le CF-104) plutôt que de mémoriser un environnement statique (RunDiffusion, 2025b). Cette pratique, qui consiste à utiliser des arrière-plans variés, est une stratégie fondamentale pour atténuer le sur-apprentissage aux contextes environnementaux (RunDiffusion, 2025b). Pour un aéronef tel que le CF-104, cette considération est particulièrement pertinente. Si les données d’entraînement ne présentent l’aéronef que sur un tarmac, le LoRA pourrait montrer des limitations dans sa capacité à le générer en vol ou dans des environnements alternatifs. En diversifiant les arrière-plans, le modèle est contraint d’apprendre les caractéristiques intrinsèques du CF-104, améliorant ainsi sa robustesse et sa flexibilité pour des générations futures dans des contextes variés. Cette adaptabilité est une caractéristique distinctive d’un LoRA de haute qualité et généralisable.
Avant de procéder à l’entraînement, il est impératif de supprimer toutes les images dupliquées ou quasi-dupliquées, le contenu flou ou non pertinent, ainsi que les superpositions ou filigranes (RunDiffusion, 2025b).
Bonnes pratiques spécifiques aux objets mécaniques et avions
Il est impératif que le sujet principal, le CF-104, soit clairement visible et non obstrué dans l’intégralité des images (RunDiffusion, 2025b). Le jeu de données doit impérativement représenter un concept unique : il ne doit contenir que des images du CF-104 Starfighter, sans y inclure d’autres types d’avions ou d’objets (RunDiffusion, 2025b). La clarté et la cohérence du sujet sont des facteurs déterminants qui garantiront l’efficacité du LoRA et sa réactivité aux prompts (RunDiffusion, 2025b).
Contrairement aux sujets organiques, les entités mécaniques telles que le CF-104 possèdent des composants fonctionnels distincts (par exemple, l’entrée d’air du moteur, l’échappement, le train d’atterrissage, la verrière du cockpit, les réservoirs de bout d’aile). Le jeu de données doit donc inclure méticuleusement des images qui mettent en évidence ces détails spécifiques sous une multitude de perspectives. Cela garantit que le LoRA acquiert non seulement la forme globale, mais aussi les attributs complexes et définissant du Starfighter, contribuant ainsi de manière significative à la « précision » recherchée. Cette approche représente une application du principe de « contenu diversifié » adaptée aux spécificités de l’ingénierie mécanique.
Utilisation d’images avec arrière-plans transparents (canal alpha)
L’utilisation d’images avec des arrière-plans transparents (canal alpha) lors de l’entraînement d’un modèle LoRA est possible, mais elle requiert une attention particulière.
Les entraîneurs LoRA traditionnels peuvent ignorer le canal alpha des images transparentes, ce qui peut entraîner des arrière-plans noirs ou des bords irréguliers dans les images générées (Reddit, 2024g; Reddit, 2024h). Cependant, certains outils d’entraînement, comme Kohya-SS, peuvent prendre en charge la transparence en utilisant un masque pour l’entraînement avec « perte masquée » (masked loss training). Cette méthode permet au modèle de se concentrer sur l’objet principal et d’ignorer les zones transparentes (Reddit, 2024g).
Avantages et inconvénients :
- Avantages : L’utilisation d’arrière-plans simples ou supprimés (rendus transparents) peut améliorer la qualité de l’entraînement en aidant le modèle à se concentrer sur le sujet principal, car il n’est pas distrait par des détails d’arrière-plan complexes (Sanj.dev, s. d.). Des outils comme
remove.bgou Photoshop sont souvent utilisés pour cette préparation (Sanj.dev, s. d.). L’utilisation de fichiers PNG de haute qualité est préférable pour conserver l’intégrité de l’image (Sanj.dev, s. d.). - Inconvénients : Si toutes les images de votre jeu de données ont un arrière-plan transparent ou uniforme, le modèle LoRA pourrait apprendre que « pas d’arrière-plan » fait partie intégrante du concept de l’objet. Cela pourrait limiter sa capacité à générer l’objet dans des scènes variées ou avec des arrière-plans différents à l’avenir (Reddit, 2024g).
Bonnes pratiques pour la généralisation :
Pour une meilleure généralisation et pour que le modèle apprenne à isoler l’objet plutôt que de mémoriser un environnement statique, il est généralement recommandé d’utiliser des arrière-plans variés dans votre jeu de données (RunDiffusion, 2025b; SeaArt Guide, 2025a). Si vous choisissez d’utiliser des images avec des arrière-plans transparents, il est crucial de comprendre comment le logiciel d’entraînement gère ces images. Certains systèmes peuvent « aplatir » l’arrière-plan transparent en une couleur unie (par exemple, blanc ou gris) pendant le processus d’entraînement. Dans ce cas, il est important de légender l’arrière-plan en conséquence (par exemple, « fond blanc », « fond gris ») pour guider le modèle (Reddit, 2024g).
Il est à noter que des modèles spécialisés, comme LayerDiffuse dans ComfyUI, sont entraînés pour générer des images avec un canal alpha (transparence). Les modifications apportées au modèle de base (U-Net) pour permettre cette capacité sont stockées sous forme de modèle LoRA (RunComfy, 2025a; Stable Diffusion Art, 2025d). Cela signifie que les LoRA peuvent être conçus pour produire des images transparentes, ce qui est une application différente de l’entraînement avec des images transparentes.
Tableau : Recommandations pour le Dataset du CF-104 (Quantité, Résolution, Variété)
| Catégorie d’Objet | Quantité d’Images Recommandée | Résolution Recommandée (pour Flux/SD 1.5) | Aspects de Variété | Qualité Requise |
| Objet spécifique (CF-104 Starfighter) | 20-40 images (qualité > quantité) (Reddit, 2024e; RunDiffusion, 2025b; SeaArt Guide, 2025a) | 512×512 pixels (RunDiffusion, 2025b; SeaArt Guide, 2025a) | Angles : Vues frontales, latérales, arrière, trois-quarts, dessus, dessous (couverture 360°) (Reddit, 2024e). Conditions d’Éclairage : Jour, nuit, différentes directions d’éclairage (RunDiffusion, 2025b). Arrière-plans : Pistes, hangars, ciel, paysages variés (pour isoler l’objet) (RunDiffusion, 2025b). Détails Fonctionnels : Train d’atterrissage (sorti/rentré), volets, aérofreins, marquages spécifiques (si souhaité) | Net, haute résolution, bien éclairé, sans filigrane, sujet clair et non obstrué, pas de duplicata (RunDiffusion, 2025b; SeaArt Guide, 2025a) |
3. Légendage (Captioning) des Images : Stratégies Avancées
Importance du légendage précis pour les détails techniques du CF-104
Le légendage des images est une étape cruciale pour l’obtention d’un modèle LoRA performant (SeaArt Guide, 2025a). Il sert de guide au modèle, lui indiquant précisément ce qu’il doit apprendre et ce qu’il peut ignorer (Reddit, 2024a). Pour les modèles Flux, les légendes doivent être formulées en langage naturel, être concises (idéalement entre 12 et 30 mots) et décrire des concepts complets incluant le sujet, le cadre, l’action et le style pertinent (Reddit, 2024a; RunDiffusion, 2025b). Il est conseillé d’éviter les listes de mots-clés ou l’utilisation excessive de jargon technique (RunDiffusion, 2025b).
Un principe fondamental du légendage efficace implique d’omettre les caractéristiques qui devraient être intrinsèquement présentes lorsque le LoRA est appliqué, tout en incluant explicitement les caractéristiques destinées à être variables ou dépendantes du prompt (Reddit, 2024a). Pour le CF-104 Starfighter, cela se traduit par les considérations suivantes :
- Caractéristiques Fixes (à omettre des légendes) : La forme unique de son aile delta, la conception spécifique de son cône de nez, l’échappement du moteur unique, la verrière du cockpit et sa silhouette globale élancée et en forme de flèche. Ces attributs sont des caractéristiques intrinsèques du CF-104 que le LoRA devrait apprendre naturellement comme faisant partie du concept « CF-104 Starfighter ». Si ces éléments sont légendés, le modèle pourrait les interpréter comme des attributs variables, nécessitant leur inclusion dans chaque prompt, ou, pire encore, les rendant incohérents dans les générations.
- Caractéristiques Variables (à inclure dans les légendes) : L’arrière-plan (par exemple, « sur une piste », « dans le ciel », « au-dessus des montagnes »), l’éclairage (par exemple, « éclairage dramatique », « coucher de soleil »), les marquages ou livrées spécifiques (par exemple, « livrée des Forces canadiennes », « marquages de la NASA »), et les états fonctionnels (par exemple, « train d’atterrissage sorti », « volets déployés »). Ces aspects sont ceux que les utilisateurs souhaiteront contrôler via des prompts.
Cette approche nuancée garantit que le LoRA est à la fois précis dans son sujet principal et flexible dans son application, répondant directement au besoin de l’utilisateur d’un modèle « bien précis » tout en permettant des variations créatives.
Utilisation de mots-clés (Trigger Words) et de descriptions naturelles
L’intégration d’un mot-clé unique (Trigger Word) est essentielle pour activer le LoRA et le différencier des concepts déjà présents dans le modèle de base (Reddit, 2024a; SeaArt Guide, 2025a). Ce mot-clé doit impérativement être inclus dans les prompts lors de la phase d’inférence pour garantir l’activation du modèle LoRA.
Pour le CF-104, un mot-clé tel que « cf104starfighter » ou « starfighterjet » pourrait être employé. Il est généralement recommandé de limiter ce mot-clé à un ou deux tokens pour une efficacité optimale (Reddit, 2024a). Les légendes doivent également contenir un token de sujet clair ou une chaîne personnalisée, le contexte de la scène (par exemple, portrait, plein corps, gros plan), des indications sur l’éclairage ou l’environnement, et des descripteurs de style ou de caméra facultatifs (RunDiffusion, 2025b).
Bien que les objets génériques ne nécessitent pas toujours un mot-clé unique si leurs caractéristiques sont suffisamment distinctes, pour un modèle spécifique comme le CF-104, un mot-clé est indispensable (Reddit, 2024a; SeaArt Guide, 2025a). Il fonctionne comme la « clé d’activation » (SeaArt Guide, 2025a) qui indique au modèle : « Je veux ce Starfighter spécifique, pas n’importe quel jet générique. » Sans cela, le modèle pourrait avoir du mal à reproduire de manière cohérente les détails exacts du CF-104, générant potentiellement un avion de chasse générique à la place. Cela garantit que l’exigence d’une sortie « bien précise » est respectée pendant la génération.
Outils de légendage automatique et conseils pour la révision manuelle
Des outils tels que BLIP ou Deepbooru sont disponibles pour générer automatiquement des légendes (SeaArt Guide, 2025a). BLIP fonctionne comme un tagger en langage naturel, produisant des descriptions narratives, tandis que Deepbooru génère des étiquettes sous forme de phrases (SeaArt Guide, 2025a). Le seuil de taggage peut être ajusté (par exemple, 0.6 est une valeur recommandée) ; une valeur plus basse produira des descriptions plus fines et plus détaillées (SeaArt Guide, 2025a).
Malgré la commodité du légendage automatique, une révision manuelle est fortement conseillée pour affiner les légendes (SeaArt Guide, 2025a). Cette étape permet de supprimer les tags superflus ou redondants et de s’assurer que les légendes décrivent l’image sans inclure les caractéristiques fixes du LoRA (Reddit, 2024a; SeaArt Guide, 2025a). Certains outils, comme Roboflow Annotate (Roboflow, 2024) ou OneTrainer (Geekatplay, s. d.b), offrent des fonctionnalités d’étiquetage assisté par l’IA, ce qui peut accélérer le processus pour les jeux de données volumineux.
Bien que les outils de légendage automatique soient pratiques (SeaArt Guide, 2025a), leur production pourrait ne pas capturer toutes les nuances spécifiques d’un objet mécanique comme le CF-104. Par exemple, un tagger automatique pourrait simplement identifier « avion à réaction » mais omettre des caractéristiques d’identification cruciales telles que « aile delta » ou « faible envergure ». La révision manuelle (SeaArt Guide, 2025a) est donc essentielle pour insérer une terminologie hautement spécifique et précise, vitale pour que le modèle apprenne la « précision » du CF-104. Cette intervention humaine permet également la suppression stratégique des tags pour les caractéristiques fixes, comme discuté précédemment. Cette supervision méticuleuse est cruciale pour atteindre une haute fidélité pour des sujets complexes et détaillés.
4. Configuration du Workflow d’Entraînement LoRA dans ComfyUI
Installation des nœuds personnalisés essentiels (ex: Flux Trainer, Lora-Training-in-Comfy)
ComfyUI est conçu pour être extensible grâce à l’intégration de nœuds personnalisés (ComfyUI Documentation, s. d.a; Stable Diffusion Art, 2025a). Pour l’entraînement de modèles LoRA, des suites de nœuds telles que « ComfyUI-FluxTrainer » (Geekatplay, s. d.b; RunComfy, 2025; SeaArt Guide, 2025a) ou « Lora-Training-in-Comfy » (runcomfy.com, 2024) sont fréquemment utilisées par la communauté.
L’installation de ces nœuds s’effectue généralement via le gestionnaire intégré de ComfyUI (ComfyUI Manager). Pour ce faire, il faut cliquer sur le bouton « Manager » dans le menu principal, sélectionner « Install Custom Nodes », rechercher le nom du nœud désiré, puis procéder à son installation (ComfyUI Documentation, s. d.a; runcomfy.com, 2024). Après l’installation, un redémarrage de l’application ComfyUI et un rafraîchissement du navigateur web sont nécessaires pour que les nouveaux nœuds soient correctement chargés et accessibles (runcomfy.com, 2024).
Le développement de nœuds personnalisés intégrés au sein de ComfyUI, tels que « Lora-Training-in-Comfy » (runcomfy.com, 2024) ou « ComfyUI-FluxTrainer » (RunComfy, 2025), représente une avancée significative dans la démocratisation des processus de fine-tuning. Ces nœuds encapsulent des opérations complexes de backend dans une interface visuelle intuitive et conviviale, élargissant ainsi l’accès à l’entraînement LoRA à un public plus large, y compris les utilisateurs déjà familiarisés avec les workflows de ComfyUI. Cette simplification abaisse efficacement la barrière technique, permettant aux utilisateurs de se concentrer davantage sur des aspects critiques tels que la qualité des données et l’optimisation des hyperparamètres, plutôt que sur la configuration de l’infrastructure.
Présentation détaillée des nœuds clés : Dataset, Settings & Init, et Training (FluxTrainLoop, FluxTrainSave, FluxTrainValidate)
Les workflows d’entraînement LoRA au sein de ComfyUI, en particulier ceux conçus pour le modèle Flux, sont structurés en trois sections principales : Dataset, Settings and Init, et Training (RunComfy, 2025).
Dans la Section Dataset, on retrouve des nœuds essentiels pour la préparation des données :
- Le nœud
TrainDatasetGeneralConfigpermet de définir les paramètres globaux du jeu de données d’entraînement. Il offre un contrôle sur des aspects tels que l’activation de l’augmentation de couleur, le retournement horizontal des images (flip augmentation) pour accroître la diversité des échantillons, et la possibilité de mélanger ou d’appliquer un taux de dropout aux légendes afin de réduire le sur-apprentissage (RunComfy, 2025). - Le nœud
TrainDatasetAddest utilisé pour spécifier et configurer les données d’entraînement à inclure dans le processus (RunComfy, 2025).
La Section Training est le cœur du processus d’apprentissage :
- Le nœud
FluxTrainLoopest responsable de l’exécution de la boucle d’entraînement pour un nombre d’étapes prédéfini (par exemple, 250 étapes) (RunComfy, 2025). - Le nœud
FluxTrainSaveassure la sauvegarde régulière du modèle entraîné à des intervalles spécifiés. Cela crée des points de contrôle (checkpoints) qui sont précieux pour suivre la progression de l’entraînement et pour récupérer en cas d’ interruption inattendue (RunComfy, 2025). - Le nœud
FluxTrainValidateest utilisé pour évaluer la performance du modèle. Il utilise un jeu de données de validation distinct des données d’entraînement et génère des images d’échantillon, offrant une représentation visuelle de la sortie du modèle à ce stade (RunComfy, 2025). - Le nœud
VisualizeLossfournit une visualisation graphique de la perte d’entraînement au fil du temps, permettant de surveiller l’efficacité de l’apprentissage du modèle et sa convergence vers une solution optimale (RunComfy, 2025).
Il est courant que les workflows incluent plusieurs étapes d’entraînement séquentielles (par exemple, Train_01, Train_02, Train_03, Train_04) pour permettre un raffinement progressif du modèle (RunComfy, 2025).
La décomposition modulaire du workflow d’entraînement en sections distinctes « Dataset », « Settings and Init » et « Training », chacune dotée de nœuds spécialisés (RunComfy, 2025), sert un objectif allant au-delà de la simple organisation. Ce choix architectural simplifie considérablement le débogage et l’optimisation itérative. Chaque nœud, tel que TrainDatasetGeneralConfig pour l’augmentation des données, FluxTrainValidate pour le retour visuel des performances et VisualizeLoss pour la surveillance quantitative, offre un point de contrôle et d’observabilité clair. Cette granularité permet aux utilisateurs d’isoler efficacement les problèmes — en distinguant, par exemple, les problèmes découlant d’une mauvaise qualité du jeu de données par rapport à des configurations d’hyperparamètres incorrectes — et de mettre en œuvre des ajustements ciblés. Une telle approche systématique est indispensable pour développer un LoRA de haute qualité pour un objet complexe comme le CF-104.
Configuration des répertoires d’entrée et de sortie
Une configuration correcte des répertoires d’entrée (contenant les images d’entraînement) et de sortie (où les modèles LoRA entraînés seront sauvegardés) est essentielle pour le bon déroulement du processus (SeaArt Guide, 2025a). Pour les utilisateurs de la version portable de ComfyUI sous Windows, il est impératif de créer le répertoire « training » dans le même dossier que le répertoire « ComfyUI_windows_portable » (SeaArt Guide, 2025a; Tenofas, s. d.).
Bien que cela puisse sembler un détail opérationnel mineur, la configuration précise des chemins de fichiers est une source fréquente d’erreurs dans les workflows d’entraînement (SeaArt Guide, 2025a). Pour un utilisateur qui entreprend le processus potentiellement long d’entraînement d’un LoRA pour un objet complexe, s’assurer que ces chemins sont correctement établis dès le départ est crucial. Cette mesure proactive prévient les erreurs frustrantes d’exécution et évite le gaspillage de ressources computationnelles, contribuant ainsi directement à l’exécution réussie de l’ensemble du processus d’entraînement.
5. Optimisation des Hyperparamètres pour un LoRA d’Objet
Comprendre network_dim (Rank) et network_alpha : leur impact sur la taille, la fidélité et la flexibilité du modèle
Le paramètre network_dim (également appelé Rank ou Net Dim) exerce une influence directe sur la « puissance » du modèle à capturer et à reproduire les concepts entraînés, ainsi que sur la taille finale du fichier LoRA (Civitai Education, 2025a; SeaArt Guide, 2025a). Des valeurs plus élevées pour ce paramètre (par exemple, 64 ou 128) se traduisent par un modèle LoRA plus volumineux et un temps d’entraînement accru. Cependant, elles permettent également une meilleure fidélité dans la capture des détails complexes de l’élément à entraîner (Civitai Education, 2025a; SeaArt Guide, 2025a; Stable Diffusion Art, 2025b).
Pour des objets réalistes et hautement détaillés comme le CF-104, des valeurs de network_dim de 64 ou 128 sont généralement recommandées (SeaArt Guide, 2025a). Il convient toutefois d’être vigilant, car une valeur excessivement élevée peut conduire à un apprentissage trop profond, où le modèle capture des détails non pertinents, entraînant ainsi un sur-apprentissage (overfitting) (SeaArt Guide, 2025a).
Le paramètre network_alpha peut être interprété comme le degré d’influence que le LoRA exerce sur les poids du modèle original (Civitai Education, 2025a; SeaArt Guide, 2025a). Plus la valeur d’alpha est proche de celle de rank, moins l’influence est prononcée. Inversement, plus elle est proche de zéro, plus l’influence sur le modèle original est marquée (SeaArt Guide, 2025a). Généralement, la valeur d’alpha ne doit pas excéder celle de rank et est souvent fixée à la moitié de rank (SeaArt Guide, 2025a). Si alpha et rank sont égaux, il n’y a pas d’effet sur le taux d’apprentissage (microsoft, s. d.). Le rapport alpha/lora_dim agit comme un facteur d’échelle qui module l’impact du LoRA (microsoft, s. d.).
Pour un sujet très détaillé comme le CF-104, un network_dim plus élevé (par exemple, 64 ou 128) est souvent indispensable pour capturer avec précision ses caractéristiques complexes (SeaArt Guide, 2025a). Cependant, une augmentation de dim sans une considération attentive de alpha et du learning_rate peut entraîner un sur-apprentissage, où le modèle mémorise simplement les images d’entraînement au lieu d’acquérir une compréhension généralisée du concept du Starfighter (SeaArt Guide, 2025a). Le paramètre alpha fonctionne comme un amortisseur du taux d’apprentissage (Civitai Education, 2025a), modulant efficacement l’agressivité avec laquelle le LoRA modifie le modèle de base. Pour le CF-104, atteindre le juste équilibre entre un dim élevé (pour le détail) et un alpha correctement mis à l’échelle (pour prévenir une mémorisation excessive et préserver la flexibilité) est primordial. Cet équilibre garantit la génération de nouvelles images variées de l’avion tout en maintenant son identité indubitable de CF-104. Cette relation illustre directement le lien de causalité entre ces paramètres et la qualité de sortie souhaitée.
Réglage du taux d’apprentissage (learning_rate) et choix de l’optimiseur
Le taux d’apprentissage (learning_rate) est un hyperparamètre qui détermine l’intensité des ajustements apportés par l’IA aux poids du modèle à chaque étape d’entraînement (Civitai Education, 2025a; Reddit, 2024c; SeaArt Guide, 2025a; Unsloth Documentation, 2025). Un taux d’apprentissage élevé peut accélérer la convergence initiale, mais il risque de rendre l’entraînement instable ou d’empêcher le modèle d’atteindre un optimum stable (Unsloth Documentation, 2025). À l’inverse, un taux d’apprentissage plus faible favorise un entraînement plus stable et précis, mais peut nécessiter un plus grand nombre d’epochs pour converger (Unsloth Documentation, 2025).
Pour les caractères, un taux de 0.0001 est souvent jugé efficace (Reddit, 2024c). Pour des objets réalistes, il est recommandé de commencer avec une valeur par défaut (par exemple, 0.0004 pour Flux (SeaArt Guide, 2025a)) et d’ajuster progressivement à partir d’un taux initialement plus bas (par exemple, 0.0001) (SeaArt Guide, 2025a).
L’optimiseur est l’algorithme qui contrôle la manière dont les poids du réseau neuronal sont mis à jour pendant l’entraînement (Civitai Education, 2025a; SeaArt Guide, 2025a). AdamW8bit est un choix courant pour Stable Diffusion 1.5 en raison de sa consommation optimisée de VRAM et de sa bonne précision (Civitai Education, 2025a; SeaArt Guide, 2025a). Prodigy est une option intéressante pour les débutants, car il ajuste automatiquement le taux d’apprentissage pour obtenir les meilleurs résultats (SeaArt Guide, 2025a).
Pour un objet mécanique précis comme le CF-104, la préservation de l’intégrité structurelle et la précision des proportions sont d’une importance capitale. Un taux d’apprentissage trop élevé peut amener le modèle à s’écarter significativement du chemin optimal (Reddit, 2024c), entraînant un entraînement instable et potentiellement des sorties déformées où la forme de l’aéronef n’est pas fidèlement reproduite. Inversement, un taux d’apprentissage plus faible et plus stable (par exemple, 0.0001 à 0.0004) (Reddit, 2024c; SeaArt Guide, 2025a) est crucial. Il permet au modèle d’apprendre méticuleusement la géométrie complexe et cohérente du Starfighter, garantissant ainsi une haute fidélité au matériel source et prévenant les déformations indésirables.
Gestion des étapes d’entraînement (epochs, repeats) et de la taille de lot (batch_size)
Le paramètre Max training steps représente le nombre total d’étapes d’entraînement que le modèle effectuera. Pour les modèles LoRA, un intervalle de 1000 à 4000 étapes est généralement suggéré (SeaArt Guide, 2025a). Pour des jeux de données plus volumineux, ce nombre peut être étendu jusqu’à 4500 étapes (Hugging Face, 2025).
Les Epochs définissent le nombre de cycles complets durant lesquels le modèle parcourt l’intégralité du jeu de données d’entraînement (SeaArt Guide, 2025a; Shakker.AI Wiki, s. d.; Stable Diffusion Art, 2025c). Un cycle correspond au nombre d’images du jeu de données multiplié par le paramètre Repeats (SeaArt Guide, 2025a). Pour les objets réalistes, il est souvent suggéré d’utiliser environ 10 epochs (SeaArt Guide, 2025a).
Le paramètre Repeat (Single Image Repetitions) indique le nombre de fois qu’une image individuelle du jeu de données est traitée par le modèle au cours de chaque epoch (SeaArt Guide, 2025a; Shakker.AI Wiki, s. d.; Stable Diffusion Art, 2025c). Un nombre plus élevé de répétitions peut améliorer l’apprentissage des détails, mais une quantité excessive peut entraîner une rigidité de l’image, signe de sur-apprentissage (SeaArt Guide, 2025a; Shakker.AI Wiki, s. d.). Pour un rendu réaliste, 15 répétitions sont couramment suggérées (SeaArt Guide, 2025a).
Le train_batch_size (taille de lot) correspond au nombre d’images traitées simultanément. Une taille de lot plus grande tend généralement à favoriser un entraînement plus stable (Unsloth Documentation, 2025). Pour les jeux de données de petite taille, une taille de lot de 2 est souvent recommandée (Hugging Face, 2025).
Les paramètres epochs et repeats contrôlent directement l’étendue de l’exposition du modèle aux données d’entraînement (SeaArt Guide, 2025a; Stable Diffusion Art, 2025c). Pour un objet détaillé comme le CF-104, une exposition suffisante est nécessaire pour capturer toutes ses nuances. Cependant, un nombre excessif de repeats ou d’epochs peut conduire à un « sur-cuisson » (Stable Diffusion Art, 2025c), un état où le LoRA mémorise les images d’entraînement spécifiques plutôt que d’apprendre le concept sous-jacent du Starfighter. Cela se manifeste par le fait que le CF-104 généré apparaît systématiquement dans la même pose ou le même éclairage que les données d’entraînement, limitant ainsi son utilité pratique. L’objectif est d’identifier le « sweet spot » (Stable Diffusion Art, 2025c) où le modèle a assimilé l’identité de l’objet sans devenir rigide, un processus qui nécessite intrinsèquement des tests et des ajustements itératifs.
Stratégies d’augmentation de données (augmentation des couleurs, retournement horizontal)
L’augmentation de données est une technique essentielle pour améliorer la capacité de généralisation d’un modèle et sa robustesse face aux variations. Des méthodes telles que l’augmentation de couleur et le retournement horizontal (flip augmentation) peuvent être appliquées pour diversifier le jeu de données d’entraînement (RunComfy, 2025).
Le retournement horizontal est particulièrement bénéfique pour les objets symétriques, car il permet de doubler efficacement la taille perçue du jeu de données pour les caractéristiques symétriques sans nécessiter l’ajout de nouvelles images (RunComfy, 2025).
Pour un objet symétrique tel qu’un avion, l’flip augmentation (RunComfy, 2025) offre des avantages particuliers. Elle double efficacement la taille perçue du jeu de données pour les caractéristiques symétriques sans nécessiter l’ajout de nouvelles images, aidant ainsi le modèle à apprendre la forme de l’avion sous les perspectives gauche et droite. Ce processus améliore la robustesse du LoRA, lui permettant de générer le CF-104 avec précision quelle que soit son orientation dans le prompt final, ce qui contribue à un modèle plus polyvalent et précis.
Tableau : Hyperparamètres Clés et Leurs Effets pour l’Entraînement d’Objets
| Paramètre | Description | Valeurs Recommandées (CF-104) | Impact sur le Modèle | Notes |
network_dim (Rank) | « Puissance » du modèle à capturer les détails. Affecte la taille du LoRA. | 64-128 (pour réalisme) (SeaArt Guide, 2025a) | Plus de détails capturés, fichier LoRA plus grand. Risque d’overfitting si trop élevé. | Essentiel pour la fidélité des formes complexes. |
network_alpha | Degré d’influence du LoRA sur le modèle de base. | Généralement network_dim / 2 (SeaArt Guide, 2025a) | Contrôle la « force » de l’apprentissage. Peut amortir le taux d’apprentissage. | Aide à prévenir l’overfitting. |
learning_rate | Intensité des ajustements du modèle à chaque étape. | 0.0001 – 0.0004 (Reddit, 2024c; SeaArt Guide, 2025a) | Plus élevé = apprentissage plus rapide mais instable. Plus bas = plus stable, plus long. | Crucial pour la stabilité des formes complexes. |
max_train_steps | Nombre total d’étapes d’entraînement. | 1000-4000 (SeaArt Guide, 2025a), jusqu’à 4500 pour grands datasets (Hugging Face, 2025) | Détermine la durée de l’entraînement. | Ajuster en fonction des epochs et repeats. |
epochs | Nombre de cycles complets sur le dataset. | 10-20 (SeaArt Guide, 2025a; Shakker.AI Wiki, s. d.) | Influence la profondeur de l’apprentissage. | Trop d’epochs = overfitting. |
repeats (Single Image Repetitions) | Nombre de fois qu’une image est traitée par epoch. | 10-15 (pour réalisme) (SeaArt Guide, 2025a) | Améliore l’apprentissage des détails. | Trop de répétitions = rigidité de l’image. |
train_batch_size | Nombre d’images traitées simultanément. | 2 (pour petits datasets) (Hugging Face, 2025) | Plus grand = entraînement plus stable. | Dépend de la VRAM disponible. |
Optimizer | Algorithme de mise à jour des poids du réseau. | AdamW8bit (défaut), Prodigy (débutants) (Civitai Education, 2025a; SeaArt Guide, 2025a) | Impacte l’efficacité de l’apprentissage. | AdamW8bit est économe en VRAM. |
Flip Augmentation | Retournement horizontal des images. | Activé (RunComfy, 2025) | Améliore la généralisation, utile pour objets symétriques. | Réduit l’overfitting. |
6. Prévention et Résolution de l’Overfitting et de l’Underfitting
Identification des signes d’overfitting (sur-apprentissage) et d’underfitting (sous-apprentissage) pour des objets complexes
La distinction entre le sur-apprentissage (overfitting) et le sous-apprentissage (underfitting) est fondamentale pour optimiser la performance d’un modèle LoRA.
Overfitting (Sur-apprentissage) : Ce phénomène se produit lorsque le modèle mémorise trop précisément les données du jeu d’entraînement, ce qui compromet sa capacité à généraliser à de nouvelles données non vues (Reddit, 2025a; SeaArt Guide, 2025a; Unsloth Documentation, 2025).
- Signes distinctifs : Les images générées ressemblent excessivement aux images du jeu d’entraînement (SeaArt Guide, 2025a). Le sujet peut présenter une saturation des couleurs ou des arrière-plans identiques à ceux du jeu de données (Reddit, 2025a; Stable Diffusion Art, 2025b). Le LoRA démontre une flexibilité limitée, ne pouvant générer que des variations très proches des images originales (Reddit, 2024e). Une perte (
loss) qui continue de diminuer sur le jeu d’entraînement mais augmente sur le jeu de validation est un indicateur clé (RunComfy, 2025; Unsloth Documentation, 2025). - Pour le CF-104, le sur-apprentissage ne se limiterait pas à une simple similarité excessive des images. Il impliquerait spécifiquement que le modèle génère systématiquement l’aéronef dans la même attitude de vol exacte, la même position au sol ou les mêmes conditions d’éclairage que celles observées dans les données d’entraînement, même lorsque le prompt demande des variations (Reddit, 2024e; SeaArt Guide, 2025a). En outre, le modèle pourrait avoir des difficultés à combiner le CF-104 avec des éléments nouveaux spécifiés dans le prompt, ce qui indiquerait un manque de généralisation au-delà du contexte d’entraînement. Cela constitue un indicateur diagnostique crucial pour les objets très spécifiques.
Underfitting (Sous-apprentissage) : Ce phénomène survient lorsque le modèle ne parvient pas à apprendre adéquatement les caractéristiques du jeu de données (SeaArt Guide, 2025a).
- Signes distinctifs : Les images générées ne correspondent pas bien au jeu de données et échouent à préserver les caractéristiques essentielles du CF-104 (SeaArt Guide, 2025a). Le sujet peut être insuffisamment représenté ou présenter des déformations (Stable Diffusion Art, 2025b). Le LoRA réagit faiblement aux prompts ou nécessite une force (strength) très élevée pour produire un effet notable (Reddit, 2024e).
- Pour le CF-104, le sous-apprentissage se manifesterait par un aéronef généré ressemblant à un avion de chasse générique plutôt qu’au Starfighter distinct. Les caractéristiques d’identification clés, telles que la forme unique de son aile, son fuselage long et élancé, ou son entrée/sortie de moteur spécifique, pourraient être perdues ou mal rendues (SeaArt Guide, 2025a). Cela compromet directement l’objectif de l’utilisateur de générer un CF-104 « précis ».
Techniques pour améliorer la généralisation du modèle (dataset de régularisation, ajustement des paramètres)
Pour prévenir et résoudre les problèmes de sur-apprentissage et de sous-apprentissage, diverses stratégies d’ajustement des hyperparamètres et de préparation du jeu de données peuvent être employées :
Prévention de l’Overfitting :
- Diminuer le taux d’apprentissage : Un taux plus faible réduit l’agressivité des mises à jour du modèle, favorisant un apprentissage plus fin (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
- Réduire le nombre d’epochs ou de répétitions : Limiter l’exposition du modèle aux données d’entraînement peut empêcher la mémorisation excessive (Shakker.AI Wiki, s. d.; SeaArt Guide, 2025a; Stable Diffusion Art, 2025b; Unsloth Documentation, 2025).
- Réduire
Ranket augmenterAlpha: Cette combinaison tend à diminuer la complexité du LoRA et à amortir son influence, réduisant ainsi le risque de sur-apprentissage (SeaArt Guide, 2025a; Unsloth Documentation, 2025). - Utiliser un jeu de données de régularisation : Il s’agit d’inclure des images de la même classe (par exemple, d’autres avions de chasse) mais distinctes du CF-104 lui-même (Civitai Education, 2025a; Reddit, 2024a; SeaArt Guide, 2025a). Cette pratique aide le modèle à mieux généraliser la catégorie « avion de chasse » tout en se spécialisant sur les spécificités du CF-104. Il est recommandé d’avoir 10 à 20 images de régularisation non légendées (SeaArt Guide, 2025a). L’application d’un « jeu de données de régularisation » (Civitai Education, 2025a; Reddit, 2024a; SeaArt Guide, 2025a) constitue une stratégie essentielle contre le sur-apprentissage. Pour le CF-104, cela implique d’incorporer des images d’autres avions de chasse (par exemple, F-16, MiG-21) dans un dossier séparé. Cette pratique enseigne au modèle ce qu’il ne doit pas apprendre comme étant unique au CF-104 (par exemple, les caractéristiques générales d’un « jet » comme le fait d’avoir des ailes) tout en renforçant les attributs spécifiques du Starfighter. Cette double approche permet au LoRA de généraliser sa compréhension de la catégorie « avion » tout en se spécialisant sur le CF-104, empêchant ainsi la génération d’avions génériques lorsque le Starfighter est demandé, ou, inversement, évitant la limitation de ne générer le Starfighter que dans les poses exactes sur lesquelles il a été entraîné.
- Augmenter la taille du jeu de données d’entraînement : L’ajout d’images de haute qualité et variées peut enrichir la compréhension du modèle (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
- Augmenter
weight_decayoulora_dropout: Ces paramètres introduisent une régularisation supplémentaire, pénalisant les poids trop importants ou désactivant aléatoirement des neurones pendant l’entraînement (Reddit, 2025a; Unsloth Documentation, 2025). - Activer le
shuffle_caption: Mélanger l’ordre des légendes peut décourager le modèle d’apprendre une dépendance à un ordre de prompt spécifique (Reddit, 2025a; RunComfy, 2025).
Prévention de l’Underfitting :
- Augmenter le taux d’apprentissage : Un taux plus élevé peut aider le modèle à apprendre plus rapidement si l’apprentissage est insuffisant (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
- Augmenter le nombre d’epochs ou de répétitions : Une exposition prolongée aux données peut permettre au modèle d’acquérir les caractéristiques manquantes (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
- Augmenter
Ranket réduireAlpha: Cela accroît la capacité du LoRA à apprendre des détails plus complexes et à influencer davantage le modèle de base (SeaArt Guide, 2025a; Unsloth Documentation, 2025). - Ajouter plus de fonctionnalités de haute qualité au jeu de données : Enrichir le dataset avec des images plus variées et détaillées peut améliorer l’apprentissage (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
- Diminuer la taille de lot à 1 : Cela peut entraîner des mises à jour plus « vigoureuses » des poids du modèle, potentiellement aidant à sortir de l’underfitting (Unsloth Documentation, 2025).
7. Évaluation et Raffinement Itératif du Modèle LoRA
Méthodes d’évaluation visuelle des résultats générés
L’évaluation visuelle est une méthode fondamentale pour apprécier la qualité d’un modèle LoRA (Reddit, 2024f; Shakker.AI Wiki, s. d.; Stable Diffusion Art, 2025b). Il est recommandé de générer des images d’échantillon à la fois pendant et après le processus d’entraînement. Cela peut être réalisé en utilisant le nœud FluxTrainValidate (RunComfy, 2025) ou en configurant le système pour qu’il génère des échantillons à des intervalles réguliers (Geekatplay, s. d.c).
La comparaison des sorties du modèle avec les images du jeu de données d’entraînement est cruciale pour évaluer la fidélité du modèle et sa capacité de généralisation (Reddit, 2024f; Stable Diffusion Art, 2025b).
Lors de l’inspection visuelle des images générées du CF-104, l’attention doit dépasser la ressemblance générale. Il est impératif d’évaluer la précision des caractéristiques spécifiques et définissantes : la forme de l’aile delta est-elle correcte? Les réservoirs de bout d’aile sont-ils présents et proportionnellement exacts? Le fuselage long et élancé est-il précis? L’entrée/sortie de moteur unique est-elle fidèlement reproduite? (Ceci est implicite dans la demande de l’utilisateur pour un « avion bien précis »). Ce sont les « détails difficiles à reproduire » (RunDiffusion, 2025b) qu’un bon LoRA pour un objet complexe doit capturer. Cela élève l’évaluation d’un simple « ça a l’air bien » à une évaluation plus objective de la précision technique.
Test du modèle avec des prompts variés et des seeds fixes pour évaluer la cohérence et la flexibilité
Pour évaluer la cohérence et la flexibilité du modèle LoRA, il est essentiel de le tester en générant des images avec une variété de prompts (incluant le mot-clé de déclenchement) et en maintenant des seeds fixes (Reddit, 2024f). Cette approche permet de déterminer la fiabilité avec laquelle le modèle reproduit le CF-104 et sa capacité à générer l’aéronef dans des situations ou des styles inédits (Reddit, 2024f).
Il est également utile de comparer les images générées avec et sans l’application du LoRA pour observer son impact direct sur les sorties (Cloudflare, s. d.). L’évaluation doit aussi porter sur la capacité du LoRA à interagir harmonieusement avec d’autres modèles LoRA ou checkpoints, et à s’adapter aux changements de style demandés (Reddit, 2024f).
Pour le CF-104, la flexibilité signifie la capacité de le générer « dans le ciel », « sur une piste », « dans un hangar », ou même « dans une peinture stylisée » (Reddit, 2024f; RunDiffusion, 2025b). Un bon LoRA ne devrait pas être sur-entraîné au point de ne produire l’avion que dans un seul contexte mémorisé. Tester avec des prompts variés qui introduisent de nouveaux arrière-plans, éclairages ou styles artistiques (Reddit, 2024f) est crucial pour déterminer si le LoRA a véritablement appris le concept du CF-104 ou s’il a simplement mémorisé ses images d’entraînement. Cette capacité est fondamentale pour que l’utilisateur puisse utiliser le LoRA de manière créative.
Analyse de la perte (loss) et des images de validation pour suivre la progression
Le nœud VisualizeLoss est un outil précieux pour suivre l’évolution de la perte d’entraînement au fil du temps (RunComfy, 2025). Une diminution progressive de cette perte est généralement un indicateur que le modèle apprend de manière appropriée (SeaArt Guide, 2025a).
Il est également crucial de surveiller la perte de validation. Une augmentation de la perte de validation, alors que la perte d’entraînement continue de diminuer, est un signe classique de sur-apprentissage (Reddit, 2025a; Shakker.AI Wiki, s. d.; Unsloth Documentation, 2025). Les images générées par le nœud FluxTrainValidate offrent une représentation visuelle concrète de la performance du modèle à diverses étapes du processus d’entraînement (RunComfy, 2025; Shakker.AI Wiki, s. d.).
Bien que l’inspection visuelle offre une évaluation subjective de la qualité (Reddit, 2024f; Stable Diffusion Art, 2025b), la surveillance de la courbe de loss (RunComfy, 2025; SeaArt Guide, 2025a) fournit des données objectives et quantitatives sur la progression de l’apprentissage du modèle. L’élément crucial ici est la nécessité de corréler ces deux points de données : une perte constamment décroissante devrait correspondre à une amélioration de la qualité visuelle, et, inversement, une perte de validation croissante devrait coïncider avec des indicateurs visuels de sur-apprentissage (Reddit, 2025a; SeaArt Guide, 2025a; Unsloth Documentation, 2025). Une divergence entre ces deux signaux suggère un problème plus profond au sein du jeu de données ou de la configuration d’entraînement, nécessitant une enquête plus approfondie. Cette approche intégrée représente une bonne pratique pour un développement de modèle robuste.
Conseils pour l’amélioration continue du modèle LoRA
L’entraînement d’un modèle LoRA est un processus intrinsèquement itératif, exigeant patience et expérimentation (Novita.AI, 2024a; Stable Diffusion Art, 2025b). Il est recommandé de considérer les paramètres par défaut comme un point de départ et de les ajuster de manière séquentielle, un par un, en observant attentivement l’impact de chaque modification (Stable Diffusion Art, 2025b).
La sauvegarde de points de contrôle (checkpoints) à intervalles réguliers est une pratique judicieuse. Cela permet de comparer les performances du modèle à différentes étapes de l’entraînement et de sélectionner le point optimal pour le déploiement ou un fine-tuning ultérieur (RunComfy, 2025; Shakker.AI Wiki, s. d.). En cas de détection de sur-apprentissage ou de sous-apprentissage, il convient de se référer aux stratégies d’ajustement des hyperparamètres et de la préparation du jeu de données précédemment détaillées (SeaArt Guide, 2025a; Unsloth Documentation, 2025).
8. Conclusion et Prochaines Étapes
La création d’un modèle LoRA précis pour un objet spécifique comme le CF-104 Starfighter dans ComfyUI est un processus méthodique qui combine une préparation rigoureuse des données, une configuration attentive des hyperparamètres et une évaluation itérative. Les étapes clés comprennent la collecte d’un jeu de données d’images de haute qualité, variées en angles et en contextes pour capturer la complexité géométrique de l’avion et prévenir le sur-apprentissage contextuel. Un légendage précis, distinguant les caractéristiques fixes des variables et utilisant un mot-clé de déclenchement unique, est essentiel pour la fidélité et la flexibilité du modèle.
L’utilisation de l’environnement modulaire de ComfyUI, avec ses nœuds personnalisés dédiés à l’entraînement LoRA, simplifie le processus et facilite le débogage. L’optimisation des hyperparamètres tels que network_dim et network_alpha est cruciale pour équilibrer la fidélité des détails techniques et la capacité de généralisation. Le réglage du taux d’apprentissage et la gestion des étapes d’entraînement (epochs, repeats) sont également fondamentaux pour la stabilité des formes complexes et pour éviter le sur-apprentissage ou le sous-apprentissage. L’intégration d’un jeu de données de régularisation est une stratégie efficace pour renforcer la généralisation du modèle.
Enfin, l’évaluation visuelle des résultats, corrélée à l’analyse des courbes de perte, permet un raffinement continu. Tester le modèle avec des prompts variés et des seeds fixes est indispensable pour confirmer sa cohérence et sa flexibilité dans différents contextes.
Pour les prochaines étapes, il est fortement encouragé de poursuivre l’expérimentation avec différents paramètres et configurations de jeu de données. Le partage des workflows et des résultats au sein de la communauté ComfyUI peut accélérer l’apprentissage collectif et la découverte de nouvelles bonnes pratiques. La documentation méticuleuse des workflows et des paramètres utilisés est également primordiale pour assurer la reproductibilité des résultats et faciliter les améliorations futures.
Bibliographie
ACL Anthology. (2025, 19 janvier). LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation. Consulté le 31 juillet 2025, de https://aclanthology.org/2025.coling-main.371.pdf
ArXiv. (s. d.). arXiv. Wikipédia. Consulté le 31 juillet 2025, de https://en.wikipedia.org/wiki/ArXiv
ArXiv. (2025a, 21 janvier). FOCUS: First Order Concentrated Updating Scheme. Consulté le 31 juillet 2025, de https://arxiv.org/abs/2501.12243
ArXiv. (2025b, 22 janvier). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. Consulté le 31 juillet 2025, de https://arxiv.org/abs/2501.12948
ArXiv. (2025c, 31 juillet). Focus Training. Consulté le 31 juillet 2025, de https://arxiv.org/html/2507.08477v1
ArXiv. (2025d, 21 mai). LoFT: Local Proxy Fine-tuning Improves Transferability to Large Language Model Attacks. Consulté le 31 juillet 2025, de https://arxiv.org/html/2505.11703v1
ArXiv. (2025e, 31 juillet). Local time at arxiv.org. Consulté le 31 juillet 2025, de https://arxiv.org/localtime
bmaltais. (s. d.). LoRA training parameters. GitHub. Consulté le 31 juillet 2025, de(https://github.com/bmaltais/kohya_ss/wiki/LoRA-training-parameters)
Civitai Education. (2025a, 9 janvier). LoRA Training Glossary. Consulté le 31 juillet 2025, de https://education.civitai.com/lora-training-glossary/
Civitai Education. (2025b, 30 juillet). Quickstart Guide to Flux.1. Consulté le 31 juillet 2025, de https://education.civitai.com/quickstart-guide-to-flux-1/
Civitai Education. (2023, 16 novembre). Quickstart Guide to LCM LoRA – Acceleration Modules! Consulté le 31 juillet 2025, de https://education.civitai.com/quickstart-guide-to-lcm-lora-acceleration-modules/
Cloudflare. (s. d.). What is LoRA? | Low-rank adaptation. Consulté le 31 juillet 2025, de https://www.cloudflare.com/learning/ai/what-is-lora/
ComfyAI.run. (s. d.). ComfyUI_Wan2_1_lora_trainer Node for Effective AI Training. Consulté le 31 juillet 2025, de(https://comfyai.run/custom_node/ComfyUI_Wan2_1_lora_trainer)
ComfyUI Documentation. (s. d.a). ComfyUI. Consulté le 31 juillet 2025, de https://github.com/comfyanonymous/ComfyUI
ComfyUI Documentation. (s. d.b). LoRA. Consulté le 31 juillet 2025, de https://docs.comfy.org/tutorials/basic/lora
d8ahazard. (s. d.). sd_dreambooth_extension/issues/1184. GitHub. Consulté le 31 juillet 2025, de https://github.com/d8ahazard/sd_dreambooth_extension/issues/1184
fal.ai. (2025, 26 juin). Announcing Flux 1 Kontext Dev Inference & Training. Consulté le 31 juillet 2025, de https://blog.fal.ai/announcing-flux-1-kontext-dev-inference-training/
Geekatplay. (s. d.a). How to Train Custom LoRA Models Inside ComfyUI. YouTube. Consulté le 31 juillet 2025, de(((https://www.youtube.com/watch?v=m3ENCAwWDXc)))
Geekatplay. (s. d.b). Trainer for LoRA, Checkpoints, and Diffusion Models. YouTube. Consulté le 31 juillet 2025, de(((https://www.youtube.com/watch?v=-KNyKQBonlU)))
Geekatplay. (s. d.c). Train Better LoRAs with ComfyUI – Auto Descriptions. YouTube. Consulté le 31 juillet 2025, de https://www.youtube.com/watch?v=U4nc1kc746U
Google Cloud. (2025, 30 juin). Determine evaluation metrics for generative AI models. Consulté le 31 juillet 2025, de https://cloud.google.com/vertex-ai/generative-ai/docs/models/determine-eval
Hugging Face. (2025, 24 mars). Perfect LoRA training parameters (human character). Consulté le 31 juillet 2025, de https://discuss.huggingface.co/t/perfect-lora-training-parameters-human-character/147211
Hugging Face. (2024, 18 juin). Thoughts on LoRA Training #1. Consulté le 31 juillet 2025, de https://huggingface.co/blog/alvdansen/thoughts-on-lora-training-1
Jancovich, L., Pitches, C., & Stevenson, D. (2025, 28 juillet). Failures in impact evaluation. Research Evaluation, 34. Consulté le 31 juillet 2025, de https://academic.oup.com/rev/article/doi/10.1093/reseval/rvaf033/8215691
jaimitoes. (s. d.). jaimitoes/ComfyUI_Wan2_1_lora_trainer. GitHub. Consulté le 31 juillet 2025, de(https://github.com/jaimitoes/ComfyUI_Wan2_1_lora_trainer)
MimicPC. (2025, 30 mai). Kohya-SS Tutorial: LoRA Training and Testing. Consulté le 31 juillet 2025, de https://www.mimicpc.com/ja/learn/kohya-ss-lora-training-guide
MimicPC. (2025, 3 juillet). How to train Flux LoRA with Kohya_SS. Consulté le 31 juillet 2025, de https://www.mimicpc.com/learn/steps-to-use-kohya-ss-for-flux-lora-training
MimicPC. (s. d.a). Free AI Generator Online. Consulté le 31 juillet 2025, de https://www.mimicpc.com/demo/kohya-ss
MimicPC. (s. d.b). How to Use Kohya-SS for Stable Diffusion 3 LoRA Training?. YouTube. Consulté le 31 juillet 2025, de(https://www.youtube.com/watch?v=FkhpWZNjWj8)
MimicPC. (s. d.c). Using Kohya-SS for Efficient AI Model Training. YouTube. Consulté le 31 juillet 2025, de(https://www.youtube.com/watch?v=wTVI0SONkpc)
microsoft. (s. d.). microsoft/LoRA. GitHub. Consulté le 31 juillet 2025, de(https://github.com/microsoft/LoRA)
Microsoft. (2025, 31 juillet). Phi Silica task specialization using LoRA in Microsoft Learning Zone: A technical deep dive. Consulté le 31 juillet 2025, de https://blogs.windows.com/windowsdeveloper/2025/07/31/phi-silica-task-specialization-using-lora-in-microsoft-learning-zone-a-technical-deep-dive/
Novita.AI. (2024a, 29 janvier). Accelerate Your Skills: LoRA Training Guide. Consulté le 31 juillet 2025, de https://blogs.novita.ai/accelerate-your-skills-lora-training-guide/
Novita.AI. (2024b, 18 mars). Mastering Lora AI: Your Ultimate Guide. Consulté le 31 juillet 2025, de https://blogs.novita.ai/mastering-lora-ai-your-ultimate-guide/
Prompting Pixels. (2024, 30 avril). How to Add a LoRa to Your Workflow in ComfyUI. Medium. Consulté le 31 juillet 2025, de https://medium.com/@promptingpixels/how-to-add-a-lora-to-your-workflow-in-comfyui-b5635cd7a8aa
Reddit. (2024a, 25 janvier). So how DO you caption images for training a lora? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1i97uar/so_how_do_you_caption_images_for_training_a_lora/)))
Reddit. (2024b, 25 janvier). LoRA image captioning best practices. Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1cxx3z2/lora_image_captioning_best_practices/)))
Reddit. (2024c, 24 mars). How exactly does the learning rate and precision work? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1bjbbo4/how_exactly_does_the_learning_rate_and_precision/)))
Reddit. (2024d, 17 octobre). Creating detailed training data for Lora. Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/17iek27/creating_detailed_training_data_for_lora/)))
Reddit. (2024e, 10 juillet). Most posts I’ve read says that no more than 25-30 images should be used when training a Flux LoRA, but I’ve also seen some that have been trained on 100+ images and looks great. When should you use more than 25-30 images, and how can you ensure that it doesn’t get overtrained when using 100+ images? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1j8ntgi/most_posts_ive_read_says_that_no_more_than_2530/)))
Reddit. (2024f, 4 septembre). Quantifying LoRA quality. Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1f8y4em/quantifying_lora_quality/)))
Reddit. (2024g, 25 février). Training LoRAs with transparency (PNG). Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1b9snd3/training_loras_with_transparency_png/)))
Reddit. (2024h, 25 février). Hey guys, is there any tutorial on how to make a lora on how to make a lora with transparent background? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1kzn560/hey_guys_is_there_any_tutorial_on_how_to_make_a/)))
Reddit. (2025a, 5 février). LoRA training both overfits and underfits, what is the solution? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1ii4c6s/lora_training_both_overfits_and_underfits_what_is/)))
Reddit. (2025b, 29 juillet). Native Lora trainer nodes in ComfyUI, how to use? Consulté le 31 juillet 2025, de https://www.reddit.com/r/comfyui/comments/1ljjzaq/native_lora_trainer_nodes_in_comfyui_how_to_use/
Reddit. (2025c, 31 mai). What’s the best way of creating a dataset from 1 image? Consulté le 31 juillet 2025, de(((https://www.reddit.com/r/StableDiffusion/comments/1l8zi09/whats_the_best_way_of_creating_a_dataset-from-1/)))
rgthree. (s. d.). rgthree/rgthree-comfy. GitHub. Consulté le 31 juillet 2025, de https://github.com/rgthree/rgthree-comfy
Roboflow. (2024, 20 août). Roboflow Annotate: Label Images Faster Than Ever. Consulté le 31 juillet 2025, de https://roboflow.com/annotate
RunComfy. (2025, 16 juin). ComfyUI FLUX LoRA Training: Detailed Guides. Consulté le 31 juillet 2025, de https://www.runcomfy.com/comfyui-workflows/comfyui-flux-lora-training-detailed-guides
RunComfy. (2025a, 16 juin). Generating Transparent Images with LayerDiffuse in ComfyUI. Consulté le 31 juillet 2025, de https://www.runcomfy.com/comfyui-workflows/generating-transparent-images-with-layerdiffuse-in-comfyui
RunDiffusion. (2025a, 20 mars). Basic LoRa Training with Kohya. Consulté le 31 juillet 2025, de https://learn.rundiffusion.com/basic-lora-training-with-kohya/
RunDiffusion. (2025b, 21 juillet). How to Prepare a Dataset for Model Training on RunDiffusion. Consulté le 31 juillet 2025, de https://learn.rundiffusion.com/how-to-prepare-a-dataset-for-model-training-on-rundiffusion/
runcomfy.com. (2024, 5 août). Lora-Training-in-Comfy. Consulté le 31 juillet 2025, de(((https://www.runcomfy.com/comfyui-nodes/Lora-Training-in-Comfy)))
Sanj.dev. (s. d.). How to Train Stable Diffusion LoRA Self-Portraits. Consulté le 31 juillet 2025, de https://sanj.dev/post/train-stable-diffusion-lora-self-portraits
SeaArt Guide. (2025a, 25 juin). 3-2 LoRA Training (Advance). Consulté le 31 juillet 2025, de https://docs.seaart.ai/guide-1/3-advanced-guide/3-2-lora-training-advance
SeaArt Guide. (2025b, 10 juillet). Image Training – SeaArt Guide. Consulté le 31 juillet 2025, de https://docs.seaart.ai/guide-1/3-advanced-guide/3-2-lora-training-advance/image-training
Shakker.AI Wiki. (s. d.). LoRA Training Parameters: The Role of Single Image Training Count, Epochs, Batch Size, and Precision. Consulté le 31 juillet 2025, de https://wiki.shakker.ai/en/lora-training-parameters
Stable Diffusion Art. (2025a, 21 février). Beginner’s Guide to ComfyUI. Consulté le 31 juillet 2025, de https://stable-diffusion-art.com/comfyui/
Stable Diffusion Art. (2025b, 17 janvier). How to train Lora models. Consulté le 31 juillet 2025, de https://stable-diffusion-art.com/train-lora/
Stable Diffusion Art. (2025c, 17 janvier). How to train SDXL LoRA models. Consulté le 31 juillet 2025, de https://stable-diffusion-art.com/train-lora-sdxl/
Stable Diffusion Art. (2025d, 21 février). How to Generate Transparent Background Images with Stable Diffusion. Consulté le 31 juillet 2025, de https://stable-diffusion-art.com/transparent-background/
Tamanna. (2025, 16 juin). Evaluating Prompts in Large Language Models. Methods, Quality Processes, and Semantic Measurement with Amazon Bedrock (Claude). Medium. Consulté le 31 juillet 2025, de https://medium.com/@tam.tamanna18/evaluating-prompts-in-large-language-models-ed2e30c6de34
Tenofas. (s. d.). Flux LoRA Trainer 2.0. OpenArt. Consulté le 31 juillet 2025, de(((https://openart.ai/workflows/tenofas/flux-lora-trainer-20/VmxcKxjxRoN2Lrs9ESU7)))
ThinkDiffusion. (2025). ComfyUI LoRAs: The Ultimate Guide. Consulté le 31 juillet 2025, de https://learn.thinkdiffusion.com/comfyui-loras-the-ultimate-guide/
Unsloth Documentation. (2025, 3 juillet). LoRA Hyperparameters Guide. Consulté le 31 juillet 2025, de https://docs.unsloth.ai/get-started/fine-tuning-llms-guide/lora-hyperparameters-guide
Warmbutter. (s. d.). Image Caption Tool for LoRA Training. Consulté le 31 juillet 2025, de https://warmbutter.com/ai-toolkit/image-caption/