Oui et Non.
Quand tu entraines l'IA, tu l'entraines sur ce qu'elle ne connait pas.
Autrement dit, par exemple , si tu donnes une image de Tintin sur fond blanc.
et que tu dis pour l'entrainement : ceci est une image de Tintin
Elle te sortira un LORA qui le met systématiquement sur fond blanc, même si dans ton prompt tu spécifies que le fond est un port, le chateau de Moulinsart etc. .
Alors il faudra dire : ceci est une image de Tintin sur fond blanc
et là ok, le fond ne fait pas partie du concept "Tintin"
mais elle te sortira une image de Tintin avec l'angle des bras et la position parfaitement exactement à ton image
alors il faudra dire ... [ta description] etc.
bref, il faut dire "l'essence" de Tintin , par la négative : ce qui n'est pas dans ton NC, ce qui n'est pas Tintin
Et c'est là qu'il y a une magie de l'IA, conceptuellement :
Pour entrainer, sur un Nouveau Concept (NC) , il faut lui dire tout ce qu'elle sait déjà, et surtout pas le NC, le NC étant un mot qu'elle ne connait pas, pour qu'elle puisse déterminer ce qu'est ce NC (ce n'est pas le fond blanc)
Donc, si tu lui dis que c'est un jeune homme , elle élimine ces notions du NC, et donc , potentiellement, Tintin pourra sortir comme une vieille femme (une Tata donc
)
Donc, oui, il faut décrire les positions, entre autres.
Mais si tu lui donnes bcp d'images dans différentes positions, ou background, tu n'as pas besoin de le spécifier, car elle "comprend" que cela n'est pas le NC. Elle peut extraire le NC.
Et tu comprends que c'est un art au sens "cuisine" .
Perso, sur mes tests, j'ai passé 150 entrainements (3h par entrainement) sur un dataset de 80 images, avec des journées/nuits entières où la machine souffle sa sueur, avant d'arriver à quelque chose d'acceptable ...
Il y a tellement de paramètres...
L'entrainement d'IA (images) se fait avec https://github.com/bmaltais/kohya_ss
On parle ici de l'avant-garde de l'IA = des gens qui ont des monstres en ordi, des facilités en informatique, et du temps ...
Les LORA, en IA generatives d'images, sont du Fine-tuning, qui arrivera rapidement aussi chez les LLM (Large Langage Model: Gpt, Claude, Bard, Mistral, Llama etc.) , autrement dit l'équivalent d'un LORA spécialisé langage SciFi par exemple. Ou plus concrètement des IA spécialisées "Droit Français" par exemple ...
Enfin, un business est en train de naître: tu peux trouver des gens pour entrainer ton LORA ... "Entraineur d'IA" , quel beau métier !
Maintenant, pour vous foutre les jetons: imaginons un fineTune LLM qui est entrainé à reproduire le style d'écriture de XXX (XXX = tous vos auteurs favoris) et que pour écrire votre Yaz, vous demandez à cette IA de ré-ecrire vos paragraphes avec le style de XXX...
Bref, fondamentalement se pose la question de la créativité et de la plus-value en tant qu'auteur humain.
Mon avis : Par exemple la gaudriole. L'IA ne fera jamais de théâtre de boulevard
Argument: je me suis récemment fait jeté par l'IA Llama3 sur des questions anodines (Peggy 18), genre "nan, pas de ça chez nous!" . Heureusement qu'il y a des IA non censurées ! <= ceci est un vrai sujet (LLM ou Images): les biais, les filtres.
Enfin, je tiens à souligner que tout cela n'est pas "demain", c'est maintenant.
Bref, ce sujet est passionnant ! (ou tout du moins me passionne)