Se connecter

ledahu · 09/05/2024, 14:56

Hello,

juste un petit tuto grosses mailles pour ouvrir des perspectives

(j'espère rapidement vous présenter l'AVH concernée par cette héroïne Wink

)

[Image: 00150-helloartOil_helloartOilV10k_4035336153_1.png]

Le tuto :

https://www.quefaitesvous.com/blog/generer-ses-images-par-ia-a-la-maison/

si vous avez des questions, n'hésitez pas ...

tholdur · Messages : 4787 Sujets : 85 Inscription : 01 Sep 2008

Existe-t-il un outil qui permette de partir d'une image référence?

Imaginons que je veuille réaliser ma propre BD de Tintin (ce qui est faux pour des questions de droit!). Je voudrai partir de l'image ci-dessous pour faire en sorte de générer une autre image où Tintin est par exemple en train de boire une bière. Wink

L'idée c'est que je n'ai pas besoin de décrire Tintin, que l'image de référence fasse en sorte de garder pour les suivantes les proportions, le pantalon de golf marron et la veste bleue. Bref, que pour toutes les images générées, ce soit bien CE Tintin qui ressorte à chaque fois, qu'il soit accoudé au comptoir, ou en train de lire le journal, etc.

[Image: CARRE_foot.jpg]

Est-il possible en quelque sorte de convertir une image en "prompt"? L'idée c'est d'avoir à s'occuper seulement du décor, de la posture, etc. pour les prompts, en ayant toujours le même personnage de base.

ledahu · 12/05/2024, 19:10

Oui

C'est exactement ça quand à la dernière phrase du tuto je dis "Aller plus loin " : les LORA

Les LORA sont un personnage, un style, un concept qui va être entrainé sur un DataSet : une centaine d'images minimum

qui sera activable par un mot clef dans le prompt.

J'ai essayé, c'est un art au sens "cuisine". Cela demande énormément de travail.
Mais c'est très intéressant conceptuellement, ca permet de mieux comprendre comment fonctionne l'IA.

Très grosso modo : Imaginons que l'IA ne connaisse pas le concept de "Girafe" (ou Tintin)

1- Je trouve 100 images de girafes , sous tous les angles, dans toutes les situations

2- J'entraine l'IA sur cette base (c'est long, ça fait fumer les cartes graphiques) en lui disant que c'est le keyword (on dit "TriggerWord") : "girafe"

3- J'ai alors un fichier que je peux utiliser dans mes prompts avec le mot clef "girafe"

Des armées de Fan entrainent des LORA sur leurs personnages Anime préférés. Va sur Civitai et filtre "LORA" dans l'onglet "modèle".
Ou dans les images, quand tu cliques dessus, sur le côté tu vois le prompt utilisé, ainsi que les LORA utilisés.

Théoriquement, il est tout à fait envisageable d’entrainer sur une personne sur base de photos de famille...
J'ai vu le post d'un gars qui l'a fait sur lui-même. Il lui a fallu +50 rendus (1 rendu = ~4 heures suivant la taille du dataSet et de la carte graphique) pour arriver à un LORA de lui-même satisfaisant.

Enfin, rappelez-vous que ce n'est que le début !

Aussi, je ne saurais trop vous recommander de, surtout si on est tous d'accord que tout cela ne présage rien de bon, vous y intéresser de près pour être en mesure d'en connaître les failles et pouvoir s'en prémunir.

tholdur · Messages : 4787 Sujets : 85 Inscription : 01 Sep 2008

Du coup il faudrait 100 images de Tintin pour que ça fonctionne. Mais mon but c'est justement de ne pas avoir à rechercher 100 images. Ce que j'aurai voulu c'est qu'une seule image suffise! Je donc vais devoir attendre que les IA se perfectionnent.

A moins qu'il ne soit possible de partir d'une image unique, et par essais correctifs successifs, faire intégrer progressivement à l'IA de "bonnes images" pour affiner de mieux en mieux et de plus en plus rapidement le concept de ce qu'est Tintin?

Par exemple je lui fait intégrer que l'image ci-dessus, c'est Tintin (en effaçant Milou avant!) en la décrivant techniquement de la manière la plus exhaustive possible (en admettant donc que je suis un pro des prompts). Puis ensuite je lui demande "montre-moi Tintin en train de boire une bière". L'IA me propose 100 images, et je sélectionne celle qui est la plus fidèle à la représentation de Tintin, peut-être en affinant au besoin pour qu'elle me propose quelque chose qui me convienne vraiment. Pas forcément sur le contexte (il boit une canette de bière, un bock, au comptoir, dans son canapé, à la buvette du stade...) mais bien sur Tintin lui-même.

Du coup il y a désormais en stock deux images de Tintin, la première, et celle où il boit une bière. Puis je continue sur le même principe pour avoir une image convenable de "Tintin lit le journal", puis "Tintin promène son chien", etc. Normalement l'IA devrait faire de moins en moins de variations sur la représentation de Tintin. Ensuite une fois qu'elle a "compris" quel rendu est attendu pour tintin, je peux affiner le décor autour. "Montre moi Tintin en train de boire une bière dans son canapé", "Tintin promène son fox-terrier blanc à poils durs", etc.

Mais le but serait bien de partir d'une seule photo pour qu'ensuite, quand je lui demande de représenter Tintin, ce soit bien toujours le même. Que je puisse éventuellement demander des variantes par la suite, par exemple si je veux le voir en train de marcher sur la Lune dans un scaphandre.

ledahu · Messages : 269 Sujets : 51 Inscription : 13 Jun 2013

Non, parce que ton Tintin aura toujours les bras, les mains, les plis de pantalon, l'expression de visage etc. de la même façon, à cause de cette seule image

Donc l'IA comprendra que "tout ca" c'est le mot clef "Tintin"

Toi, en tant qu'humain tu comprends que tous ces éléments pourraient être autrement. L'IA, elle, ne voit que des pixels.

par exemple, tu ne pourras pas générer tintin de dos , ou 3/4 , ou assis etc.

un des bons tuto sur le sujet : https://civitai.com/articles/138/making-a-lora-is-like-baking-a-cake

tholdur · 13/05/2024, 11:48

Alors une autre approche.

Je rentre une description la plus exhaustive possible de "Tintin" = jeune homme de taille moyenne au visage ovale vertical lisse, avec cheveux oranges coupés très courts et houppette dressée en hauteur sur le front, la peau rose pale avec coloration plus foncée au niveau de la joue, vêtu d'un polo bleu à col blanc, d'un pantalon de golf marron, de chaussettes blanches et de chaussures de ville marrons à semelle grise.

(tout ça en prompts que je ne maîtrise pas - et aussi l'AI sait-elle déjà ce qu'est un polo, une houppette, une coloration au niveau des joues, etc. - mais admettons !)

Puis je lui propose l'image ci-dessous (sans Milou) en indiquant qu'il s'agit de Tintin "de 3/4 profil" "en train de courir" "le corps penché en avant" "la jambe droite pliée au niveau du genou et le bras gauche plié au niveau du coude en avant du corps" "jambe gauche pliée au niveau du genou et bras droit plié au niveau du coude en arrière du corps".

Est-ce que ça ne permettrait pas d'affiner la représentation de "Tintin" pour l'IA?

En supposant qu'une AI puisse accepter d'intégrer une définition de base écrite de "Tintin", et des compléments de cette définition au format image agrémenté de descriptions écrites!

ledahu · 13/05/2024, 13:52

Oui et Non.

Quand tu entraines l'IA, tu l'entraines sur ce qu'elle ne connait pas.

Autrement dit, par exemple , si tu donnes une image de Tintin sur fond blanc.

et que tu dis pour l'entrainement : ceci est une image de Tintin

Elle te sortira un LORA qui le met systématiquement sur fond blanc, même si dans ton prompt tu spécifies que le fond est un port, le chateau de Moulinsart etc. .

Alors il faudra dire : ceci est une image de Tintin sur fond blanc

et là ok, le fond ne fait pas partie du concept "Tintin"

mais elle te sortira une image de Tintin avec l'angle des bras et la position parfaitement exactement à ton image

alors il faudra dire ... [ta description] etc.

bref, il faut dire "l'essence" de Tintin , par la négative : ce qui n'est pas dans ton NC, ce qui n'est pas Tintin

Et c'est là qu'il y a une magie de l'IA, conceptuellement :

Pour entrainer, sur un Nouveau Concept (NC) , il faut lui dire tout ce qu'elle sait déjà, et surtout pas le NC, le NC étant un mot qu'elle ne connait pas, pour qu'elle puisse déterminer ce qu'est ce NC (ce n'est pas le fond blanc)

Donc, si tu lui dis que c'est un jeune homme , elle élimine ces notions du NC, et donc , potentiellement, Tintin pourra sortir comme une vieille femme (une Tata donc Smile

)

Donc, oui, il faut décrire les positions, entre autres.

Mais si tu lui donnes bcp d'images dans différentes positions, ou background, tu n'as pas besoin de le spécifier, car elle "comprend" que cela n'est pas le NC. Elle peut extraire le NC.

Et tu comprends que c'est un art au sens "cuisine" .
Perso, sur mes tests, j'ai passé 150 entrainements (3h par entrainement) sur un dataset de 80 images, avec des journées/nuits entières où la machine souffle sa sueur, avant d'arriver à quelque chose d'acceptable ...
Il y a tellement de paramètres...
L'entrainement d'IA (images) se fait avec https://github.com/bmaltais/kohya_ss

On parle ici de l'avant-garde de l'IA = des gens qui ont des monstres en ordi, des facilités en informatique, et du temps ...

Les LORA, en IA generatives d'images, sont du Fine-tuning, qui arrivera rapidement aussi chez les LLM (Large Langage Model: Gpt, Claude, Bard, Mistral, Llama etc.) , autrement dit l'équivalent d'un LORA spécialisé langage SciFi par exemple. Ou plus concrètement des IA spécialisées "Droit Français" par exemple ...

Enfin, un business est en train de naître: tu peux trouver des gens pour entrainer ton LORA ... "Entraineur d'IA" , quel beau métier !

Maintenant, pour vous foutre les jetons: imaginons un fineTune LLM qui est entrainé à reproduire le style d'écriture de XXX (XXX = tous vos auteurs favoris) et que pour écrire votre Yaz, vous demandez à cette IA de ré-ecrire vos paragraphes avec le style de XXX...
Bref, fondamentalement se pose la question de la créativité et de la plus-value en tant qu'auteur humain.

Mon avis : Par exemple la gaudriole. L'IA ne fera jamais de théâtre de boulevard Wink

Argument: je me suis récemment fait jeté par l'IA Llama3 sur des questions anodines (Peggy 18), genre "nan, pas de ça chez nous!" . Heureusement qu'il y a des IA non censurées ! <= ceci est un vrai sujet (LLM ou Images): les biais, les filtres.

Enfin, je tiens à souligner que tout cela n'est pas "demain", c'est maintenant.

Bref, ce sujet est passionnant ! (ou tout du moins me passionne)

Se connecter
Utilisateur :
Mot de passe :	Mot de passe oublié ?
	Se rappeler