this post was submitted on 10 Oct 2023
6 points (100.0% liked)

Informatica (Italy e non Italy 😁)

1253 readers
8 users here now

Ecco finalmente la comunità italiana Lemmy dedicata all'informatica!

Questo è il luogo in cui condividere post sul mondo dell'informatica: notizie su hardware e software, cybersecurity, cyberwarfare, hacking, nuovi prodotti, data breach!

Ricordiamo che esistono anche alcune comunità che si occupano di argomenti più specifici, quali:

Regole della comunità:

🏳️‍🌈 chiediamo educazione e rispetto per gli altri

🎃 anche se ci chiamiamo "Informatica" non banniamo gli utenti a caso 😁

🚫 trolling, shitposting e molestie sono vietati

💲 è vietato superare il confine che separa l'informazione dalla pubblicità

🔊 evitiamo il clickbait e il sensazionalismo

📖 per il resto valgono le regole dell'istanza al link https://feddit.it/post/6

founded 2 years ago
MODERATORS
 

Ciao a tutti amici, giocando con SD negli ultimi giorni mi è sorta una curiosità sul funzionamento dei prompt.

Fermatemi quando sbaglio.

Queste AI si basano su modelli, che suppongo siano una lunghissima serie di immagini appropriatamente taggate (che suppongo significhi descritte in maniera testuale nella forma e nel contenuto).

Nel creare un prompt per la generazione di un'immagine suppongo quindi sia necessario avere un'idea di come sia stato allenato il modello. Molto banalmente, se viene allenato in inglese, dubito che restituisca risultati significativi se il prompt è in spagnolo.

Ho l'impressione che la scelta dei prompt sia mossa un po' dalla superstizione: guardando diverse community online in cui vengono condivise immagini generate dall'AI con relativi prompt, ho notato che ovunque si leggono prompt tipo "best quality", "masterpiece" (o vicecersa, nei prompt negativi, "low quality", "artifacts" etc etc). Lo scopo è chiaro, ovvero ottenere genericamente "belle" immagini. Ma... siamo sicuri che i modelli siano stati allenati per questo genere di parole chiave? Magari sottovaluto io il dettaglio dei tag di certi modelli, ma non riesco a immaginarmi come un modello possa (premesso che le abbia in primis) estrapolare il concetto di "masterpiecità" da 10-100-1000 immagini taggate come "masterpiece" ed applicarlo in modo sensato ad una nuova immagine.

Prendo un esempio a caso da civitai:

Positive Prompt: (masterpiece, best quality, high quality, highres, ultra-detailed, ((detailed background))), 1girl, looking at viewer, ((peace sign)), portrait, pink hair, (freckles:0.75), blush, happy, smile, medium hair,

Negative Prompt: badhandv4, easynegative, (worst quality, low quality, normal quality), bad-artist, blurry, ugly, ((bad anatomy)),((bad hands)),((bad proportions)),((duplicate limbs)),((fused limbs)),((interlocking fingers)),((poorly drawn face))

Tra questi tag ne vedo tanti che rimbalzano di prompt in prompt, ma di cui non sono certo dell'efficacia (soprattutto se a priscindere dal modello su cui vengono utilizzati), tipo masterpiece, best quality, high quality, worst quality, low quality, normal quality, bad-artist, bad proportions, duplicate limbs, fused limbs (in che mondo a qualcuno verrebbe mai in mente di taggare un'immagine con "fused limbs"?)

Si capisce quel che intendo? Sono io che sottovaluto l'AI e il suo training o c'è effettivamente dietro un sacco di broscience e superstizione?

EDIT: e a questo punto la domanda che sorge natuale è: ma quindi come si possono vedere i tag usati in un modello, in modo da usare solo tag rilevanti nella costruzione di un prompt?

top 1 comments
sorted by: hot top controversial new old
[–] [email protected] 2 points 1 year ago

Condivido le tue perplessità, e sinceramente non mi sembra che saltando quei prompt cambi chissà cosa. I dataset sono pieni di immagini di ragazze belle, quindi al 90% ti uscirà una ragazza bella a prescindere da cosa ci scrivi. Già per ottenere volti “normali” (non da influencer instagrammer aspiranti modelle) bisogna faticare, di immagini maschili ce ne sono molte meno. Ho provato a generare immagini “lavorativamente utili” (secchi, operai, …) e ho lasciato perdere perché evidentemente ci sono troppo poche immagini nel modello per poter generare qualcosa che abbia abbastanza varietà. Questo per dire che il prompt arriva fino a un certo punto, ma spesso se nel modello non c’è materiale adatto vengono cose strane. A volte chi distribuisce il modello suggerisce già delle parole da utilizzare, però non saprei.

Al momento attuale secondo me è tutto ottimizzato per generare belle ragazze (di foto di attricette e modelle è pieno internet), cocktail, anime e roba fantasy (addestrata con fonti tipo deviantart immagino).