Od DALL-E po Leonardo – mapa AI generátorů

Platit si dnes ilustrátora je pouze pro fajnšmekry a ty, co nevědí, kam s penězi. Obrázkovače odvedou téměř stejně dobrou práci a buďte si jisti, že pokud na obrázku nedejbože přehlédnete chybu, málokdo pozná, jak vznikla. A chyby lze pohodlně opravovat, ačkoli nemáte Photoshop a neumíte s ním, máme totiž nanobanán.
Obrázkovač už není jen Midjourney. Hodně se zlepšily i ostatní modely a každý má své výhody a věci, které mu jdou líp. Například umí poslouchat, co chcete – a v tom má konkrétně MJ zatím mezery…

Závod umělých inteligencí nám zpřístupnil mnohé modely a Midjourney už není jediným obrázkovačem, ve kterém se dá vyrobit obálka nebo ilustrace pro knihu. Stále má asi nejhezčí estetiku, ale propast mezi ním a ostatními modely se zmenšila. Nedostanete-li obrázek, jaký chcete od Midjourney, vyplatí se zkusit to i jinde. Některé modely totiž vašim pokynům rozumí lépe než jiné, a obrázkovačů na výběr už je spousta.

(Ale prostředí se také každý den mění: Měsíc po publikování tohoto článku již např. není zdarma Flux v Google AI Studiu. Připravte se proto na to, že článek nemusí zcela odpovídat aktuální realitě. Jeho cílem je hlavně demonstrace, že nejsme omezeni na Midjourney, a jak který model funguje.)

kniha

Dall-E

Když jsem vytvářel obrázek pro máminu Jak napsat knihu, nebyl problém dostat z Midjourney čápa. Ale dostat z něj letícího čápa nesoucího v zobáku povijan a v něm knihu byl úkol, se kterým se popasovat nedokázal…

Nelíbila se mi ani krajina v pozadí, ale té bych se snadno zbavil, a styl bych si taky upravil. Jenže bylo jasné, že MJ nemá nejmenší ponětí, jak novorozenecká čapí logistika funguje v praxi. Musím ale uznat, že je to celkem těžké zadání, protože obrázků, ze kterých by si obrázkový model nastudoval, jak to vypadá, zřejmě mnoho není.

selhání Midjourney

Dall-E je obrázkový model od OpenAI a lze ho používat zdarma v prohlížeči Bing. Můžete si přitom zvolit formát (to dříve nešlo) a také přepnout na GPT-4o. Jejich výhoda je, že pokyny chápou a dokáží se jich držet lépe. Zatímco Midjourney se nepovedl povijan ani jednou, a samotnou přepravu knihy taky fyzikálně nezvládla, zase tak extrémně složité zadání to asi není, protože Dall-E to zvládla ve většině případů.

Dall-E3

Stále se mi ale nelíbila estetika obrázku. Měla to být kniha pro dospělé, ne pro děti. Tak jsem přepnul na GPT-4o. Konečně jsem začal od obrázkovače dostávat to, co jsem chtěl: Jednoduché a spíš ilustrační než věrné obrázky, s tlumenými barvami a knihou v povijanu. 

GPT4o

Z hlediska porozumění se tak GPT-4o ukázalo jako nejschopnější, a její obrázek jsme nakonec i použili. Udělal jsem 8 návrhů, z nich jsme vybrali finalistu, a pak znovu ještě jednou, abychom zvolili nejvhodnější písmo.

Mysleli jste si, že vymyslíte a vytvoříte jedinou obálku a hotovo? Budiž vám inspirací, jak se dělá obálka pro knihu pořádně:

U Dall-E v Bingu lze omezeně nastavit poměr stran (1:1, 7:4 a 4:7), a vzhledem k tomu, že máme i AI schopnou v případě potřeby přidělat spad (Fotor, Leonardo, ClipDrop Uncrop atd.), podle mě to stačí. Přepnete-li na GPT-4o, nabídka poměru stran bude 1:1, 3:2 a 2:3. 

K oběma zmíněným modelům přibyl ještě MAI-Image-1, tak jsem ho rovnou vyzkoušel na stejném úkolu. Tento model se od počátku v podstatě perfektně trefil do estetiky – stylu, který jsem chtěl, přičemž kniha v povijanu pro něj byl oříšek, se kterým se ale nakonec také nějak popasoval. Kdyby byl na světě o něco dříve, asi by jeho obrázek byl mezi finálními návrhy.

MAI-Image-1
kniha

Imagen

Po počátečním nestíhání OpenAI se Google vzpamatoval a uvedl na trh velký model Gemini, a v jeho AI Studiu můžeme zdarma pracovat s obrázkovými modely Imagen, NanoBanana a omezeně se starším video modelem VEO2. 

Přestanu modely trápit čapí logistikou, protože nás zajímá hlavně schopnost tvořit pěkné obálky. Málokdo z vás asi bude mít zadání tak těžké na pochopení logiky věci (pro zvědavce – nejlépe v tom uspěl Imagen4, druhý na pásce byl model Imagen4 Ultra a nejslabší byl Imagen4 Fast).

Ale hned první dvě má zadání selhala pro zakázaný obsah, i když jsem jen zkopíroval prompt z Midjourney, se kterým ona problém neměla (naštěstí, od ní by to bolelo víc). V prvním případě zadání zmiňovalo konflikt v Gaze a ve druhém konflikt Thajska s Kambodžou. Obojí bylo odmítnuto. Musel jsem přijít s něčím nevinným: „siréna a muž v objetí, v pozadí temný hrad, obálka romantického románu, bez textu“. 

Když zmíním obal knihy, některé modely nemohou odolat pokušení nacpat mi tam text, i když ho výslovně zakážu. Pořadí je tu stejné jako u čápa: Druhý byl Ultra, poslední Fast.

↑ Midjourney ↑
↑ Imagen 4 ↑
↑ Imagen4 Ultra ↑
↑ Imagen4 Fast ↑

Pak jsem změnil zadání a zkusil vygenerovat obrázek s Draculou, který už mám z Midjourney. Estetika MJ podle mě naprosto vede. Pokud jde o Imagen, pořadí se otočilo. Podle mě dal nejlepší výsledky model Fast, druhý byl Ultra a nejslabší byl model Imagen 4 bez přídomku:

↑ Midjourney ↑
↑ Imagen4 Fast ↑
↑ Imagen4 Ultra ↑
↑ Imagen4 ↑
kniha

NanoBanana

Zmínil jsem NanoBanana, ale ta není specialistou na generování obrázků: To sice taky umí, ale když to zkoušíte dělat zdarma v Google AI Studiu, velmi často server těsně před dokončením spadne. To bude ale spíš problém Google, protože Dracula, na kterém si vylámal zuby opakovaně, mi na PicLumen (kde jsem si předplatil kredity) šel vygenerovat napoprvé. Cenzura tedy asi není (přinejmenším v některých případech) problém obrázkového modelu, ale spíš platformy, která vám k němu umožňuje přístup, a možná trošku i toho, zda za to platíte, nebo ne. Tvůrci závadného obsahu asi platí neradi – proto ostatně zrušila discordovou verzi zdarma i Midjourney.

Ale hlavně je nanobanánek přeborníkem ve změně obrázků stávajících, kdy vám dokáže selektivně změnit pouze jednu věc a vše ostatní ponechat beze změn. Jako dobrý příklad poslouží titulní obrázek článku:
V první verzi z PixLumen držel robot špatně štětec. Pak jsem pracoval s obrazem, který maluje, a nakonec jsem mu dal hlavu filmového uklízecího robota Wall-E. To je tip na závěrečné úpravy a doladění, pokud netvoříte v MJ (která má vlastní editor).

NanoBanana – postupná úprava obrázku

18 Practical Nano Banana Pro Workflows You Must Know
4 SECRET site that offer Nano Banana Pro Free & Unlimited

Zkusil jsem to i s Dall-E, ale od něj jsem nic nečekal – není na tento druh obrázků stavěný (to jsou ty první dva obrázky níže). Spíš jsem byl zvědavý na GPT-4o. Bohužel, pro GPT je Dracula zjevně nebezpečný obsah. Zkusil jsem to 3x a pokaždé mi to generování obrázku zrušilo těsně před koncem. Stihl jsem jen vyfotit obrazovku (třetí obrázek). 

Stejně tak mi to nedovolil ani model MAI-Image1, a tam se nedal vyfotit ani náhled. Je tedy dobré vědět, že i s některými klasickými a známými tématy můžete narazit na cenzuru. Každý model má však jiná pravidla, takže třeba nejdříve zkuste placenou platformu, a nedá-li jeden model, dá jiný.

Dall-E3 a GPT4o
kniha

Leonardo

Leonardo používám častěji na vytvoření spadu, ale je to také výkonný obrázkovač se spoustou modelů, a hlavně – je úplně zadarmo. Každý den dostanete 150 kreditů, což sice nestačí ani na vyzkoušení všech modelů (ceny jsou v rozpětí 16–100 kreditů za obrázek), ale následující den budete mít opět dalších 150 kreditů. To je skoro 55 tisíc kreditů, které dostanete každý rok zdarma. Každodenní obnova je taky pro experimentování mnohem příjemnější, než obnova jednou za měsíc.

Na prvních obrázcích čápa s povijanem si Leonardo vylámal zuby, a protože je to netypický a složitý námět, nechtěl jsem plýtvat kredity a přešel jsem raději k dalším obrázkům.

Mohla to být náhoda, ale zdálo se mi, že Leo trpí cenzurou snad ještě více než GPT. Muže objímajícího sirénu s hradem v pozadí mi odmítl jak model Lucid Realism, tak Phoenix 1 – to jim ovšem nezabránilo si body za vygenerování vzít. Neodmítl mi to model Flux, a to jak ve verzi Schnell, tak Dev a Pro 2.0.

↑ Flux Schnell ↑
↑ Flux Dev ↑
↑ Flux 2 Pro ↑

Drákula mi byl zcenzurován modely Phoenix 1, Flux Schnell, Flux Dev., Lucid Origin i Lucid Realism (ale kredity si vzali), takže skoro všemi levnějšími. Vzdal jsem se tedy upíra a zkusil jiný obrázek, kterému pracovně říkám running man

Phoenix 1 na něm taky vyhořel díky cenzuře, takže za mě to moc užitečný model není. 

↑ Lucid Origin ↑
↑ Lucid Realism ↑
↑ Flux Schnell ↑
↑ Flux 2 Pro ↑
↑ Seedream 4 ↑

Na závěr vás ještě upozorním na novou „fíčuru“ Leonardo.ai – Flow State. Tento nástroj vám umožní vidět vizuální výsledek okamžitě po napsání každého slova v promptu, čímž eliminuje dlouhé čekání na vygenerování. Díky extrémní rychlosti a interaktivitě umožňuje ladit kompozici a styl pouhou změnou textu nebo parametrů. Cílem je udržet uživatele v tvůrčím „flow“, kdy technické prodlevy nepřerušují tok jeho myšlenek a inspirace. V podstatě jde o spojení vysokého výkonu modelu se snadnou ovladatelností pro rychlé vizuální skicování. Protože ale tak daleko většina z vás není, nechám to na vaše samostudium:

Leonardův nový Flow State je zdarma a je naprosto úžasný! (video)

kniha

Má praxe

Každý obrázkovač má své výhody a nevýhody, něco mu jde líp a něco vůbec. Některé využívám častěji, některé příležitostně.

  • Pro obrázek na obálku jdu primárně do Midjourney, tam očekávám nejlepší výsledek.
  • Potřebuji-li místo umělce někoho, kdo mě bude poslouchat, zkouším GPT, MAI-Image-1 a Imagen 4.
  • Pokud chci vytvořit ilustraci, kromě MJ zkouším i MAI-Image-1 a Adobe Firefly Image 3.
  • Pokud je obrázek z MJ, provádím změny v něm.
  • Když se změna nepovede nebo mám obrázek z jiné AI než MJ, je na změny bezkonkurenčně nejlepší NanoBananaPro.
  • Chci-li přidělat spad, zkusím (předplacený) Fotor, a pak Leonardo. Nepovede-li se, tak NanoBanana.
  • Další množství modelů (včetně NanoBanana, která v Google Studiu často padá) mám v PicLumen. Nemám rád pravidelné předplatné, ale lze tam zakoupit 1000 kreditů za 9 dolarů, což znamená obrázků spoustu.
  • Chcete-li přístup k nejlepším modelům za rozumnou cenu, zkuste třeba Krea.ai za 10 USD měsíčně (ale doporučuji to nejdřív dostat trochu do krve s obrázkovači zdarma, abyste to lépe využili).
  • Dělám si průběžně interní tabulku obrazových generátorů a jejich cen, zde do ní můžete nahlédnout.
kniha

Nová doba

Už jsem zaznamenal několik pobouřených lidí, že je to najednou všude samá AI. To je logické – když se objevil internet, taky tím všichni žili. A letos to nabírá další grády (AI už dělá podle mého odhadu tak 70 % reklam). Ale myslím, že AI obrázkovače už jsou tak dobré, že pokud poznáte, že je obrázek od AI, je to špatná práce zadavatele. Opravdu dobré obrázky se nekritizují – protože zkrátka není možné opticky poznat, kdo je autorem, zda výtvarník, fotograf nebo AI.

To se týká i vás. Uděláte-li dobrý obrázek, nikdo nepozná, jak jste ho získali. A hlavně – vašim čtenářům je to šumafuk. Copak vy sami, když dočtete skvělou knihu, znelíbíte si ji kvůli tomu, že je zblízka na obálce vidět nějaká nedokonalost? Já rozhodně ne, popravdě obálku jako čtenář nezkoumám vůbec (profesionální zájem nepočítaje).

Jediným úkolem obálky je zaujmout cílovku, když skroluje feedem (prohlíží stránku), natolik, aby se dotyčný zarazil a knihu si rozklikl – a tuto úlohu musí splnit v naprosté většině případů jako 4–8 cm vysoký náhled (thumbnail). Tím neříkám, že máte pustit ven hrdinu se šesti prsty, to v žádném případě. Říkám pouze, že to na funkci nemá vliv. Nebuďte v tom přehnaně úzkostliví a už vůbec to není důvod nepoužívat obrázkovače. Byli byste sami proti sobě.

Zkoušíte nové možnosti, nástroje a AI aplikace, nebo na to nemáte čas? Už máte představu, jak vytvoříte obrázek pro svou knihu? Napište mi do komentářů!

Jiří Nosek
průvodce autorů českým knižním bludištěm
o blogu a mé cestě k autorskému vzdělávání

Chcete získat kompletní přehled za dva týdny bez nekonečného slepování střípků informací? Přidejte se k těm, kdo už objevili průvodce Vydej si vlastní KNIHU (aktualizované vydání 2024).

Nebuďte na to sami! Připojte se do facebookové skupiny
Jak si vydat knihu, a jak ji i prodat

Hledáte nakladatelství s nejlepšími podmínkami? Co třeba KLIKA?

Komentáře
  1. Dobrý den, po u Kliky vydané 1. knížce píšu volné pokračování. U té první bylo pořadí text, anotace, název, obálka. U druhé knihy na textu dále pracuju, ale obálku i název už mám. Měl jsem x návrhů vlastních a počty rozšířila AI. Ale úplně první návrh obálky, vytvořený na základě podrobného zadání AI mě natolik uchvátil, že mám hotovo. Jen skutečně silné argumenty mě donutí ji změnit. Mám ji vytvořenou už více než 1/2 roku a to je při současném vývoji AI generátorů celé století… Vladimír Bureš

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *