Funkce, která má potenciál rozšířit kreativitu s generativním AI.
Midjourney začalo testovat svoji novou funkci „Consistent Character“, což byla komunitou nejpožadovanější funkce. Tato aktualizace dovoluje uživateli tvořit obrázky založené na předloze. Můžete tedy vytvořit sérii obrázků jednoho člověka, v různých pózách, oblečení a prostředích.
Většina generátorů obrázků AI se spoléhá na „modely difúze“, nástroje podobné nebo založené na algoritmu generování obrázků s otevřeným zdrojovým kódem Stable Diffusion společnosti Stability AI, které fungují zhruba tak, že převezmou text zadaný uživatelem a pokusí se poskládat obrázek pixel po pixelu, který odpovídá popisu.
Proč jsou konzistentní postavy pro AI takový oříšek?
Přesto, jak je tomu u textových modelů velkých jazyků (LLM), jako je ChatGPT od OpenAI nebo nový Command-R od Cohere, problém všech generativních aplikací umělé inteligence spočívá v jejich nekonzistentnosti odpovědí: umělá inteligence generuje něco nového pro každý jednotlivý prompt, i když se prompt opakuje nebo jsou použita některá ze stejných klíčových slov.
K čemu to bude dobré?
Co když píšete příběhový film, román, grafický román nebo komiks nebo nějaké jiné vizuální médium, kde chcete, aby se v něm pohybovala stejná postava nebo postavy a objevovaly se v různých scénách, prostředích, s různými výrazy obličeje a rekvizity?
Tento přesný scénář, který je obvykle nezbytný pro narativní kontinuitu, bylo zatím velmi obtížné dosáhnout s generativní AI. Ale Midjourney se na to nyní vrhne a představuje nový tag „–cref“ (zkratka pro „character reference“ – „odkaz na postavu“), který mohou uživatelé přidat na konec svých textových promptů v Midjourney Discord a pokusí se přizpůsobit obličeji postavy, funkce, typ postavy a dokonce i oblečení z URL odkazu adresy, kterou uživatel vloží za značku -cref.
Jak se tato funkce vyvíjí a zdokonaluje, mohla by Midjourney posunout dále od skvělé hračky nebo zdroje nápadů na více profesionální nástroj.
Jak se to dělá?
Pojďme si udělat krátký návod, jak si může uživatel tuto funkci vyzkoušet.
1. krok
Vygenerujte si obrázek dle vaší libosti. Pro tento případ si vyzkoušíme prompt: „A bald man with a long beard and a flanel shirt.“ s dodatečnými parametry –ar 16:9 –s 750. Vybraný výsledek následně zvětšíme pomocí funkce „upscale.“

2. krok
Zkopírujeme odkaz na obrázek.

3. krok
Následně vytvoříme náš požadavek na změnu. My jsme použili „a man wearing a white tuxedo and black sunglasses“, s následujícím parametrem –cref a po něm vložíme odkaz na obrázek předchozí. Použili jsme ještě dodali i předchozí parametry –ar 16:9 a –s 750

Je vidět, že odvedl dobrou práci, jen tuxedo, neboli smoking, neudělal bíle. Brýle se ale povedly a uznávám, že mu to sluší.
Bonus
Pokud chceme variaci podobnosti upravit, přidáme k promptu ještě parametr –cw. Použitím značky „–cw“ následované číslem 1 až 100 na konec své nového promptu (po „ –cref [URL odkazu]“, tedy takto: „–cref [URL] –cw 100“ čímž může uživatel ovlivnit váhu podobnosti, kterou si nová generace převezme z obrázku v odkazu. Čím nižší je číslo „cw“, tím větší bude rozptyl výsledného obrázku. Čím vyšší číslo „cw“, tím více výsledný nový obrázek bude těsně následovat původní referenci.
Zkusme to tedy znovu. Zadáme opět prompt, nově s dodatečným parametrem „cw“: a man wearing a white tuxedo and black sunglasses –cref [URL] –cw 8 –ar 16:9 –s 750

Smoking už máme v bíle, dokonce na jednom také brýle, ale objevily se nám vlasy. Můžeme tedy změnit hodnotu –cw a zkusit dosáhnout přesnějšího výsledku.
Shrnutí:
Po promptu zadejte –cref URL s adresou odkazu URL obrázku
Pomocí –cw můžete upravit referenční „sílu“ ze 100 na 0
síla 100 (–cw 100) je výchozí a používá obličej, vlasy a oblečení
Při síle 0 (–cw 0) se zaměří pouze na obličej (dobré pro změnu oblečení / vlasů atd.)
S rezervou a ambicemi
Midjourney consistent character ani ostatní generátory obrázků pomocí AI nejsou všemocné. Tato nová funkce je ale velkým posunem k dalším možnostem a způsobům využití umělé inteligence a generace obrázků. Chyby a nepřesnosti během generování obrázků vlastně nevadí, neboť chybami se učí, doslova. Čím více se bude tato funkce používat, tím lepší výsledky bude podávat. Přesto otevírá tato funkce dveře spoustě možností v kreativním průmyslu a v místech, kde je potřeba pracovat s „jednou osobností.“



