Veo by mělo podle Googlu dokázat přesně zachytit nuance a tón promptů a poskytnout tak ohromnou úroveň tvůrčí kontroly. ,,Rozumí promptům pro všechny druhy filmových efektů, jako jsou například prolínačky nebo letecké záběry krajiny,” uvádí tvůrci s tím, že chtějí díky Veo zpřístupnit tvorbu videa úplně všem, ať už jste zkušení filmaři, začínající tvůrci nebo třeba pedagogové.
Jestli sliby naplní se brzy ukáže. V následujících týdnech totiž budou některé z těchto funkcí dostupné vybraným tvůrcům prostřednictvím VideoFX, nového experimentálního nástroje na labs.google. Do čekací listiny se můžete zapsat už teď.
V budoucnu hodlá Google některé z možností Veo také implementovat do YouTube Shorts a dalších produktů.
Lepší porozumění jazyku a vidění
Díky pokročilému porozumění přirozenému jazyku a vizuálnímu chápání má být Veo schopno mimořádně přesně převádět váš prompt do požadované scény. A to včetně zachycení správného tónu požadavky a vykreslení i složitých detailů. Ideální prompt by tak měl být přesný a popisný, s případným odkazem na referenční předlohu vámi požadované scény.
Ovládací prvky pro natáčení filmů
Pokud je v promptu vstupní video a zároveň prompt k úpravě, například přidání kajaků do leteckého záběru pobřeží, Veo může tento prompt použít a aplikovat na původní video a vytvořit nový, upravený záběr.
Kromě toho podporuje regionální úpravy, které umožňují změny v určitých oblastech videa, když do videa a textového promptu přidáte oblast, kterou chcete upravit.
Veo může také generovat video na základě kombinace referenčního obrázku a textového promptu. Referenční obrázek v tomto případě pomůže vytvořit ještě přesnější výstup vzhledem k vašim představám.
Proti známému Sora AI, umí Veo vytvářet videoklipy a prodlužovat je na 60 sekund a více. To dokáže buď na základě jediného promptu, nebo po zadání sekvence promptů, které dohromady vyprávějí celý příběh.
Konzistence napříč snímky videa
Udržení vizuální konzistence mezi snímky může být pro AI generátory videa obtížnou výzvou. Postavy, objekty nebo dokonce celé scény mohou mezi jednotlivými snímky neočekávaně blikat, přeskakovat nebo se měnit, což narušuje zážitek ze sledování.
Autoři Veo však slibují, že díky špičkovým transformátorům latentní difúze dokáže Veo snižit výskyt těchto nekonzistencí a udržet postavy, objekty a styly na svém místě tak, jako by tomu bylo ve skutečnosti. Proto pro něj není problém vytvářet sekvence, které na sebe navazují jako v klasických filmech.
Dlouholetý výzkum generování videí jako základ Veo
Veo vychází z dlouholeté práce na generativních AI na videa, včetně Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet a Lumiere, a také z naší architektury Transformer a Gemini.
Aby Google pomohl Veo přesněji porozumět a sledovat prompty, přidali také tvůrci více podrobností k titulkům jednotlivých videí v jeho trénovacích datech. Dále také zlepšili výkon, model používá vysoce kvalitní, komprimované reprezentace videa. Tyto kroky by měly zlepšit celkovou kvalitu a zkrátit dobu potřebnou k vytvoření videa.
Zodpovědnost podle designu
Jako se všemi inovacemi v oblasti AI, je důležité aby přicházely na svět zodpovědně a velkou důsledností na kontrolu a bezpečnost. Videa vytvořená společností Veo jsou opatřena vodoznakem pomocí nástroje SynthID, který slouží k identifikaci obsahu vytvořeného umělou inteligencí. Procházejí bezpečnostními filtry a procesy kontroly zapamatování, které pomáhají zmírnit rizika týkající se ochrany soukromí, autorských práv a zaujatosti.



