Daniel Šimánek
7. 6. 2024

Google Veo: nový hráč v generativních videích

Google přichází na trh AI generace videí se svým novým nástrojem Veo. Nechal se přitom slyšet, že jde o nejschopnější generativní nástroj této doby, který dokáže vytvářet vysoce kvalitní videa delší než jedna minuta a nabízí širokou škálu vizuálních a kinematografických stylů. To vše navíc ve vysokém rozlišení 1080p.

Veo by mělo podle Googlu dokázat přesně zachytit nuance a tón promptů a poskytnout tak ohromnou úroveň tvůrčí kontroly. ,,Rozumí promptům pro všechny druhy filmových efektů, jako jsou například prolínačky nebo letecké záběry krajiny,” uvádí tvůrci s tím, že chtějí díky Veo zpřístupnit tvorbu videa úplně všem, ať už jste zkušení filmaři, začínající tvůrci nebo třeba pedagogové.

Jestli sliby naplní se brzy ukáže. V následujících týdnech totiž budou některé z těchto funkcí dostupné vybraným tvůrcům prostřednictvím VideoFX, nového experimentálního nástroje na labs.google. Do čekací listiny se můžete zapsat už teď.

V budoucnu hodlá Google některé z možností Veo také implementovat do YouTube Shorts a dalších produktů.

Lepší porozumění jazyku a vidění

Díky pokročilému porozumění přirozenému jazyku a vizuálnímu chápání má být Veo schopno mimořádně přesně převádět váš prompt do požadované scény. A to včetně zachycení správného tónu požadavky a vykreslení i složitých detailů. Ideální prompt by tak měl být přesný a popisný, s případným odkazem na referenční předlohu vámi požadované scény.

Ovládací prvky pro natáčení filmů

Pokud je v promptu vstupní video a zároveň prompt k úpravě, například přidání kajaků do leteckého záběru pobřeží, Veo může tento prompt použít a aplikovat na původní video a vytvořit nový, upravený záběr.

Kromě toho podporuje regionální úpravy, které umožňují změny v určitých oblastech videa, když do videa a textového promptu přidáte oblast, kterou chcete upravit.

Veo může také generovat video na základě kombinace referenčního obrázku a textového promptu. Referenční obrázek v tomto případě pomůže vytvořit ještě přesnější výstup vzhledem k vašim představám.

Proti známému Sora AI, umí Veo vytvářet videoklipy a prodlužovat je na 60 sekund a více. To dokáže buď na základě jediného promptu, nebo po zadání sekvence promptů, které dohromady vyprávějí celý příběh.

Konzistence napříč snímky videa

Udržení vizuální konzistence mezi snímky může být pro AI generátory videa obtížnou výzvou. Postavy, objekty nebo dokonce celé scény mohou mezi jednotlivými snímky neočekávaně blikat, přeskakovat nebo se měnit, což narušuje zážitek ze sledování.

Autoři Veo však slibují, že díky špičkovým transformátorům latentní difúze dokáže Veo snižit výskyt těchto nekonzistencí a udržet postavy, objekty a styly na svém místě tak, jako by tomu bylo ve skutečnosti. Proto pro něj není problém vytvářet sekvence, které na sebe navazují jako v klasických filmech.

Dlouholetý výzkum generování videí jako základ Veo

Veo vychází z dlouholeté práce na generativních AI na videa, včetně Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet a Lumiere, a také z naší architektury Transformer a Gemini.

Aby Google pomohl Veo přesněji porozumět a sledovat prompty, přidali také tvůrci více podrobností k titulkům jednotlivých videí v jeho trénovacích datech. Dále také zlepšili výkon, model používá vysoce kvalitní, komprimované reprezentace videa. Tyto kroky by měly zlepšit celkovou kvalitu a zkrátit dobu potřebnou k vytvoření videa.

Zodpovědnost podle designu

Jako se všemi inovacemi v oblasti AI, je důležité aby přicházely na svět zodpovědně a velkou důsledností na kontrolu a bezpečnost. Videa vytvořená společností Veo jsou opatřena vodoznakem pomocí nástroje SynthID, který slouží k identifikaci obsahu vytvořeného umělou inteligencí. Procházejí bezpečnostními filtry a procesy kontroly zapamatování, které pomáhají zmírnit rizika týkající se ochrany soukromí, autorských práv a zaujatosti.

Nejčtenější příspěvky

Sdílet článek

Nejnovější články

AI v roce 2025: Jaké trendy nás čekají?

AI v roce 2025: Jaké trendy nás čekají?

Umělá inteligence za poslední roky prošla obrovským vývojem a rok 2025 bude zřejmě dalším milníkem v jejím pokroku. Odborníci očekávají významné změny nejen v technologiích, ale i v jejich dopadu na společnosti, regulace a etické otázky. 1. Pokrok v generativní AI...

Hladová AI: Jak umělá inteligence polyká energii a co s tím dělat?

Hladová AI: Jak umělá inteligence polyká energii a co s tím dělat?

Hladová AI: Jak umělá inteligence polyká energii a co s tím dělat? Umělá inteligence prochází revolučním rozvojem, ale s tím roste i její energetická náročnost. Podle odhadů by datová centra podporující AI mohly do roku 2027 spotřebovávat tolik energie jako celé...