Daniel Šimánek

8. 3. 2024

Konkurent gigantů? Claude 3

A man standing in the middle of the crowd. He is taller and bigger, appearant that he is superior.

Claude 2 bylo v závodu mezi velikány, jako jsou ChatGPT, Gemini, Mistral a další, pozadu. Nová rodina modelu Claude 3, kterou oznámila firma Anthropic, má ambice nastavit nová měřítka a vybojovat si první místo.

Rodina se skládá z tří moderních modelů ve vzestupném pořadí podle schopností: Claude 3 Haiku, Claude 3 Sonnet a Claude 3 Opus. Každý následující model nabízí stále větší výkon a umožňuje uživatelům vybrat optimální rovnováhu mezi inteligencí, rychlostí a cenou pro jejich konkrétní aplikaci.

Opus a Sonnet jsou nyní k dispozici pro použití v claude.ai a Claude API, které je aktuálně obecně dostupné ve 159 zemích. Haiku bude brzy k dispozici.

Nový standard pro umělou inteligenci

Opus, který je nejinteligentnějším z modelů, překonává své kolegy ve většině běžných hodnotících měřítek pro systémy umělé inteligence, včetně odborných znalostí na vysokoškolské úrovni (MMLU), odborného uvažování na úrovni absolventa (GPQA), základní matematiky (GSM8K) a dalších. Vykazuje téměř lidskou úroveň porozumění a plynulosti při řešení složitých úkolů a dotýká se tak hranice obecné inteligence.

Všechny modely Claude 3 vykazují zvýšené schopnosti v oblasti analýzy a předpovědí, vytváření nuancovaného obsahu, generování kódu a konverzace v jiných než anglických jazycích, jako je španělština, japonština a francouzština.

Podle testů, které provedli v Anthropi, mohli porovnat výsledky spolu s dostupnými výsledky ostatních známých AI. Výsledky byly překvapivě úspěšné na straně Claude 3.

Results of Anthropic's testing Claude 3 versus other major language AI models.

Bleskové reakce

Modely Claude 3 mohou řídit zákaznické chaty, automaticky dokončovat úkoly a úlohy extrakce dat, kde musí být výsledky okamžité a v reálném čase.

Haiku je ve své kategorii inteligence nejrychlejší a cenově nejvýhodnější model na trhu. Dokáže přečíst informační a datově hustý výzkumný dokument na arXiv (~10 000 tokenů) s tabulkami a grafy za méně než tři sekundy. Po spuštění očekáváme další zlepšení výkonu.

U naprosté většiny úloh je Sonnet 2× rychlejší než Claude 2 a Claude 2.1 s vyšší úrovní inteligence. Jeho předností je také rychlost v úkolech vyžadujících rychlé reakce, jako je získávání znalostí nebo automatizace prodeje.

Opus poskytuje podobnou rychlost jako Claude 2 a 2.1, ale s mnohem vyšší úrovní inteligence.

Vizuální formáty nejsou problém

Modely Claude 3 dokážou zpracovat širokou škálu vizuálních formátů, včetně fotografií, tabulek, grafů a technických schémat. Tuto zprávu obzvláště rádi uslyší podnikoví zákazníci, z nichž někteří mají až 50 % svých znalostních bází zakódovaných v různých formátech, jako jsou PDF, vývojové diagramy nebo prezentační snímky. V těchto úkolech má Claude 3 a její rodina podobné výsledky jako nový model Google Gemini 1.0 Ultra.

Skoro bez chyb

Předchozí Claudeovy modely často zbytečně odmítly splnit úkol, což naznačovalo nedostatečné kontextové okno. V této oblasti udělali pokrok: Opus, Sonnet a Haiku výrazně méně odmítají odpovídat na výzvy, které hraničí s mantinely systému, než předchozí generace modelů.

Vylepšená přesnost

Pro vylepšení přesnosti využívají velký soubor komplexních otázek, které se zaměřují na známé slabiny současných modelů. Výsledky poté dělí na úspěch, neúspěch a nejistotu. Ve srovnání s Claude 2.1 vykazuje Opus dvojnásobné zlepšení přesnosti (nebo správných odpovědí).

Dlouhý kontext a téměř dokonalé vybavování

Rodina modelů Claude 3 zpočátku nabídne kontextové okno na 200 000 tokenů. Všechny tři modely jsou však schopny přijímat vstupy přesahující 1 milion tokenů a můžeme je zpřístupnit vybraným zákazníkům, kteří potřebují vyšší výpočetní výkon.

Aby bylo možné zpracovat dlouhé kontextové výzvy, modely vyžadují robustní možnosti vyvolání informací. Hodnocení „Needle In A Haystack“ (NIAH) měří schopnost modelu přesně si vybavit informace z rozsáhlého korpusu dat.
Posílili robustnost použitím jednoho z 30 náhodných párů jehla/otázka na prompt a testováním na rozmanitém korpusu dokumentů. Claude 3 Opus dosáhla skoro 99% přesnosti a dokonce i několikrát podotkla, že testovací věta byla vložena člověkem naschvál.

Bezpečnost a transparentnost

Claude 3 klade důraz na důvěryhodnost a bezpečnost. Specializované týmy se zaměřují na zmírňování rizik dezinformací, zneužití a dalších hrozeb. Modely prošly testováním a hodnocením a jejich bezpečnostní detaily jsou transparentně zveřejněny.

Podporují také principy ústavní umělé inteligence a snižují předsudky v modelech AI. Díky tomu se stávají užitečným nástrojem pro zodpovědné užívání AI. Tento fakt je silným přínosem pro budoucnost AI, neboť její bezpečnost a etika užití je to, co dovolí rozvíjet tento sektor dál.

Claude 3 se přidala mezi výkonné a uznávané velikány textové umělé inteligence. Stanou se teď ChatGPT a Gemini podřadnými?

Nejčtenější příspěvky

AI nástroje AI news

Sdílet článek

Nejnovější články

AI v roce 2025: Jaké trendy nás čekají?

AI v roce 2025: Jaké trendy nás čekají?

Umělá inteligence za poslední roky prošla obrovským vývojem a rok 2025 bude zřejmě dalším milníkem v jejím pokroku. Odborníci očekávají významné změny nejen v technologiích, ale i v jejich dopadu na společnosti, regulace a etické otázky. 1. Pokrok v generativní AI...

Nová éra hlasových asistentů: ElevenLabs představuje revoluční AI technologii

Nová éra hlasových asistentů: ElevenLabs představuje revoluční AI technologii Společnost ElevenLabs oznámila spuštění nové generace hlasových asistentů poháněných umělou inteligencí. Tyto asistenti nejsou jen schopni odpovídat na dotazy, ale umí také plynule...

Hladová AI: Jak umělá inteligence polyká energii a co s tím dělat?

Hladová AI: Jak umělá inteligence polyká energii a co s tím dělat?

Hladová AI: Jak umělá inteligence polyká energii a co s tím dělat? Umělá inteligence prochází revolučním rozvojem, ale s tím roste i její energetická náročnost. Podle odhadů by datová centra podporující AI mohly do roku 2027 spotřebovávat tolik energie jako celé...