Claude 2 bylo v závodu mezi velikány, jako jsou ChatGPT, Gemini, Mistral a další, pozadu. Nová rodina modelu Claude 3, kterou oznámila firma Anthropic, má ambice nastavit nová měřítka a vybojovat si první místo.
Rodina se skládá z tří moderních modelů ve vzestupném pořadí podle schopností: Claude 3 Haiku, Claude 3 Sonnet a Claude 3 Opus. Každý následující model nabízí stále větší výkon a umožňuje uživatelům vybrat optimální rovnováhu mezi inteligencí, rychlostí a cenou pro jejich konkrétní aplikaci.
Opus a Sonnet jsou nyní k dispozici pro použití v claude.ai a Claude API, které je aktuálně obecně dostupné ve 159 zemích. Haiku bude brzy k dispozici.
Nový standard pro umělou inteligenci
Opus, který je nejinteligentnějším z modelů, překonává své kolegy ve většině běžných hodnotících měřítek pro systémy umělé inteligence, včetně odborných znalostí na vysokoškolské úrovni (MMLU), odborného uvažování na úrovni absolventa (GPQA), základní matematiky (GSM8K) a dalších. Vykazuje téměř lidskou úroveň porozumění a plynulosti při řešení složitých úkolů a dotýká se tak hranice obecné inteligence.
Všechny modely Claude 3 vykazují zvýšené schopnosti v oblasti analýzy a předpovědí, vytváření nuancovaného obsahu, generování kódu a konverzace v jiných než anglických jazycích, jako je španělština, japonština a francouzština.
Podle testů, které provedli v Anthropi, mohli porovnat výsledky spolu s dostupnými výsledky ostatních známých AI. Výsledky byly překvapivě úspěšné na straně Claude 3.

Bleskové reakce
Modely Claude 3 mohou řídit zákaznické chaty, automaticky dokončovat úkoly a úlohy extrakce dat, kde musí být výsledky okamžité a v reálném čase.
Haiku je ve své kategorii inteligence nejrychlejší a cenově nejvýhodnější model na trhu. Dokáže přečíst informační a datově hustý výzkumný dokument na arXiv (~10 000 tokenů) s tabulkami a grafy za méně než tři sekundy. Po spuštění očekáváme další zlepšení výkonu.
U naprosté většiny úloh je Sonnet 2× rychlejší než Claude 2 a Claude 2.1 s vyšší úrovní inteligence. Jeho předností je také rychlost v úkolech vyžadujících rychlé reakce, jako je získávání znalostí nebo automatizace prodeje.
Opus poskytuje podobnou rychlost jako Claude 2 a 2.1, ale s mnohem vyšší úrovní inteligence.
Vizuální formáty nejsou problém
Modely Claude 3 dokážou zpracovat širokou škálu vizuálních formátů, včetně fotografií, tabulek, grafů a technických schémat. Tuto zprávu obzvláště rádi uslyší podnikoví zákazníci, z nichž někteří mají až 50 % svých znalostních bází zakódovaných v různých formátech, jako jsou PDF, vývojové diagramy nebo prezentační snímky. V těchto úkolech má Claude 3 a její rodina podobné výsledky jako nový model Google Gemini 1.0 Ultra.
Skoro bez chyb
Předchozí Claudeovy modely často zbytečně odmítly splnit úkol, což naznačovalo nedostatečné kontextové okno. V této oblasti udělali pokrok: Opus, Sonnet a Haiku výrazně méně odmítají odpovídat na výzvy, které hraničí s mantinely systému, než předchozí generace modelů.
Vylepšená přesnost
Pro vylepšení přesnosti využívají velký soubor komplexních otázek, které se zaměřují na známé slabiny současných modelů. Výsledky poté dělí na úspěch, neúspěch a nejistotu. Ve srovnání s Claude 2.1 vykazuje Opus dvojnásobné zlepšení přesnosti (nebo správných odpovědí).
Dlouhý kontext a téměř dokonalé vybavování
Rodina modelů Claude 3 zpočátku nabídne kontextové okno na 200 000 tokenů. Všechny tři modely jsou však schopny přijímat vstupy přesahující 1 milion tokenů a můžeme je zpřístupnit vybraným zákazníkům, kteří potřebují vyšší výpočetní výkon.
Aby bylo možné zpracovat dlouhé kontextové výzvy, modely vyžadují robustní možnosti vyvolání informací. Hodnocení „Needle In A Haystack“ (NIAH) měří schopnost modelu přesně si vybavit informace z rozsáhlého korpusu dat.
Posílili robustnost použitím jednoho z 30 náhodných párů jehla/otázka na prompt a testováním na rozmanitém korpusu dokumentů. Claude 3 Opus dosáhla skoro 99% přesnosti a dokonce i několikrát podotkla, že testovací věta byla vložena člověkem naschvál.
Bezpečnost a transparentnost
Claude 3 klade důraz na důvěryhodnost a bezpečnost. Specializované týmy se zaměřují na zmírňování rizik dezinformací, zneužití a dalších hrozeb. Modely prošly testováním a hodnocením a jejich bezpečnostní detaily jsou transparentně zveřejněny.
Podporují také principy ústavní umělé inteligence a snižují předsudky v modelech AI. Díky tomu se stávají užitečným nástrojem pro zodpovědné užívání AI. Tento fakt je silným přínosem pro budoucnost AI, neboť její bezpečnost a etika užití je to, co dovolí rozvíjet tento sektor dál.
Claude 3 se přidala mezi výkonné a uznávané velikány textové umělé inteligence. Stanou se teď ChatGPT a Gemini podřadnými?



