Nová metoda KV Cache Transform Coding má podle Nvidie zmenšit paměťové nároky velkých jazykových modelů až dvacetkrát bez zásahu do vah modelu. To je zpráva hlavně pro firmy, které platí drahé dlouhé kontexty, asistenty pro kód a agentické pracovní postupy.