Platforma Hex, zaměřená na datovou analytiku a spolupráci, představila svůj eval systém a laboratoř pro testování datových agentů. V blogovém příspěvku popsali architekturu nazvanou The Shoebox, která zahrnuje dedikovanou eval infrastrukturu a syntetický byznys s reálnými datovými scénáři. Systém umožňuje vývojářům systematicky testovat, jak si agenti vedou při analýze dat, práci s databázemi a vytváření reportů. Hex tím reaguje na rostoucí poptávku po nástrojích, které umí měřit kvalitu a spolehlivost AI agentů v reálných datových workflows, což je oblast, kde dosud chyběla standardizovaná měřítka.