RYCHLÉ ZPRÁVY 1 min čtení

Benchmark SOOHAK testuje, zda AI pozná neřešitelné úlohy

Nový matematický benchmark SOOHAK ukazuje, že modely pořád často sebevědomě řeší i úlohy, které nemají jasné řešení.

Radyz 18. 5. 2026

Nový matematický benchmark SOOHAK ukazuje, že modely pořád často sebevědomě řeší i úlohy, které nemají jasné řešení. The Decoder uvádí, že konsorcium 64 matematiků připravilo 439 původních úloh: část na graduate a research úrovni a část se záměrnými rozpory nebo chybějícími předpoklady. Gemini 3 Pro vedl v náročné části, ale v rozpoznávání neřešitelných zadání žádný model nepřekonal hranici 50 procent. Důležitý závěr: více výpočetního času pomáhá řešit úlohy, ale samo o sobě neučí model přiznat, že správná odpověď neexistuje.

Radyz

Mohlo by vás zajímat

Americká autonomní vozidla poprvé bojují na Ukrajině

Terence Tao oživil 27 let staré applety pomocí AI kódovacích agentů

OpenAI uzavírá dohodu s Getty Images, fotografie zamíří do ChatGPT