Nový matematický benchmark SOOHAK ukazuje, že modely pořád často sebevědomě řeší i úlohy, které nemají jasné řešení. The Decoder uvádí, že konsorcium 64 matematiků připravilo 439 původních úloh: část na graduate a research úrovni a část se záměrnými rozpory nebo chybějícími předpoklady. Gemini 3 Pro vedl v náročné části, ale v rozpoznávání neřešitelných zadání žádný model nepřekonal hranici 50 procent. Důležitý závěr: více výpočetního času pomáhá řešit úlohy, ale samo o sobě neučí model přiznat, že správná odpověď neexistuje.
Benchmark SOOHAK testuje, zda AI pozná neřešitelné úlohy
Nový matematický benchmark SOOHAK ukazuje, že modely pořád často sebevědomě řeší i úlohy, které nemají jasné řešení.