Nový arXiv paper zveřejněný 24. května rozebírá, jak překladové paměti a paralelní korpusy fungují jako vysoce hodnotná trénovací data pro strojový překlad a generativní AI. Autoři upozorňují, že lidská překladatelská práce se v datovém řetězci často ztrácí mezi agenturami, platformami a vývojáři modelů. Pro regulaci a autorská práva je to relevantní téma: spor o AI data se netýká jen knih a obrázků, ale i profesionálních jazykových databází.
Zdroj: arXiv