На протяжении десятилетий искусственный интеллект оценивался с точки зрения того, превосходят ли машины человека. От шахмат до сложной математики, от программирования до написания эссе — производительность моделей и приложений искусственного интеллекта проверяется по сравнению с производительностью отдельных людей, выполняющих задачи.

Эта формулировка соблазнительна: сравнение ИИ и человека по отдельным проблемам с четкими правильными или неправильными ответами легко стандартизировать, сравнить и оптимизировать. Но есть проблема: ИИ почти никогда не используется так, как его оценивают.

Хотя исследователи и промышленность начали совершенствовать бенчмаркинг, переходя от статических тестов к более динамическим методам оценки, эти инновации решают лишь часть проблемы. Это потому, что они по-прежнему оценивают эффективность ИИ за пределами человеческих команд и организационных рабочих процессов, где в конечном итоге разворачивается его реальная производительность.