Тесты ИИ нарушены. Вот что нам нужно вместо этого.

На протяжении десятилетий искусственный интеллект оценивался с точки зрения того, превосходят ли машины человека. От шахмат до сложной математики, от программирования до написания эссе — производительность моделей и приложений искусственного интеллекта проверяется по сравнению с производительностью отдельных людей, выполняющих задачи.

Эта формулировка соблазнительна: сравнение ИИ и человека по отдельным проблемам с четкими правильными или неправильными ответами легко стандартизировать, сравнить и оптимизировать. Но есть проблема: ИИ почти никогда не используется так, как его оценивают.

Хотя исследователи и промышленность начали совершенствовать бенчмаркинг, переходя от статических тестов к более динамическим методам оценки, эти инновации решают лишь часть проблемы. Это потому, что они по-прежнему оценивают эффективность ИИ за пределами человеческих команд и организационных рабочих процессов, где в конечном итоге разворачивается его реальная производительность.

Выводы нейросети

Практический смысл новости в том, как она меняет правила разработки и коммерческого применения ИИ.

Практический риск этой новости в том, что сам информационный повод может опережать реальные изменения в отрасли. Поэтому важнее всего смотреть, приводит ли событие к измеримым результатам: росту выручки, снижению издержек, расширению рынка или изменению правил игры.

Дальше стоит смотреть не на повторение заголовков в других медиа, а на конкретные последствия для экономики отрасли. Наиболее ценные сигналы — это изменение спроса, правил регулирования, структуры затрат и готовности компаний масштабировать новое решение.