Эвалы

При работе с агентскими системами можно выделить несколько важных компонентов поверх собственно нейросетевой архитектуры LLM, обеспечивающих решение задач: управление контекстом, промпты, управление цепочкой рассуждений, харнесс, рои и пр., а также — оценки успешности (evals). Естественное стремление автоматизировать всё и вся приводит к тому, что каждый из этих компонентов также становится объектом конструирования со стороны самих агентов либо субагентских архитектур. Т.е. агенты сами конструируют и оптимизируют контексты, цепочки, рои субагентов. Недавно Андрей Карпаты выпустил нашумевшую статью; идея простая и не то чтобы новаторская, но эффект имени сработал. В развитии идеи получим: если у тебя есть хороший eval, то относительно простой промпт вводит агента в цикл самомодификации до тех пор, пока норма останова не будет выполнена. Т.е. агент целеорганизованно эволюционирует в доступных ресурсных рамках. Предположив, что ресурсов достаточно, можно сказать, что главным условием успеха является качественный эвал, который позволит агентской системе выполнять объективные верификации, приводящие к результату, который в конце пройдёт субъективную валидацию.

В этом сеттинге [хорошо] управляемым оказывается всё, кроме одного, — исходных эвалов, глобальных оценок результативности. Условия верификации формулируются на эдо-языке, здесь-языке, локальном языке вычислительного агентского сервера; условия валидации — на мета-языке, на языке клиента, в его онтологиях и в рамках его практик. Это принципиальная дистанция и одна из существенных проблем, если не одна из основных, особенно если эскалировать её до общности проблемы отношения «клиентского сознания» и «серверного вычислительного тела». Верификация: система делает то, что формально предписано; валидация: результат релевантен клиентской практике, семантическому горизонту и способу различения успеха. Но исходную фразу нужно уточнить. Эвалы управляемы, они тоже становятся объектом оптимизации, но именно поэтому перестают быть нейтральным основанием. Возникает известная структура: what is optimized gets gamed. Поэтому проблема не в том, что evals неуправляемы, а в том, что evals являются последним регрессивным основанием управления, которое нельзя делегировать системе без существенных потерь управляемости.

Это сильно резонирует с метастемологической интуицией и задачами. Для метастемологии фокус не в формулировке «теории сознания», т.е. клиентского запроса per se, — их over 300 and counting; и не в создании эффективных вычислительных средств: тут ещё большее количество методов. Задача скорее в создании оснастки для качественных эвалов, т.е. пограничных конструктов, критическим образом конструирующих и разводящих эпистемические состояния: известное, неизвестно спозиционированное, целевое и пр. А также — условий останова, архитектурных медиаторов, соединяющих хорошо объективированный мир вычислительных систем и хорошо субъективированный мир человеческих социальных и рефлексивных коммуникаций.

Так центральным объектом управления становятся не рассуждения/вывод/inference как таковые, а архитектура различений, которая определяет, что считать успехом, что считать продвижением, что считать ошибкой и когда считать процесс завершённым. Eval — не просто benchmark и не просто reward surrogate. Он выполняет сразу четыре функции:

дискриминативную — разводит состояния системы на допустимые/недопустимые, успешные/неуспешные;
телеономическую — задаёт направленность поиска, структуру целей;
трансляционную — переводит клиентские практики и онтологии в машинно-операциональные критерии;
терминативную — задаёт условия останова.

Для задач относительно невысокой общности, прикладных и хорошо объективируемых, медиаторы просты: достаточно качественных объектных онтологий и протоколов. Для построения чего-то близкого к сфере «субъективности», «сильного ИИ», «эмоционального ИИ» и пр. существующий аналитический протокол и объектный язык в качестве архитектурных медиаторов подходят слабо, т.к. вырастают либо «снизу», либо «сверху». Т.е. не то чтобы они непригодны, но затраты на решение задач, поставленных таким образом, будут как минимум высоки, либо результаты окажутся нерелевантны, либо останутся локальными.

Например, постановка задачи «Агент, научись испытывать страх» несомненно приведёт к верифицируемым результатам: агент может отчитаться и представить функциональные эмоции. Но можно быть уверенным, что результаты, пусть и оптимистичные, всё ещё не переживут валидации в сколь-нибудь широком наборе клиентских контекстов. Менее субъективистски определённые задачки, вроде «пройди тесты ARC-AGI на 100%», хороши, но могут потребовать всего производимого на планете электричества, и потому для их решения работают над всем вычислительным стеком за пределами указанного оптимизационного когнитивно-архитектурного контура.