От мяча к сознанию: как проверять natural abstractions
Почему alignment-теориям нужны не только красивые математические рамки, но и тестовые наборы концептов от простых объектов до сознания.
Есть одна вещь, которая меня зацепила в последнее время: как мы вообще проверяем свои теории о том, что такое концепты.
Есть математический фреймворк natural abstractions. Он пытается объяснить, почему разные агенты выделяют из реальности примерно одно и то же. Почему мы оба видим «дерево», а не хаос из атомов. Почему можем договориться о значении слова, не совпадая в деталях. Это красивая теория, она обещает многое. Но с ней есть проблема.
Сейчас ее проверяют на пяти примерах. Идеальный газ в замкнутом объеме. Собаки как категория. Деревья, монетки, чайные чашки. Это все равно что тестировать компилятор на одном Hello World. Работает, но ничего не говорит о том, что будет, когда код станет сложным.
А сложные концепты - это именно то, ради чего все затевалось. Дружба, лояльность, красота, добро. Понятия, которые не привязаны к физике напрямую, но от которых зависит, как ИИ будет принимать решения. Если фреймворк работает только для мячиков и собак, а на «справедливости» ломается, то грош ему цена. Для alignment вопрос не в том, распознает ли система чайную чашку. Вопрос в том, сможет ли она работать с понятиями вроде «вред» или «намерение».
Так вот, кто-то наконец решил это исправить. Не очередной абстрактный разговор о типологии концептов, а конкретный список примеров для проверки. Рабочий прототип, а не теория теорий.
Список пока короткий. На одном конце: мяч, конкретный мяч по имени Блюи, апельсин, объем газа. На другом: иерархия в курятнике, моногамия, сознание. Между ними: собаки вообще и конкретная собака Фидо. Все. Ни глаголов, ни отношений, ни частей и целого. В тексте прямо сказано: этого недостаточно. Это даже не близко к тому, что нужно. Но это начало.
Самое интересное здесь не сам список. Интереснее то, как он построен. Между «мячом» и «сознанием» не просто разница в сложности. Мяч как категория и мяч по имени Блюи - это два разных типа концептов. Первый обобщает множество объектов. Второй указывает на один конкретный. И теория должна объяснить и то и другое. Точно так же с собакой вообще и конкретной собакой Фидо. Одна и та же физическая реальность, но два разных способа ее мыслить.
Потом начинается самое трудное. Иерархия в курятнике, моногамия, сознание. Эти понятия почти не привязаны к физике. Они существуют как отношения между агентами или как внутренние состояния. Можно ли построить natural latent для «сознания»? Я не знаю. Но если нет, то нужно честно сказать: вот граница, где фреймворк перестает работать. И это будет ценный результат сам по себе.
Подход, в котором теорию не защищают, а проверяют на все более трудных примерах, редок в alignment-сообществе. Обычно все наоборот: сначала выбирают онтологию, а потом подгоняют примеры. Здесь же берут рабочий прототип, собирают тестовый набор и смотрят, где ломается. От простого к сложному. От мяча к сознанию.
Если теория не объясняет «моногамию», это не значит, что теория несовершенна. Это значит, что мы пока не умеем ее применять. И это нормально. Так работает наука.
Я думаю, это важный прецедент. В области alignment слишком много разговоров на уровне метафор и слишком мало проверяемых утверждений. Любая попытка заменить «ну, как бы интуитивно понятно» на «вот конкретный пример, вот математика, вот где ломается» заслуживает внимания. Даже если примеров пока всего десять.