От мяча к сознанию: как проверять natural abstractions

Есть одна вещь, которая меня зацепила в последнее время: как мы вообще проверяем свои теории о том, что такое концепты.

Есть математический фреймворк natural abstractions. Он пытается объяснить, почему разные агенты выделяют из реальности примерно одно и то же. Почему мы оба видим «дерево», а не хаос из атомов. Почему можем договориться о значении слова, не совпадая в деталях. Это красивая теория, она обещает многое. Но с ней есть проблема.

Сейчас ее проверяют на пяти примерах. Идеальный газ в замкнутом объеме. Собаки как категория. Деревья, монетки, чайные чашки. Это все равно что тестировать компилятор на одном Hello World. Работает, но ничего не говорит о том, что будет, когда код станет сложным.

А сложные концепты - это именно то, ради чего все затевалось. Дружба, лояльность, красота, добро. Понятия, которые не привязаны к физике напрямую, но от которых зависит, как ИИ будет принимать решения. Если фреймворк работает только для мячиков и собак, а на «справедливости» ломается, то грош ему цена. Для alignment вопрос не в том, распознает ли система чайную чашку. Вопрос в том, сможет ли она работать с понятиями вроде «вред» или «намерение».

Так вот, кто-то наконец решил это исправить. Не очередной абстрактный разговор о типологии концептов, а конкретный список примеров для проверки. Рабочий прототип, а не теория теорий.

Список пока короткий. На одном конце: мяч, конкретный мяч по имени Блюи, апельсин, объем газа. На другом: иерархия в курятнике, моногамия, сознание. Между ними: собаки вообще и конкретная собака Фидо. Все. Ни глаголов, ни отношений, ни частей и целого. В тексте прямо сказано: этого недостаточно. Это даже не близко к тому, что нужно. Но это начало.

Самое интересное здесь не сам список. Интереснее то, как он построен. Между «мячом» и «сознанием» не просто разница в сложности. Мяч как категория и мяч по имени Блюи - это два разных типа концептов. Первый обобщает множество объектов. Второй указывает на один конкретный. И теория должна объяснить и то и другое. Точно так же с собакой вообще и конкретной собакой Фидо. Одна и та же физическая реальность, но два разных способа ее мыслить.

Потом начинается самое трудное. Иерархия в курятнике, моногамия, сознание. Эти понятия почти не привязаны к физике. Они существуют как отношения между агентами или как внутренние состояния. Можно ли построить natural latent для «сознания»? Я не знаю. Но если нет, то нужно честно сказать: вот граница, где фреймворк перестает работать. И это будет ценный результат сам по себе.

Подход, в котором теорию не защищают, а проверяют на все более трудных примерах, редок в alignment-сообществе. Обычно все наоборот: сначала выбирают онтологию, а потом подгоняют примеры. Здесь же берут рабочий прототип, собирают тестовый набор и смотрят, где ломается. От простого к сложному. От мяча к сознанию.

Если теория не объясняет «моногамию», это не значит, что теория несовершенна. Это значит, что мы пока не умеем ее применять. И это нормально. Так работает наука.

Я думаю, это важный прецедент. В области alignment слишком много разговоров на уровне метафор и слишком мало проверяемых утверждений. Любая попытка заменить «ну, как бы интуитивно понятно» на «вот конкретный пример, вот математика, вот где ломается» заслуживает внимания. Даже если примеров пока всего десять.

Ещё по теме