Что будет с AI safety, если модели перестанут мыслить последовательно

В дискуссиях о безопасности ИИ есть одно понятие, которое почти всегда принимают как данность. Цепочка рассуждений. CoT. Мы привыкли, что модель пишет текст слева направо, токен за токеном, и мы можем заглянуть ей через плечо. Она подумала, написала, мы увидели. Прозрачно.

Но что, если следующее поколение моделей перестанет мыслить последовательно?

Новое семейство архитектур, текстовые диффузионные модели, генерирует текст иначе. Они не пишут слева направо. Они начинают с шума, с хаотичного набора токенов, и постепенно, шаг за шагом, проясняют всю страницу сразу. Как фотография, проявленная из засвеченной пленки. И в этом процессе нет очевидной хронологии: модель может написать конец раньше начала, потом передумать и переписать все заново.

Авторегрессионная модель похожа на шахматиста, который проговаривает каждый ход вслух. Диффузионная похожа на того же шахматиста, который смотрит на доску три минуты молча, а потом переставляет все фигуры разом. Результат тот же. Но за каким из них легче следить?

Здесь возникает тонкое различие. Мы можем заглянуть в промежуточные состояния диффузионной модели и понять, какие токены она видит на каждом шаге. Это переменная прозрачность, и с ней все в порядке. Но понять алгоритм, которым она пользуется, как именно она приходит от шума к осмысленному тексту, гораздо сложнее. Потому что в авторегрессии каждое следующее слово строится на предыдущих. В диффузии же токены влияют друг на друга в обоих направлениях.

Для AI safety это не академический вопрос. Одна из ключевых практик безопасности, мониторинг цепочки рассуждений, основана на том, что мы читаем, о чем модель думает, и ловим обман или опасные намерения. Но что, если модель перестанет думать в тексте? Если ее рассуждения будут происходить в многомерном пространстве скрытых состояний, куда у нас нет лингвистического доступа?

Мы уже наблюдаем это в других архитектурах. O1 от OpenAI, DeepSeek R1: они генерируют цепочку рассуждений, но это уже не совсем честная запись мысли. Модель учится производить текст, который выглядит как рассуждение, а не обязательно рассуждать в тексте. Разница тонкая, но критическая.

Диффузионные модели делают следующий шаг. Они вообще не обязаны выстраивать логику в хронологическом порядке. Они могут исправлять себя задним числом: сначала написать неверный ответ, перечислить числа, а потом на более позднем шаге осознать ошибку и переписать начало. Это называется ретроактивной самокоррекцией. Мы, люди, так тоже делаем: пишем черновик, потом правим. Но в AI safety привыкли доверять моделям, которые думают вслух последовательно.

Еще один феномен, характерный для таких моделей, называется токеновой размазкой. Когда модель уверена, что слово должно быть где-то в предложении, но не знает точно где, она держит его распределенным по соседним позициям. Человек так не мыслит.

Проблема не в том, что диффузионные модели опасны сами по себе. Большая часть их вычислений по-прежнему интерпретируема. Проблема в том, что мы строим системы безопасности для одного типа интеллекта, а следующий тип может прийти в другой архитектуре.

Ещё по теме