Fakir> Так к чему бишь это я. Можно предположить, что наличие неких подобных законов - крайне хитрых, предельно неочевидных, но тем не менее совершенно жёстких - может быть характерно для ЛЮБОГО продукта нейросетей.
И эти законы известны.

Из применения матрицы внимания следуют одни ограничения, из конечной квантизации весов следуют другие ограничения, из конечного размера контекста - третьи.
Что с этим делать, правда, пока неясно...
Fakir> Выявление их не просто интересно, но может обладать и большой, даже может огромной ценностью - т.к. позволит предсказывать те же самые галлюцинации, на чём она сбойнёт.
Fakir> Можно сказать и иначе - выявление таких закономерностей потенциально способно перевести сетку, систему "чёрный ящик", в состояние прозрачной и алгоритмичной системы.
Нет. :\ Никак. Трансформеры -
в том самом смысле - прозрачны и алгоритмичны (потому что токены генерятся последовательно).
Но практической ценности в этом мало, потому что теорема о вычислимости алгоритма применительно к данному случаю говорит, что нет иного способа узнать, где и как глюкнёт БЯМ кроме как задать промпт и однажды обнаружить глюк.
Ты, КМК, не понимаешь природу "галлюцинаций" БЯМ. Это не "сбой", как тебе кажется. Это
нормальная работа, просто она даёт выход сетки, который нам не нравится из-за резкого несоотвествия вывода реальному миру.
Машина сработала логически верно, это нас не устраивает результат. Сверхнелинейный алгоритм, ессно, что его выход неустойчив и при расчёте "на краях" жутко зависит от тонкостей.
Причины этого вполне очевидны: недостаток твёрдых "знаний" внутри сетки + конечная квантизация + конечный контекст.
Грубо говоря, если сетка прочитала недостаточно текстов с философией "пространства воли", некий промпт юзера может дать вероятности интерпретации термина "пространство" именно вот в таком вот ключе меньше, чем, допустим, в смысле "обычное фазовое пространство".
Или: "пространство воли" содержится в уникальном тексте и в заданном контексте токенов вероятность появления "пространства воли" округлилось до 0 из-за конечности весов связи (даже 32-битные веса очень даже конечны).
Или: для появления/проявления "пространства воли" нужно обозреть бОльший контекст беседы с пользователем, а текст с дополнительными материалами уже вышел за размер контекста (хоть сейчас и субквадратичная сложность, это всё равно сверхлиния).
Для БЯМ часто можно даже проследить, как так вышло. Понятно,
что. Непонятно,
как с этим справиться.
Да, в лоб увеличение весов и размерности модели. Да - многоагентные системы со специализированно-обученными агентами (чтобы агент-"математик" не портил бы своё знание "пространства" философией, а агент-"философ" не "думал" бы математикой). Да - системный контроль с распределением задач, с перепроверкой по внешним данным из сети. Специальный агент, контролирующий и верифицирующий вывод других агентов. Интенсивный внешний тулинг (где возможно). Спецтокены разметки и рассуждения. Формальные проверки по этим токенам, где возможны формальные проверки и вычисления.
Но этого пока недостаточно.
Если говорить о конкретно галлюцинациях.