PSS> Тут проблема в том, что это микшер. Просто смешивают картинки или текст со схожими критериями. Многие текстовые чатгпт даже не учатся на прошлых вопросах, что было краеугольным камнем искуственого интеллекта с 60х годов. Я помню тексты в книгах тех лет когда программа возражала. Вы же только что говорили другое? Да сейчас есть и такие программы, но большая часть игнорирует. Так как основана на других принципах.
В те годы, чтобы программа хотя бы могла составлять простые предложения, для неё нужно было подбирать специальные и кастомно созданные эвристики для грамматического анализа языка. И ещё повезло, что английский в этом плане довольно прост, и то, было много казусов, типа schools (with children) & schools (of fish) и прочие неоднозначности. Ну и обучение на "прошлых вопросах" тоже было ограничено. Чтобы не быть голословным, посмотрите на SHDRLU. Специальная БД для грамматики английского, специальная БД для хранений данных "о мире блоков" (мир-блоков - простая модель мира, в которой бот "живёт и мыслит"). И SHDRLU мог учиться, узнавать новые конструкции из блоков и т.п., но вот это обучение было ограничено: любое слово, которого не было в словаре (на 50 слов) вызывало ошибку "я не знаю такого слова", и любое объяснение этого слова могло быть интерпретировано лишь как конструкция из блоков. В теории это решаемые проблемы, на практике все решения получаются слишком трудоёмкими в создании и дебаге, слишком требовательные к компьютерному железу и почти не распараллеливаются/распараллеливаются плохо.
В теории символьного ИИ вместо "просто микшера" у нас "просто машина для операций над символами". Как бы в том и идея ИИ, чтобы свести всё это мышление
тм к "просто механике", будь то микшеры или калькуляторы.
Сейчас хорошая LLMка спокойно может учитывать и предыдущие сообщения, и ими можно неплохо рулить системным промптом. Если кастомную БД, написанную на обычном тексте засунуть в промпт, да ещё и нейросеть зафайнтюнить, то вообще топ будет.
PSS> Прорыв будет если ИИ сможет по картинке восстанавливать объем.
PSS> Тогда после запроса она будет не просто смотреть какими весами обладают элементы других картинок по подобному запросу, а будет восстанавливать, что на них было изображено, уже делать среднее из этого и по ним синтезировать изображение. С дополнительными функциями. Например сможет и поворачивать людей и объекты на фото.
Есть ControlNet для Stable Diffusion, он позволяет построить карту нормалей и глубины, в том числе с дополнительными функциями, вроде поворота людей и объектов на фото
Теперь нейросети умеют рисовать изображения по картинкам и рисункам с сохранением деталей оригинала
// journal.tinkoff.ru
Ну и сейчас уже всё идёт не просто к повороту людей на фото, а к генерации (недолгих) видео и гифок.
PSS> Причем даже такой ИИ не сможет захватить мир. Опять микшер но на более качественном уровне. Но с текущего ИИ до такого путь пока очень долгий.
Я вообще считаю идею "ИИ захватит мир" и прочие "сильные ИИ планируют страшные вещи, потому что у них
велосипеда allignment'а нет!" чепухой. Вообще все эти идеи про захват мира идут от этих идей "необходимости планировать всё", которые должны привести к "необходимости порабощения". Но на деле планирование - вещь сомнительной ценности, которая стоит слишком дорого и толком ничего не даёт. Реактивные системы, вроде нейросетей и behavioral robotics дают больший практический и коммерческий вход.
Факт фактом: классические подходы с планированием и логикой гораздо менее реализуемы на практике, чем нейросети, а практика - критерий истины.
Рекомендую прочитать What computers can't do; a critique of artificial reason и Artificial Intelligence: the very idea.