Что такое галлюцинации нейросетей и откуда берутся мемы с кучей пальцев?
До реализма еще далеко.
С развитием нейросетей обнаружилось, что они могут врать в совершенно случайных местах. В 2022 году Илон Маск и Стив Возняк выступили против активного исследования и обучения нейросетей как раз потому, что в их работе могут быть неточности. Спустя два года искусственный интеллект сильно продвинулся вперед, но галлюцинации ИИ все еще остались.
Галлюцинации в работе нейросетей похожи на человеческие – если человеку что-то кажется из-за усталости, алкоголя или заболеваний, то его не переубедить. То же касается и нейронок, которые придумывают данные на ровном месте и опираются на них в диалоге.
ИИ обучается на громадных массивах данных, но ни в одной базе нет ответов на все вопросы на свете. А если данных мало, нейронка может сама придумать ответ, поверить в него и строить дальнейшие выводы. Таким образом она пытается угодить пользователю, чтобы он не остался без ответа.
Хоть нейросети и используют для бизнеса, к ним в пару зачастую нанимают операторов. Никому ведь не хочется получить ответ с выдуманной ценой или услугой?
Самая мемная галлюцинация ИИ – неправильное количество пальцев. У нейросети есть представление, что рука состоит из ладони, пальцев и ногтей, но она не понимают, что это такое. С улучшением качества картинки все стало еще хуже – кожа на созданных нейросетями картинках реалистичная, но сами руки выглядят как лавкрафтианские ужасы за пределами человеческого понимания. Как поясняет профессор Питер Бентли из университетского колледжа Лондона, 2D-генераторы не могут представить трехмерную геометрию руки.
Нейросетевые картинки все еще легко отличить от реальных из-за деталей – зачастую физика в сгенерированных картинках и видео нарушается. Сейчас одной из мощнейших нейросетей для генерации считается Sora, но даже у нее множество пробелов в результатах.
«Эти модели оторваны от реальности, у них нет никакого контекста, и они не обладают знаниями и способностью учитывать контекст изображения. Они просто объединяют барахло, которое мы им скормили», – рассказывает Питер Бентли. По его мнению, должно пройти еще немного времени, чтобы ИИ начал понимать 3D-объем создаваемых им предметов, и тогда нейросеть будет нормально воспринимать форму, стоящую за изображениями.
Сейчас во многих творческих областях есть качественные нейросети: в музыке это Udio и Suno, в картинках – Midjourney, DALL-E и куча других, для работы с текстами еще больше бесплатных и быстрых решений, а для 3D-моделей нет ничего, что по качеству сравнится с этими генераторами.
Как только случится прорыв в понимании 3D, нейросети станут генерировать гораздо более реалистичные результаты.
* * *
Обзор Pixel 9. Чем порадует флагманская база от Google?
Железные итоги года: лучшие процессоры, видеокарты, мониторы и многое другое