Как пользоваться GPT-Image-2: как включить генератор изображений в GPT-Image-2, промты и возможности нейросети

27 апреля, 11:21 4 мин.

GPT-Image-2 в ChatGPT просто невероятен!

Автор

Рассказываем, как пользоваться лучшей нейросетью для генераций.

Буквально пару дней назад OpenAI обновили свой генератор изображений GPT-Image с версии 1.5 до 2. И можно сказать, что не просто обновили, а провели настоящую революцию в качестве генераций. Давайте разбираться, что модель умеет и как ей пользоваться.

Как включить и пользоваться GPT-Image-2

OpenAI выкатили свой генератор для всех пользователей ChatGPT – даже тех, кто пользуется бесплатной версией. К тому же в нем ничего не нужно переключать, вводить или открывать: все доступно прямо в основном интерфейсе. Поэтому для использования Image-2:

Откройте сайт ChatGPT.
Нажмите кнопку «Создать изображение».
Теперь вы можете загрузить фото-референс, выбрать соотношение сторон или стиль генерации, ввести промт и получить картинку.

Собственно, на этом все – можете пользоваться генератором.

Как писать промты для GPT-Image-2

Раньше для нормальных и стабильных генераций требовалось вводить длинные промты, в которых бы учитывался стиль, объектив, уровень освещенности и прочее. Но сейчас все куда проще – можно просто описывать все обычными словами, главное – не допускать ошибок или логических противоречий. Также учитывайте, что модель все еще лучше понимает английский, хотя и с русским тоже работает неплохо.

Что касается четкости прописывания – все зависит от вашей задачи. Модель очень хорошо следует промтам, и если вы пропишете, что должно быть на изображении, то, скорее всего, она все нарисует. А если нет, то вы можете прикрепить получившуюся генерацию в чат и попросить изменить нужную часть. Однако если у вас нет четкого видения результата, вы можете написать, например, «нарисуй классический комикс про супергероев на русском», и нейронка справится сама без особых косяков.

Что умеет новая GPT-Image-2

Текст

Главная инновация в новой версии генератора – его работа с текстом. Модель отлично пишет: язык не превращается в мазню, почти нет несуществующих символов, да и логика написанного на высоте. Но понятнее будет на примерах. Помните прошлогодние мемы с проклятыми алфавитами от ChatGPT, где была куча несуществующих вещей? Сравните, что он рисует теперь:

Единственный заметный артефакт – буквы Е и Ё: и там, и там нейронка решила написать «Ежик». Но в остальном все получилось круто, особенно порадовали Твердик и Мяглик.

Второй впечатляющий пример – эта генерация скриншота. Пользователь попросил сгенерировать открытый редактор кода, где будет прописан код SVG-файла с пеликаном. Сам скриншот выглядит неплохо:

Но самое интересное начинается потом. Пользователь взял код с генерации и открыл его через браузер, получив вот такое изображение:

Конечно, картинка далека от идеала, но пеликан вполне угадывается.

Сохранение контекста и понимание реальности

Еще модели прокачали понимание и сохранение контекста и реального мира. В ней буквально можно поиграть в пошаговую версию Minecraft – инвентарь и постройки сохраняются между генерациями: