28.07.2023, 10:40

Выпущена Stable Diffusion XL — лучшая генеративная нейросеть для изображений

Компания Stability AI выпустила Stable Diffusion XL 1.0 (SDXL), свою модель синтеза изображений следующего поколения с открытыми весами. Она может генерировать новые изображения на основе текстовых описаний и выдает изображения с большей детализацией и более высоким разрешением, чем предыдущие версии Stable Diffusion.

Никита Шевцев

Теги:

Технологии

Нейросети

Программирование

Stable Diffusion

Как и в случае со Stable Diffusion 1.4, релиз которой с открытым исходным кодом вызвал волну в августе прошлого года, любой пользователь, обладающий соответствующим оборудованием и техническими ноу-хау, может бесплатно загрузить файлы SDXL и запустить модель локально на своем компьютере.

Особенности Stable Diffusion XL

Локальная работа означает, что нет необходимости платить за доступ к модели SDXL, у нейросети есть несколько проблем с цензурой, а файлы весов (которые содержат нейтральные сетевые данные, обеспечивающие функционирование модели) могут быть точно настроены для создания определенных типов изображений любителями в будущем.

Например, в Stable Diffusion 1.5 модель по умолчанию может генерировать широкий спектр изображений, но она не работает так же хорошо с более узкоспециализированными объектами. Чтобы компенсировать это, любители доработали SD 1.5, улучшив способность Stable Diffusion создавать определенную эстетику, включая рисунки в стиле Диснея, аниме, пейзажи, эротику и порно, изображения известных актеров или персонажей и многое другое.

Stability AI ожидает, что тенденция разработки SDXL, ориентированная на сообщество, сохранится, что позволит пользователям расширить возможности рендеринга далеко за пределы базовой модели.

Как и другие генераторы изображений скрытой диффузии, SDXL запускается со случайного шума и «распознает» изображения в шуме на основе указаний из текстового запроса, шаг за шагом уточняя изображение. Но SDXL использует «в три раза большую магистраль UNet», согласно Stability. Это означает большее количество параметров, чем более ранние модели Stable Diffusion. Простым языком это означает, что архитектура SDXL лучше оттачивает результирующее изображение.

Примечательно, что SDXL также использует два разных кодировщика текста, которые понимают написанную подсказку, помогая точно определить связанные изображения, закодированные в весовых категориях модели. Пользователи могут предоставлять разные подсказки для каждого кодировщика, что приводит к новым высококачественным концептуальным комбинациям.

А затем улучшается детализация и размер изображения. В то время как Stable Diffusion 1.5 обучался на изображениях размером 512 × 512 пикселей (что обеспечивает оптимальный размер изображения для генерации, но не позволяет детализировать небольшие объекты), Stable Diffusion 2.x увеличил его до 768 × 768. Теперь Stability AI рекомендует генерировать изображения размером 1024 × 1024 пикселей с помощью Stable Diffusion XL, что обеспечивает большую детализацию, чем изображение аналогичного размера, сгенерированное SD 1.5.