Релиз Waifu Diffusion 1.3 — топовой модели аниме нейросети
В открытом доступе появилась финальная версия нейронной сети Waifu Diffusion 1.3, обученная на 680 000 артов в течение 10 эпох. Скачать модель WD 1.3 для генерации аниме артов можно по этой ссылке, бета-версии — на Hugging Face.
Размер модели (Float 32) - 3,97 ГБ. Хотя версия Float16 занимает в 2 раза меньше места на диске, с помощью Float32 проще получить хорошие результаты.
Предыдущую модель (WD 1.2) можно скачать либо с помощью magnet-ссылки, либо довольствоваться полновесной моделью, любезно выложенной на thisanimedoesnotexist.
Основные отличия Waifu Diffusion 1.3 от предыдущей модели нейросети:
- Нет необходимости использовать знаки подчёркивания;
- Скобки больше не имеют значения;
- Каждый тег разделяется запятыми;
- Отдельные теги учитываются полноценно, как и комбинации ключевых слов;
- Порядок тегов рандомизован, чтобы улучшить генерацию изображений;
- За счёт 680 тысяч артов нейросеть может лучше воссоздавать сложные детали, в том числе лица персонажей из компьютерных игр и аниме;
- Нейронная сеть воспринимает больше тегов, включая специализированные теги для Midjourney и Danbooru;
- Выросла точность генерации персонажей на основе текстовых подсказок.
Для обучения WD 1.3 использовался GPU VM со следующими характеристиками:
- 8x 48GB A40 GPU;
- 24 vCPU-ядра AMD Epyc Milan;
- 192 ГБ оперативной памяти;
- 250 ГБ хранилища.
По словам автора, обучение заняло примерно 10 дней и стоило около $3100.
Для чего подходит Waifu Diffusion 1.3?
- Создания аниме артов;
- Генерации концепт-артов с персонажами компьютерных игр, фильмов, манги и комиксов;
- Модификации собственных работ для получения новых идей, вариантов набросков и поз;
- Улучшения артов из других нейросетей.
В большинстве случаев финальная модель WD создаёт намного более качественные изображения, чем ранние бета-версии или WD 1.2. Однако для сложных образов с геометрическими узорами, математическими формулами и фракталами стоит опробовать все варианты нейронных сетей, поскольку объём выборки и время обучения напрямую влияют на качество генерируемых картинок.
Например, если в Waifu Diffusion 1.3 использовать теги "Множество Мандельброта", "Фрактальная инкрустация Пейсли", "Квантовая запутанность" вместе с портретными подсказками, вы получите стильные арты с необычным абстрактным оформлением. Однако основную часть изображения будут создавать лица персонажей, а фон станет лишь красивым дополнением.
Бета-версия WD 1.3, обученная до 6 эпох, не так хорошо справляется с лицами, зато лучше прорабатывает фракталы и абстрактные геометрические узоры. И наоборот, финальная версия Waifu Diffusion 1.3 намного лучше интегрирует абстрактные паттерны в костюмы персонажей, чем бета-версии WD, WD 1.2 или Stable Diffusion.
Как пользоваться Waifu Diffusion?
Установите любую программу с графическим интерфейсом, работающую с WD или SD (например, NMKD), затем скачайте WD 1.3, добавьте нейросеть в папку с моделями и активируйте её в настройках ПО. После этого вбейте в поле для ввода текстовые подсказки (теги, ключевые слова), укажите желаемые параметры и приступайте к генерации изображений.
Если вам нужен практический пример настройки Waifu Diffusion 1.3 в программе NMKD Stable Diffusion GUI, рекомендую заглянуть в этот гайд.
Удачных экспериментов!
Понравилась статья? Делитесь публикацией с друзьями, пишите комментарии, подписывайтесь на Telegram, Boosty и другие страницы, чтобы первыми видеть всё самое интересное!