Как установить нейросеть Flux (Dev, Schnell) на Windows 10?
Что такое Flux?
Flux — продвинутая нейросеть для генерации изображений по текстовому запросу, разработанная Black Forest Labs. В некоторых сценариях сравнима по качеству Midjourney, в других заметно уступает коммерческим нейронным сетям.
Например, создаёт крутые фотореалистичные портреты с высокой детализацией, но посредственно справляется с художественными стилями. Зато нейронная сеть точно воспринимает промпты, следует им, работает как онлайн, так и оффлайн, и подходит для использования в творческих целях!
Какие модели Flux существуют?
На момент написания статьи существуют три базовых модели нейронной сети:
- Flux.1 Pro — топовая модель от Black Forest Labs, предназначенная для работы через API. Недоступна для скачивания и локального запуска;
- Flux.1 Dev — продуктивная «рабочая лошадка», подходящая для некоммерческого использования. Модель можно скачать и запустить локально. Для тестирования возможностей самых мощных версий желательно использовать видеокарты с 12 гигабайтами памяти, для облегчённых вариантов хватит 8 Гб видеопамяти;
- Flux.1 Schnell — модель, оптимизированная для локального запуска, предназначенная для работы на устройствах с небольшим размером видеопамяти. Как и Dev, поставляется в различных вариантах, успешно модифицируемых сообществом. Самая компактная версия запускается на 4 гигабайтах видеопамяти, базовая — на 6-8 Гб.
Для локального запуска Flux подходит два варианта файлов — с расширением safetensors и gguf.
Первый занимает больше места на диске, требовательней к ресурсам системы, но при этом может запускаться «из коробки» (без скачивания дополнительных файлов). GGUF может быть как сопоставимого размера, так и в 2-4 раза легче safetensors (за счёт квантования), но для работы с моделью вам понадобится скачать текстовый энкодер, файлы VAE и CLIP.
Хочется отметить, что использование VAE и текстового энкодера улучшает качество генерации при работе с форматом safetensors, поэтому эти файлы вам тоже могут пригодиться!
Как установить Flux?
Самый простой способ установить нейросеть Flux на Windows 10 (11) — скачать и распаковать архив Stable Diffusion WebUI Forge (страница проекта на GitHub, ссылка на репозиторий, актуальная на момент написания статьи), затем сохранить на устройстве одну из моделей в этом списке:
- Flux.1 Dev (для мощных ПК с 8-12 Гб видеопамяти);
- Flux Schnell (версия BNB NF4 для устройств с 6-8 Гб видеопамяти);
- Flux.1 Dev Hyper NF4 (версия для устройств с 4-8 Гб видеопамяти).
Помимо основных вариантов, есть ещё GGUF для Flux (как Dev, так и Schnell), но о них я поговорю отдельно, потому что вам понадобится скачать три дополнительных файла.
После скачивания моделей поместите их в папку webui\models\Stable-diffusion, находящуюся внутри распакованной программы WebUI Forge. Нажмите update.bat, чтобы проверить наличие обновлений. Когда проверка и установка патчей закончатся, нажмите на пробел, Enter или другую кнопку. Далее запустите исполняемый файл run.bat и подождите, пока ПО не запустится в вашем браузере.
Как только программа откроется в браузере, завершите финальную настройку: укажите в разделе UI пункт Flux, в checkpoint — скачанную вами модель.
Дополнительно можно изменить сэмплер и другие параметры генерации (количество шагов, разрешение и т.д.). Можно оставить базовые значения или установить свои (по умолчанию Euler, Simple, но есть и специализированные, вроде метода сэмплинга [Forge] Flux realistic, сочетание DPM++ 2M и SGM Uniform, IPNDM и Simple).
Закончили подготовку? Нажмите Enter и нажмите на кнопку Generate.
Скорость генерации зависит от используемых видеокарты, модели, сэплера, разрешения, количества шагов, включенных или отключенных VAE. Например, на Nvidia 2070 Super время генерации картинки варьируется от 20 секунд до 2 минут 18 секунд.
В среднем генерация качественного изображения на 8-гигабайтной видеокарте занимает около одной минуты.
Для улучшения качества картинок используйте надстройки (VAE, текстовые энкодеры, о них я рассказываю ниже).
Как запустить GGUF версию модели Flux?
Чтобы запустить квантованную версию модели Flux, вам понадобится скачать GGUF Flux (Dev) или Schnell, затем сохранить ещё три файла — текстовый энкодер t5xxl_fp8_e4m3fn.safetensors, текстовый энкодер Clip_I и VAE (ae). Поместите файл GGUF в папку webui\models\Stable-diffusion, Clip_I и t5xxl_fp8_e4m3fn — в webui\models\text_encoder, VAE — в webui\models\VAE. Затем запустите run.bat и настройте программу.
Настройка почти полностью совпадает с использованием safetensors, кроме одного пункта: вам необходимо указать в разделе VAE / Text Encoder все дополнительные файлы, которые вы скачали ранее - t5xxl_fp8_e4m3fn, Clip_I, ae.
В конце нажмите Enter, подождите завершения генерации и наслаждайтесь качественными фотореалистичными картинками, созданными локально на Windows 10 (11)!
Особенности GGUF версий нейросети Flux:
- В среднем занимают меньше места, чем safetensors;
- Качество картинок зависит от квантования выбранной модели нейронной сети. Q2 справляется только с простыми задачами, искажает мелкие детали и текст. Q4 — хорошо генерирует портреты, буквы, но может «съедать» отдельные буквы в надписях. Q8 — наилучший вариант, передающий максимум деталей, но чертовски требовательный к ресурсам;
- Скорость загрузки модели, а также время генерации картинок, зависят от ресурсов системы (о чём я расскажу далее) и модели GGUF. Например, Q4.0 на 8-гигабайтных видеокартах с настройками по умолчанию и всеми подключенными файлами запускается около минуты, генерирует первую картинку за две минуты, последующие — за минуту и 10-15 секунд. Q8.0 с аналогичными настройками может загружаться до 3-10 минут, первую картинку генерировать около 3-5 минут, последующие — за минуту и 25-35 секунд. Когда нужно генерировать текст, можно пожертвовать временем ради высокой точности и запустить Q8, а для простых портретов сойдут и Q4.0 — Q5_K_S (они генерируют картинки на 10-20 секунд быстрее и не так долго запускаются);
- Для выбора квантованной модели нужно учитывать доступный объём видео- и оперативной памяти. Q4.0 полностью влезает в память 8-гигабайтной видеокарты, Q5_K_S занимает больше места, но быстро откликается. Q8.0 на устройствах с 8 гб памяти (кроме 40+ серий Nvidia) запускается очень медленно, так как частично вытесняется в оперативную память! Поэтому для нормальной работы с Q8.0 желательно обзавестись быстрой оперативкой на 32-64 Гб и более. Хотя увеличение RAM не даст вам существенного прироста скорости генерации, но немного уменьшится задержка при загрузке модели или при переключении между ними;
- Тяжёлые GGUF модели иногда могут завешивать WebUI Forge. В таком случае рекомендую завершить задачу, закрыть браузер, очистить кэш и запустить программу снова!
Плюсы нейросети Flux
- Хорошо понимает промпты, в том числе на русском языке. Хотя с русским справляется хуже, чем с английским, это однозначное преимущество по сравнению со многими другими моделями нейронных сетей;
- Воспринимает запросы, написанные на естественном языке. Вместо долгого поиска специфических промптов вы можете написать, что хотите получить, и без проблем добиться качественного результата;
- Отлично справляется с генерацией цензурных фотореалистичных изображений. Например, портретов, предметов, животных, птиц;
- Генерирует надписи на английском языке. Галлюцинации есть, но встречаются не так часто. Даже без дополнительного обвеса может создавать картинки со словами без сильных искажений;
- Успешно сочетает мелкие детали. Если в SD и SDXL (без инпейнта, апскейла и LoRa) часто получается каша вместо маленьких элементов (корней волос, украшений, пальцев, надписей, областей в ГРИП и переходов от резкости к боке), то Dev и Schnell подобные искажения допускают значительно реже. Картинки смотрятся приемлемо без дополнительного улучшения;
- Есть версии как для мощных ПК, так и для слабых устройств с 4 Гб видеопамяти.
Минусы нейросети Flux
- Большой размер файлов. SDXL в среднем занимает до 6,7-7 Гб, тогда как Flux — больше 10. И это не считая энкодеров и VAE, которые значительно улучшают детализацию нейрофото! Вместе с ними для работы модели понадобится около 17,5 Гб на диске (для GGUF меньше, но в среднем от 12,5 Гб);
- Медленная генерация на картах с 8-10 Гб видеопамяти. Картинка за минуту — это хардкорно! Не настолько, чтобы модели нельзя было использовать в рабочем процессе, но если вам нужно сделать много разнообразных фонов, порой проще
вернуться к истокамвоспользоваться SD или SDXL; - Есть цензура. Не умеет генерировать NSFW и некоторые изображения, защищённые авторскими правами. Чтобы сгенерировать обнажёнку, придётся конструировать монструозные промпты и обмазаться тонной LoRa-файлов (это повышает порог вхождения и нагрузку на систему);
- Достаточно однообразна. Когда первый восторг от использования нейронной сети утихает, становится понятно, что модель генерирует картинки в легко считываемом стиле. Это не является 100% минусом, потому что может обходиться составлением уникальных промптов, изменением веса токенов или добавлением модификацией (моделей, отредактированных сообществом, файлов LoRa), но всё же разбавляет ложкой дёгтя океан возможностей нейронки от Black Forest Labs;
- Не так креативна, как коммерческие модели. В плане создания нестандартных спецэффектов модели Dev, Schnell и Pro обойдёт даже Midjourney, не говоря уже о Visual Electric! Чтобы получить уникальные картинки, придётся сильно постараться: экспериментировать с запросами, изменять вес отдельных токенов, дорабатывать картинки в Photoshop или других нейронках, указывать популярных авторов, жанры фото и используемую технику, либо обучать модель на новых данных, чтобы отойти от характерного стиля нейросети Флакс (Флюкс);
- Уступает в эстетическом аспекте MJ и Visual Electric. К сожалению, 7 из 10 картинок, сгенерированных в Flux, выглядят не так красиво, как изображения из Midjourney и VE. Особенно это заметно при генерации нейрофото для бьюти индустрии, где важен эффектный макияж, нестандартные визуальные решения, стильная работа со светом и фоном. Flux очень скучно отрабатывает всё концептуальное, сильно склоняясь к реализму. Если провести аналогию с работой профессионального фотографа (благо, у меня большой опыт в этой сфере), то Флакс больше напоминает фотографа для каталогов маркетплейсов, снимающего потоковые заказы в похожей стилистике, тогда как Visual Electric и MJ — это журнальные фотографы, снимающие студийный фэшн во всём его многообразии;
- Не умеет создавать надписи на русском языке. Хотя этот недостаток можно считать относительным, но если вы генерируете преимущественно русскоязычный контент, отсутствие возможности создавать надписи на русском (без ухищрений) крайне удручает;
- Текст вне контекста генерируется столь же плохо, как и в других моделях. Например, когда вы не указываете запрос, при этом генерируя улицы с рекламными щитами, ноутбуки, телефоны, кафе. Чем мельче текст, тем сильнее заметны искажения, тем чаще он становится бессмысленным. Поэтому порой приходится указывать текст отдельным запросом, чтобы избавиться от галлюцинаций;
- Иногда «понимает» запросы слишком буквально. Например, если в запросе есть то, что модель не умеет создавать и просьба разместить «это» на чёрном фоне, Flux сгенерирует только то, что «знает» — собственно, чёрный фон. Есть и другая сторона этой проблемы — нейронная сеть может разместить в сцене всё, что вы описываете! В результате получаются монструозные картинки, которые точно не назавёшь привлекательными;
- Хуже работает с длинными промптами. Чтобы получать качественный результат, не стоит слишком усложнять запросы! В этом плане модель уступает SD и SDXL;
- Ограниченная лицензия. Для коммерческого использования подходят картинки, созданные с помощью модели Pro. Отчасти для этих целей подходит и Schnell, ведь благодаря лицензии Apache 2.0 её можно применять для любых целей с указанием авторства (то есть стоит указывать, где была сгенерирована картинка вместе со ссылкой на компанию). Самая мощная из доступных для скачивания моделей — Dev — предназначена для некоммерческого использования. Хотя это больше моральное, чем реальное ограничение: уже появились LoRa, сильно модифицирующие контент, как и модели, доработанные сообществом, затрудняющие распознание первоисточника. Да и будут ли рассматривать каждую картинку под лупой, особенно если они созданы пользователями из России? Впрочем, даже если риск минимален, его всё равно стоит учитывать.
Что можно создавать в генераторе изображений от Black Forest labs?
В генераторе изображений от Black Forest Labs можно создавать всё, что связано с фотореализмом и не требует передачи специфических художественных стилей. Например, котика в лесу создать получится, а вот его же в духе Ван Гога — уже нет.
Чтобы обойти эту проблему, придётся искать альтернативную версию модели, выкачивать LoRa или тренировать модели самостоятельно (вам понадобятся видеокарты как минимум с 24 гигабайтами видеопамяти, либо платные сервисы, предоставляющие подходящие возможность тренировки за адекватные суммы).
Для чего стоит использовать нейросеть?
Я рекомендую использовать нейронку для генерации женских и мужских портретов, архитектуры, концептуальных образов, спецэффектов, оформления для сайтов, блогов, социальных сетей.
Точное применение зависит от вашего воображения и целей!
Вот несколько вариантов творческого подхода к генерации изображений:
- Можно создать картинки для веб-проектов;
- Придумать и набросать тематические фоны для сезонных праздников;
- Сгенерировать персонажей для фанфиков и рассказов, привлекая новых подписчиков из социальных сетей;
- Создать нейрофотографии для рекламы;
- Собрать баннер для сайта из сгенерированных картинок;
- Подобрать референсы для фотосессий;
- Наклепать мириады котиков и мемов;
- Поучаствовать в конкурсах нейросетевых работ (например, на 35Awards 2024, где появилось специальное соревнование для нейрофотографов).
Примеры картинок, сгенерированных с помощью нейросети Flux
Больше примеров нейрофотографий без сжатия и уменьшения размера изображений смотрите в этом посте!
Надеюсь, моя публикация помогла вам разобраться, как установить новую нейронку, понять, в чём разница между моделями Dev и Schnell, а также научиться пользоваться этими моделями!
Удачных экспериментов ❤️
Понравилась статья?
Поддержите автора репостом, комментарием, подпиской на Telegram и другие страницы!