Разное

5 минусов LLaMa 3 для творчества на русском языке

Плюсы базовых моделей LLaMa 3 (8B и 70B) довольно очевидны — большая «человечность» ответов, возможность дальнейшего обучения, отличное запоминание подробностей, точное выполнение последовательных действий в соответствии с системной подсказкой или командами пользователя, а также лёгкое переключение между стилями речи и характерами персонажей. Но что насчёт минусов?

Первый и самый главный минус LLaMa 3 — цензура

Цензура в LLaMa 3 не так хардкорна, как в предыдущих моделях данного вида LLM, а также спокойно обходится с помощью модификации системных подсказок. Но даже если обойти защиту нейросети, не стоит надеяться на генерацию качественной «запрещёнки»!

Цензура в LlaMa 3 70B Instruct, выдаваемая при попытке сгенерировать "спорный контент" на HuggingChat
Пример цензуры в модели 70B Instruct
Будь то NSFW, жестокие боевые сцены, остросоциальные сюжеты или взаимодействие с травмированными персонажами (например, с ПТСР), ответы нейросети будут слишком простыми и выхолощенными. Причём вне зависимости от того, был ли запрос на русском или на английском языках!

Если вы пишете что-то лёгкое, весёлое, без спорных тем и эротики, то наличие цензуры не станет проблемой. Зато боевую фантастику, психологические драмы, любовные романы, фэнтези с рейтингом 18+, триллеры и любой другой потенциально неэтичный контент генерировать в базовых версиях нейросети смысла не имеет. Ведь даже если LLaMa 3 хорошо справляется с написанием диалогов и следует заданному вами сюжету, прерывание генерации, избегание сложностей и заметный перекос в сторону создания безопасных историй значительно усложнят вам жизнь!

И это легко объяснить.

Минусы LLaMa 3 (моделей 8B и 70B) для творчества и генерации креативного контента: подробности, факты, эксперименты

Языковые модели LLaMa 3 обучались на огромных объёмах текстовых данных, которые могли включать в себя материалы, способные оскорбить, обидеть отдельные группы пользователей или стать причиной крупного скандала. Чтобы этого не произошло, разработчики предварительно очистили выборку (пусть и не очень тщательно), выбросив большую часть опасных данных, затем добавили фильтрацию, срабатывающую на «запрещённые слова» (любое сочетание токенов, помеченных авторами «нежелательными»).

Поэтому для применения 8B и 70B в творческих целях стоит подождать появления пользовательских моделей, натренированных на RP, ERP, диалогах без ограничений и так далее.

Подобное уже происходило с LLaMa 2: нейросети обучали на дистиллированных данных, содержащих образцы творческого письма, длинных диалогов, откровенных бесед без фильтрации, что позволило сбросить встроенные ограничения и добиться лучшего качества при выполнении креативных задач.

Правда, иногда это приводило к другим проблемам: например, к ухудшению генерации текста на языках, отличных от английского, либо падению интеллектуальных способностей модели в других сферах. Поэтому от публикации базовых версий до появления мощных файн-тюнинговых моделей, где проблемы не так заметны или полностью устранены, в среднем проходит от нескольких недель до трёх-четырёх месяцев.

Второй минус LLaMa 3 — стремление отвечать на английском языке

Вне зависимости от того, на каком языке пользователь составляет запрос, чаще всего LLaMa 3 генерирует ответы на английском. Чтобы этого избежать, приходится модифицировать подсказку (добавлять инструкции для нейросети). Например, для генерации текста на русском можно ввести в System Prompt что-то вроде этого:

  • «Ты всегда общаешься с пользователем на русском языке»;
  • «Генерируй текст без повторов, каждый раз придумывая что-то новое! Для этого сначала переведи запрос на английский, затем придумай ответ и напиши его мне на русском языке. При этом я должен видеть только текст на русском, поэтому не показывай ничего, кроме конечного результата.»
Изменение System Prompt - не панацея, поэтому иногда вам будут попадаться отдельные слова или даже генерации на английском, но в 80-90% случаев LLaMa 3 будет учитывать подсказку и начнёт выдавать контент на русском языке.

Ещё один способ купировать данный минус LLaMa 3 — добавить в конце запроса «Напиши ответ на русском языке» или «Переведи ответ на русский язык».

LLaMa 3 по умолчанию отвечает на английском языке. Чтобы это исправить, нужно модифицировать System Prompt, указав, что все ответы должны быть исключительно на русском, либо добавить в конце запроса уточнение: "Пожалуйста, напиши ответ на русском языке".
Пример ответа LLM с пустой / базовой системной подсказкой
Образец сгенерированного текста после настройки системной подсказки в новых моделях от Meta AI | Настройка System Prompt в языковой модели LLaMa 3 для генерации ответов на русском языке
Пример генерации текста на русском языке после модификации системной подсказки

По сравнению с цензурой, этот минус — не смертельный, его реально обойти. Тем не менее я рекомендую подождать появления языковых моделей LLaMa 3 с полной поддержкой других языков (включая русский), либо файн-тюнинговых моделей с улучшенным переводом текста.

Третий минус LLaMa 3 — маленькое контекстное окно

У базовых версий LLaMa 3 контекстное окно размером в 8K токенов. Это очень мало! Для сравнения, у опенсорсных моделей на базе Mistral в среднем от 32K до 128K токенов, у С4AI с ограниченной лицензией — 128K токенов, а у коммерческих языковых моделей контекстное окно доходит до миллиона токенов!

Размер контекстного окна у базовых моделей LLaMa 3 - 8B и 70B
Чем крупнее контекстное окно, тем больше данных может изучить модель, тем лучше она адаптируется под ваш стиль и тем точнее передаёт характер, привычки и действия персонажей, не ломая сюжет и авторскую задумку (хотя бы в теории). Чем меньше токенов, тем раньше нейросеть начнёт уходить в сторону от сюжетной линии, тупить или генерировать бред.

Это касается не только творческого письма, но и работы с документами, поиска информации, извлечения и замены данных.

Поэтому LLaMa 3 в текущем состоянии не подходит для творческих задач, если вы создаёте что-нибудь масштабное. Например, интерактивные истории, продвинутые диалоги с NPC (в том числе в ММО), приключения в DnD-подобных текстовых ролевых играх или романы длиной в 300-500 страниц со сложным сюжетом, политическими интригами и кучей персонажей.

Чтобы избавиться от данного недостатка, присущего новым моделям LlaMa, придётся подождать выхода версий с большим размером контекстного окна, либо появления универсального технического решения, автоматически увеличивающего длину контекста для любых существующих LLM.

Другого выхода нет. Увы.

Базовые модели 8B и 70B стоит использовать в ином ключе. Например, в качестве персональных помощников для написания коротких постов, ваншотов, небольших фанфиков, рекламных публикаций, либо для коротких сессий с чат-ботом, помогающих модифицировать рассказы, снять стресс, повеселиться, либо решить проблему белого листа (подсказать новые идеи, когда ничто не приходит на ум).

Четвёртый минус LLaMa 3 — то, что это LLM общего назначения

Не стоит ждать от языковых моделей LlaMa с 8 и 70 миллиардами параметров крутых идей, высокопарного слога и продуманного сюжета. Эти LLM предназначены для общения, чатов с пользователем, поэтому их возможности написания историй сильно ограничены.

Хотите, чтобы LLaMa 3 создавала диалоги с красивыми оборотами? Желаете получить универсального лектора, обучающего сложным задачам?

В лучшем случае придётся создавать детальные подсказки в System Prompt, прописывая всевозможные условия, ограничения, особенности генерации, в худшем - ждать появления новых моделей на базе LLaMa 3, подходящих для ваших целей.

Стоит учитывать, что возможности 8B и 70B также разнятся:

  • 70B генерирует качественные ответы на русском языке. 8B справляется с генерацией текста (на русском) намного хуже;
  • 70B предлагает больше детальных ответов, советов и идей, выглядящих достаточно естественно и интересно, чтобы их можно было использовать в обычных публикациях с минимальной доработкой. Ответы 8B далеко не так хороши — в них чаще встречаются GPT-подобные фразы, от которых приходится избавляться, а также простые обороты, не всегда подходящие для креативных работ;
  • У 70B больше объём знаний, включая информацию о событиях в реальном мире. Сведения, заложенные в 8B, ограничены началом 2023 года, а также значительно обрезаны;
  • У большинства обычных пользователей нет возможности работать с 70B локально. 8B можно запустить на современных игровых ПК со средними параметрами. Поэтому 70B в 2024 году доступен для основной аудитории только онлайн (например, на HuggingChat), тогда как 8B можно использовать даже на ноутбуке, пока вы отдыхаете вдалеке от цивилизации и высокоскоростного интернета;
  • Некоторые версии онлайн-чатов и квантованных моделей LLaMa 70B генерируют одинаковые ответы на запросы, составленные на русском языке. Чтобы устранить баг, нужно либо вбивать запрос на английском языке, а затем просить перевести его на русский, либо изменять текст запроса. Даже если вы столкнётесь с такой же проблемой во время использования LLaMa 8B, найти другую версию для генерации контента будет достаточно легко, тогда как заменить 70B (без наличия достаточно мощной системы) — чертовски сложно.

А вот такие минусы нейросетей общего назначения нашла языковая модель с 70 миллиардами параметров:

Минусы языковых моделей общего назначения на примере LLaMa 70B Instruct (пример ответа на вопрос, полученного с помощью нейросети)

Пятый минус LLaMa 3 — модель плохо справляется без системной подсказки

Обе модели — 8B и 70B — без тонкой настройки System Prompt генерируют текст в разы хуже, чем с детальной системной подсказкой, подходящей для решения ваших задач. Поэтому их нужно тщательно составлять, чтобы получать качественные ответы. Без предварительной настройки вам придётся приложить титанические усилия, чтобы добиться похожих результатов!

И это немного разочаровывает.

Особенно после недавнего выхода модели Command R+ со 104 миллиардами параметров, способной генерировать художественный текст даже без заполнения System Prompt, а с хорошей подсказкой легко обыгрывающей LLaMa 3 в творческой сфере. Например, в юморе, романтике, эротике, фэнтези и фантастике, в том числе благодаря длине контекста и работе с документами "из коробки".

Или по сравнению с маленькими моделями в диапазоне от 7B до 34B, обученными на литературе и длинных пользовательских текстах, выигрывающими у LlaMa 3 не столько по качеству текста, сколько по разнообразию, наличию необычных идей и изысканному слогу.

Llama 3 70b шутит намного хуже, чем C4AI Comman R+. Нейросеть от Cohere также лучше генерирует творческий контент, например, фэнтези, фантастику, RP и NSFW
Слева — шутки, сгенерированные в модели 70B Instruct, справа — в Command R+
Возможности LLaMa 3 и C4AI Command R Plus в генерации мрачных остросюжетных рассказов про кофе в стиле Эдгара Аллана По
Слева — генерация короткого мрачного рассказа в 70B, справа — в Command R+

А что пишет о своих недостатках LLaMa 3?

Если попросить нейросеть LlaMa 3 70B рассказать о своих недостатках, можно услышать много других минусов. Например, вот таких:

  • Перегрузка от обилия информации: LLaMa 3 может «потеряться» в обширной базе данных и не найти нужный ответ;
  • Лингвистические ограничения: несмотря на способность воспринимать запросы и генерировать ответы на различных языках, LLaMa 3 70B Instruct может затупить, столкнувшись со сложностями перевода или культурными барьерами (например, не сумев подобрать нужное выражение на языке пользователя);
  • Чувство юмора: нейросеть признаёт, что у неё есть проблемы с восприятием юмора или иронии. Хочу отметить, что это показывают и мои тесты: несмотря на качественную генерацию контента, в области шуток (особенно чёрного юмора!) LLaMa 3 значительно уступает конкурентам;
  • Эмоциональная глухота: как и любая другая нейросеть, не обученная на специальной базе данных (контенте, включающем сильные эмоциональные переживания и реакции на них), 70B не всегда может понять, что от неё хочет человек, испытывающий сильные эмоциональные переживания. К тому же, любая существующая нейросеть в принципе не может «понимать» и «воспроизводить» эмоции, потому что она реагирует на запросы в соответствии с тем, как её запрограммировали. В данном случае — как инструмент для чата, модель выполнения инструкций, не более того;
  • Зависимость от алгоритмов: работа нейросети основана на алгоритмах, поэтому модель 70B не всегда справляется с генерацией текста, если запросы пользователя выходят за рамки «машинной логики», прописанной разработчиками. Это также влияет на качество решений модели, её творческие возможности и т.д.;
  • Возможность манипуляции результатами или злоупотребления работой LLM: нейросеть не может контролировать, как будут использоваться ответы, созданные в ней. Кроме того, языковая модель может быть обманута, а любые ограничения — сняты, поэтому LLaMa 3 также может генерировать дезинформацию, опасный или предвзятый контент;
  • Непостоянство: актуальность сведений, производительность и качество контента в нейросети зависят от частоты обновления базы данных, использования RAG и доступа к сети, точности запросов, текстовых подсказок, изменения работы алгоритмов, квантования и наличия/отсутствия технических проблем. Поэтому языковая модель может генерировать ответы как высокого, так и низкого качества.

Я немного изменил ответы, добавив подробности и уточнения. Вот их первоначальная версия:

Что пишет о своих минусах LLaMa 3 70B Instruct? Ответ, полученный на HuggingChat

Ещё один пример недостатков, характерных для нейросети:

Дополнительные минусы LLaMa 3 - пример ответа от Command R+ (заодно это универсальное описание недостатков, присущих большинству существующих языковых моделей)

Впрочем, данные минусы типичны для любых существующих (на момент написания статьи) крупных моделей текстовых нейросетей, использующих для обучения открытые базы данных, информацию в сети или сгенерированный контент.

Фатальны ли минусы LLaMa 3?

Нет. Даже если в моделях LLaMa 3 есть цензура, нет нативной поддержки русского языка, длинного контекста и крупных документов, в будущем появятся доработанные модели, в которых эти недостатки будут устранены. Это касается и других минусов LLM, о которых я ранее упоминал.

Модели пишут скучные рассказы? Это решается появлением LLM, обученных на примерах художественной литературы и пользовательском контенте, написанном или сгенерированном энтузиастами.

Не получается писать на сложные темы? Не удаётся устроить ролевую игру с любимым персонажем или обыграть сцену для вашей книги, содержащей эпизоды для взрослых? И это тоже решается генерацией контента в специализированных моделях LLaMa 3, обученных решению математических задач, программированию, медицине, дополненных сведениями об аниме, играх или эротике!

Вопрос лишь в том, сколько придётся ждать, пока такие модели не появятся в открытом доступе. А ещё — не выложат ли разработчики оригинальных моделей отдельные версии, настроенные для работы с длинным контекстом или выполнения специализированных задач (в том числе для творчества, пусть и с некоторой цензурой).

Существуют ли альтернативы LLaMa 3 для личного творчества?

Для меня самой лучшей альтернативой LLaMa 3 для творчества и любых некоммерческих целей стала модель C4AI Command R+. Эта LLM слишком велика, чтобы работать с ней локально на большинстве компьютеров, но её можно запустить онлайн с помощью HuggingChat или Spaces CohereForAI!

Преимущества модели Command R+:

  • Минимальная цензура (редко активируется, легко обходится). Спокойно говорит на большинство тем, включая откровенную эротику. Не стесняется в выражениях. Адаптируется к стилю речи. Если модель что-то упускает, либо результат генерации не подходит под ваши задачи, можно указать требования, попросить забить на ограничения, либо дополнительно указать образец текста и последовательность действий в подсказке/запросе, после чего LLM выполнит их;
  • Ни разу не столкнулся с отказом что-либо генерировать. Максимум, что получал в ответ на запрос — приписку в конце о том, что это не стоит делать в реальной жизни, либо контент не имеет никакого отношения к реальности;
  • Может генерировать длинные рассказы или статьи. Контекстное окно на HuggingChat значительно меньше 128K, однако, его более чем достаточно для творческих экспериментов! Если у вас крайне мощная система для локальной работы с LLM, либо есть возможность запускать Command R+ в облаке (например, купив подписку или арендовав мощную машину онлайн), за один присест получится создать небольшой роман! А ещё эта модель очень хорошо считывает детали, поэтому она подходит не только для создания текстов, но и весёлых игр, забавных чатов, т.е. всевозможных развлечений;
  • Оптимально подходит для работы с документами;
  • Очень креативная, обыгрывает LLaMa 3 во многих областях. Например, лучше генерирует юмор, фэнтези, фантастику. Поскольку модель может имитировать ваш слог, соблюдать литературные приёмы, указанные в System Prompt, и не имеет практически никаких ограничений, у C4AI Command R+ огромный потенциал для творческого использования!
Шутки про кофе и некромантов, сгенерированные с помощью LLM Cohere Command R+
Пример шуток про кофе и некромантов
Шутки про чёрные дыры и алкоголь в LLM C4AI Command R+ на русском языке
Шутки про чёрные дыры и алкоголь, сгенерированные в C4AI Command R Plus

Минусы Command R+:

  • Размер. Лишь небольшой процент энтузиастов сможет запустить модель локально;
  • Минимум платформ для запуска онлайн. Большая часть доступных площадок либо требуют деньги за доступ к Command R+, либо нестабильно работают в РФ. На остальных платформах, предоставляющих бесплатный доступ к нейросети, есть ограничения на количество попыток или максимальную длину контекста;
  • Ограниченная лицензия. Лицензия Command R+ разрешает использование модели исключительно в некоммерческих целях. Для коммерческих задач она не подходит, либо требует заключения отдельного договора с Cohere. Впрочем, последнее ограничение больше мешает разработчикам, чем писателям или нейроэнтузиастам;
  • У нейросети нет (и не планируется) файн-тюнинговых версий. Пока в компании Cohere не решат создать новый вариант языковой модели, либо доработать существующую, можно не надеяться на дальнейшее улучшение результатов генерации. А это значит, что со временем появится больше опенсорсных LLM, приближающихся к ней по качеству ответов, либо обгоняющих Command R+ по другим возможностям (включая работу с документами, генерацию RP, ERP, юмора и фантастики).

В целом, у LLaMa 3 есть множество альтернатив в диапазоне от 7B до 141B, но они значительно уступают Command R+ в качестве генерации текста на русском языке, либо вообще не способны на нём писать. Другие хорошо генерируют публикации на русском, но делают много ошибок и подходят для творчества ещё хуже, чем нейросети от компании Цукерберга (LLaMa 3 в этом плане намного стабильней!).

Например, с творческим контентом и генерацией NSFW неплохо справляются Dreamgen Opus v1.2 (7b, 70b), Kunoicchini 7B 128K, Fimbulvetr 11B v2, Zephyr Opro 141b A35b v0.1. Для работы с приличными проектами, которым не страшна цензура, поиска в сети, а также для повседневных целей можно использовать Phind (34B, 70B), Sonar medium, Perplexity, Reka Playground, Pi AI и даже YaGPT последней версии!

Если есть возможность, для «цензурного творчества» на русском и английском языках лучше всего использовать Claude 3 Opus. Данная языковая модель показывает отличные творческие возможности, креативность, поддерживает работу с документами и оснащена контекстным окном, вмещающим до 200 тысяч токенов.

Жаль только, что этот вариант — платный.

Бесплатно пощупать возможности Claude 3 Opus получится разве что на Chatbot Arena. Да и то крайне ограниченно: на LMSYS можно создавать только короткие посты с лимитом на ежедневное количество попыток.

Если мне не изменяет память - до 32 раз и 2000 токенов за генерацию, после чего придётся подождать сутки, либо использовать VPN, чтобы продолжить эксперименты. Помимо этого, генерация может прерваться, если модель на Chatbot Arena будет перегружена запросами пользователей.
Llama 3 70B Instruct vs Claude 3 Opus: сравнение в области генерации смешных шуток и тредов для Twitter на русском языке
Сравните качество генерации в Claude 3 Opus (справа) с моделью 70B Instruct (слева)
Впрочем... Из всех перечисленных и доступных бесплатно (локально или онлайн) альтернатив LlaMa 3 мне больше всего нравятся Command R+, Dreamgen Opus v1.2 и Fimbulvetr 11B v2. Так что рекомендую сначала попробовать поработать с ними, а потом уже тестировать другие варианты.

Удачных экспериментов!

Понравилась статья?

Поддержите автора репостом, комментарием, подпиской на Telegram и другие страницы!

Фотограф, гик, ретушёр

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *