Подходить к какой-то технологии можно с трех позиций. Вот например - автомобиль. Есть водитель - который в среднем, умеет доехать куда надо, и немного понимает что там внутри. Есть техник - который понимает как оно в общем устроено, что может сломаться, и как это починить. И есть инженер - который это автомобиль спроектировал и знает детально все процессы которые внутри происходят.
Здесь и далее будет подход с точки зрения водителя и иногда - техника. Т.к. сейчас оно все на такой стадии, что как тот же автомобиль в салоне не купить - в лучшем случае приобретаешь набор "сделай сам" с хорошей инструкцией. В худшем - "по месту обработать напильником".

Что доступно на данный момент обычному энтузиасту, у которого нету средств на машинный зал в подвале?
- Онлайн сервисы. Их много, они разные, можно найти бесплатные или почти бесплатные. Но удовольствие от таких - весьма среднее, т.к. либо ограничиваются в выделяемых ресурсах, либо во времени общения за просто так. Либо дохут/мутируют в исключительно платные. Особым пунктом стоит вопрос цензуры - а она разрушает качество генерации. Именно это почти убило Ai Dungeon - после введения фильтрации качество генерируемых приключений/историй/диалогов скатилось к весьма унылому состоянию. Сервис все еще жив, и даже слега развивается, но сейчас это бледная тень того что было.
Особо касаться здесь подобного больше не буду, найти при желании через поисковик можно легко, и сами про себя они лучше расскажут.

- Сервисы продающие не конкретное решение, а доступ к ресурсам. По сути - доступ к виртуалкам у которых есть нужное "железо". Сюда можно отнести и Google Colab. В нем даже на халяву вам доступны VM с ускорителем имеющем на борту ~16ГБ видеопамяти. Правда халяву эту гугл похоже собирается прикрывать - уж больно много желающих налетело. А платные тарифы у него не радуют. В общем - тоже решение на любителя или того кому деваться некуда, а пощупать хочется.
- Свое железо. И вот тут начинается самое интересное. Первый же вопрос который интересует начинающего энтузиаста: какое железо нужно, и для чего его хватит? И вот здесь я остановлюсь несколько подробнее.
Во первых, сейчас есть - две основные ветки развития этой технологии - работа с графикой, и работа с текстом. Как ни странно для новичка - работа с текстом НАМНОГО затратнее чем с графикой.
Порядок необходимого на данный момент примерно такой:
Графика:
Имея карту вида GTX 1650 с 4Gb на борту, можно генерировать картинки размером примерно 512х768. Медленно. В зависимости от остальных настроек и параметров, такая картинка будет генерироваться от 2-3 до 15-20 минут. И это не предел. Но тем не менее - пощупать можно, даже креативить вполне реально. Если никуда не торопишься.
Имея RTX 3060 с 12Gb видеопамяти - можно генерировать картинки практически неограниченного размера, во всяком случае уже не упрешься в ограничение по видеопамяти просто так. Та же картинка которая на предыдущей карте создавалась 3-4 минуты, здесь будет готова за 5-10 секунд. И во главе угла здесь именно объем видеопамяти. Версия этой карты с 8Gb будет справляться заметно хуже, не говоря о возможности влететь в OOM (точнее упереться - это не страшно, просто текущая задача в мусорку и начинай заново).
Тренировкой новых суб-моделей (Lora, Textual Inversion, Etc) можно заниматься имея хотя бы 8Gb, чтобы поиметь хоть какой-то практический результат, некоторые же умудряются что-то делать и с 6Gb. Не пробовал пока на своей 3060, но народ развлекается во всю.
Текст.
С картой у которой менее 8Gb видеопамяти сюда соваться бессмысленно. Да, найти модель которая влезет даже в 2Gb - не вопрос. Но качество генерации у такой модели будет хуже чем у в драбадан пьяного шизофреника.
Модели такого типа характеризуются количеством параметров - типичные числа здесь 1.3b, 2.7b, 6b, 7b, 12b, 13b, 20b, 33b, 65b. Знаменитый ChatGPT - это модель с 175b параметров. Такое не запустишь не только дома, но и на отдельном сервере даже набитом ускорителями. Там почти наверняка кластер нужен. В базовом варианте, в 16Gb видеопамяти с огромным скрипом влазит 6b модель и боле-менее свободно - 2.7b
Вот только все что меньше 6b - по большей части генерирует тот самый бред пьяного шизофреника. А более менее качественный текст получается у 13b моделей, как минимум. Которые запустить можно только на паре 3090 (за счет 2 х 24Gb видеопамяти). И было бы все очень печально, но у моделей есть еще один параметр - точность. Измеряется в битах. Первые текстовые модели содержали, грузились, и работали с точностью 16бит. Потом хитрые и умные люди придумали как это конвертировать в 8bit не ломая возможность модели выдавать нужное. Затраты VRAM упали в 2-2.5 раза - теперь количество параметров модели стало грубо равняться количеству гигабайт видеопамяти нужных для ее запуска. Но умные люди на этом не остановились. Буквально месяц назад научись использовать точность 4bit. А это дало возможность грузить 30-33b модели в одну RTX 3090. А в RTX 3060 имеющую 12Gb - 13B модели с полным контекстом. А это уже серьезно. Модели 6b стало возможно запускать на видеокартах с 8Gb памяти (в 6Gb полный контекст вместе с моделью обычно не влазит).
Т.е. подводя итог - здесь RTX 3060 не имеет никакой конкуренции на данный момент если нет денег на топ сегмент. Можно играться с моделями довольно высокого качества и возможностей, за весьма приемлемую цену карты. Тренировать новые модели правда не получится, но тут и владельцам одной 3090 грустно.
Почему я упоминаю только 3060 и 3090? А потому что память. У 3070 и 3080 ее меньше чем у 3060, и они из-за этого куда менее пригодны для данного занятия.

У серии 4ххх есть некоторые проблемы с некоторыми видами моделей, при относительно небольшом выигрыше в скорости относительно "равноциферных" из серии 3ххх. Но применимы вполне, это не случай ниже:
AMD. Что по ним? А ничего. У них есть свой аналог CUDA, но он поддерживается данном поле в разы хуже. Тогда как случае зеленых здесь обычно все работает сразу. Не имея на руках и в округе таких карт, ничего более конкретного про них сказать не могу. По тестам - медленнее за ту же цену, даже если работает.
Где и что брать?
То что у нас линукс - это нам очень большой бонус. Все эти наборы "сделай сам" половину проблем имеют из за Windows - и запуска там WSL.

Графика.
- Основным доступным новичку софтом, да данный момент является универсальный GUI, который обитает здесь: https://github.com/AUTOMATIC1111/stable-diffusion-webui
Умеет очень дофига всего, поддерживает несколько методов тренировок (если такое желание возникнет), да еще и расширяется плагинами.
- Однако ему нужны модели. В прошлом году это было проблемой, собирали по торрентам и даже imageboard-ам.

Без регистрации показывает только SFW материалы.

Модели которые основа - там обозначаются как категория checkpoints. Остальное - дополнительные материалы, которые в процессе работы добавляются к основной модели, и обычно "уточняют" некое явление или персонажа.
Модели бывают основанные на Stable Diffusion 1.5 (1.4), или 2.х
Первые - не имеют принудительной цензуры, менее ресурсоемки. Но имеют проблемы как минимум с пальцами на руках и ногах - поголовно.
Вторые - зацензурены до потери качества всего что хотя-бы отдаленно под цензуру попадет. Требуют больше видеопамяти, но с остальным справляются немного лучше.
SD 1.х тренировали на изображениях 512х512, а 2.х - на 768х768, но вычищеном от "NSFW" материалов датасете. Причем чистили не руками, а потому качество этой чистки... В общем, 2.х вам классическую картину Венеры стилем Рафаеля не нарисует. И древней Грецией в частности, и античной культурой вообще будут проблемы.

Текст.
Здесь нет такой явной централизации, но несколько ссылок стоит записать.
Kobold AI - первый UI который позволяет играть с моделью в виде текстовой адвентюры. Или писать рассказ-буриме. Или даже чатится с виртуальным персонажем. В прочем, последнее получается не очень - интерфейс хоть и имеет соответствующий режим, но не допиленный как следует.
- Основной активный форк (оригинал уже месяцы не развивается): https://github.com/henk717/KoboldAI
- Форк поддерживающий 4bit модели: https://github.com/0cc4m/KoboldAI
- Глубоко модифицированный форк позволяющий запускть модели типа llama на CPU без видеокарты вообще. На чем-то вроде i5-8400 ответ от моделей 6b и 13b укладывается в 30-120 секунд, но там много факторов. Очень любит обычную память (16Gb абсолютный минимум, на 32 уже комфортно). Требует особые модели. https://github.com/LostRuins/koboldcpp
- "Аналог графического универсального UI для текстовых моделей" - цитата от автора, в описании того, что он хочет получить в итоге. Пока труба пониже, и дым пожиже, но потенциал определенно присутствует. Некоторые модели можно сейчас запустить только в нем: https://github.com/oobabooga/text-generation-webui
- SilliyTavern, форк Tavern AI. Интерфейс для чата с виртуальными персонажами. Своих мозгов не имеет - чужими пользуется. Через API - цепляется к Kobold AI или интерфейсу из предыдущего пункта. Так же умеет цепляться к некоторым online сервисам, но лично для меня эта возможность мало интересна. Хотя некторым явно нужна: https://github.com/Cohee1207/SillyTavern
- Хаб для моделей и материалов работающих с текстом (не только, но в основном): https://huggingface.co
В отличии от графического - более серьезная лавочка направленная в первую очередь на серьезных исследователей и программистов, а не на широкую публику. Но знать стоит, хотя бы потому, что текстовые модели можно найти практически только там. Они намного больше чем графические - кто угодно их хостить не будет.
Что нужно иметь кроме видеокарты?
- Процессор "чуть лучше табуретки". В основном чтобы разные WEB UI шевелились приемлемо.

- 32Gb памяти (обычной) - крайне желательно. Для много можно обойтись и 16Gb но будет не очень комфортно.
- Английский язык, как минимум уровня "уверенно со словарем", особенно если интересует генерация текста. Следует так же готовится морально к тому, что 95% руководств будет исключительно на английском. И скажите "спасибо", что не на японском - на графическом хабе много моделей оттуда. Там вообще эта тема хорошо подхвачена - аниме моделей не меньше чем всех остальных в сумме.
