Азы, и где взять (Что? Где? Почем?)

#1

Данный материал актуален на Апрель 2023 года. Такая пометка IMHO очень важна, т.к. область развивается чрезвычайно активно. "Нужно бежать со всех сил, только чтобы оставаться на месте"(с)

Подходить к какой-то технологии можно с трех позиций. Вот например - автомобиль. Есть водитель - который в среднем, умеет доехать куда надо, и немного понимает что там внутри. Есть техник - который понимает как оно в общем устроено, что может сломаться, и как это починить. И есть инженер - который это автомобиль спроектировал и знает детально все процессы которые внутри происходят.
Здесь и далее будет подход с точки зрения водителя и иногда - техника. Т.к. сейчас оно все на такой стадии, что как тот же автомобиль в салоне не купить - в лучшем случае приобретаешь набор "сделай сам" с хорошей инструкцией. В худшем - "по месту обработать напильником".

Что доступно на данный момент обычному энтузиасту, у которого нету средств на машинный зал в подвале?

- Онлайн сервисы. Их много, они разные, можно найти бесплатные или почти бесплатные. Но удовольствие от таких - весьма среднее, т.к. либо ограничиваются в выделяемых ресурсах, либо во времени общения за просто так. Либо дохут/мутируют в исключительно платные. Особым пунктом стоит вопрос цензуры - а она разрушает качество генерации. Именно это почти убило Ai Dungeon - после введения фильтрации качество генерируемых приключений/историй/диалогов скатилось к весьма унылому состоянию. Сервис все еще жив, и даже слега развивается, но сейчас это бледная тень того что было.
Особо касаться здесь подобного больше не буду, найти при желании через поисковик можно легко, и сами про себя они лучше расскажут.

- Сервисы продающие не конкретное решение, а доступ к ресурсам. По сути - доступ к виртуалкам у которых есть нужное "железо". Сюда можно отнести и Google Colab. В нем даже на халяву вам доступны VM с ускорителем имеющем на борту ~16ГБ видеопамяти. Правда халяву эту гугл похоже собирается прикрывать - уж больно много желающих налетело. А платные тарифы у него не радуют. В общем - тоже решение на любителя или того кому деваться некуда, а пощупать хочется.

- Свое железо. И вот тут начинается самое интересное. Первый же вопрос который интересует начинающего энтузиаста: какое железо нужно, и для чего его хватит? И вот здесь я остановлюсь несколько подробнее.
Во первых, сейчас есть - две основные ветки развития этой технологии - работа с графикой, и работа с текстом. Как ни странно для новичка - работа с текстом НАМНОГО затратнее чем с графикой.
Порядок необходимого на данный момент примерно такой:

Графика:
Имея карту вида GTX 1650 с 4Gb на борту, можно генерировать картинки размером примерно 512х768. Медленно. В зависимости от остальных настроек и параметров, такая картинка будет генерироваться от 2-3 до 15-20 минут. И это не предел. Но тем не менее - пощупать можно, даже креативить вполне реально. Если никуда не торопишься.
Имея RTX 3060 с 12Gb видеопамяти - можно генерировать картинки практически неограниченного размера, во всяком случае уже не упрешься в ограничение по видеопамяти просто так. Та же картинка которая на предыдущей карте создавалась 3-4 минуты, здесь будет готова за 5-10 секунд. И во главе угла здесь именно объем видеопамяти. Версия этой карты с 8Gb будет справляться заметно хуже, не говоря о возможности влететь в OOM (точнее упереться - это не страшно, просто текущая задача в мусорку и начинай заново).
Тренировкой новых суб-моделей (Lora, Textual Inversion, Etc) можно заниматься имея хотя бы 8Gb, чтобы поиметь хоть какой-то практический результат, некоторые же умудряются что-то делать и с 6Gb. Не пробовал пока на своей 3060, но народ развлекается во всю.

Текст.
С картой у которой менее 8Gb видеопамяти сюда соваться бессмысленно. Да, найти модель которая влезет даже в 2Gb - не вопрос. Но качество генерации у такой модели будет хуже чем у в драбадан пьяного шизофреника.
Модели такого типа характеризуются количеством параметров - типичные числа здесь 1.3b, 2.7b, 6b, 7b, 12b, 13b, 20b, 33b, 65b. Знаменитый ChatGPT - это модель с 175b параметров. Такое не запустишь не только дома, но и на отдельном сервере даже набитом ускорителями. Там почти наверняка кластер нужен. В базовом варианте, в 16Gb видеопамяти с огромным скрипом влазит 6b модель и боле-менее свободно - 2.7b
Вот только все что меньше 6b - по большей части генерирует тот самый бред пьяного шизофреника. А более менее качественный текст получается у 13b моделей, как минимум. Которые запустить можно только на паре 3090 (за счет 2 х 24Gb видеопамяти). И было бы все очень печально, но у моделей есть еще один параметр - точность. Измеряется в битах. Первые текстовые модели содержали, грузились, и работали с точностью 16бит. Потом хитрые и умные люди придумали как это конвертировать в 8bit не ломая возможность модели выдавать нужное. Затраты VRAM упали в 2-2.5 раза - теперь количество параметров модели стало грубо равняться количеству гигабайт видеопамяти нужных для ее запуска. Но умные люди на этом не остановились. Буквально месяц назад научись использовать точность 4bit. А это дало возможность грузить 30-33b модели в одну RTX 3090. А в RTX 3060 имеющую 12Gb - 13B модели с полным контекстом. А это уже серьезно. Модели 6b стало возможно запускать на видеокартах с 8Gb памяти (в 6Gb полный контекст вместе с моделью обычно не влазит).
Т.е. подводя итог - здесь RTX 3060 не имеет никакой конкуренции на данный момент если нет денег на топ сегмент. Можно играться с моделями довольно высокого качества и возможностей, за весьма приемлемую цену карты. Тренировать новые модели правда не получится, но тут и владельцам одной 3090 грустно.

Почему я упоминаю только 3060 и 3090? А потому что память. У 3070 и 3080 ее меньше чем у 3060, и они из-за этого куда менее пригодны для данного занятия.

У серии 4ххх есть некоторые проблемы с некоторыми видами моделей, при относительно небольшом выигрыше в скорости относительно "равноциферных" из серии 3ххх. Но применимы вполне, это не случай ниже:

AMD. Что по ним? А ничего. У них есть свой аналог CUDA, но он поддерживается данном поле в разы хуже. Тогда как случае зеленых здесь обычно все работает сразу. Не имея на руках и в округе таких карт, ничего более конкретного про них сказать не могу. По тестам - медленнее за ту же цену, даже если работает.

Где и что брать?

То что у нас линукс - это нам очень большой бонус. Все эти наборы "сделай сам" половину проблем имеют из за Windows - и запуска там WSL.

Ибо 90% их обвязки - это python, причем обычно - в виртуальном окружении env в отдельном каталоге (чтоб систему не загаживать). То что критично к скорости разумеется не на нем, но вообще python в этой сфере используется крайне широко. Базовые знания оного - бонус. Как и bash. Хотя не обязательны чтобы просто пользоваться.

Графика.
- Основным доступным новичку софтом, да данный момент является универсальный GUI, который обитает здесь: https://github.com/AUTOMATIC1111/stable-diffusion-webui
Умеет очень дофига всего, поддерживает несколько методов тренировок (если такое желание возникнет), да еще и расширяется плагинами.
- Однако ему нужны модели. В прошлом году это было проблемой, собирали по торрентам и даже imageboard-ам.

Сейчас есть главный хаб для графических моделей и дополнительных материалов - https://civitai.com
Без регистрации показывает только SFW материалы.

Модели которые основа - там обозначаются как категория checkpoints. Остальное - дополнительные материалы, которые в процессе работы добавляются к основной модели, и обычно "уточняют" некое явление или персонажа.
Модели бывают основанные на Stable Diffusion 1.5 (1.4), или 2.х
Первые - не имеют принудительной цензуры, менее ресурсоемки. Но имеют проблемы как минимум с пальцами на руках и ногах - поголовно.
Вторые - зацензурены до потери качества всего что хотя-бы отдаленно под цензуру попадет. Требуют больше видеопамяти, но с остальным справляются немного лучше.
SD 1.х тренировали на изображениях 512х512, а 2.х - на 768х768, но вычищеном от "NSFW" материалов датасете. Причем чистили не руками, а потому качество этой чистки... В общем, 2.х вам классическую картину Венеры стилем Рафаеля не нарисует. И древней Грецией в частности, и античной культурой вообще будут проблемы.

Текст.
Здесь нет такой явной централизации, но несколько ссылок стоит записать.

Kobold AI - первый UI который позволяет играть с моделью в виде текстовой адвентюры. Или писать рассказ-буриме. Или даже чатится с виртуальным персонажем. В прочем, последнее получается не очень - интерфейс хоть и имеет соответствующий режим, но не допиленный как следует.
- Основной активный форк (оригинал уже месяцы не развивается): https://github.com/henk717/KoboldAI
- Форк поддерживающий 4bit модели: https://github.com/0cc4m/KoboldAI
- Глубоко модифицированный форк позволяющий запускть модели типа llama на CPU без видеокарты вообще. На чем-то вроде i5-8400 ответ от моделей 6b и 13b укладывается в 30-120 секунд, но там много факторов. Очень любит обычную память (16Gb абсолютный минимум, на 32 уже комфортно). Требует особые модели. https://github.com/LostRuins/koboldcpp
- "Аналог графического универсального UI для текстовых моделей" - цитата от автора, в описании того, что он хочет получить в итоге. Пока труба пониже, и дым пожиже, но потенциал определенно присутствует. Некоторые модели можно сейчас запустить только в нем: https://github.com/oobabooga/text-generation-webui
- SilliyTavern, форк Tavern AI. Интерфейс для чата с виртуальными персонажами. Своих мозгов не имеет - чужими пользуется. Через API - цепляется к Kobold AI или интерфейсу из предыдущего пункта. Так же умеет цепляться к некоторым online сервисам, но лично для меня эта возможность мало интересна. Хотя некторым явно нужна: https://github.com/Cohee1207/SillyTavern
- Хаб для моделей и материалов работающих с текстом (не только, но в основном): https://huggingface.co
В отличии от графического - более серьезная лавочка направленная в первую очередь на серьезных исследователей и программистов, а не на широкую публику. Но знать стоит, хотя бы потому, что текстовые модели можно найти практически только там. Они намного больше чем графические - кто угодно их хостить не будет.

Что нужно иметь кроме видеокарты?
- Процессор "чуть лучше табуретки". В основном чтобы разные WEB UI шевелились приемлемо.

Если модель грузится в видеокарту - процессор не нагружен вообще. Исключение - форк Kobold для процессора - там чем мощнее, тем лучше.
- 32Gb памяти (обычной) - крайне желательно. Для много можно обойтись и 16Gb но будет не очень комфортно.
- Английский язык, как минимум уровня "уверенно со словарем", особенно если интересует генерация текста. Следует так же готовится морально к тому, что 95% руководств будет исключительно на английском. И скажите "спасибо", что не на японском - на графическом хабе много моделей оттуда. Там вообще эта тема хорошо подхвачена - аниме моделей не меньше чем всех остальных в сумме.

#2

Новости текстовой генерации, на 07.2023

Всю весну и начало лета данную область дико лихорадило, развитие шло дикими темпами, новые модели и технологии появлялись чуть ли не ежедневно. Следить за всем этим было крайне сложно. Сейчас, вроде бы, интенсивность несколько снизилась и можно вывесить какие-то промежуточные результаты. Чтобы для новичка в теме была какая-то "точка входа". Итак:

- Основным софтом сейчас можно по прежнему назвать https://github.com/oobabooga/text-generation-webui - универсальный back end имещий и собственный GUI. Умеет практически все, в том числе и новые фичи такие как exllama (оптимизированная поддержка llama моделей, производительность почти 2х от старого) и superhot (расширеный контекст).
- Для самых новых фич GGML моделей (это которые работают на процессоре а не GPU) - https://github.com/LostRuins/koboldcpp Умеет в расширенный контекст для GGML, правда CPU для этого нужен реально серьезный. Моего i5-8400 маловато будет для 13B моделей с расширенным контекстом. Медленно.

- Для чата с виртуальными персонажами, фронтэнды:
-- https://github.com/SillyTavern/SillyTavern - лучше для локального back end, например для предыдущих.
-- https://github.com/kwaroran/RisuAI - интересный вариант, больше ориентирован на облачные AI сервисы, но может цепляться и к локальному бекэнду.

Локальные модели. Здесь их наклепали хоть и меньше, чем графических на civitai, но все равно голова может пойти кругом.

Посему даю выжимку. Как и раньше - практически единственное место откуда их брать - https://huggingface.co . Основной мэинстрим сейчас - 13B и 30/33B модели. Первые для обладателей карт с 12/16Гб видеопамяти, вторые - если у вас 24+ Гб. VRAM. Т.е. речь в основном о 3060 и <X>090 соответственно. (Именно 3060 т.к. 4060 с 16Gb еще не выпущена.)
Особняком идут GGML модели для CPU. 13B со стандартным контекстом вполне нормально чувствует себя на чем-то вроде моего i5-8400 и 16Gb обычной памяти. 30/33B запусить можно, но грустно, а памяти надо 32Gb.

Так же у GGML появилось куча подвидов квантования - можно выбирать между скоростью и качеством генерации. Почти каждая боле-менее популярная модель сейчас имеет свой GGML вариант, так что нужда в продвинутом GPU для знакомства с областью несколько ослабла.

- Первое на что стоит обратить внимание при выборе модели - наличие метки SuperHOT в имени (часто дополняется "8K"). Не SuperCOT (это другая фича)! SuperHOT - это обозначение того, что модель поддерживает расширенный контекст. Не 2048 токенов, а 8196, что крайне улучшает впечатление от чата с персонажем на такой модели. Сильно ослабляется эффект GoldFish Memory, когда персонаж забывает о чем шла речь некоторое время назад. Ну и WI записей в контекст разумеется влезет куда больше. WI - World Info, или LoreBook - специальная фича, заключающаяся в том, чтобы часть описания персонажа засовывать в контекст только тогда когда найдены какие-то заданные ключевые слова. К примеру - Если найдено "компьютер, система" - добавить в контекст "Персонаж предпочитает Линукс".

Нужно, чтобы экономить контекст.

- Второе: выделился один человек, который занимался сбором выходящих моделей и конвертированием их в 4bit формат, т.е. делал их готовыми к употреблению сразу: https://huggingface.co/TheBloke
Там сейчас можно найти самую большую коллекцию моделей с подробными описаниями, для GPU (GPTQ) и CPU (GGML).

- Третье: Мое персональное IMHO по лидерам 13B моделей:
-- Для чата/ролевой игры (модель как GM): https://huggingface.co/TheBloke/airobor ... OT-8K-GPTQ и https://huggingface.co/TheBloke/guanaco ... OT-8K-GPTQ
-- Для генерации текстов: оно же, и/или https://huggingface.co/TheBloke/Chronos ... OT-8K-GPTQ или https://huggingface.co/TheBloke/wizard-mega-13B-GPTQ или https://huggingface.co/TheBloke/Selfee- ... OT-8K-GPTQ

#3

Опять про текст.

Вышла llama 2.

Что это такое, и что значит?

llama - это архитектура и одновременно ее базовая модель для текстовой генерации. Первое поколение появившееся в конце зимы обеспечило прорыв для использования на машинах "домашнего" типа. По сути - обычного игрового компьютера стало хватать чтобы использовать 7b и 13b модели, особенно после появления вариантов квантования в 4bit, она же научилась работать на CPU без видеокарты.

Сейчас вышла llama 2. Ключевые особенности:
- Возможность коммерческого использования (у первой лицензия позволяла использование только в исследовательских целях).
- Обновленный датасет и много работы "под капотом". В результате качество генерации зрительно повысилось. В частности, я случайно скачал 7B модель вместо 13B и какое время был уверен, что тестирую 13B.

Т.е. 7B модель стала выдавать текст субъективно сравнимый с 13B предыдущего поколения.
- 4K контекст штатно, т.е. будет автоматически наследоваться всеми fine-tune моделями. У первой был 2K. Контекст - это предыдущая информация, которую модель может обработать и использовать в своей работе. Критически важно для чат-ботов - чем больше контекст, тем лучше у бота память, и он лучше "помнит" что здесь вообще происходит.

Это же позволяет лучше описывать персонажа и обстановку в которой чат происходит (т.е. не просто чат, а с элементами ролеплея получается).

Модели спокойно работают в последней версии https://github.com/oobabooga/text-generation-webui , грузить лучше через exllama модуль/режим.

symon2014 · #4

slant писал(а): ↑
24 апр 2023, 20:17
Правда халяву эту гугл похоже собирается прикрывать - уж больно много желающих налетело.

Матерится , но вроде работает. Я пользуюсь. В принципе результаты выдаёт неплохие , главное научиться пользоваться.

#5

Давно не писал - то-сё, настроения не было... А новостей накопилось дофига.

Итого сводка считайте с прошлой осени. На 05.2024

Графика

- Выпущена модель SDXL - новая модель серии Stable Diffusion но уже тренированная на изображениях 1024х1024. И в этот раз без цензуры, которая фактически убила SD 2.0 - здравый смысл таки возобладал. Модель пошла в массы, начали развиваться дополнительные производные - finetunes, LORA и т.д. (От SD 1.5 - не подходит, нужно именно под эту архитектуру.) Сделали и ControlNet (задание результата на основе другого изображения/скетча/схемы - чтобы, скажем, персонаж был в нужной позе) и прочего добра. Качество генерации улучшилось пропорционально, проблемы с руками (пальцами) уменьшились тоже пропорционально. И минусов - затраты необходимой видеопамяти и время генерации. Типичная SDXL модель весит ~6.7GB, по сравнению с 2.1GB для SD 1.5. При работе с ними можно более-менее нормально жить с 8 GB видеопамяти, но для комфорта уже нужно 12. Потому заслуженная SD 1.5 популярности не теряет.
- Зимой появились SDXL LCM и SDXL Turbo - семейство моделей которые позволяют ускорить генерацию за счет снижения количества шагов - нормальная картинка может быть получена всего за 5-8 итераций вместо 20-40. Качество - переменное. Иногда как бы не лучше чем у простого SDXL иногда заметно уступает. В общем-то - достаточно ситуативно и вкусовщина. Но такую модель на хорошей карте можно заставить генерить картинку в непрерывном режиме как видео. Этим начали пользоваться некоторые vtuber-ы для своих персонажей.
- Последние пару месяцев набрала популярность модель Pony Diffusion XL (PDXL иногда сокращают) - модель являясь фактически Finetune от SDXL заработала отдельную категорию на cvitai - наравне с самой SDXL и SD 1.5. В чем цимес? Модель дотренировали на огромном количестве изображений со всяческим артом и аниме категоризированных отдельным образом (со специфическими ключами-тегами). В результате эта модель практически не умеет в фотореализм, зато очень хорошо умеет в различную графику, и от нее заметно проще получить желаемый графический стиль. Так же она хорошо умеет изображать фантастических персонажей (антропоморфных животных, драконов, чужих, и прочее не существующее в природе). Стиль и качество можно варьировать от карандашных набросков "курица лапой" до постеров очередного шедевра анимации от диснея.

- Набрала популярность альтернатива системе генерации от Automatic1111. Кроме нее теперь есть ComfyUI - подход совершенно другой. Вместо настройки кучи параметров в едином UI, Comfy предлагает возможность собрать ПРОЦЕСС генерации от начала до конца из нодов соединяемых через узлы. Примерно как в Blender процедурные текстуры описываются сейчас. В общем - визуальное программирование процесса через ноды и их узлы. Гибкость потрясающая, но получить что-то просто потыкав кнопочки уже не получится - надо хотя бы минимально представлять как SD работает.

И плюсов - установка как бы не проще чем у Automatic, а нужные модели и расширения сведены в репозиторий и программа умеет их сама скачивать и устанавливать по запросу. Ощущения при сравнении с Automatic - вот прямо Windows и Linux.

Текст

Здесь в основном процесс идет эволюционно а не революционно. Однако кое-что и здесь случилось.

- Вышла LLama 3. Буквально пару недель назад. Версии 8B и 70B (обещают еще 1ххB но пока нету). 13B делать не стали - т.к. 8B этой архитектуры уделывает 13B модели LLama 2. И там есть серьезное качественное различие в генерации как минимум начиная с 30B где-то, а количественно датасет и в 8B нормально укладывается. Нативный контекст - 8K токенов. (у L2 - 4к). 8к - это уже размер типичной новостной статьи, а то и больше (например этот текст - явно меньше будет.) А значит можно давать задачи модели вида "проведи стилистическую редактуру", "проверь на ошибки", "сделай резюме", "Посчитай попугаев в тексте".

При этом загружая в контекст уже весь текст разом, а не кусками.
- До того была еще Mistral - глубокая 7B finetune на основе LLama 2. И тоже давала лучший результат, чем простая 13B L2. В последних модификациях контекст Mistral подняли до 32k. Это уже вообще рассказ или даже новелла. Правда такой контекст в может уже и не влезть в видеопамять, а 7b все же накладывает отпечаток - таким моделям заметно не хватает "глубины" генерируемого текста. Вот тут начинает разница в цифре - при 34b модель может не быть "умнее" логически или математически, но именно "глубина рассуждений" начинает ощущаться обязательно. Очень отдаленно это явление можно сравнить с речью ребенка - чем меньше количество параметров модели, тем мышление примитивнее - как у еще маленького. Но прямую аналогию все-же проводить нельзя. В общем-то объяснить это достаточно тяжело - проще самому прочувствовать на примерах.

И вот кстати. Понапридумывали за это время порядком разных тестов, завели рейтинги сравнения моделей... Но всякие синтетические тесты - они как-то не очень наглядны. А тут один товарищ в дискорде предложил простой способ субъективного тестирования локальных моделей, который и мне ну просто ОЧЕНЬ зашел. С ним сразу видно - насколько очередная модель удачна или тупа. Тест в общем чрезвычайно прост, и заключается в скармливании модели вот такого Prompt:

Solve a riddle:

Petra is a girl. She has three brothers. Each of those brothers has exactly three sisters. All children has the same parents.

How may sisters Petra has?

Explain the solution.

Нормальная модель может хотя-бы один раз из трех сгенерировать ответ близкий к правильному. ("Petra has two sisters.") И бонусом - объяснить свой ответ так, чтобы это не выглядело совершенным вывихом мозга.

Более слабые модели говорят - 3, но и это еще более менее. Средненькие несут что-то вроде 9 - да еще и акцентируют внимание на том что "у каждого брата три сестры - значит всего 9".

Хотя тут остатки логики хотя бы прослеживаются. Откровенный шлак может выдавать ответ вроде 6, 12, 27, или начать генерировать псевдоматематическое решение на пол-страницы, приходя в итоге "Petra has no sisters" или умножая количество братьев на сестер.

А то и уходя в сторону "кто тут был приемным?"

В общем - рекомендую. Попутно - очень хорошо избавляет от иллюзий о наличии у такого AI сознания. Инструмент, он и есть инструмент.

гендос · #6

откель такой кайф по "ии". Це ж будущный киллер человеков.

Sova · #7

А для музыки что-то такое есть? Имеется в виду, что можно локально развернуть на своей машине, а не из сети. Я какой-то Jukebox (вроде так) находил, но так и не вкурил как его себе на Рач установить.

#8

Sova писал(а): ↑
16 июн 2024, 11:50
А для музыки что-то такое есть? Имеется в виду, что можно локально развернуть на своей машине, а не из сети.

Вообще - есть. Но с музыкой у нейросеток пока все плохо в принципе. Не получается у них чего-то боле-менее приличного. Вот голос в песне поменять, причем попутно исправляя косяки исполнения - это они могут, и очень даже неплохо. А сгенерить музыку полностью, и которую будет приятно слушать - с этим проблемы.

Sova · #9

slant писал(а): ↑
17 июн 2024, 23:37
А сгенерить музыку полностью, и которую будет приятно слушать - с этим проблемы.

Встречал крайне достойные вещи. Например, Гражданскую оборону нагенеренную нейросетью - там отличить можно было только по двум вещам: У Гражданки такого нет и слишком хорошее качество.

#10

Sova писал(а): ↑
18 июн 2024, 05:08
Например, Гражданскую оборону нагенеренную нейросетью

Оно не совсем нагенеренное, насколько можно судить.
Изначально напето в манере близкой к исполнителю и под свой аудиоряд, а после уже проходит постобработку с уйастием нейры чтоб вокал принял нужный вид

#11

Sova писал(а): ↑
18 июн 2024, 05:08
Встречал крайне достойные вещи. Например, Гражданскую оборону нагенеренную нейросетью

Это как раз AI ковер - замена голоса и/или части звукового ряда. Написать нечто "с нуля" (точнее - по текстовому запросу, вроде как нейросеть картинку генерит по тексту) - это совсем другая задача, и вот с ней у нейросеток проблемы.
С коверами же у нейросеток просто отлично - у меня кое что аж в коллекции уже.
Ну и для юмора очень подходит. Для примера: https://www.youtube.com/playlist?list=P ... JD2vP9AttO
;)

Lika · #12

slant, как-то в этой теме ИИ высвечивается однобоко, мол, всё прекрасно в нашем королевстве

. Конечно, удобство для некоторой части социума главное, но есть же такие, которых больше интересуют меры по ограждению от влияния этого самого ИИ. В силу знаний, не могли бы открыть параллельно тему

по защите от этого самого ИИ?

#13

Lika писал(а): ↑
27 июн 2024, 06:20
slant, как-то в этой теме ИИ высвечивается однобоко, мол, всё прекрасно в нашем королевстве

Да тут, как бы, вообще просто новости, но только про конкретные прикладные вещи. Т.е. то, что можно прямо сейчас на домашней машине юзать, причем даже не подбирая совсем уж топовое железо.

Lika писал(а): ↑
27 июн 2024, 06:20
Конечно, удобство для некоторой части социума главное, но есть же такие, которых больше интересуют меры по ограждению от влияния этого самого ИИ. В силу знаний, не могли бы открыть параллельно тему по защите от этого самого ИИ?

Настоящего ИИ - нету. Потому защищаться не от чего.

И еще долго не будет, по видимому.

То что есть - это не ИИ а нейросети. Ключевая разница - у них нет собственной воли, личности, да и вообще - автономности за пределами решаемой задачи.
Нейросеть не ставит себе задачу - и не может этого в принципе, т.к. см.выше. Она лишь решает ту, что ей дали. Это просто специфический инструмент для решения широкого спектра задач.
Потому защищаться тут имеет смысл только от людей. Которые этот инструмент разумеется могут использовать и для нехороших целей. И по большому счету здесь ничего принципиально нового тоже нету. Какая разница - будет вам звонить и представляться "службой безопасности банка" живой мошенник или синтезированный голос? Меры предосторожности те же самые.

Чтобы было несколько проще: есть такое понятие в инженерии - "черный ящик". Т.е. к примеру - коробочка, неизвестно с чем внутри, вскрыть нельзя, но про нее известно, скажем, такое: если по ней три раза стукнуть - загорится красная лампочка. А если дважды крутануть налево - зеленая. Почему - досконально неизвестно, но закономерность повторяется всегда.

Так вот - нейросеть - это классический такой "черный ящик", который просто воспринимает очень много параметров на входе и имеет такое огромное множество возможных реакций на выходе. Тренировка нейросети - настройка ее реакций "вход -> выход" в желаемую сторону.

И то развитие которое сейчас идет - оно не революционное, а лишь эволюционное - просто получается лучше и лучше этот черный ящик настраивать в процессе тренировки. И он начинает лучше распознавать образы, генерировать более правильный текст и изображения по запросу. Меньше шансов что автопилот примет знак "стоп" напечатанный на футболке пешехода - за знак на дороге, и т.д.

Прорывом было само создание эмуляции нейронной сети на программной основе. Но и все пока на этом. Тут не то что полноценную личность - тут мозг животного вроде грызуна или ящерицы полноценно не получается воссоздать. Те нейросети которые сейчас занимаются такими вещами как генерация картинок и текста, по своей внутренней структуре - в живой природе это уровень дождевого червя.

Выезжают исключительно на количестве узлов и быстродействии железа на котором их запускают. Т.е. если бы мог существовать этакий гигантский червь размером с тех что на Дюне спайс производили и харвестеры жрали - вот у него могло бы быть количество нейронов сравнимое с самыми небольшими нейросетками для подобных задач.

Более того. У текущих нейросетей, "обучение" и "работа" - это процессы взаимоисключающие. Если сетка "обучается" - она не может в этот момент выполнять задачу. А когда ее выполняет - не может обучаться. По аналогии с коллекторным электродвижком, который может быть и мотором и генератором (в зависимости от того - ток на него подают или вал крутят). Но только чем-то одним одновременно.

#14

Вышел FLUX

Что это такое? Это новая графическая нейросеть, которая по качеству генерации и способности разбирать запрос пожалуй что превосходит знаменитый Midjourney а запускается и работает с приличной скоростью даже на средней геймерской машине с RTX 3060 12 GB. В общем, тут такой случай что проще показать чем рассказать:

"Пингвин ест яблоко и смотрит в окно" (сам промпт этой сети дается все-же на английском, но с минимальными изменениями):

SD (даже SDXL или SD3) плачет в сторонке. В отличии от него, эта сеть в состоянии разбирать текст до мелких деталей и реагировать на них весьма адекватно. Генерация такой картинки на моей 3060 занимает ~90 секунд. Качество можно еще улучшить - более детальным описанием желаемого (а я "скормил" именно этот простой промпт для примера) и увеличением количества шагов генерации - здесь их всего 20.

#15

Не понятно какая картинка сгенерирована FLUX. Если вторая - то очень плохо, т.к. у пингвина нет рук

#16

Обе FLUX. Там чуть разные вариации с весами частей prompt-а. На одном немного выделено что это "фото", на другой - что "пингвин ест". На второй - руки.

Sova · #17

slant писал(а): ↑
07 авг 2024, 14:14

Вышел FLUX

Что это такое? Это новая графическая нейросеть, которая по качеству генерации и способности разбирать запрос пожалуй что превосходит знаменитый Midjourney а запускается и работает с приличной скоростью даже на средней геймерской машине с RTX 3060 12 GB. В общем, тут такой случай что проще показать чем рассказать:

"Пингвин ест яблоко и смотрит в окно" (сам промпт этой сети дается все-же на английском, но с минимальными изменениями):
SimpleWF__00085_.pngSimpleWF__00084_.png
SD (даже SDXL или SD3) плачет в сторонке. В отличии от него, эта сеть в состоянии разбирать текст до мелких деталей и реагировать на них весьма адекватно. Генерация такой картинки на моей 3060 занимает ~90 секунд. Качество можно еще улучшить - более детальным описанием желаемого (а я "скормил" именно этот простой промпт для примера) и увеличением количества шагов генерации - здесь их всего 20.

Через AI Plugin Krita нарисовал. Промпт "Penguin eats an apple and looks out the window"

Lexa · #18

Ветка как бы захлохла? Ничего в мире ИИ не происходит?

#19

Очень даже происходит, и много интересного, но почему-то энтузиазма я тут у народа не заметил - а чего тогда писать?

Lexa · #20

slant писал(а): ↑
12 июн 2025, 16:05
... энтузиазма я тут у народа не заметил - а чего тогда писать?

Прямо как в народно мудрости - пока гром не грянет мужик не перекрестится. Но времена меняются, и на сегодня, если грянет, крестится будет уже поздно. Вчера вот интересный файлик с вирусом от ИИ на почту прибежал со стеганографией.

Кто сейчас на конференции