Вы не авторизовались

Генеративный искусственный интеллект #Forge&flux. . Учебное пособие для школьников старших классов и студентов первых курсов вузов бесплатное чтение

Скачать книгу

Предисловие

Дорогие друзья!

У вас в руках интересная и очень полезная книга! С ее помощью вы сможете научиться делать удивительные изображения из мира реальности и фантазии. Но не только. Первые вводные главы помогут вам разобраться в мире технологий под общим названием «искусственный интеллект».

Еще совсем недавно, я очень не любил использовать это словосочетание «искусственный интеллект». По моему мнению те компьютерные технологии, которых в обществе, в прессе стали называть «искусственным интеллектом» не тянули на звание интеллекта. Не выдерживали они конкуренции с человеком, его знаниями, навыками, умственными способностями, что, по-моему, и составляет смысл слова «интеллект».

Примирило меня с этим термином чье-то меткое замечание, что «искусственный интеллект» – это просто торговое наименование комплекса программных алгоритмов, имитирующих деятельность человеческого мозга тем или иным способом для решения практических задач.

В начале этой книги дана очень подробное описание и классификация терминов, описывающих эти алгоритмы и системы, указана область их применимости, и даны практические рекомендации по их использованию.

Но самое главное в этой книге – конечно рассказ как самому делать удивительные изображения. Фактически это пошаговая инструкции, как начать эту работу, как получить первые результаты, как улучшать ранее созданные картинки. Другими словами, перед вами методическое руководство (методичка) по-модному сегодня направлению под названием промпт-инжиниринг (prompt engineering). Конечно, не во всех его проявлениях, а только для генерации изображений, но ценность то в том, что подходы в целом похожи и при генерации текстов, музыки или видео!

С учетом развития технологий, проникновения современных алгоритмов в различные области человеческой деятельности, очень важно уметь пользоваться этими системами. Именно это умение будет определять скорость и стоимость разработок, будь то статья, видеоклип или техническое устройство. Научившись и поняв логику составления запросов к моделям искусственного интеллекта, пусть и на примере генерации изображений, будущий пользователь сможет относительно быстро освоить и другие типы задач, что поможет ему повысить эффективность в своей практической деятельности.

Ну и в качестве вишенки на торте и ориентира, в конце, приведен альбом впечатляющих изображений, подготовленных автором. И за это ему отдельное спасибо!

Гордин Михаил Валерьевич, кандидат технических наук, член Совета при Президенте Российской Федерации по науке и образованию, ректор МГТУ им. Н. Э. Баумана.

Рецензии

«Цифровые технологии все шире и глубже входят в нашу жизнь. Они меняют наше восприятие. Позволяют по-новому понять и увидеть многое в окружающем мире, в различных областях науки и техники. Человек (ребенок) сначала воспринимает мир в образах и звуках. А уже потом начинает соотносить им различные слова и понятия. Став старше, он уже и абстрактные понятия, например вселенная, может представлять как зрительные образы. Выдающийся авиаконструктор А.Н. Туполев говорил, что «Хорошо летать могут только красивые самолеты». Но для этого нужно мысленно представлять то, что хочешь создать. А в медицине, например, не только смотреть и слушать, но нередко и представлять услышанное в образах. Таковы примеры из совершенно разных областей.

Способность моделировать изображения очень непростая и существенная задача. Технологии искусственного интеллекта, методы машинного обучения, способны сегодня на это по нашим запросам. Хотя получить желаемое или удовлетворительное изображение можно только в том случае, когда имеется осмысленное понимание запрашиваемого у искусственного интеллекта. Знакомство с этим, чему может помочь, поспособствовать учебник А.Ю. Чесалова, является важным фактором познания.»

– Кобринский Борис Аркадьевич, доктор медицинских наук, профессор, заслуженный деятель науки Российской Федерации, заведующий отделом систем интеллектуальной поддержки принятия решений ФИЦ «Информатика и управление» РАН, доктор наук, соруководитель магистерской программы «Интеллектуальные технологии в медицине» на факультете ВМК МГУ им. М.В. Ломоносова, профессор кафедры медицинской кибернетики и информатики РНИМУ им. Н.И. Пирогова, председатель Научного совета российской ассоциации искусственного интеллекта.

«Учебник для школьников и студентов младших курсов вузов известного специалиста в области разработки и внедрения цифровых технологий А.Ю. Чесалова посвящён актуальной теме применения систем генеративного искусственного интеллекта, который открывает широкие возможности для решения творческих задач в различных областях человеческой деятельности. В учебнике в доходчивой форме рассматриваются практические вопросы графического моделирования изображений с использованием популярной программы Stable Diffusion WebUI Forge. Данный учебник безусловно вызовет интерес у молодых исследователей возможностей генеративного искусственного интеллекта и будет способствовать развитию практических навыков использования интеллектуальных технологий.»

– Тельнов Юрий Филиппович, доктор экономических наук, профессор, заведующий кафедрой Прикладной информатики и информационной безопасности РЭУ им. Г.В. Плеханова, член Научного совета Российской ассоциации искусственного интеллекта.

«Технологии искусственного интеллекта сейчас находятся на пике интересов пользователей к ним. И кажется, что они могут все. Но правильно понять их возможности, оценить не предполагаемый, а реальный эффект позволит системно изложенный материал данной монографии.»

– Пролетарский Андрей Викторович, доктор технических наук, профессор, руководитель научно-учебного комплекса «Информатика и системы управления» МГТУ им. Н. Э. Баумана.

«Эффективная визуализирующая репрезентация аналитического продукта в доступной адресату-потребителю форме, комфортной для него в восприятии, усвоении и понимании, – является важным залогом понимания представляемых результатов аналитической работы. Этим определяется высокое значение новейших технологий генеративного искусственного интеллекта, способных создавать сложные иллюстративные образы по последовательностям текстовых запросов оператора. Настоящее издание осуществляет грамотное погружение читателя в мастерство оперирования такими ресурсами.»

– Понкин Игорь Владиславович, доктор юридических наук, профессор, профессор кафедры государственного и муниципального управления Института государственной службы и управления Президентской академии.

Введение

Прошел всего год с того момента, когда я закончил работу над книгой «Невероятный искусственный интеллект Easy Diffusion 3.0». В ней я высказал свое мнение о том, что: «Постичь мир удивительного искусственного интеллекта возможно только тогда, когда мы с вами сможем увидеть положительные результаты его работы, созданные при нашем непосредственном участии. Эти результаты должны быть понятны и объяснимы каждому человеку, а также они должны быть этичны, непредвзяты и не нарушать закон»1.

Сейчас мое мнение осталось прежним, лишь с небольшой поправкой на то, что мы должны с вами, помимо всего прочего, получать максимальное удовлетворение от раскрытия наших интеллектуальных и творческих потенциалов, реализованных в совместной работе с искусственным интеллектом. Согласитесь, когда мы занимаемся любимой работой – эта работа вдвойне эффективнее и полезнее для нас и окружающих нас людей.

Как вы уже знаете, на сегодняшний день генеративный искусственный интеллект может делать многое, например написать текст нового стихотворения или даже целого рассказа, воспроизвести его различными голосами знаменитых актеров, написать новую музыку или песню, проанализировать большое количество числовых данных и составить прогноз на будущее, играть с нами или сразу с тысячью людей в компьютерные игры. Вообще говоря, его возможности по большей части ограничиваются лишь нашей с вами фантазией и, к сожалению, затратами на их реализацию.

Пожалуй, одной из самых впечатляющих способностей генеративного искусственного интеллекта, на мой взгляд, является его умение создавать уникальные и невероятные изображения. Эти изображения могут быть воплощением трехмерного мира фантастического будущего в компьютерной игре или быть виртуальной симуляцией окружающего нас мира. Изображения могут быть трехмерными или двумерными, а также могут быть выполнены в различных стилях живописи знаменитых художников разных эпох. Но самое интересное то, что на этих изображениях могут появиться существа или предметы, не существующие в нашем мире, которые тем не менее можно материализовать, например, с помощью 3D-принтера.

На момент написания и публикации этой книги наиболее популярной моделью, которую поддерживает Stable Diffusion WebUI Forge и при помощи которой создаются уникальные изображения, является FLUX.1, но самой производительной моделью является FLUX1.1 [pro].

В 2024 году модель FLUX.1 стала прорывной технологией в генеративном искусственном интеллекте, оставив позади себя все остальные модели от лидеров рынка. Десятки интернет-сервисов стали рекомендовать ее как наиболее производительную и эффективную при создании изображений. И, как вы уже поняли, именно этой модели уделяется основное внимание в этой книге.

Модель FLUX.1 была создана в 2024 году бывшими инженерами из компании Stability AI, которые занимались разработкой и развитием знаменитой модели Stable Diffusion2. Робин Ромбах (Robin Rombach), Андреас Блаттманн (Andreas Blattmann), Доминик Лоренца (Dominik Lorenz) и Патрик Эссер (Patrick Esser) объединили свои усилия в работе над новым проектом FLUX.1 и создали новую компанию Black Forest Lab3.

Black Forest Lab предлагает нам три версии модели FLUX.14:

FLUX.1 [pro] – самая мощная версия реализация коммерческой модели, доступная к использованию через API у партнеров компании или в индивидуальном порядке.

FLUX.1 [dev] – немного облегченный вариант первой модели не для коммерческого использования. Варианты реализации модели можно найти на сайте huggingface.

FLUX.1 [schnell] – самая быстрая реализация модели с открытым исходным кодом, которая так и называется «быстрая / нем. schnell». Она предназначена для использования на локальных компьютерах. Исходный код модели можно найти на сайте GitHub. Варианты ее реализации можно найти на сайте huggingface.

По очень смелой оценке инженеров Black Forest Lab, данная модель более производительна, чем все разновидности модели Stable Diffusion, Midjourney и DALL-E5.

Рис.0 Генеративный искусственный интеллект #Forge&flux. Учебное пособие для школьников старших классов и студентов первых курсов вузов

Но не прошло и полгода, как Black Forest Lab анонсировал выход еще более мощной версии своей модели FLUX1.1 [pro], которая стала значительно эффективнее предыдущей версии.

Модель FLUX1.1 [pro] уже доступна на следующих сервисах: Together.ai, Replicate, fal.ai и Freepik.

Рис.1 Генеративный искусственный интеллект #Forge&flux. Учебное пособие для школьников старших классов и студентов первых курсов вузов

С помощью этой книги мы научимся с вами пользоваться системой генеративного искусственного интеллекта Stable Diffusion WebUI Forge и работать с невероятно мощной моделью FLUX.1 как инструментом творчества.

Вы сможете самостоятельно установить, настроить и удалить совершенно бесплатную программу Stable Diffusion WebUI Forge и ее компоненты на свой компьютер, а также подключить к ней различные дополнительные модули, которые значительно расширят ее возможности по созданию и обработке изображений.

Но, и самое главное, управляя различными функциями и параметрами через удобный пользовательский интерфейс Stable Diffusion WebUI Forge, вы научитесь создавать уникальные и совершенно неповторимые изображения, которые сможете использовать в своей учебе, работе или для развлечений.

Приятного вам чтения и продуктивной работы!

Ваш Александр Чесалов.

Несколько важных вопросов

Для кого написана эта книга?

Эта книга написана как учебное пособие для школьников старших классов и студентов первых курсов вузов, а также для всех тех, кто хочет получить дополнительные знания и опыт по работе с системами генеративного искусственного интеллекта.

Не имеет никакого значения, какой у вас опыт работы с компьютером. Не важно, насколько вы погружены в тему искусственного интеллекта, не важно, владеете ли вы навыками программирования, имеет значение только ваше желание познавать новое и создавать невероятное. Для обучения достаточно базового уровня английского языка и знаний компьютера.

Книга, которую вы держите в руках, является учебным пособием по работе с системой генеративного искусственного интеллекта Stable Diffusion WebUI Forge, при помощи которой вы научитесь создать красивые фотореалистичные изображения из текстовых описаний и других графических изображений.

Какая цель книги?

Книга ориентирована на то, чтобы максимально быстро погрузить читателя в предметную область и дать возможность также быстро приступить к практическим занятиям и получению конкретных знаний и результатов.

Основной подход изложения материала в книге – это знания через опыт!

Книга не посвящена описанию всех функциональных возможностей и настроек Stable Diffusion WebUI Forge, потому что это учебник по практической работе с системой генеративного искусственного интеллекта, а не справочник по функциям и настройкам программы.

В свете всего вышесказанного цель книги – передача вам практических и полезных знаний, которые помогут реализовать ваши самые смелые идеи и раскрыть в вас новые творческие потенциалы.

Почему в названии книги используется хештег #FORGE&FLUX?

Я придумал хештег «#FORGE&FLUX», который действительно стал частью названия этой книги. Это было сделано потому, что многие издатели требуют от авторов книг подтверждения использования наименования программы в заголовке книги от разработчиков-правообладателей таких программ. Другими словами, чтобы использовать «Stable Diffusion WebUI Forge» в названии книги, мне нужно разрешение от разработчика. Поэтому и был придуман такой хештег, который позволил обойтись без ненужных формальностей.

Для другой своей книги «Невероятный искусственный интеллект Easy Diffusion 3.0» я такое разрешение от разработчика получил, но это заняло немало времени.

Что означают английские слова в названиях глав книги?

В названиях глав приводятся оригинальные наименования разделов интерфейсов, моделей или сервисов, которые используются в программе Stable Diffusion WebUI Forge и с которыми мы будем с вами работать. Дополнительный перевод на русском языке не приводится по причине того, что названия глав в содержании книги стали бы очень длинными. Но в самой главе все переводы присутствуют.

Например, название главы «Урок 1. Txt2img: пишем правильный запрос» означает то, что мы приступаем к первому уроку, на котором будем изучать написание правильного запроса в интерфейсе Txt2img.

Кому принадлежат права на изображения, созданные при помощи искусственного интеллекта?

Чтобы ответить на этот вопрос, приведу конкретный пример.

На то, чтобы написать эту книгу, у меня ушло шесть месяцев. За это время был выполнен огромный объем работы: изучено много источников информации; самостоятельно приобретены новые знания и опыт; потрачены недели на работу по созданию уникальных изображений; дни, ночи, выходные ушли на написание и редактирование текста. И самое главное, все это нужно было грамотно «упаковать» в книгу простым и доступным языком.

Исходя из личного опыта, я считаю, что процесс создания изображений при помощи систем генеративного искусственного интеллекта является не только творческим, но и интеллектуальным, и эмоциональным процессом. Этот процесс требует от человека высокой степени погружения в предметную область исследований, высокой самоотдачи, концентрации и работоспособности. На сегодняшний день и в ближайшие десятилетия ни один искусственный интеллект не способен и не будет способен на такое.

Когда меня спрашивают: а кому принадлежат результаты интеллектуальной собственности на подобные цифровые произведения? Я всегда отвечаю однозначно – человеку. Система генеративного искусственного интеллекта – это лишь инструмент воплощения творческих, технических и иных способностей человека. Любые спекуляции на тему, что искусственный интеллект – это нечто живое, являются фантазиями одних людей и некомпетентностью других.

Где можно познакомиться с другими работами автора?

Результаты работ, созданные при помощи разных систем генеративного искусственного интеллекта (для меня принципиально важным моментом в этом процессе является использование бесплатных систем, которые можно установить на свой компьютер), я опубликовал в книгах:

«Невероятный искусственный интеллект Easy Diffusion 3.0». С помощью этой книги и системы генеративного искусственного интеллекта Easy Diffusion 3.0 вы научитесь создавать уникальные и неповторимые изображения, которые сможете использовать в своей учебе или для развлечений. Книга содержит познавательную информацию о существующих видах искусственного интеллекта и прекрасный альбом из более чем ста иллюстраций.

«Сказки старой Твери: фауна лесных духов». Этот альбом иллюстраций позволит вам и вашим детям осуществить головокружительное путешествие в яркий мир сказочных образов. В нем вы увидите более 300 потрясающих изображений невероятных животных сказочного леса, которых, к сожалению, невозможно встретить в нашем реальном мире.

«Сказки старой Твери: ночь лесных духов». Этот альбом иллюстраций не только история о творчестве и технологиях, но и глубокое погружение в яркий мир образов славянской мифологии, которое позволит читателю увидеть древних богов и духов в новом свете.

«Сказки старой Твери: черти». Этот альбом из более 300 невероятно красивых иллюстраций позволит вам погрузиться в сказочную атмосферу мифических существ. Возможности искусственного интеллекта и творческий потенциал человека позволили воплотить в этой книге в реальность собирательные образы чертей и представить их фантастические и фотореалистичные изображения.

Об авторе

Рис.2 Генеративный искусственный интеллект #Forge&flux. Учебное пособие для школьников старших классов и студентов первых курсов вузов

Александр Юрьевич Чесалов родился 10 февраля 1977 года в городе Тверь, Российская Федерация.

Экономист по образованию со специализацией «Информационные системы в экономике». Окончил с отличием Тверской Государственный Технический Университет. Защитил докторскую диссертацию на тему «Методология определения операционных характеристик и рациональной структуры региональных распределенных сервисных сетей передачи, обработки и хранения данных».

Имеет различные сертификаты в области ИТ: IBM Professional certificate foundations of AI; IBM Professional certificate Essential Technologies for Business; Rutgers the State University of New Jersey: New Technologies for Business Leaders; University of London; Deeplearning.ai; Microsoft Azure; BSI ISO/IEC 27001; IBM DB2; IBM Lotus Domino и другие.

Александр Юрьевич ведет активную экспертную деятельность. Он является членом Экспертного совета при Комитете Государственной Думы по науке и высшему образованию по вопросам развития информационных технологий в сфере образования и науки, а также членом Российской ассоциации искусственного интеллекта (РАИИ).

Автор более двадцати книг по информационным технологиям, включая: «Моя цифровая реальность»; «Цифровая трансформация»; «Цифровая экосистема Института омбудсмена: концепция, технологии, практика»; «Как создать центр искусственного интеллекта за 100 дней», «Глоссариум по искусственному интеллекту: 2500 терминов», «Невероятный искусственный интеллект Easy Diffusion 3.0», и многих других. Опубликовал научно-исследовательскую работу (монографию) на тему «Методология построения распределенных сетей передачи, обработки и хранения данных» в двух томах.

Что такое генеративный искусственный интеллект?

Знакомство с невероятным миром генеративного искусственного интеллекта мы должны начать с самого простого и важного – с определения, что же такое «искусственный интеллект».

Термин искусственный интеллект (англ. Artificial Intelligence, AI) появился уже очень давно. Впервые он был введен ученым и изобретателем Джоном Маккарти в 1956 году6, 7.

$Рис.3 Генеративный искусственный интеллект #Forge&flux. Учебное пособие для школьников старших классов и студентов первых курсов вузов$

Скачать книгу