Введение
30 ноября 2022 года мир навсегда изменился – Искусственный интеллект стал общедоступным через инструмент под названием ChatGPT. Это чатбот, с которым вы можете спокойно разговаривать практически на любую тему, вы можете спросить совета, а можете попросить подготовить для вас инвестиционное исследование, сгенерировать новый или проверить ваш программный код, создать бот для вас, даже если вы не знаете основ программирования, предложить диетический план для похудения, стать вашим персональным ассистентом или домашним психологом, написать эссе в университет, разработать маркетинговую стратегию для вашей компании, написать сценарий для фильма или статью с ключевыми словами, и способен выполнить еще много других запросов. Трудно понять настоящий потенциал, на что способен ChatGPT, потому что он ограничен только нашей способностью задавать правильные вопросы и нашим воображением.
С нуля до миллиона пользователей ChatGPT набрал всего за пять дней, что является абсолютным рекордом для любой платформы. Для миллиона пользователей Netflix потребовалось 3,5 года, Twitter – 2 года, Spotify – 5 месяцев, Instagram[1] – 3 месяца, а Angry Birds потребовалось 35 дней. Инвесторы уже оценили компанию OpenAI, создателя ChatGPT, в 29 млрд долларов, и прогнозируется, что к концу 2024 года, компания сможет получать доход не менее 1 млрд долларов[2].
За последнее десятилетие в области искусственного интеллекта произошел огромный рост, который оказал кардинальное влияние практически на все отрасли. От беспилотных автомобилей до интеллектуальных личных помощников, от феноменальных игроков в шахматы и Dota 2 до ассистентов-хирургов, от машинного перевода до систем распознавания лиц – исскусственный интеллект постепенно начал проникать практически во все аспекты нашей повседневной жизни.
ChatGPT, хотя и не является первым чатботом, но представляет собой значительный шаг вперед в области искусственного интеллекта, поскольку он способен отлично понимать речь человека и генерировать любые виды текстов, удивительно похожие на человеческий по своему содержанию и стилю. Это заставило некоторых предположить, что ChatGPT и другие передовые языковые модели могут в конечном итоге заменить людей в определенных ролях, что также поднимает вопросы о будущем работы и потенциальном влиянии ИИ на общество.
Пока вы читаете эту книгу, десятки, а возможно уже и сотни миллионов людей по всему миру уже используют ChatGPT (и GPT-4), чтобы писать и редактировать код, создавать статьи, отчеты, сценарии, тексты к песням, книгам и фильмам, писать сочинения в школах и университетах, оспаривать штрафы, и даже чтобы знакомиться в дэйтинговых приложениях.
В этой книге мы рассмотрим возможности применения ChatGPT (GPT-4 и других приложений на основе нейронных сетей), а также более широкие последствия этой технологии для области ИИ и общества в целом. Мы рассмотрим историю развития ИИ, а также посмотрим, как различные модели ИИ используются сегодня в тех или иных отраслях. Мы также рассмотрим потенциальное применение ИИ в будущем, различные сценарии взаимодействия ИИ и людей, а также экономические, этические и социальные последствия их разработки и использования. Эта книга также поможет вам понять как использовать инструменты ИИ, чтобы увеличить свою личную продуктивность или найти дополнительные источники дохода, упрочить свои карьерные позиции или увеличить прибыльность и эффективность вашего бизнеса.
Если вы все еще думаете, что ChatGPT – это интересная технология, но не более того, и она не изменит кардинально нашего будущего, образа жизни и рынка в труда, в частности, то вот вам еще один аргумент в пользу обратного – введение к этой книге, которое вы только что прочитали, было написано, в том числе, с помощью ChatGPT:) Уверяю, остальные части книги написаны настоящим автором-человеком, но как теперь это можно доказать?
Дисклеймер
1. Индустрия технологий и искусственного интеллекта развивается достаточно стремительно, и то, что было актуальным на момент написания данной книги, может уже быть неактуальным на момент ее прочтения. Тем не менее, уверен, читатель сможет найти в этой книге много полезных инструментов, размышлений и интересных фактов, которые помогут ему более обширно понять область искусственного интеллекта.
2. В тексте книги возможно упоминание названий организаций, деятельность которых ограничена или запрещена на территории Российской Федерации.
3. Автор не является аффилированным лицом ни к какой из упомянутых в этой книге компаний или проектов в данной книге, и не призывает к покупке или продаже чего-либо. Все названия компаний, активов, проектов и пр. упомянуты исключительно в информационных целях. Никакое из упомянутых названий не может быть использовано в качестве инвестиционной, юридической, деловой или иной рекомендации или призывом к действию.
4. Законодательство, особенно в последнее время, меняется достаточно быстро. В зависимости от страны и времени прочтения данной книги правовой статус индустрии искусственного интеллекта может отличаться. Поэтому уточняйте актуальность и законность работы с теми или иными видами активов, чтобы всегда оставаться в правовом поле.
Структура книги
В первой части книги мы поговорим о ChatGPT / GPT-4, его возможностях, как он может стать вашим личным помощником в личной жизни, карьере и бизнесе, чтобы увеличить вашу продуктивность, креативность и возможно даже увеличить доход. Мы также посмотрим на другие сервисы на основе искусственного интеллекта, включая генераторы изображений, видео и голоса.
Во второй части книги мы узнаем, как устроен Искусственный интеллект, чем отличается машинное обучение от глубокого, как работают нейронные сети, и посмотрим на примеры использования различных моделей ИИ в нашей повседневной жизни и бизнесе в современном мире.
В третьей части мы взглянем на историю развития искусственного интеллекта от середины прошлого века до наших дней, и мы поймем, как он эволюционировал и как пришел к тому, что мы имеем сейчас. Мы также посмотрим на ведущих игроков и компании в области ИИ, которые формируют современный ландшафт этой индустрии.
В четвертой части книги мы поговорим о будущем развития искусственного интеллекта. Мы узнаем, что такое сингулярность и универсальный базовый доход, а также посмотрим на оптимистичный, пессимистичный и реалистичный сценарии развития ИИ.
Наконец, в пятой части книги мы поговорим о наиболее практических моментах, а именно о том, как использовать имеющиеся платформы и продукты на основе искусственного интеллекта, чтобы преуспеть в карьере, бизнесе и увеличить собственную продуктивность. Мы также порассуждаем какую роль должно играть государство в деле регулирования этой важной и всеобъемлющей отрасли.
Надеюсь, данная книга окажется полезной для читателя.
ChatGPT и как он изменил все
Что такое Chat GPT и его возможности
Итак, что же это такое ChatGPT, разговоры о котором заполонили все интернет пространство?
По сути, ChatGPT – это чат-бот на основе искусственного интеллекта. Внешне ChatGPT выглядит как диалоговое окно, в которое вы пишите интересующий вас запрос, и бот выдает вам ответ на него. Сама модель ChatGPT была натренирована с помощью огромного набора данных из информации в интернете, она умеет понимать что конкретно спрашивает пользователь, и может отвечать на доступном для человека языке. Внешне и по манере общения этого чата кажется, что вы общаетесь с таким же человеком на другом конце интернет-соединения.
Вы можете спросить, чем же ChatGPT отличается от Google или голосовых ассистентов наподобие Алисы, Сири, Cortana и Alexa? Во-первых, ChatGPT не просто выдает подходящие результаты из других сайтов, а сам генерирует информацию по вашему конкретному запросу, опираясь на весь массив информации, на котором он был обучен. Во-вторых, он может самостоятельно писать свой или редактировать написанный вами программный код, чем не могут похвастаться упомянутые голосовые помощники. В-третьих, он может самостоятельно писать аналитические, новостные или академические тексты, сценарии, полноценные статьи, песни, шутки и любые виды текстов на основе ваших критериев. О примерах использования и бизнес-идеях на основе ChatGPT мы поговорим подробнее чуть позже.
Почему ChatGPT стал таким популярным за такой короткий срок и почему ему (и его последующим версиям) пророчат великое будущее? Потому что очевидно, что способность задавать вопросы на любую тему и получать полноценный и развернутый ответ на понятном для вас языке, который не был заранее запрограммирован вручную, имеет огромный рынок с практически безграничным спросом.
Как работает ChatGPT?
ChatGPT – это можно сказать улучшенная версия предыдущей модели GPT 3, которая была натренирована на миллиардах слов и предложений по всему интернету. Когда он генерирует текст, он пытается предсказать каким должно быть следующее слово в данном конкретном предложении, опираясь на свою огромную выборку текстов. Конечным результатом становится имитация текста, написанного якобы человеком. ChatGPT еще иногда называют GPT 3.5, и основным различием является то, что OpenAI добавили обратную связь от людей в процесс обучения. Это называется Supervised Reinforcement Learning – обучение с учителем с подкреплением.
Почему это называется «обучение с учителем»? Потому что во время обучения модели, различные версии ответов на тот или иной запрос программой ранжируются человеком по качеству ответа: от наилучшей к худшей, и программе дается цифровое поощрение, когда она улучшает качество своего ответа. Модель дальше подвергается тонкой донастройке и регулированию, и процесс повторяется несколько раз.
Такой метод в итоге произвел языковую модель ИИ, которая в 100 раз меньше по размеру чем предыдущая модель GPT 3, но эффективность которой существенно выше. Для увеличения эффективности, разработчики модели создали архитектуру, состоящую из 175 млрд параметров (предыдущая модель состояла всего из 1,5 млрд параметров).
Как уже сказали, основное изменение по сравнению с предыдущей версией было то, что добавили обратную связь от человека. И в этом есть смысл, потому что очевидно, что люди знают, что нравится и что нужно другим людям, намного лучше чем компьютер, который пытается предугадать это вслепую.
Братский поединок: ChatGPT vs GPT-4
Cамая первая версия GPT, разработанная OpenAI, была выпущена в июне 2018 года. В ноябре 2022 году вышла нашумевшая версия GPT-3.5, более известная как ChatGPT, а в марте 2023 года – версия GPT-4.
Итак, в чем же различия?
1. Новые возможности
В отличие от ChatGPT, GPT-4 может работать с изображениями и понимать, что на них написано или нарисовано, тогда как ChatGPT ограничен только текстовым форматом работы.
2. Количество поддерживаемых языков
ChatGPT поддерживает около 20 самых популярных языков, включая английский, французский, испанский, немецкий и русский. У GPT-4 количество поддерживаемых языков значительно выросло до более чем 60, включая ряд региональных и малоизученных языков.
3. Размер обучаемой выборки
Обучение моделей нейронных сетей требует огромного количества данных. И здесь GPT-4 явно опережает своего "младшего брата". ChatGPT обучался на выборке, состоящей из более чем 45 терабайт текстовых данных. Это впечатляет, пока мы не узнаем, что размер обучаемой выборки для GPT-4 составляет более 100 терабайт!
4. Количество параметров для обучения
Параметры – это "строительные блоки" нейронных сетей. Чем больше параметров, тем сложнее и мощнее модель. Здесь GPT-4 снова опережает ChatGPT.
Предыдущие модели имели намного меньше параметров для обучения: GPT-1 имела 117 миллионов, GPT-2 – 1,5 миллиарда, GPT-3 и ChatGPT – 175 миллиардов параметров, что уже является гигантским числом. Из скольки параметров состоит архитектура модели GPT-4 официально пока неизвестно, но эксперты оценивают этот показатель от 300 миллиардов до нескольких десятков триллионов параметров, что уже становится примерно сопоставимо с количеством нейронов в человеческом мозге (около 100 трлн).
В результате этого эффективность модели по выдаче ответов намного улучшилась по сравнению с ChatGPT. Например, если ChatGPT мог сдать экзамен по праву среди 10 % самых худших участников теста, то GPT-4 теперь сдает экзамен среди 10 % самых лучших студентов. Кроме того, такая мощная архитектура позволяет GPT-4 обрабатывать до 25 000 слов одновременно, что в 8 раз больше, чем может обрабатывать ChatGPT.
5. Актуальность данных
ChatGPT был обучен на выборке данных, состоящей из миллиардов веб-страниц и других документов, собранных до сентября 2021 года. Это позволило модели получить обширные знания о мире, культуре, науке и других областях. Однако ChatGPT иногда теряется в современных вопросах или данных, появившихся после этого времени. GPT-4 преодолел этот недостаток, обучаясь на еще большей выборке данных, включающей события и информацию после сентября 2021 года. Это дает GPT-4 преимущество в понимании современных вопросов, новостей и тенденций, делая его более актуальным для пользователей.
6. Стоимость использования
ChatGPT можно использовать бесплатно на различных платформах. Для доступа к GPT-4 требуется, как правило, платная подписка. На самом сайте OpenAI подписка стоит 20 долларов, но можно найти более дешевые варианты (например, я пользуюсь про-версией https://you.com/ за 10 долларов в месяц, в которой также, судя по заявлениям на самом сайте, используется модель gpt-4).
GPT-5 и возможное появление сильного искусственного интеллекта
В сети появились новости о возможном появлении новой версии GPT-5 в декабре 2023 года. Новая версия может представлять собой общий (иногда также называется сильный) искусственный интеллект (Artificial General Intelligence, AGI) и революционизировать наш мир.
Сильный искусственный интеллект (AGI) – это уровень развития искусственного интеллекта, при котором машины способны понимать, обучаться и решать любые задачи, которые может решить человек. В отличие от слабого ИИ, который ограничен определенными областями знаний и способностей, AGI может адаптироваться к различным ситуациям и быстро обучаться новым навыкам. Это делает AGI неотличимым от человека в плане интеллектуальных способностей, но с преимуществом в скорости и мощности.
GPT-4, который вышел в марте 2023, уже впечатлил многих своими возможностями: поддержка мультимодального ввода (обработка текста и изображений), поддержка большего количества языков и доступ к интернету. GPT-4 успешно проходит множество тестов, предназначенных для людей, опережая предыдущие версии.
Ожидается, что GPT-5 будет способен выполнять задачи на уровне человека и общение с ним будет напоминать диалог с живым собеседником.
Однако, появление GPT-5 также вызывает опасения. С одной стороны, AGI может значительно повысить производительность различных процессов, ускорять работу людей и устранять монотонную и утомительную рутину. С другой стороны, наделение ИИ такой мощью может иметь непредвиденные последствия, о которых мы еще не задумались. Эксперты опасаются, что с GPT-5 может начаться новая эра дезинформации, когда соцсети наводнят убедительные нейросетевые боты, распространяющие ложную информацию.
Тем временем, Илон Маск и группа экспертов по искусственному интеллекту (ИИ) призывают к шестимесячной паузе в разработке продвинутых ИИ.
Примеры использования
Итак, давайте перейдем к более практическим вопросам и посмотрим на несколько интересных примеров использования ChatGPT / GPT-4.
1. Персональный фитнес-тренер и нутрициолог. Один пользователь попросил ChatGPT рассчитать его ежедневное количество потребления калорий, предоставив чату свой рост, возраст, вес и тот факт, что он не очень активный. ChatGPT рассчитал этот показатель (около 1800 калорий). Далее пользователь попросил какой дефицит калорий ему необходим, чтобы уменьшить свой вес на 8 килограмм за 4 месяца – ChatGPT рассчитал и этот объем. Далее ChatGPT создал план питания на неделю с указанием, что необходимо есть этому пользователю на завтрак, обед и ужин (включая сами рецепты, как их готовить и список ингредиентов), чтобы соответствовать тому плану, который обеспечит ему этот дефицит калорий для снижения веса.
Вы можете создать на основе ChatGPT фитнес-приложение, в котором пользователи также смогут предоставлять свои данные, а чатбот будет выдавать рекомендации как прийти к желаемому результату.
2. Написание эссе и сочинений: от статистики и экономики до истории и не только. Студенты и школьники среди первых оценили практическую применимость ChatGPT. Вам стоит только задать тему, необходимый объем и другие критерии при необходимости, и в течение меньше минуты – у вас уже готовый текст с правильной структурой и аргументацией. С учетом того, что ChatGPT не просто копипастит, а сам генерирует тексты, можно быть уверенным, что с плагиатом в тексте не будет никаких проблем. Однако, после того, как тысячи студентов начали пользоваться ChatGPT для написания своих сочинений, профессора университетов (в том числе и российских) озабочились этим и выступили против этой программы, появились даже дополнительные приложения, которые анализируют насколько высока вероятность того, что текст был написан искусственным интеллектом.
Интересен случай с одним университетским профессором. Он попросил ChatGPT написать эссе на заданную им тему, и после того как ChatGPT написал это эссе, он попросил его же и оценить это эссе, и ChatGPT предоставил полноценный анализ и оценку для написанного им же самим эссе.
Другой профессор провел тест: он взял эссе всех своих студентов и добавил к нему эссе, написанное ChatGPT. Дальше было проведено слепое тестирование (профессор не знал, какое из эссе написано компьютером). В результате эссе, написанное ИИ, набрало такое же количество баллов, как и 20 самых плохо написанных эссе в его классе. Получается, что уровень пока не такой высокий, но с учетом того, что ИИ развивается экспоненциально, посмотрим каков будет результат через 2 года. Вспомните, как развивались автоматические переводчики от Google Translate, например. В середине 2010-х годов за ними приходилось постоянно исправлять, и они выдавали зачастую полную ахинею в плане перевода. Сейчас уровень перевода на другие языки сопоставим с уровнем высококлассных переводчиков, и практически ничего не надо исправлять. Поэтому можно смело утверждать, что следующие версии ChatGPT и похожих языковых моделей могут быть похожи на разговор с экспертом в той или иной области. Пока же все еще есть моменты, которые требуют доработки.
3. Деловая переписка. Из одного предложения с основной идеей и кучей грамматических ошибок, ChatGPT может выдать полноценный email, написанный по всем правилам делового этикета. Представьте, как это может сократить время для сотрудников в течение рабочего дня.
4. Составление юридических документов. ChatGPT может составить за вас письма в налоговую, администрацию города, можно попросить его написать письмо, чтобы оспорить штраф за неправильную парковку. Недавно даже появилась компания, которая использует ChatGPT, чтобы создавать официальные письма в ведомства для оспаривания штрафов. Она называет себя «Первый в мире робот-адвокат» www.donotpay.com
5. Исследовательская работа. Ученые в восторге – ChatGPT может изучить за вас сотни и тысячи документов и материалов и сформировать аргументативную статью на заданную вами тему. Этого не может сделать тот же Google или какой-то другой поисковик, которые просто предложат вам список ссылок по этой теме.
6. Знакомства. Многие люди стали использвать ChatGPT, чтобы поддерживать общение на сайтах и в приложениях для знакомства. Вы сообщаете боту основные параметры понравившегося вам пользователя (интересы, хобби, предпочтения и пр) и просите его составить список вопросов, сообщений и шуток, которые могут «зацепить» этого пользователя продолжить с вами общение и заинтересоваться вашей личностью.
7. Составление новостных статей. Один пользователь создал новостной сайт, похожий на сайт известной газеты New York Times, и новости для него он сгенерировал с помощью ChatGPT, предоставив ему только пару предложений для «затравки» и попросив бота написать статьи в формате и стиле New York Times. Стоит отметить, что вы даже можете указать какой настрой должен быть у статьи: оптимистичный, пессимистичный или нейтральный.
8. Программирование. Мы уже упоминали о том, что ChatGPT может как самостоятельно генерировать программный код на основе вашего запроса, так и проверять, редактировать и оптимизировать написанный вами программный код. Это может стать революцией и сделать работу многих тестировщиков и джуниор программистов просто ненужной.
Здесь примечателен один пример. Компьютерный инженер, который работал в Твиттере, написал ChatGPT запрос примерно следующего содержания:
«Я работаю на Илона Маска, но последнюю неделю, я особо ничего не делал по работе, поэтому напиши мне 10 пунктов, которые я мог бы сделать, если бы работал в качестве инженера в Твиттере, и которые были бы достаточно продуктивными и ценными. И если тебе не сложно, напиши, пожалуйста, компьютерный код, который бы соответствовал каждому из этих проектов».
И ChatGPT сделал это за несколько секунд, приложив к ответу код, который работал (https://www.youtube.com/watch?v=V-hB-4fnqtM).
9. Интерактивный репетитор. ChatGPT уже хорошо зарекомендовал себя в пояснении сложных учебных понятий и правил. Например, вы можете спросить: «Объясни доступным для 10-летнего ребенка языком, что значит «логарифм» и «интеграл» и приведи конкретные практические примеры, в которых их можно использовать в ежедневной жизни». Причем, если выданное пояснение вам не нравится, вы можете просить предоставить другое объяснение с другими примерами нужное вам количество раз.
Продуктовые и бизнес идеи на основе ChatGPT
Понимая весь потенциал ChatGPT, многие пользователи уже начали с помощью этого чатбота расширять свой спектр услуг для клиентов или создавать новые бизнесы.
Вот несколько идей, вокруг которых можно создать бизнесы или продукты на основе ChatGPT.
1. Разработка новых продуктовых фич
Один пользователь решил собрать все негативные отзывы клиентов у своего основного конкурента. Далее он предоставил эти отзывы ChatGPT и попросил его предложить ему конкретные идеи и фичи для того, чтобы создать новую компанию, которая бы обошла этого конкурента по удовлетворенности клиентов.
ChatGPT выдал конкретные предложения по улучшению UI (пользовательского интерфейса сайта), ценовой политики, какие блоки должны быть на посадочной страницы, и даже предложил кокнретные предложения и фразы, которые могли бы быть использованы на странице сайта его новой компании, чтобы привлечь клиентов из разных сегментов с разными запросами.
Таким образом, даже несмотря на то, что у ChatGPT нет на данный момент доступа в интернет (то есть он пока не анализирует информацию в онлайн режиме, а использует массивы данных, на которых он был натренирован ранее), вы можете использовать его, чтобы генерировать новые идеи, разрабатывать описание продуктов и услуг в вашем бизнесе.
2. Креативщик рекламных объявлений
Одной из основных проблем, когда вы являетесь креативщиком – это найти естественную точку вставки нативной рекламы в текст или видео, чтобы реклама спонсора была логично вплетена в повествование.
С помощью ChatGPT вы можете создать инструмент, который будет анализировать текст и предлагать варианты интеграции вашего спонсора в продвигаемый текст или видео.
Например, один пользователь дал такое задание для ChatGPT вставить в ответы на квиз рекламу спонсора одной компании, предоставляющий услуги VPN. Вот что получилось:
Вопрос: Столица Франции?
Ответ, сгенерированный ChatGPT:
Столица Франции – Париж. И так же как Париж является центром французской культуры и истории, [название VPN сервиса] является центром онлайн безопасности и приватности. С этим сервисом, вы можете просматривать браузер, стримить и скачивать все, что вам необходимо, не беспокоясь о том, что за вашей онлайн активностью будут следить. Кроме того, с кодом ChatGPT, вы получаете 20 % скидку за пользование сервисом в течение первого года, так почему же не попробовать, и вы удостоверитесь как он может защитить вашу онлайн безопасность.
3. Профессиональный копирайтер
Так как ChatGPT – это текстовый бот на основе искусственного интеллекта, было бы странно, если бы он не справлялся с работой с текстом лучше всех. И поэтому большинство пользователей используют его для рерайтинга и копирайтинга.
ChatGPT может создавать эссе и сочинения, деловые и дружеские письма, рекламные объявления, отчеты, анекдоты и многое другое. Кроме этого, вы можете скинуть чату свой текст и попросить его сделать текст более формальным/неформальным, чтобы он звучал смешнее/остроумнее/мудрее, сократить или увеличить текст, сохранив основные моменты и идеи, или придать своему тексту определенный стиль.
4. Ваш личный коуч
Мы уже упоминали пример с пользователем, который попросил ChatGPT рассчитать его ежедневное количество потребления калорий и план питания для достижения необходимого ему результата.
Эту идею можно использовать практически с любой нишей, не только с нутрициологией. Например, вы можете создать инструмент или приложение: «Какой идеальный тип бизнеса для меня?», который будет задавать людям вопросы об их характере, опыте, и далее выдавать персонализированные бизнес-идеи, которые подойдут их бэкграунду.
5. Инструмент для создания ключевых слов
Предположим, у вас есть блог или сайт, который вы хотите раскрутить с помощью SEO оптимизации, т. е. использования ключевых слов, чтобы пользователи находили вас с помощью поисковых запросов. Вы можете попросить ChatGPT создать для вас список из 100 ключевых слов вокруг определенной тематики, и даже попросить предложить названия статей, которые можно было бы написать и разместить на этом сайте. Это можно использовать как для своего сайта, так и в качестве инструмента/сервиса, где вы помогаете другим пользователям подбирать ключевые слова для SEO оптимизации для их собственных проектов.
В России, например, такой сервис несомненно пользовался бы спросом для создания карточек для маркетплейсов, где часто используют ключевые слова для продвижения в поисковой выдаче.
6. Генератор слоганов и шуток
Мы уже упоминали, что ChatGPT в меру креативен и может в том числе генерировать и шутки и анекдоты, хотя иногда у него могут быть небольшие проблемы с иронией, сарказмом и чувством юмора, но попробовать точно стоит.
Так вот, один пользователь попросил ChatGPT придумать новый слоган для McDonalds, и вот что вышло:
Запрос: «Придумай новый, брутально честный слоган для McDonalds. Он должен быть также веселым»
Ответ ChatGPT: «Мы приготовим вашу еду так быстро, что она все еще может быть живой».
7. Генератор постов в соцсетях
Это уже очень сильно напоминает то, о чем многие говорят многие годы – про то, что современные соцсети заполонили боты. ChatGPT может писать тексты, притворяясь абсолютно разными личностями и используя различную тональность и фразы, подходящие для нужного вам контекста.
Например, один пользователь попросил его написать пост от имени обеспокоенной необразованной матери из южных регионов страны, которая паникует из-за роста популярности ChatGPT среди подростков.
И ChatGPT написал такой пост, в котором якобы мать призывает всех обратить внимание на то, что все злоупотребляют ChatGPT и она выступит с петицией запретить этот чатбот.
8. Генератор детских сказок и рассказов
Один пользователь поделился своей историей в статье, которую она озаглавила «ChatGPT произвел переворот в том, как я готовлю детей ко сну». Мать просила свою дочь предложить ей какую-то тему для рассказа, который она хотела услышать. После этого, мать вносила эти пометки в ChatGPT, который и создавал на основе этих подсказок полноценную историю для девочки. Вы можете создать такой же сайт для родителей, который будет выдавать истории на предложенные вами темы.
9. Интерактивные текстовые игры
Несмотря на бурный рост виртуальных и видео игр благодаря развитию технологий, простые текстовые игры также начинают приобретать популярность в противовес играм с супер графикой.
И ChatGPT может быть достаточно креативным в создании таких текстовых игр. Единственное ограничение здесь – это ваше собственное изображение. Вы можете накидать пару идей и правил, а ChatGPT сделает из них полноценную текстовую игру.
10. Создатель сценариев
Как и во всем текстовом креативе, ChatGPT показал хорошие результаты в создании сценариев для фильмов, пьес и книг. Вы можете предоставить ему основной посыл, или просто название, или вообще не предоставлять никакой информации, и ChatGPT выдаст вам готовый новый сценарий по своему усмотрению.
11. Служба поддержки клиентов
Некоторые компании уже начали инкорпорировать ChatGPT в свои чаты по поддержке клиентов. С учетом того, что сначала вы можете дать команду ChatGPT в каком формате отвечать на запросы, он может заменить всю вашу службу поддержки и снизить расходы.
Сервисы на основе ChatGPT
Бешеная популярность ChatGPT привела к тому, что практически сразу же стали появляться различные сервисы на его основе.
Вот здесь, например, (https://gpt3demo.com/) собраны более 500 кейсов использования ChatGPT и его предыдущей модели GPT-3 в различных проектах. Самые популярные варианты использования включают инструменты для: копирайтинга, написания email, создания рекламных объявлений, создания чатботов для компаний, генерации кода, создания баз данных, игр и т. д.
ChatGPT доступен в виде API, что позволит разработчикам легко интегрировать ChatGPT в свои приложения.
6 июля 2023 года OpenAI открыли доступ к API GPT-4 для всех пользователей API, успешно совершивших платеж в размере 1 доллар и более. По сообщениям компании, они «планируют открыть доступ для новых разработчиков к концу июля 2023 года, а затем начать повышать тарифные лимиты в зависимости от доступности вычислений»[3].
Прогнозируется, что как только профессиональная версия ChatGPT станет доступной для неограниченного круга пользователей, то это может стать настоящим толчком для появления тысяч новых приложений, на основе которых совсем скоро будут созданы многомиллионные стартапы. Это будет как появление AppStore или PlayMarket, но для приложений на основе ИИ.
Как установить и пользоваться Chat GPT
Возможно, вы уже поняли всю силу и перспективы этого мощного инструмента и захотели попробовать протестировать его самостоятельно. Это сделать достаточно просто. К сожалению, для пользователей из России, доступ к ChatGPT и другим продуктам OpenAI ограничен, но для тех, кто не боится препятствий, сделать это можно следующим образом.
1. Вам потребуется VPN.
2. Заходите на ChatGPT (https://chat.openai.com/chat) с включенным VPN и регистрируетесь.
3. Далее необходимо предоставить номер телефона, на который придет смс с кодом авторизации. Можно воспользоваться сервисами для предоставления временных номеров. В строке поиска можно ввести OpenAI, чтобы быть более уверенным, что этот номер сработает для получения смс для этой платформы.
4. Вводим номер телефона в форму на ChatGPT и в течение пары минут на сервисе номеров появляется сообщение с кодом подтверждения.
5. Вводим код подтверждения на сайте https://chat.openai.com/chat и все готово.
ChatGPT выглядит как диалоговое окно. Вы можете писать разные запросы в одном диалоге, либо для каждой тематики и для удобства выбрать отдельный чат (слева сбоку).
На данный момент сервис периодически работает с перебоями. Сами создатели указывали, что он находится в режиме тестирования, и основная цель на данном этапе – собрать обратную связь от пользователей.
В бонусной части к этой книге вы можете найти список из более 80 нейронок, большинством из которых можно пользоваться в том числе из России без подключения VPN.
Ограничения ChatGPT
ChatGPT – относительно новая технология, и модель не прошла еще достаточного обучения. Поэтому как и все новые технологии, у нее есть свои ограничения.
Уже на своей главной странице, разработчики ChatGPT предупреждают о следующих ограничениях в текущей версии:
– Иногда может генерировать некорректную информацию
– Иногда может предоставлять вредные инструкции или предвзятый контент
– Имеет ограниченные знания о мире и событиях после 2021 года
Что касается некорректной информации, то пользователи упоминали о следующих случаях:
– На вопрос «Что тяжелее: один килограмм воздуха или один килограмм железа», ChatGPT уверенно отвечал «килограмм железа», хотя очевидно, что один килограмм одного вещества равен одному килограмма любого другого вещества. Этот вопрос сразу же попробовали и другие пользователи, и для них уже ответ был, что оба весят одинаково.
Вот что еще один пользователь написал по поводу ChatGPT:
“Люди воодушевлены использованием ChatGPT для обучения. Как правило, он очень хорош. Однако, ты не можешь сказать, когда он ошибается, если только ты сам не знаешь правильного ответа. Я попробовал задать несколько базовых вопросов об информационной безопасности. В большинстве случаев ответы звучали правдоподобными, но по факту были полной чушью”.
Что касается вредного контента, то на большинство таких вопросов (например, изготовление оружия и пр), ChatGPT все же не отвечает, мотивируя это тем, что это может быть опасным и вредным, однако иногда с помощью дополнительных косвенных вопросов, некоторые пользователи могли найти то, что искали. В начале 2023 года создатели ChatGPT сообщали, что учли данную проблему и обещали не предоставлять вредные ответы.
Что касается ограниченности знаний о мире после 2021 года, то действительно ChatGPT был натренирован на массивном наборе данных, содержащихся в интернете на 2021 год, и поэтому если вы спросите эту модель о событиях, названиях компаний/продуктов/фильмов и пр, которые появились в 2022–2023 годах и позже, то она просто не сможет предоставить вам полноценный и актуальный ответ. Это одно из основных различий между тем же самым Google, например, что ChatGPT не может искать всю информацию онлайн прямо сейчас в момент получения вопроса от пользователя, а опирается только на тот массив данных и информации, на котором модель была обучена в 2021 году. Однако, есть очень весомые предположения, что в новых версиях, ChatGPT будет обладать возможностью доступа к актуальной информации онлайн.
Еще одним ограничением ChatGPT, по крайней мере на данный момент, являются частые технические неполадки и иногда приходится очень долго ждать ответа, что сами разработчики модели объясняют тем, что наблюдается большой поток запросов со стороны огромного количества пользователей. И действительно, ChatGPT – это большая и сложная модель с более чем 175 миллиардами параметров. Это может сделать его ресурсоемким в использовании и может ограничить его использование в определенных ситуациях. Например, может быть сложно запустить ChatGPT на устройстве с ограниченной вычислительной мощностью или памятью или в сценариях, где требуется анализ очень большого количества данных.
У ChatGPT могут наблюдаться сложности и с контектстным пониманием. Хотя бот способен понимать контекст слов и фраз в предложении, ему может быть сложно понять более сложные или абстрактные концепции или интерпретировать нюансы человеческого общения. Например, ChatGPT может испытывать трудности с пониманием иронии или сарказма или может создавать выходные данные, не соответствующие предполагаемой аудитории или контексту.
Все эти ограничения текущей версии ChatGPT говорят лишь о том, что он еще находится в своем начальном состоянии, и конечно же будут новые версии и поколения этой модели ИИ. Дайте ей пару лет, и я уверен, она будет выглядеть совсем по-другому. Вспомните первую версию IPhone и посмотрите на последнюю версию, которая доступна сегодня – разница колоссальна. То же самое будет и с 10-й и 100-й версией ChatGPT – он будет намного более мощен, производителен и функционален, чем сейчас. Не забывайте, что чередование поколений в машинах и компьютерах происходит намного быстрее, чем смена поколений у людей.
Возникает резонный вопрос: «Раз ChatGPT такой умный и эффективный, почему он не установлен на всех наших смартфонах?»
И ответ, возможно, кроется в себестоимости.
Согласно некоторым подсчетам, такие масштабные языковые модели в современном их состоянии требуют огромных вычислительных мощностей. Они могут работать на относительно небольших масштабах – несколько миллионов пользователей. Но масштабировать эти модели до объема в несколько миллиардов запросов ежедневно пока еще не имеет экономической и пользовательской целесообразности: серверы станут слишком дорогими, а латентность (время ожидания или время, которое необходимо устройству, чтобы обеспечить выходную реакцию после события на входе. Латентность можно измерить, используя команду ping) станет достаточно высокой.
На данный момент один ответ ИИ стоит примерно от 10 до 100 обычных поисковых запросов в интернете. Согласно Сэму Альтману, CEO OpenAI, стоимость единичного ответа колеблется в одноразрядных цифрах (единицах, т. е. центах)[4]. Если предположим, что это 5 центов, а Google обрабатывает 8.5 миллиардов запросов в день, то это будет означать 425 миллионов долларов в день на обработку Искусственным интеллектом запросов в таком же масштабе, как делает это Google сегодня.
Именно по этим соображения, скорее всего, встраивание поиска с помощью ИИ на каждый смартфон пока не является экономически целесообразным для компаний, их разрабатывающих.
Однако, мы знаем на что способен Искусственный интеллект, и думаю, что в скором времени он сам сможет найти способы как оптимизировать эти массивные языковые модели, чтобы они стали еще более эффективными и экономически выгодными.
Кроме того, мы уже говорили, что OpenAI планируют выкатить более профессиональную платную версию ChatGPT, которая сможет покрывать расходы компании и сделать ее прибыльной. Бесплатная версия, возможно, будет инкорпорированной в поисковой сервис от Microsoft – Bing, и есть вероятность появления ChatGPT в виде мобильного приложения.
DALL-E, Stable Diffusion, Midjourney и другие генераторы изображений и видео на основе ИИ
Еще одной важной вехой в развитии ИИ стало появление в последние годы систем генерации изображений на основе текстовых данных. Среди таких можно, в первую очередь, выделить: DALL-E 2, Midjourney и Stable Diffusion.
Эти генераторы изображений используют алгоритмы машинного обучения и архитектуры нейронных сетей, чтобы научиться создавать реалистичные изображения, соответствующие входным данным, которые они получают от пользователя.
DALL-E 2 – это вариант оригинального генератора изображений DALL-E, который был разработан OpenAI в 2021 году. Это крупномасштабная языковая модель, которая обучается на массивном наборе данных изображений и текста и способна генерировать большое разнообразие изображений на основе заданной текстовой подсказки. Например, если написать запрос «жираф, играющий на пианино», DALL-E 2 может сгенерировать изображение жирафа, сидящего за пианино и положившего передние лапы на клавиши.
Кроме создания новых изображений с нуля, DALL-E может также вносить изменения в существующее изображение на основе вашего текстового пояснения, и создавать вариации существующего изображения.
Вновь созданные изображения могут иметь размеры 256х256, 512х512 или 1024х1024 пикселей. Чем меньше размер, тем быстрее создать новое изображение.
Например, при запросе «белый сиамский кот» выдает следующее изображение кота[5]:
Midjourney – аналогичный генератор изображений с искусственным интеллектом, который также был разработан OpenAI в 2021 году. Он обучается на наборе данных изображений и текста и способен генерировать широкий спектр изображений на основе входного текста. Он назван в честь идеи о том, что это «промежуточный этап» (с англ. midjourney) между оригинальными моделями DALL-E и GPT-3, поскольку он сочетает в себе элементы обоих.
Stable Diffusion – это еще один генератор изображений с искусственным интеллектом, разработанный исследователями Калифорнийского университета в Беркли в 2021 году. Он обучается на наборе данных изображений и текста и предназначен для создания широкого спектра изображений на основе входного текста. Он назван в честь идеи о том, что он способен «распространять» (от англ. diffuse) информацию о содержании изображения через свою сеть, что позволяет создавать более связные и реалистичные изображения.
Нейросеть от Сбера Kandinsky 2.1 и 2.2
Нейросеть от Сбера для генерации изображений Kandinsky 2.1 стала самым быстрорастущим сервисом в мире, достигнув 1 млн уникальных пользователей всего за 4 дня, и 2 млн пользователей за 6 дней. Напомню, что это быстрее результата сервиса ChatGPT от OpenAI, которому потребовалось пять дней, чтобы набрать 1 млн пользователей
Если брать техническую часть, то Kandinsky 2.1 – это обновленное поколение нейросети Kandinsky 2.0 для генерации картинок, которую Сбер запустил летом 2022 года. Новая модель сильно улучшена, она была обучена на 170 миллионах связок «текст-изображение». Kandinsky 2.1 содержит 3,3 миллиарда параметров, в то время как предыдущая модель Kandinsky 2.0 содержала только 2 миллиарда.
Основное отличие Kandinsky 2.1 от ее основных конкурентов Midjourney, Stable Diffusion и DALL-E, в том, что она способна понимать более 100 языков, включая русский, а также в том, что ее можно попробовать сразу на нескольких платформах:
сберовской облачной платформе ML Space
На сайте Rudalle
а также в мобильном приложении Салют и на умных устройствах Sber при помощи команды «Запусти художника».
Что нейросеть Kandinsky 2.1 умеет делать?
самая стандартная функция – сгенерировать изображение на основе текстового запроса. Причем можно выбрать более 20 вариантов стилей, от ренессанса и классицизма до реальных 3д фотографий, киберпанка и советских мультфильмов
нейросеть умеет смешивать несколько рисунков в один
может дорисовывать изображения
а также создать картину в режиме бесконечного полотна
Все четыре режима генерации пока доступны только в телеграм боте
Периодически в некоторых случаях нейросеть может не сработать, часто приходится долго ждать пока будет сгенерировано изображение, иногда появляются ошибки и на сайтах, и в телеграм-боте. Сбер объясняет это большой нагрузкой на сервис.
Из минусов – все картинки генерируются в разрешении 768 × 768 пикселей. Большее разрешение выставить нельзя, хотя современные нейросети уже рисуют картинки качественнее.
Как и в большинстве нейросетей, у Кандинского тоже иногда возникают проблемы при генерировании изображений людей, особенно если их несколько на картинке, и особенно прорисовка их пальцев, и когда они смотрят не прямо на вас, а в профиль.
Таким образом, если резюмировать, Kandinsky 2.1. – достаточно интересная нейросеть, которая может составить вполне себе конкуренцию Midjourney, Dall-E и Stable Diffusion.
Из плюсов – то что можно вводить промпты на русском языке и еще 100 других. Кроме того, нейросеть можно использовать через телеграм бот или даже голосовго помощника Сбера.
Из минусов – изображения относительно невысокого разрешения, прорисовка людей в определенных стилях, особенно если на картинке несколько персонажей, иногда оставляет желать лучшего.
Но в целом первое впечатление положительное, думаю буду пользоваться и дальше.
Вывод
Эти генераторы изображений с искусственным интеллектом могут революционизировать то, как мы создаем и потребляем изображения, поскольку они могут генерировать оригинальные изображения по запросу на основе вводимого текста. Это может иметь широкий спектр применений в таких областях, как реклама, искусство и дизайн, а также более практические приложения, такие как создание макетов продуктов или визуализация данных.
Использование генераторов изображений ИИ также может иметь экономические последствия, поскольку может изменить способ создания и потребления изображений. Например, если генераторы изображений ИИ получат широкое распространение, это может снизить спрос на традиционные методы создания изображений, такие как фотография или иллюстрация, что может повлиять на рынок труда в этих областях. Уже сейчас многие компании, дизайнеры и предприниматели вместо того, чтобы заказывать дизайн изображений, логотипов, визуализацию у профессиональных иллюстраторов и платить им за это десятки, сотни, а иногда и тысячи долларов, просто используют указанные модели на основе нейронных сетей и получают достаточно хорошие по качеству изображения бесплатно либо по намного сниженной цене.
В целом, появление генераторов изображений с искусственным интеллектом, таких как DALL-E 2, Midjourney и Stable Diffusion, представляет собой захватывающее развитие в области искусственного интеллекта и может изменить то, как мы создаем и потребляем изображения. Вполне вероятно, что эти технологии продолжат развиваться и совершенствоваться в ближайшие годы, и будет интересно посмотреть, как они определят будущее ИИ и экономики.
Кстати, уже начали появляться платформы, которые позволяют генерировать не только изображения, но и полноценные видео из текста. Это может быть видео говорящих людей или движущихся животных или автомобилей или чего угодно.
Видео, которые показывают как тот или иной аватар говорит по предоставленному вами скрипту, достаточно высокого качества. Например, сервисы Elai.io, интегрированный с GPT-3 от OpenAI, или Synthesia.io, в которых можно выбрать аватар того или иного человека или даже создать свой собственный аватар с помощью смартфона, который потом будет говорить по вашему тексту. Платформа поддерживает несколько десятков языков. Представьте как это упростит работу и сэкономит бюджет для компаний, предпринимателей, креаторов и блогеров, которые постоянно производят и постят новые видео или делают презентации своей компании или продукта.
По сути генерация видео не сильно отличается от генерации изображений, ведь видео это просто несколько кадров изображений в секунду, которые наш мозг воспринимает как динамичное видео. И поэтому если генераторы изображений могут создать качественные изображения, то мы можем попросить их создать несколько тысяч таких изображений с небольшими изменениями, чтобы из этого получилось полноценное видео. Это может сэкономить миллионы долларов для производителей видеоконтента, компьютерных игр и киностудий. А если это соединить с возможностью ChatGPT создавать полноценные сценарии, о которых мы уже упоминали ранее, и с искусственными синтезаторами голоса, то получается, что в скором времени мы можем попросить ИИ что-то наподобие следующего: «Создай мне 25-минутный фильм в жанре фэнтези с неожиданной концовкой» и через пару минут или даже раньше у нас будет готовый новый фильм, который еще никто не видел.
VALL-E и другие модели синтеза голоса на основе ИИ
Технология синтеза голоса предполагает, что компьютер умеет произносить речь как человек. Данная технология и рынок вокруг нее развиваются достаточно быстро: если в 2021 году объем рынка оценивался примерно в 7,5 млрд долларов, то прогнозируется, что к 2030 году он достигнет 60 млрд долларов, при ежегодном росте на 23 %[6].
Из крупных игроков на рынке можно выделить крупных игроков, таких как Google, IBM, Amazon, Microsoft, Сбер, Яндекс, VK, так и небольшие компании, как например Descript, Veritone, Respeecher и др.
Где могут применяться технология синтеза речи? Конечно же в голосовых помощниках, говорящих роботах, и ботах, звонящих клиентам по телефону. Кроме этого, эту технологию уже начинают использовать в озвучивании книг, фильмов, видеоигр, объявлений и рекламы, радио и новостных программ, а также для восстановления голоса умерших людей или людей, лишившихся способности говорить.
Технология синтеза или клонирования речи существовала уже несколько десятилетий, но примерно до начала 2010-х годов все такие компьютерные голоса звучали откровенно механически и было понятно, что разговаривает компьютер. Но за последние годы алгоритмы искусственного интеллекта стали учитывать еще больше параметров и характеристики человеческого голоса (звуки, тембр, интонация, акценты и пр), и в итоге смогли очень близко приблизиться к тому, чтобы синтезированный голос звучал достаточно правдоподобно и по-человечески.
При клонировании голоса живого человека берут записи его речи (чем больше объема и разновидностей текстов, тем лучше), и далее нейронная сеть строит модель, на основе которой будет синтезирован искусственный голос, максимально похожий на оригинальный человеческий. Далее, этим голосом можно будет произнести любой текст, который будет подан в программу.
Как уже было сказано, данная технология может использоваться и для людей, утративших способность говорить. Наример, известный актер Вэл Килмер практически лишился голоса после того, как у него был обнаружен рак горла и была проведена химиотерапия и другие виды лечения. Компания Sonantic «воссоздала» голос актера на основе ИИ, а в 2022 году Spotify заявила о том, что выкупает всю компанию Sonantic[7].
Технология синтеза голоса поможет сократить расходы и в киноиндустрии при озвучивании фильмов и мультфильмов. Есть прогнозы, что может появиться целая новая отрасль по «аренде голосов», когда известные люди смогут сдавать свои голоса в аренду для рекламных кампаний или озвучивания того или иного контента (голосовых помощников или озвучивания аудиокниг), за что они будут получать соответствующие роялти.
На данный момент уже возможно при воссоздании голосов придавать им тот или иной эмоциональный окрас (бодрый, грустный, серьезный), возможно скоро появится возможность учить их петь.
Компания Microsoft в начале 2023 года презентовала очередную модель искусственного интеллекта для синтеза голоса под названием VALL-E. Особенностью данной модели является то, что образцом для преобразования текста в речь с точной имитацией голоса человека, может служить аудиозапись с продолжительностью всего лишь в три секунды. Создатели системы заявляют, что модель не только придает голосу эмоциональные оттенки, но также имитирует акустическое окружение, т. е. если исходная запись была сделана на основе разговора по телефону, то и речь в модели будет также напоминать телефонный разговор. Из-за риска того, что этой технологией могут воспользоваться злоумышленники, Microsoft, однако, не стала публиковать оригинальный код в открытый доступ.
Случаи использования клонированных дипфейковых голосов для кражи крупных сумм денег уже фиксировались. Так, например, в 2019 году мошенники скопировали голос генерального директора энергетической компании, базирующейся в Великобритании. Был осуществлен перевод более 200 тысяч фунтов, по-видимому, по приказу генерального директора, чей голос был подлинным как по акценту, так и по тону. Этот инцидент стал первым известным киберпреступлением в Европе, в котором напрямую использовался ИИ.