В январе 2021 года консорциум OpenAI, основанный Илоном Маском при финансовой поддержке Microsoft, представил свой самый амбициозный на сегодняшний день проект — систему машинного обучения DALL-E.
Этот гениальный мультимодальный ИИ был способен генерировать изображения (хотя и довольно мультяшные) на основе атрибутов, описанных пользователем — например, «кошка, сделанная из суши» или «рентгеновский снимок капибары, сидящей в лесу». Сегодня консорциум представил следующую итерацию DALL-E, которая может похвастаться более высоким разрешением и меньшей задержкой, чем оригинал.
Первый DALL-E (сочетание слов «Дали», как у художника, и «ВАЛЛ-И», как у анимированного персонажа Диснея) мог генерировать изображения, а также объединять несколько изображений в коллаж, обеспечивать различные углы обзора, и даже выводить элементы изображения — например, эффекты затенения — из письменного описания.
«В отличие от механизма 3D-рендеринга, чьи входные данные должны быть указаны однозначно и во всех подробностях, DALL·E часто может «заполнить пробелы», когда заголовок подразумевает, что изображение должно содержать определенную деталь, которая явно не указана», команда OpenAI написала в 2021 году.
DALL-E никогда не задумывался как коммерческий продукт и поэтому был несколько ограничен в своих возможностях, учитывая, что команда OpenAI сосредоточилась на нем как на исследовательском инструменте. Его продолжение было аналогичным образом защищено потенциально нежелательными изображениями, предварительно удаленными из его обучающих данных, и водяным знаком, ставящимся в автоматическом режиме и указывающим, что это изображение, создано искусственным интеллектом.
Кроме того, система активно запрещает пользователям создавать изображения на основе определенных имен. Сожаленеия тем, кому было интересно интересно, как будет выглядеть «Кристофер Уокен, поедающий чурро в Сикстинской капелле».
DALL-E 2, в котором используется система распознавания изображений OpenAI CLIP, опирается на эти возможности генерации изображений. Теперь пользователи могут выбирать и редактировать определенные области существующих изображений, добавлять или удалять элементы вместе с их тенями, объединять два изображения в один коллаж и создавать варианты существующего изображения.
Более того, выходные изображения представляют собой квадраты размером 1024 пикселя, по сравнению с аватарами размером 256 пикселей, сгенерированными исходной версией. CLIP OpenAI был разработан для распознавания изображения и обобщения его содержимого в понятном для человека виде. Консорциум обратил этот процесс вспять, создав образ из его сводки в своей работе с новой системой.
«DALL-E 1 просто взял наш подход GPT-3 из языка и применил его для создания изображения: мы сжали изображения в набор слов и научились предсказывать, что будет дальше», — сказал научный сотрудник OpenAI Прафулла Дхаривал.
В отличие от первой, с которой любой мог поиграть на веб-сайте OpenAI, эта новая версия в настоящее время доступна для тестирования только проверенными партнерами, которые сами ограничены в том, что они могут загружать или генерировать с ее помощью.
Все, что связано с наготой, непристойностью, экстремистской идеологией или «крупными заговорами или событиями, связанными с крупными текущими геополитическими событиями», исключено. Опять же, извинения тем людям, которые надеялись создать «Дональд Трамп верхом на обнаженной, пораженной COVID Нэнси Пелоси, как лошадь, через Сенат США 6 января, отдавая нацистское приветствие».
Нынешней группе тестировщиков также запрещено экспортировать созданные ими работы на стороннюю платформу, хотя OpenAI рассматривает возможность добавления возможностей DALL-E 2 в свой API в будущем.
Подписывайтесь на T4S.TECH в Telegram. Публикуем новости, обзоры и забавные факты о технологиях.