DALL-E 2 от OpenAI создает фантастические изображения почти всего, что вы можете себе представить

В январе 2021 года консорциум OpenAI, основанный Илоном Маском при финансовой поддержке Microsoft, представил свой самый амбициозный на сегодняшний день проект — систему машинного обучения DALL-E.

Этот гениальный мультимодальный ИИ был способен генерировать изображения (хотя и довольно мультяшные) на основе атрибутов, описанных пользователем — например, «кошка, сделанная из суши» или «рентгеновский снимок капибары, сидящей в лесу». Сегодня консорциум представил следующую итерацию DALL-E, которая может похвастаться более высоким разрешением и меньшей задержкой, чем оригинал.

Первый DALL-E (сочетание слов «Дали», как у художника, и «ВАЛЛ-И», как у анимированного персонажа Диснея) мог генерировать изображения, а также объединять несколько изображений в коллаж, обеспечивать различные углы обзора, и даже выводить элементы изображения — например, эффекты затенения — из письменного описания.

«Тарелка супа, похожая на чудовище, связанная из шерсти»

«В отличие от механизма 3D-рендеринга, чьи входные данные должны быть указаны однозначно и во всех подробностях, DALL·E часто может «заполнить пробелы», когда заголовок подразумевает, что изображение должно содержать определенную деталь, которая явно не указана», команда OpenAI написала в 2021 году.

DALL-E никогда не задумывался как коммерческий продукт и поэтому был несколько ограничен в своих возможностях, учитывая, что команда OpenAI сосредоточилась на нем как на исследовательском инструменте. Его продолжение было аналогичным образом защищено потенциально нежелательными изображениями, предварительно удаленными из его обучающих данных, и водяным знаком, ставящимся в автоматическом режиме и указывающим, что это изображение, создано искусственным интеллектом.

Кроме того, система активно запрещает пользователям создавать изображения на основе определенных имен. Сожаленеия тем, кому было интересно интересно, как будет выглядеть «Кристофер Уокен, поедающий чурро в Сикстинской капелле».

«Макросъемка на камеру 35 мм большого семейства мышей в шапочках, уютно устроившихся у камина»

DALL-E 2, в котором используется система распознавания изображений OpenAI CLIP, опирается на эти возможности генерации изображений. Теперь пользователи могут выбирать и редактировать определенные области существующих изображений, добавлять или удалять элементы вместе с их тенями, объединять два изображения в один коллаж и создавать варианты существующего изображения.

Более того, выходные изображения представляют собой квадраты размером 1024 пикселя, по сравнению с аватарами размером 256 пикселей, сгенерированными исходной версией. CLIP OpenAI был разработан для распознавания изображения и обобщения его содержимого в понятном для человека виде. Консорциум обратил этот процесс вспять, создав образ из его сводки в своей работе с новой системой.

«DALL-E 1 просто взял наш подход GPT-3 из языка и применил его для создания изображения: мы сжали изображения в набор слов и научились предсказывать, что будет дальше», — сказал научный сотрудник OpenAI Прафулла Дхаривал.

«Медвежата смешивают блестящие химикаты в образе сумасшедших ученых»

В отличие от первой, с которой любой мог поиграть на веб-сайте OpenAI, эта новая версия в настоящее время доступна для тестирования только проверенными партнерами, которые сами ограничены в том, что они могут загружать или генерировать с ее помощью.

Все, что связано с наготой, непристойностью, экстремистской идеологией или «крупными заговорами или событиями, связанными с крупными текущими геополитическими событиями», исключено. Опять же, извинения тем людям, которые надеялись создать «Дональд Трамп верхом на обнаженной, пораженной COVID Нэнси Пелоси, как лошадь, через Сенат США 6 января, отдавая нацистское приветствие».

Нынешней группе тестировщиков также запрещено экспортировать созданные ими работы на стороннюю платформу, хотя OpenAI рассматривает возможность добавления возможностей DALL-E 2 в свой API в будущем.

Подписывайтесь на T4S.TECH в Telegram. Публикуем новости, обзоры и забавные факты о технологиях.

DALL-E 2 от OpenAI создает фантастические изображения почти всего, что вы можете себе представить

Мультиформатная конференция TECH WEEK

Google Play Best of 2023 Awards: список победителей

Компания OpenAI могла совершить опасный прорыв в сфере ИИ

Кремниевая «Санта-Барбара»: OpenAI могут уйти почти все сотрудники

В Китае запустили первую в мире интернет-магистраль со скоростью 1,2 Тбит/с

Устройство Google Titan Security Keys сохранит ваши ключи доступа

Вам понравится