Lumiere – новая нейросеть от компании Google для создания коротких видеороликов. Основана на ИИ-модели пространственно-временной диффузии Space-Time-U-Net, STUNet.
Как работает нейросеть Lumiere
Главное отличие от других нейронных сетей – отказ от многоступенчатой генерации. Представленная ИИ-модель выполняет задачу в один этап. Нейросеть Lumiere использует пространственную и временную дискретизацию с понижением и повышением частоты кадров. В качестве основы видео применяется технология преобразования текста в изображение.
Искусственный интеллект обучен создавать полнокадровое ролики с низким разрешением путем обработки в нескольких пространственно-временных масштабах. По заявлению Google, новации в способе генерации устранили ошибки в кадрах видео и улучшили плавность анимации.
ИИ-модель обучена на базе из 30 миллионов роликов. Разработчики Google загрузили в нейросеть видео с детальным текстовым описанием. Датасет включает ролики в формате 128x128 pixels с частотой кадров 16 FPS. На основе загруженной базы данных искусственный интеллект генерирует уникальные видео продолжительностью 5 секунд в разрешении 1024×1024.
Функционал
Нейросеть Lumiere умеет:
- создавать видео на основе текстовых запросов;
- генерировать ролики по загруженной картинке;
- предоставлять результаты в едином стиле;
- анимировать часть изображения - воду в реке, облака в небе, огонь от костра;
- дорисовывать фрагменты - добавить шляпу, изменить цвет платья.
Созданный ролик доступен для повторной обработки, если пользователь захочет сменить стиль.
Нейросеть Lumiere – как начать работу
На момент написания обзора Lumiere недоступна для использования. Исходный код остается закрытым. Точные сроки, когда нейросеть появится в общем доступе, неизвестны.
Для тестирования ИИ-модели после релиза понадобится аккаунт Google. На официальным сайте доступны примеры работ с текстовыми запросами. Присутствует демонстрация технологии работы нейросети.
Особенности
- нейросеть для генерирования коротких роликов;
- модель ИИ понимает текстовые запросы;
- частично анимирует изображения;
- добавляет или устраняет детали;
- превращает картинки в видео;
- создает ролики с разрешением 1024×1024 пикселей.