• Наука
  • Технологии
  • Моделирование
  • Космос
  • Концепции
  • Hardware
  • Сети
  • Приложения
Home Software Стартап Runway анонсирует новую нейросеть Gen-2 для создания видео из текста

Примеры видео сгенерированных нейросетью

Стартап Runway, который прославился своим участием в создании популярного генератора изображений Stable Diffusion, анонсировал новейшую нейросеть Gen-2. Эта нейросеть предлагает аналогичный способ создания видео из текстового описания.

Да, вы не ошиблись. Нейросеть Gen-2 может преобразовать любое текстовое описание в трехсекундный видеоклип. На данный момент это максимальная продолжительность видео. Это открывает широчайшие возможности для создателей видеоконтента.

Однако в отличие от своего предшественника, Stable Diffusion, нейросеть Gen-2 не будет с самого начала открыта или широко доступна из различных соображений. Вместо этого пользователи могут получить доступ к технологии искусственного интеллекта через Discord. Для этого нужно присоединиться к очереди на веб-сайте Runway.



Концепция создания видео из текстового ввода не нова в мире искусственного интеллекта. Технологические гиганты ранее выпускали исследовательские работы по аналогичным моделям искусственного интеллекта преобразования текста в видео в конце 2022 года. Однако модель Runway Gen-2 выделяется тем, что она будет доступна для большого количества пользователей.

Способность ИИ генерировать видеоматериалы из текстовых описаний может упростить производственный процесс и снизить затраты. Это позволит художникам с легкостью воплощать свои идеи в жизнь. Теперь создание видеоконтента станет ещё проще и доступнее.

  • Stable Diffusion - это латентная диффузионная модель, которая является глубокой генеративной нейронной сетью. Ее код и веса модели были опубликованы публично, и она может работать на большинстве потребительского оборудования, оснащенного скромным GPU с объемом VRAM не менее 8 ГБ.
  • Stable Diffusion состоит из трех частей: вариационного автокодировщика (VAE), U-Net и необязательного текстового кодировщика. VAE-кодировщик сжимает изображение из пространства пикселей в латентное пространство меньшей размерности, захватывая более фундаментальное семантическое значение изображения.
  • Эта модель способна генерировать фотореалистичные изображения по любому текстовому запросу.
 
Хранитель экрана EarthVS3D