«Яндекс» представил бета-версию нейросети YandexART (Vi) для создания пятисекундных видео по текстовым промтам. ИИ-модель обучили воссоздавать плавные движения объектов в кадре, например бег собаки, падение листа с дерева или взрыв фейерверка, сообщили в пресс-службе компании.
Компания представила предыдущую версию модели для генерации видео по текстовому описанию в августе 2023 г. Прошлое решение позволяло получать анимации, которые выглядели так, будто двигалась камера, но не объект. Кроме того, от кадра к кадру объекты при генерации значительно менялись. YandexART (Vi) научилась воссоздавать реалистичные движения, а также учитывать связь между кадрами. Чтобы нейросеть могла справляться с этой задачей, ее обучили на роликах с движущимися объектами, например с едущим автомобилем или крадущимся котом.
На входе модель получает текстовое описание от пользователя о том, что должно быть в кадре. После чего нейросеть создает картинку, с которой будет начинаться анимация. Затем модель постепенно превращает цифровой шум в последовательность кадров, опираясь на это изображение и текстовый запрос.
В «Яндексе» отметили, что нейросеть могут использовать как обычные пользователи, чтобы создать, например, анимированную заставку на телефон, так и блогеры, мультипликаторы, креаторы и другие специалисты. YandexART (Vi) доступна в приложении «Шедеврум». Ранее нейросеть YandexGPT от «Яндекса» научилась распознавать и переводить текст с изображений, аудио- и видеофайлов.
Источник: Adindex