Инновационная модель Sora от OpenAI позволяет создавать одноминутные видеоролики из текста.
Буквально вчера компания OpenAI представила свою новейшую модель под названием Sora, которая способна генерировать видео высокого разрешения продолжительностью до одной минуты на основе текстовых инструкций. Sora, что в переводе с японского означает "небо", не будет доступна широкой публике в ближайшее время. В настоящее время инструмент доступен для избранной группы ученых и исследователей, чтобы оценить риск неправильного использования и вреда.
Сайт OpenAI делится подробностями этой новаторской разработки, вызвавшей широкий интерес: "Sora способна создавать сложные сценарии с несколькими персонажами, специфическими жестами и подробными описаниями объектов и фона. Модель не только понимает желание пользователя из подсказки, но и то, как эти элементы существуют в реальном мире".
Компания OpenAI опубликовала на своем сайте и в социальных сетях несколько впечатляющих видеороликов с участием Sora. В частности, эти примеры видео вызвали немалый ажиотаж, поскольку способность Sora создавать 60-секундные ролики поразила многих. В одном из роликов показана пара, прогуливающаяся по Токио в окружении распускающихся лепестков цветущей сакуры и снежинок.
Представляем Сору, нашу модель превращения текста в видео.
- OpenAI (@OpenAI) 15 февраля 2024 года
Sora может создавать видео продолжительностью до 60 секунд с высокодетализированными сценами, сложным движением камеры и несколькими персонажами с яркими эмоциями. https://t.co/7j2JN27M3W
Заглавие: "Красивый, снежный... pic.twitter.com/ruTEWn87vf
В другом ролике показаны реалистичные мамонты, бредущие по заснеженному ландшафту на фоне впечатляющих заснеженных гор.
Заглавие: "Несколько гигантских шерстистых мамонтов идут по заснеженному лугу, их длинная шерсть слегка развевается на ветру, когда они идут, заснеженные деревья и впечатляющие снежные горы вдали, полуденный свет с расплывчатыми облаками и солнце высоко вдали... pic.twitter.com/Um5CWI18nS
- OpenAI (@OpenAI) 15 февраля 2024 года
Среди других заметных видеороликов:
Задание: "Анимационная сцена показывает крупным планом короткого пушистого монстра, стоящего на коленях возле тающей красной свечи. художественный стиль - 3d и реалистичный, с акцентом на освещение и текстуру. настроение картины - удивление и любопытство, когда монстр смотрит на пламя с... pic.twitter.com/aLMgJPI0y6
- OpenAI (@OpenAI) 15 февраля 2024 года
Да, впечатляет, но все еще есть возможности для совершенствования
OpenAI подчеркивает, что Sora основана на "глубоком понимании языка", что позволяет точно интерпретировать вводимый текст. Как и другие современные генераторы изображений и видео, поддерживаемые ИИ, Sora не безупречна. Компания признает, что в настоящее время модель все еще испытывает трудности с распознаванием причинно-следственных связей. Например, она может сгенерировать видео, на котором кто-то ест печенье, но при этом на печенье не видно следов укуса. В социальных сетях также звучала критика, что Sora не замечает деталей в подсказках, а в последовательности движений персонажей иногда встречаются неточности, которые замечают только эксперты. Один из особенно заметных недостатков - белая светящаяся рамка вокруг головы женщины в одном из роликов, которая четко выделяет ее на фоне и очень заметна в некоторых сценах. В социальных сетях люди из творческой индустрии выражают беспокойство: "Я потеряю работу" и "Это вредит нашей профессии".
Хотя Sora не является первой моделью, генерирующей видео из текста - подобные инструменты также предлагают Meta, Google и Runway, - она выделяется своей способностью создавать видео длительностью до 60 секунд за раз, а не компоновать его кадр за кадром, как это делают другие модели.
"Я опасаюсь, что такие технологии могут повлиять на выборы".
Разработка инструментов для преобразования текста в видео вызвала опасения по поводу возможности искусственного интеллекта создавать дезинформацию. Орен Этциони, профессор искусственного интеллекта Вашингтонского университета и основатель True Media, организации, занимающейся борьбой с дезинформацией в политических СМИ, выразил обеспокоенность: "Тревожно, что такие технологии могут повлиять на выборы". Эти достижения также вызывают сопротивление со стороны художников и креативщиков, которые опасаются за свою работу и авторские права.
OpenAI работает с экспертами, чтобы проверить инструмент на риск дезинформации, разжигания ненависти и предвзятости, прежде чем выпустить его в открытый доступ. Компания также разрабатывает инструменты для идентификации видео, созданных с помощью Sora, и добавления к ним метаданных для облегчения распознавания. Было также подчеркнуто, что правообладатели используют как видеоролики, находящиеся в общественном достоянии, так и лицензионные, хотя подробности обучения Sora в настоящее время не раскрываются.