Большая языковая модель OpenAI, Sora, может создать видео действительно хорошего качества на целую минуту. Результаты их работы показывают, что увеличение моделей генерации видео — хороший способ создать универсальные симуляторы для реального мира. Sora — гибкая модель визуальных данных. Он может создавать видео и изображения различной длины, формы и размера, вплоть до полной минуты видео высокой четкости. Я прочитал технический отчет OpenAI для SORA и сделал его понятным для всех. Давайте начнем!
Вдохновение от больших языковых моделей (LLM):
- Источник вдохновения : подход основан на больших языковых моделях, которые достигают универсальных возможностей за счет обучения на огромных объемах данных в масштабах Интернета.
- Парадигма LLM. Большие языковые модели, примером которых являются LLM, успешны отчасти благодаря использованию токенов. Токены служат унифицированным представлением различных модальностей текста, включая код, математику и различные естественные языки.
Обучение:
Обучение Соры включает в себя сжатие видео, извлечение скрытых фрагментов пространства-времени и масштабирование преобразователей для генерации видео. Давайте разберем каждую часть:
Сеть сжатия видео:
- Вход: необработанное видео.
- Цель: Цель этой сети — уменьшить размерность визуальных данных в видео.
- Выход: скрытое представление, сжатое как во времени (во времени), так и в пространстве (в пространстве).
- Обучение: эта сеть обучена на необработанных видео для создания сжатого скрытого пространства. Это скрытое пространство сохраняет важную визуальную информацию, одновременно снижая общую сложность.
Скрытые патчи пространства-времени:
- Цель: Извлечение значимых фрагментов из сжатого входного видео, которые будут действовать как токены преобразователя.
- Процесс: из сжатого видео извлекаются пространственно-временные фрагменты (с учетом как пространственных, так и временных измерений).
- Применимость: упоминается, что эта схема работает не только для видео, но и для изображений, поскольку изображения считаются видео с одним кадром.
- Преимущества: представление на основе патчей позволяет Sora обучаться на видео и изображениях с различным разрешением, продолжительностью и соотношением сторон.
Масштабирующие преобразователи для генерации видео:
- Тип модели: Sora описывается как диффузионная модель и диффузионный преобразователь.
- Цель обучения: Сора обучен прогнозировать исходные «чистые» патчи с учетом входных шумных патчей и кондиционирующей информации (например, текстовых подсказок).
- Свойства масштабирования. Трансформаторы, в том числе диффузионные, продемонстрировали эффективное масштабирование в различных областях, таких как языковое моделирование, компьютерное зрение и генерация изображений. Эта масштабируемость имеет решающее значение для обработки различных типов и сложностей данных.
- Управление выводом: во время вывода (генерации) размером генерируемых видео можно управлять путем размещения случайно инициализированных патчей в сетке соответствующего размера.
Таким образом, Sora интегрирует сеть сжатия видео для создания сжатого скрытого пространства, использует скрытые патчи пространства-времени в качестве токенов преобразователя как для видео, так и для изображений, а также использует диффузионный преобразователь для генерации видео с масштабируемостью в различных областях. Модель обучена обрабатывать шумные входные патчи и прогнозировать исходные «чистые» патчи, а также позволяет контролировать размер сгенерированных видео во время вывода.
Подход к обучению:
Существует несколько аспектов подхода к обучению модели Сора для создания изображений и видео, подчеркивающих преимущества обучения на данных в их исходном размере. Вот объяснение:
Переменная продолжительность, разрешение, соотношение сторон:
- Предыдущие подходы: Традиционные методы создания изображений и видео часто включают изменение размера, обрезку или обрезку видео до стандартного размера (например, 4-секундные видеоролики с разрешением 256×256).
- Преимущества обучения в исходном размере: модель Sora выбирает обучение на данных в исходном размере, избегая стандартизации продолжительности, разрешения или соотношения сторон.
Гибкость выборки:
- Широкий диапазон размеров : Sora предназначена для выборки видео различных размеров, включая широкоэкранные 1920x1080p и вертикальные 1080×1920, предлагая гибкость для создания контента для различных устройств непосредственно с их исходными соотношениями сторон.
- Прототипирование в меньших размерах . Эта гибкость позволяет быстро создавать прототипы контента в меньших размерах перед созданием в полном разрешении, используя одну и ту же модель.
Улучшенное кадрирование и композиция:
- Эмпирическое наблюдение : эмпирически установлено, что обучение видео с исходным соотношением сторон улучшает композицию и кадрирование.
- Сравнение с общепринятой практикой . Сравнение с моделью, которая обрезает все обучающие видео до квадратной формы (обычная практика в обучении генеративных моделей), показывает, что модель Сора имеет тенденцию иметь улучшенное кадрирование, избегая проблем, когда объект виден лишь частично.
Понимание языка:
- Обучение генерации текста в видео . Для обучения систем генерации текста в видео требуется большой набор данных видео с соответствующими текстовыми подписями.
- Техника повторного субтитров : применяется метод повторного субтитров от DALL·E , включающий обучение высокоописательной модели субтитров и ее использование для создания текстовых субтитров для всех видео в обучающем наборе.
- Улучшение точности. Установлено, что обучение использованию информативных субтитров к видео улучшает точность текста и общее качество видео.
- GPT для пользовательских подсказок: с помощью GPT короткие пользовательские подсказки превращаются в более длинные подробные подписи, которые затем отправляются в видеомодель. Это позволяет Sora создавать высококачественные видеоролики, точно соответствующие подсказкам пользователя.
Подводя итог, можно сказать, что подход модели Сора включает обучение на данных в их исходном размере, обеспечение гибкости при выборке видео разных размеров, улучшение кадрирования и композиции, а также использование методов понимания языка для создания видео на основе описательных подписей и подсказок пользователя.
Заключение:
Sora знаменует собой значительный шаг вперед в сфере видеоконтента, генерируемого искусственным интеллектом. Его уникальные возможности и удобные для пользователя функции открывают двери создателям контента, преподавателям и предприятиям для исследования новых измерений визуального повествования. Поскольку Sora продолжает развиваться, она обещает изменить то, как мы воспринимаем и создаем видео в цифровой среде.
Источник: https://medium.com/@keshavpeswani/how-open-ai-sora-works-its-magic-a-closer-look-at-the-technology-6f10b3b6ddec