OpenAI新模型，会冲击影视行业吗？——技术解读

2月16日，OpenAI全新的文生视频模型Sora，成为全球的焦点，很多人惊呼，认为OpenAI的新模型会冲击当前的影视行业，本文从新发布的Sora模型技术原理角度解读，看看Sora是如何直接从文字生成视频，未来又有哪些技术上的应用；从目前OpenAI透露的消息来看，Sora可能并不仅仅只是用来生成视频，在模拟物理世界方面也有很大的潜力，未来升级版的Sora也可能与传说中的“GPT-5”一同发布，真正推动AGI时代的到来！

上面是奥特曼放出的生成视频，一位女子走在东京夜晚的街上，拉近甚至能看到女子脸上的褶皱斑点，这样的精度确实超越了笔者之前介绍过的Pika（视频版GPT？AI生成视频爆火！）。

OpenAI新模型，会冲击影视行业吗？——技术解读

OpenAI技术上同样从LLM大型语言模型获得了灵感，此前也是尝试了很多坑，比如循环神经网络RNN、生成对抗模型GAN、自回归变换（Autoregressive Transformers），以及最后的扩散模型（Diffusion Model），在过去很多文生视频聚焦于较短的视频，或者生成视频的题材局限于小部分视觉数据——

OpenAI新模型，会冲击影视行业吗？——技术解读

而Sora足足能够提供1分钟的高清输出。OpenAI主要是通过互联网大规模的视频数据进行训练，像大模型那样将不同形式的文本、代码和数字通过tokens统一，Sora则是将视觉数据转化成补丁数据包（patches）的统一形式。

OpenAI新模型，会冲击影视行业吗？——技术解读

这里可以参考何恺明经典论文MAE，利用自监督学习在更大规模的数据，输入随机“Patch”对图像进行重建，OpenAI这里将“Patch”先压缩到了低维潜特征空间（latent space），然后再分解成时空“Patch”（Spacetime Patches），将视频数据的时间和空间统一。

OpenAI新模型，会冲击影视行业吗？——技术解读

这里OpenAI的训练步骤很像今年初放在arxiv上的沙漏扩散模型HDiT，在Transformer的基础上支持在像素空间（pixel-space）中进行高分训练。

OpenAI新模型，会冲击影视行业吗？——技术解读

Sora仍然是基于Transformers模型（可以详看Karpathy对Transformer的小白科普介绍），OpenAI给定输入的噪声“Patch”，包括文本prompts提示等信息，用来训练预测一个原始干净的“Patch”，在实际训练中，OpenAI发现扩散模型在文生视频领域的巨大潜力。

OpenAI新模型，会冲击影视行业吗？——技术解读

下面展示的是对固定种子和输入Prompt的样本对比，随着训练计算量增加，扩散模型的输出质量有显著提高，之前的Pika也是利用的扩散模型，即Transformer+Diffusion model的思路。

OpenAI新模型，会冲击影视行业吗？——技术解读

这里OpenAI和PIka、Runaway们的差距，主要是很多扩散模型都是先将视频进行裁剪到标准尺寸，比如输出一个256×256的4秒视频，而OpenAI认为应该直接使用原始大小的数据，第一个优点是采样（Sampling）更加灵活，Sora可以直接采样1920x1080p-1080×1920任意分辨率的所有视频。

OpenAI新模型，会冲击影视行业吗？——技术解读

第二个优点是用原始长宽比视频进行训练，能够大幅改善构图和取景能力，下图左侧是常规将训练视频裁剪到正方形，右侧（Sora）是用原始尺寸视频训练，Sora有了明显改善。

OpenAI新模型，会冲击影视行业吗？——技术解读

Recaptioning

扩散模型可能对复杂Prompt理解能力较弱，OpenAI在Sora上还利用了DALL·E 3的重新描述转译（re-captioning），首先训练生成一个高度描述性的captioner描述模型，再用它作为训练集中所有生成视频的文本描述进行训练，实机测试中发现可以提高文本描述的准确度和视频的整体质量。

OpenAI新模型，会冲击影视行业吗？——技术解读

DALLE图像动画

之前大力3还有个小Trick，就是对简短的用户Prompt提示，先进行转换变得更长，然后再生成，Sora也用了这个小技巧，提高语言理解能力，下面是DALLE2和DALLE3图像生成的实例，从单张图片喂给Sora，生成一段视频。

OpenAI新模型，会冲击影视行业吗？——技术解读

扩展视频

上面这个DALLE→Sora的小应用（图生视频）就给人无限遐想，影视行业当然会受到冲击，但如果能将Sora用好，也是生产力质的飞跃，在计算资源充足的情况下，将大幅度降低视频制作的时间成本；Sora还可以在时间维度上对视频进行扩展，或者是将视频进行无缝拼接，理论上来说可以营造一种视频无缝无限循环的错觉。

OpenAI新模型，会冲击影视行业吗？——技术解读

拼接视频

另一个技巧是对输入视频进行拼接插值，将两个风格近似的视频进行拼接，Sora的理解能力和生成连贯视频的能力得以体现。综上所述，从技术来看Sora用的也是扩散模型+Transformer，但是训练视频并没有像Pika那样先进行裁剪，而是直接秀操作秀资源训练原始尺寸模型，在模拟物理世界上潜力很大，生成视频效果已经是业界内遥遥领先的水平。

OpenAI新模型，会冲击影视行业吗？——技术解读

对于风格完全不同的视频，Sora也能将不同主题和场景构成的视频之间，创建无缝过渡，比如下图无人机飞行过程中，无缝变成蝴蝶的形成，效果丝滑无比。

OpenAI新模型，会冲击影视行业吗？——技术解读

3D一致性

Sora可以生成带有动态摄像角度的视频，镜头移动旋转，人和场景元素在三维空间中一起移动，过去的文生视频模型在长视频中，3D一致性很差，Sora可以有效地对短期和长期依赖关系进行建模，比如模型可以保留人、动物和物体，或者实现在单个样本中生成同一角色的多个镜头。

OpenAI新模型，会冲击影视行业吗？——技术解读

接下来缺点也是笔者昨天提到的问题，Sora很难准确模拟复杂场景的物理原理，无法理解实例间的因果关系，在长时间样本中也会有不连贯性，这也是为何OpenAI提供最长一分钟的限制（尽管目前看1分钟也已经超出了我们的预期），包括大量的对齐（Alignment）工作，这也是下阶段Sora将要解决的问题。从GPT3.5turbo-GPT4的跃升来看，OpenAI可能会在今年后面推出更加强大的Sora，如果集成在GPT-5中一同发布，将是绝杀！

OpenAI新模型，会冲击影视行业吗？——技术解读

最后一点，在所生成的视频数据中，我个人感觉OpenAI拿到了大量虚幻5生成的视频，想象一下用Sora模拟高清渲染的游戏视频，在《我的世界》中，Sora理解了玩家的物理动作，直接用“我的世界”提示词让Sora生成游戏视频，也就是常常说的零样本学习（zero-shot），无需训练文本-视频数据，直接实现文生视频，这样的梦幻场景正在成为现实，与大模型类似，Sora也具备涌现的模拟能力，总体来看，未来Sora也不会只局限于影视行业，OpenAI将Sora直接形容成现实世界模拟器，未来也会在物理世界和数字世界上爆发巨大潜力！

OpenAI新模型，会冲击影视行业吗？——技术解读

ChatGPT：

聊天机器人——ChatGPT全网爆红，马斯克惊叹夸赞！

聊天机器人——ChatGPT小白注册教程，勿被电商割韭菜！

ChatGPT移动端——使用教程，5分钟注册iOS账号！

微软——解散元宇宙，900亿投资压注ChatGPT！

ChatGPT王炸官宣——仅需2.7美元，即可输出100万词！

火爆全网——AI生成的漂亮小姐姐，形象逼近真人！

英伟达重磅：AI读取视频，可直出3D游戏模型！

黄仁勋：给AI圈一点小小的英伟达震撼，11分钟训练ChatGPT！

ChatGPT免费开源平替——200亿参数，前OpenAI团队打造！

ChatGPT王炸升级——可识别图片，考试成绩超九成人类！

ChatGPT史诗升级——1秒生成网站，看图玩梗能力堪比真人！

ChatGPT加强版——60秒生成弹球游戏，零基础也能开发游戏！

ChatGPT王炸官宣——正式解除封印，接入互联网开放插件！

ChatGPT重磅升级——新增函数功能，价格大幅下降！

ChatGPT：预计3亿人将失业，斯坦福封神开源GPT平替版！

ChatGPT突发：iOS版应用上线，冲到总榜第二！

ChatGPT之父：重磅推出世界币，将成为AI时代“身份证”！

ChatGPT之父：奥特曼没有公司股份，因为热爱创造了GPT！

ChatGPT：微软联手奥特曼，重磅投资核聚变发电！

游戏界大变天：斯坦福最新成果，AI角色可模拟真人小镇！

人工智能“觉醒”：自主学习，AutoGPT会颠覆ChatGPT吗？

ChatGPT最强挑战者：谷歌Claude，免注册支持中文！

ChatGPT最强竞品：谷歌免费升级克劳德，20秒逆天速通百页论文！

ChatGPT：显卡每日电费500万，谷歌大脑合并阿尔法狗母公司！

ChatGPT：玩转《我的世界》，北京大学强化学习攻克复杂任务！

ChatGPT：成功让AI听懂人话，学会与人类合作！

ChatGPT：7分钟开发一款游戏，成本仅0.3美元！

OpenAI重磅突破：用AI学习AI，开创人工智能新道路！

OpenAI王炸——AI绘画集成ChatGPT，“大力3”来了！

微软重磅官宣：GPT-4接入Win11，下周二免费推送更新！

乔布斯剧本：奥特曼被OpenAI开除，美女工程师接任！

奥特曼回归？OpenAI员工施压希望召回奥特曼！

奥特曼宣布：加入微软，光速跳槽甲方！

奥特曼回归：OpenAI上演“宫斗”大结局！

GPT商店上线：“AI女友”机器人成热门应用！

#gd的ai&游戏杂谈#

#ai人工智能#

#免责声明#

①本站部分内容转载自其它媒体，但并不代表本站赞同其观点和对其真实性负责。

②若您需要商业运营或用于其他商业活动，请您购买正版授权并合法使用。

③如果本站有侵犯、不妥之处的资源，请联系我们。将会第一时间解决！

④本站部分内容均由互联网收集整理，仅供大家参考、学习，不存在任何商业目的与商业用途。

⑤本站提供的所有资源仅供参考学习使用，版权归原著所有，禁止下载本站资源参与任何商业和非法行为，请于24小时之内删除!

OpenAI新模型，会冲击影视行业吗？——技术解读

藤本树人气作品《蓦然回首Look Back》正式宣布推出剧场版动画

小米14u发布会定档2月22日，开启人车家全生态新篇章！

特斯拉市值一周蒸发逾5000亿分析师：还能跌85%

鹰角想让更多年轻游戏人不再窘迫

国产真人影游《我为情狂》超人气女星专业对口！

铁路路线/Rail Route

骁龙8 Gen2首发！高通正式推出卫星通信：3秒发出信息、双向收发

不到千元也能买27寸4K，极致性价比科睿P6显示器用过就再回不去了

用户协议

隐私政策

广告合作

在线工单

藤本树人气作品《蓦然回首Look Back》正式宣布推出剧场版动画

小米14u发布会定档2月22日，开启人车家全生态新篇章！

特斯拉市值一周蒸发逾5000亿 分析师：还能跌85%

鹰角想让更多年轻游戏人不再窘迫

国产真人影游《我为情狂》超人气女星专业对口！

铁路路线/Rail Route

骁龙8 Gen2首发！高通正式推出卫星通信：3秒发出信息、双向收发

不到千元也能买27寸4K，极致性价比科睿P6显示器用过就再回不去了

请输入验证码

....支付确认中....

用户协议

隐私政策

广告合作

在线工单

特斯拉市值一周蒸发逾5000亿分析师：还能跌85%