2月16日,OpenAI全新的文生视频模型Sora,成为全球的焦点,很多人惊呼,认为OpenAI的新模型会冲击当前的影视行业,本文从新发布的Sora模型技术原理角度解读,看看Sora是如何直接从文字生成视频,未来又有哪些技术上的应用;从目前OpenAI透露的消息来看,Sora可能并不仅仅只是用来生成视频,在模拟物理世界方面也有很大的潜力,未来升级版的Sora也可能与传说中的“GPT-5”一同发布,真正推动AGI时代的到来!
上面是奥特曼放出的生成视频,一位女子走在东京夜晚的街上,拉近甚至能看到女子脸上的褶皱斑点,这样的精度确实超越了笔者之前介绍过的Pika(视频版GPT?AI生成视频爆火!)。
OpenAI技术上同样从LLM大型语言模型获得了灵感,此前也是尝试了很多坑,比如循环神经网络RNN、生成对抗模型GAN、自回归变换(Autoregressive Transformers),以及最后的扩散模型(Diffusion Model),在过去很多文生视频聚焦于较短的视频,或者生成视频的题材局限于小部分视觉数据——
而Sora足足能够提供1分钟的高清输出。OpenAI主要是通过互联网大规模的视频数据进行训练,像大模型那样将不同形式的文本、代码和数字通过tokens统一,Sora则是将视觉数据转化成补丁数据包(patches)的统一形式。
这里可以参考何恺明经典论文MAE,利用自监督学习在更大规模的数据,输入随机“Patch”对图像进行重建,OpenAI这里将“Patch”先压缩到了低维潜特征空间(latent space),然后再分解成时空“Patch”(Spacetime Patches),将视频数据的时间和空间统一。
这里OpenAI的训练步骤很像今年初放在arxiv上的沙漏扩散模型HDiT,在Transformer的基础上支持在像素空间(pixel-space)中进行高分训练。
Sora仍然是基于Transformers模型(可以详看Karpathy对Transformer的小白科普介绍),OpenAI给定输入的噪声“Patch”,包括文本prompts提示等信息,用来训练预测一个原始干净的“Patch”,在实际训练中,OpenAI发现扩散模型在文生视频领域的巨大潜力。
下面展示的是对固定种子和输入Prompt的样本对比,随着训练计算量增加,扩散模型的输出质量有显著提高,之前的Pika也是利用的扩散模型,即Transformer+Diffusion model的思路。
这里OpenAI和PIka、Runaway们的差距,主要是很多扩散模型都是先将视频进行裁剪到标准尺寸,比如输出一个256×256的4秒视频,而OpenAI认为应该直接使用原始大小的数据,第一个优点是采样(Sampling)更加灵活,Sora可以直接采样1920x1080p-1080×1920任意分辨率的所有视频。
第二个优点是用原始长宽比视频进行训练,能够大幅改善构图和取景能力,下图左侧是常规将训练视频裁剪到正方形,右侧(Sora)是用原始尺寸视频训练,Sora有了明显改善。
Recaptioning
扩散模型可能对复杂Prompt理解能力较弱,OpenAI在Sora上还利用了DALL·E 3的重新描述转译(re-captioning),首先训练生成一个高度描述性的captioner描述模型,再用它作为训练集中所有生成视频的文本描述进行训练,实机测试中发现可以提高文本描述的准确度和视频的整体质量。
DALLE图像动画
之前大力3还有个小Trick,就是对简短的用户Prompt提示,先进行转换变得更长,然后再生成,Sora也用了这个小技巧,提高语言理解能力,下面是DALLE2和DALLE3图像生成的实例,从单张图片喂给Sora,生成一段视频。
扩展视频
上面这个DALLE→Sora的小应用(图生视频)就给人无限遐想,影视行业当然会受到冲击,但如果能将Sora用好,也是生产力质的飞跃,在计算资源充足的情况下,将大幅度降低视频制作的时间成本;Sora还可以在时间维度上对视频进行扩展,或者是将视频进行无缝拼接,理论上来说可以营造一种视频无缝无限循环的错觉。
拼接视频
另一个技巧是对输入视频进行拼接插值,将两个风格近似的视频进行拼接,Sora的理解能力和生成连贯视频的能力得以体现。综上所述,从技术来看Sora用的也是扩散模型+Transformer,但是训练视频并没有像Pika那样先进行裁剪,而是直接秀操作秀资源训练原始尺寸模型,在模拟物理世界上潜力很大,生成视频效果已经是业界内遥遥领先的水平。
对于风格完全不同的视频,Sora也能将不同主题和场景构成的视频之间,创建无缝过渡,比如下图无人机飞行过程中,无缝变成蝴蝶的形成,效果丝滑无比。
3D一致性
Sora可以生成带有动态摄像角度的视频,镜头移动旋转,人和场景元素在三维空间中一起移动,过去的文生视频模型在长视频中,3D一致性很差,Sora可以有效地对短期和长期依赖关系进行建模,比如模型可以保留人、动物和物体,或者实现在单个样本中生成同一角色的多个镜头。
接下来缺点也是笔者昨天提到的问题,Sora很难准确模拟复杂场景的物理原理,无法理解实例间的因果关系,在长时间样本中也会有不连贯性,这也是为何OpenAI提供最长一分钟的限制(尽管目前看1分钟也已经超出了我们的预期),包括大量的对齐(Alignment)工作,这也是下阶段Sora将要解决的问题。从GPT3.5turbo-GPT4的跃升来看,OpenAI可能会在今年后面推出更加强大的Sora,如果集成在GPT-5中一同发布,将是绝杀!
最后一点,在所生成的视频数据中,我个人感觉OpenAI拿到了大量虚幻5生成的视频,想象一下用Sora模拟高清渲染的游戏视频,在《我的世界》中,Sora理解了玩家的物理动作,直接用“我的世界”提示词让Sora生成游戏视频,也就是常常说的零样本学习(zero-shot),无需训练文本-视频数据,直接实现文生视频,这样的梦幻场景正在成为现实,与大模型类似,Sora也具备涌现的模拟能力,总体来看,未来Sora也不会只局限于影视行业,OpenAI将Sora直接形容成现实世界模拟器,未来也会在物理世界和数字世界上爆发巨大潜力!
ChatGPT:
聊天机器人——ChatGPT全网爆红,马斯克惊叹夸赞!
聊天机器人——ChatGPT小白注册教程,勿被电商割韭菜!
ChatGPT移动端——使用教程,5分钟注册iOS账号!
ChatGPT王炸官宣——仅需2.7美元,即可输出100万词!
火爆全网——AI生成的漂亮小姐姐,形象逼近真人!
英伟达重磅:AI读取视频,可直出3D游戏模型!
黄仁勋:给AI圈一点小小的英伟达震撼,11分钟训练ChatGPT!
ChatGPT免费开源平替——200亿参数,前OpenAI团队打造!
ChatGPT王炸升级——可识别图片,考试成绩超九成人类!
ChatGPT史诗升级——1秒生成网站,看图玩梗能力堪比真人!
ChatGPT加强版——60秒生成弹球游戏,零基础也能开发游戏!
ChatGPT王炸官宣——正式解除封印,接入互联网开放插件!
ChatGPT重磅升级——新增函数功能,价格大幅下降!
ChatGPT:预计3亿人将失业,斯坦福封神开源GPT平替版!
ChatGPT突发:iOS版应用上线,冲到总榜第二!
ChatGPT之父:重磅推出世界币,将成为AI时代“身份证”!
ChatGPT之父:奥特曼没有公司股份,因为热爱创造了GPT!
ChatGPT:微软联手奥特曼,重磅投资核聚变发电!
游戏界大变天:斯坦福最新成果,AI角色可模拟真人小镇!
人工智能“觉醒”:自主学习,AutoGPT会颠覆ChatGPT吗?
ChatGPT最强挑战者:谷歌Claude,免注册支持中文!
ChatGPT最强竞品:谷歌免费升级克劳德,20秒逆天速通百页论文!
ChatGPT:显卡每日电费500万,谷歌大脑合并阿尔法狗母公司!
ChatGPT:玩转《我的世界》,北京大学强化学习攻克复杂任务!
ChatGPT:成功让AI听懂人话,学会与人类合作!
ChatGPT:7分钟开发一款游戏,成本仅0.3美元!
OpenAI重磅突破:用AI学习AI,开创人工智能新道路!
OpenAI王炸——AI绘画集成ChatGPT,“大力3”来了!
微软重磅官宣:GPT-4接入Win11,下周二免费推送更新!
乔布斯剧本:奥特曼被OpenAI开除,美女工程师接任!
奥特曼回归?OpenAI员工施压希望召回奥特曼!
奥特曼宣布:加入微软,光速跳槽甲方!
奥特曼回归:OpenAI上演“宫斗”大结局!
GPT商店上线:“AI女友”机器人成热门应用!
#免责声明#
①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。
②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!
④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。
⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!