先是英伟达推出Chat With RTX,将每个人的电脑变成本地化系统大模型,紧接着谷歌AI推出Gemni1.5版本,最高支持100万tokens的上下文。那已经有封神作品Chatgpt的OpenAI就是奔着“干掉所有人”来的,和Gemni1.5同天发布的文字生成视频大模型Sora,只需输入文字,就可以生成一段长达60秒的高清视频。不仅让马斯克感叹:“gg humans。”还让周鸿祎放话:“AGI(通用人工智能)的实现将从10年缩短到1年。”
就像开头提到的,Sora并非首个文生视频大模型。据不完全统计,截至去年年底,全球能实现文本生成视频的大模型包括Runway、Pika、Stable Video Diffusion等20多个产品。
那为什么Sora的诞生仍然被称为里程碑呢?
对比来看,Sora的特别之处在于以下三个方面:
1.超长生成时间。Sora支持60s视频生成,而且一镜到底,不仅主人物稳定,背景中的人物表现也十分稳定,可以从大中景无缝切换到脸部特写。
而在此之前,AI视频工具都还在突破几秒内的连贯性,即使是Runway和Pika这样的“明星模型”,生成的视频长度也仅有3到4秒,Sora的时常可以说已经达到了史诗级的记录。
2.单视频多角度镜头。Sora可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格。
在OpenAI的展示视频中一只狼对着月亮嚎叫,感到孤独,直到它找到狼群,多镜头无缝切换都保持了主体的一致。
3.理解物理世界。最重要的是,Sora不仅理解用户在提示中要求的内容,还能自己理解这些事物在现实世界中的存在方式。
比如画家在画布上留下笔触,或者人物在吃食物时留下痕迹。火车穿过东京郊区,随着车窗内外光线环境和物体的变化,车窗上倒影的变化也几乎被按照现实世界的物理规律完美还原了出来。
而在技术方面,Sora打破了此前扩散模型局限性。Sora采用的是 DALL·E 3 的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频,还能够为现有图片赋予动态效果或延伸视频内容的长度。
也就是说,只需要一句话,Sora就能生产出一条高质量的短视频,甚至还能够根据静态图像生成视频,拓展现有视频或填充缺失的帧。
这也是Sora最炸裂的点,我们已经习以为常用大模型创造出不存在的事物,但是能够准确地理解物理世界运转逻辑,这些都是以前任何模型都无法完成的事情。
Sora所具备的模拟物理世界和数字世界的能力或将加快世界模型的实现进程,这一功能将成为实现AGI的重要里程碑。
Sora想要大规模商用,训练成本高昂、高质量数据集的缺乏都是需要跨越的门槛。
发表回复