在AI技术不断推动社会进步的今天,内容产业正站在一个新的历史起点上。一览科技创始人、CEO罗江春在近期关于Sora的讨论中,为我们揭示了Sora等视频生成模型对行业的潜在影响。罗江春深入分析了Sora的技术特点,强调了其在视频场景模拟中的重要性,并预测了AI技术将如何逐步改变内容产业的生态。他同时指出,尽管国内在AI领域取得了一定的进展,但与国际领先企业相比,仍存在不小的差距。为此,他呼吁国内企业和创业者应加大研发投入,以实现技术上的突破和产业上的领先。
春节期间,OpenAI又放大招,旗下视频生成模型Sora连登热搜。在文生视频的浪潮下,大众关心的话题也从科技的发展延伸到了自身,AI会抢走哪些人的工作?还有哪些新职业会因此出现?
在此背景下,2月24日,一览科技创始人、CEO罗江春受邀做客南方都市报直播间,与硅基智能创始人、董事长、CEO司马华鹏,浙江大学计算机科学与技术学院副教授金小刚,一同就Sora冲击波可能造成哪些影响,中外大模型产品的差距是否拉大,文生图领域面临的职业新机遇和新挑战等问题进行了一场精彩交流。
议题一:在OpenAI出具的技术报告中,将Sora称为“世界模拟器”。OpenAI认为,视频生成模型是构建通用物理世界模拟器的一条有前景的道路,怎么理解这个说法?
金小刚:Sora并不足以称之为“世界模拟器”。Sora本质上是一个用数据喂出来的产品,用自回归的方式获得的统计意义上的结果,是 ‘大数据、大模型、大算力’的暴力计算得出的。这样的大模型不可能真正理解真实的世界。因为统计归纳方法本身是有很大缺点的。真实世界的复杂性远远高于模型的复杂性,用现有的知识归纳出来的东西,是远远不足以对付复杂世界的。所以这个‘世界模型’的说法显然是有问题的。
罗江春:这个事情我可能有点不同的观点,我一直在做视频,在视频行业待了20多年。首先Sora提出的“世界模拟器”核心指的是如何在视频场景里模拟真实的世界,它并没有超出Video这个领域。其他大模型生成视频,是通过一秒钟24张图片连贯播放做到的,但是Sora发布的视频有镜头概念。我认为它的核心是建了一个虚拟的视频素材的世界模型,然后用这里面的东西去推导,比如高速的转弯,小狗往前跑怎么转换场景,它模拟的狗的眼睛也好,人的眼睛也好,视觉摄像头也好,怎么来进行事物的转换。从这个角度来说,我觉得Sora的技术还是挺令人震撼的,我很期待能用它的产品。
司马华鹏:我认为Sora呈现的视频应该是达到了“世界模型”的程度,从各个角度来看,它的一致性,它的仿真,对物理、流体力学等定律的遵守,包括镜头的切换等都是非常好的。所以它一定是一个世界模型,而且这个世界模型是目前所有的公司和组织都难以望其项背的,当然也是我们奋起直追的目标。
议题二:在视频生成模型领域,国内也有多家企业布局。怎么看待国内企业和国际头部企业的差距?
罗江春:其实一览从成立之初就一直在尝试将AI技术跟视频相结合,2018年我们提到一个概念叫RGC(Robotic General Content),其实跟今天的AIGC(Artificial Intelligence Generated Content)是一个意思,唯 一的差别在于2018年我们在做RGC的时候底层是没有大模型的,那时候脚本我们得自己写。文生视频要怎么实现呢?一定要还原三个最关键的环节,分别是脚本、素材和剪辑。脚本包括创意、情节和场景,这些都需要通过大模型描述清楚,而且要拆成镜头;接着通过这些镜头,进行画图、建模,形成素材;第三步则是根据素材库进行后期剪辑、特 效。而这些应该是可以在Sora整个模型里完成的,它肯定不是用的图片,肯定有镜头才会看起来这么真实,这后面实际上算力的使用是很庞大的。
回过头来回答主持人这个问题,其实目前从技术上说国内外的差距是在拉大的。之前ChatGPT刚出来的时候很多国内公司说很快就能赶上3.5,结果OpenAI很快就推出了4.0、GPTs、再到现在的Sora。就感觉好像人家研究一天,我们又搞了一年,速度完全跟不上。关键还得有天才的团队、天才的idea以及有大量的资金投入,实实在在去做才会有一个像样的东西来。我是学AI出身的,1997-2000年在美国莱斯大学计算机系读Artificial Intelligence。我觉得面对(国内外)差距越拉越大,我们得奋起直追,需要不计成本、不计代价,要不然的话又会像芯片一样被人卡住。
司马华鹏:在正视差距的同时,我们也要有追赶的信心。事实上,我们硅基智能在海外的团队也在追踪这件事,大家都在不断地探索这块的原理和对应的实现方法。如果国内大厂、很多创业公司都参与的话,我觉得在半年里也应该会有一些能达到他们大概七八成的产品出来。硅基智能在数字人领域深耕了六年,在这一细分赛道上硅基智能已经领先很多国外同行,我们肯定要正视差距,只要有一线的机会我们都会去做。我们也都在各自领域找到了一些弯道超车的赛道在做。
议题三:随着以Sora为代表的视频生成模型的成熟、广泛应用,未来有哪些行业会受到深刻的影响?
罗江春:这个我想用克莱顿·克里斯坦森的《创新者的窘境》理论,就是一个革命性的新技术出现的时候,先被取代的是不被注意的低端产品。在内容产业,图文肯定会最 先被颠覆,随后是短视频、短剧,接下来则是影视行业。我相信很快就会有AI驱动的影视剧公司出现了。一到三年之内,出现一个纯AI的爆款电影,这是有可能的。没有明星,没有导演,就是一帮人想了一个idea,拍摄方式完全就颠覆了。这对于影视剧公司来说肯定会面临很大的挑战,挑战的分水岭在哪里呢?就是第 一部AI电影,而且是爆款。
现在这个趋势其实已经很明显了。已经有很多创作者在使用一览科技的AIGC全域工作流生产大量的图文,很多时候你在头条上看到的文章,都不知道是人写的还是AI写的,很难判断。然后侵蚀到短视频、短剧、影视剧。我觉得它会从低端到高端,逐渐重塑整个产业。
司马华鹏:影视企业必然会受到冲击,传统的内容平台也会被颠覆。另外,能源和芯片行业肯定也会受到巨大影响,因为Sora可能会吞噬掉世界上九成以上的显卡,这是很可怕的,大家表面上看到冲击的是这些视频生成所影响的产业,但如果它生成的视频大规模地充斥世界,它背后所能够聚拢的显卡资源会越来越多。今天在所有的创业公司里,训练大模型对应的显卡的资源已经是非常的不均衡分布了。
AI竞争的背后,本质上是显卡的竞争,算力的竞争,芯片的竞争。目前在前端的算法上,国内企业可能半年到一年就能追上,但在算力上的追赶是很难的,当你达到同等的效果的时候,对方的市场规模,以及对方在市场上的品牌认知、用户量都锁死之后,再追上是非常难的了。我们最终会因为没有芯片可用,没有这样的算力可用而输掉竞争。
罗江春:我回应一下司马总说的芯片这个事,其实我是很悲观的,为什么呢?就是我们能追上它的效果,但是当追上的时候,它已经虹吸了很多的内容创作者、资金、算力在它的平台上,只可能在局部的demo可能做的差不多,但是实际的Production这个level上我们其实是越差越远的,而且是越追越难。更何况OpenAI手上到底还有多少张牌,我们其实尚未可知。
议题四:哪些工作可能会因为视频生成模型的出现而消失?又可能会出现哪些新职业?
金小刚:这类工具对于普通公众来说会带来巨大的信息和能力的不对称性,如果用于诈骗,将带来不可估量的影响,所以在科技探索的同时,在监管上需要跟上。从教育的角度来思考,我们的教育不能满足于对于已有知识的背诵与综合,要着眼于好奇心的培养,激发学生对于未知的探索。教育不是去培养一个跟ChatGPT竞争的人,而是培养打造ChatGPT的人,根本上来说要培养创新者。
罗江春:可能每个行业都会受到冲击,但速度有所区别。设计师我想还是依然会存在的,因为他有审美,AI会让他的效率提升,我们现在在绘图产品上加了很多功能,包括怎么扩展、擦除、局部修改,都是为了设计师去做的。导演可能也还是需要的,因为他有很多镜头、转场的技巧,基本的审美。但是可能不需要在某个方面特别专业的人才,因为越专业的工作,越能用程序描述清楚的东西,硅基超越碳基是越有机会的。如果是一些要发挥创造力、想象力的工作,这些职业改变应该会慢一点。
司马华鹏:AI对于所有的产业而言,都能带来非常大的进步。今天有非常多的科学发现,都已经开始借助AI在做了。科学发展到这个阶段,有一些焦虑和忧虑很正常,当然我们也要奋起直追。
稿件整理自南方都市报报道
原标题:Sora制造AI焦虑?或引发内容行业变革,算力、芯片之争
采写:南都、N视频记者 汪陈晨 林文琪
ChatGPT源码推荐:小狐狸ChatGPT付费创作系统完全开源源码