一夜过去,AI行业又迎来了重大技术突破,这次有可能被“颠覆”的是视频和电影制作。

 

北京时间2月16日凌晨,OpenAI在官网正式发布了文生视频大模型Sora,其可以根据用户提示生成长达一分钟的视频,同时保持视频中出现的人物、景色的连贯性,甚至即便切换镜头,人物依然能够保持一致。

 

OpenAI首席执行官山姆奥特曼在社交平台下场,对网友放言“留下想看什么的评论,我为你生成视频”,并在两小时内“现点现做”放出了十多条视频。这立刻引发了科技圈和影视圈的双重“震撼”,油管粉丝高达2.39亿的顶流网红“野兽先生”直接在山姆奥特曼的社交账号下哀求“求求你了山姆,不要让我没有工作。”

 

2月16日,DCCI互联网研究院院长刘兴亮在接受贝壳财经记者采访时表示,Sora无疑是人工智能领域的一次重大突破。这一技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力,而且对内容创作、娱乐和影视制作行业提出了前所未有的挑战和机遇。

 

天图万境创始人、导演图拉古则告诉贝壳财经记者,Sora 的潜力并不是代替拍摄或者创作,而是让每一个人成为创作者,这必然会产生新的业态。

 

这个电影预告片是AI做的?音视频行业迎来“iPhone”时刻

 

“一部电影预告片,讲述了30岁的太空人戴着红色羊毛编织的摩托车头盔、蓝天、盐漠、电影风格的冒险故事,用35毫米胶片拍摄,色彩生动。”

 

这是OpenAI官网展示的诸多视频生成提示语句之一,贝壳财经记者发现,根据该提示语句生成的视频不仅达到了语句的内容预期,还创造性地出现了多个镜头的切分,而且神奇的是,在不同角度的镜头中,视频主角“太空人”可以看出是同一人。

 

图片来源:OpenAI官网

 

这在此前的AI生成技术中是无法实现的。有AI从业者表示,此前的AI视频往往都是单镜头生成,因为一旦镜头切换,角色可能就会发生变化,这对于AI图片生成同理。

 

贝壳财经记者曾使用AI大模型技术生成图片的技术辅助视频制作,但其中的痛点之一就是,如果想要让AI生成多个图片,比如同一个人物在不同场景下的不同动作,每当输入新的提示词,人物往往也会发生变化,让人觉得“不是同一个人”,因此AI难以直接取代传统方式的视频或者漫画制作。

 

但随着Sora的横空出世,这一切将可能迎来改变。

 

在另一个OpenAI提供的例子中,输入提示词“中国龙的农历新年庆祝视频”,就生成了一段人们舞龙的视频,贝壳财经记者发现,这段视频包含了庞大的庆祝队伍和人群,但他们也都能保持前后的一致和连贯。

 

 

OpenAI表示,该模型对语言有深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色,“Sora还可以在单个生成的视频中创建多个镜头,以准确保留角色和视觉风格。”

 

刘兴亮表示,Sora模型的发布标志着AI技术在内容创作领域的一个新纪元,“通过简短的文本提示或一张静态图片,Sora能够生成持续一分钟左右的1080P高清视频,涵盖多个角色、不同类型的动作和背景细节等,几乎达到了电影级别的逼真场景。这种能力不仅为内容创作者提供了前所未有的工具,使他们能够以更低的成本和更快的速度将创意变为现实,而且为观众带来了更丰富和多样化的视觉体验。技术创新的这一巨大飞跃,预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”

 

不过,据贝壳财经记者观察,目前Sora生成的还基本限于“短视频”,如果生成带剧情的长篇故事似乎还有更多挑战。

 

对此,图拉古告诉记者,Sora更大的潜力在于传递蒙太奇故事,而不是准确和具有节奏的叙事,“它准确地传递某一个人的百分之百的意图还是差一点,不过大部分创作者不会在意这些。也就是说,它其实能够传递某一个人90%的情绪感觉或者表达这已经足够了。”

 

Sora的发布让图拉古十分激动,他目前正在打造一个被称为“超感影游”的沉浸式线下体验项目,在他看来,未来很多人都可以成为创作者,而不仅仅局限于现在的专业人士,电影的“KTV时代”,随着AI的到来即将到来。

 

“技术总是跨越式进步,后面可能会更超乎我们的想象。”图拉古说。

 

“尽管Sora的技术创新带来了巨大的潜力,但它也对传统的影视制作行业提出了转型的压力。AI生成的视频可能减少了对人类演员、导演和其他创意角色的需求,从而影响到这个行业的就业。此外,随着AI技术的进步,传统的影视制作流程和商业模式也可能面临重塑。然而,这种转型并不意味着传统影视行业的消亡,而是需要与AI技术融合,探索新的艺术形式和表达方式。这种转型压力,虽然带来了挑战,但也为行业的创新和发展提供了机遇。”刘兴亮告诉贝壳财经记者。

 

如何克服一致性难题?让模型预见多帧内容 奥特曼:专注打造通用人工智能

 

那么,OpenAI是如何做到克服AI生成视频的一致性难题的呢?

 

根据OpenAI的技术解读文件,Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频,不仅能够一次性生成完整的视频,还能延长已生成的视频,“通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。”

 

与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。具体来看,OpenAI把视频和图像分解为较小的数据单元——“patches(小块)”,每个“patches”相当于GPT中的一个token(语句)。这种统一的数据表示方法能够在更广泛的视觉数据上训练模型,覆盖了不同的持续时间、分辨率和纵横比,而这一技术在之前不可能做到。

 

此外,Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。

 

OpenAI特别表示,Sora是能够理解和模拟现实世界的模型的基础,“我们相信这一能力将是实现通用人工智能的重要里程碑。”

 

例如,当输入提示语句“动画场景的特写镜头,一个毛茸茸的小怪物跪在一根融化的红蜡烛旁边。艺术风格3D、逼真,重点是照明和纹理,情绪包括惊奇和好奇……”时,Sora创造出了一个类似皮克斯和梦工厂电影中的动画小怪物镜头。

 

 

值得注意的是,该视频中,小怪物的毛发纹理极其自然。此前,移动中的毛发纹理效果往往会耗费动画公司极大精力,如皮克斯的《怪兽公司》中,技术团队为毛发纹理耗费了几个月的时间,但Sora仅仅依靠AI就生成出来。对此,OpenAI科学家Tim Brooks表示,Sora通过观察大量数据学会了关于3D几何形状和一致性的知识,“通用人工智能将能够模拟物理世界,而Sora是朝这个方向迈出的关键一步。”

 

北京时间2月16日早上8点,山姆奥特曼“趁热”在社交平台发布了招人公告,“OpenAI团队是我见过的最有才华、最友善的一群人,致力于解决最困难、最有趣和最重要的问题。我们所有关键资源均已到位,专注于打造通用人工智能,你或许应该考虑加入我们。”

 

不过,OpenAI也坦承,目前Sora模型也有弱点,“它可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。同时,该模型还可能混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。”

 

在刘兴亮看来,Sora模型及其带来的技术进步,也引发了一系列伦理和社会挑战,“随着AI生成内容与现实之间的界限变得越来越模糊,如何确保内容的真实性和透明性成为了一个重要问题。此外,版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战,通过制定相关政策、法律和伦理准则来确保技术的健康发展,同时保护个人和社会的利益不受侵害。”

 

目前,OpenAI已经将Sora提供给了一些艺术家用于创作,但距离面向公众发行还需要一段时间,“我们将采取几个重要的安全措施,并进行对抗性测试,一旦公开发布,我们的文本分类器将检查违反使用政策的文本输入提示,例如极端暴力、色情内容、名人肖像等。”OpenAI表示。

 

“OpenAI的Sora模型不仅是技术创新的象征,也是对传统行业转型的推动力和伦理挑战的触发点。面对这些变化,社会需要采取积极的态度,拥抱技术带来的机遇,同时警惕和解决伴随而来的挑战,以确保技术进步能够惠及全人类。”刘兴亮告诉贝壳财经记者。

 

记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 韦博雅

校对 刘越