1/7
虚拟和现实世界已分不清!OpenAI首个AI视频模型发布:60秒视频全AI生成
澎湃新闻2024-02-16 12:53:00
OpenAI Sora宣传视频(00:59)

“一名时尚女子走在充满霓虹灯和广告牌的标志性东京街头,她穿着黑色皮夹克、红长裙和黑靴子,拎着黑色手袋,戴着太阳镜,涂着红色口红,走路自信又随意。街道潮湿且反光,在灯光映射下形成镜面效果,行人走来走去。”这段60秒的视频,并非真实拍摄,而是OpenAI最新的“文生视频”模型Sora,这一段文字描述就是段Prompt(提示词)。

当地时间2月15日,人工智能(AI)巨头OpenAI宣布,正在研发“文生视频”模型Sora,可以创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色,也可以根据静态图像制作动画。OpenAI称,目前红队成员(red teamers)可以使用Sora来评估关键的危害或风险,还向一些视觉艺术家、设计师和电影制作人提供访问权限,以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。

根据OpenAI官网,Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。Sora不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。

无人机拍摄的海浪拍打大苏尔加雷角海滩崎岖悬崖的景象。(00:08)

在部分场景中,Sora的效果足以“以假乱真”,例如一段8秒的东京地铁车厢窗户视频,除了行车过程中,列车窗户上的反射外,视频中间人物倒影也非常逼真。

提示词:穿过东京郊区的地铁窗外倒影(00:08)

再来看另一段视频,官方提示词为:“雪后的东京城熙熙攘攘。 镜头穿过繁忙城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。 绚丽的樱花花瓣随着雪花随风飘扬。”Sora生成的视频呈现了所有要素,且镜头不在是单镜头,而是一直向前且会变换方向的运动镜头。

东京雪景AI视频(00:17)

需要注意的是,目前Sora属于半成品,OpenAI称,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

Sora生成的错误案例(00:19)

OpenAI官网介绍,Sora是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐对其进行转换生成视频。Sora能够一次生成整个视频或扩展生成的视频以使其更长。通过一次为模型提供多个帧的预见,OpenAI解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。

与GPT模型类似,Sora使用Transformer架构。Sora建立在过去对DALL·E和GPT模型的研究之上。 它使用DALL·E 3的重述技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更精准遵循生成用户的文本指令。

OpenAI表示,Sora是能够理解和模拟现实世界的模型基础,相信这一功能将成为实现AGI(通用人工智能)的重要里程碑。

Sora视频一出,立刻震惊业界。尽管这不是首个AI视频,其他企业也有类似文本生成视频的AI模型,谷歌正在测试名为Lumiere的模型,Meta则有名为Emu的模型,还有人工智能初创企业Runway也在开发相应产品来帮助制作视频,但外媒指出,工智能专家和分析师表示,Sora 视频的长度和质量超出了迄今为止所见的水平。

美国伊利诺伊大学香槟分校信息科学教授Ted Underwood指出,没想到在两三年内还会有如此持续连贯水平的视频生成技术,OpenAI的视频可能展现了该模型的最佳性能。

多名AI从业者称,从Sora公布的预览视频来看,简直太“疯狂”。在国外Reditt社区,有个网友提问,今天OpenAI公布的Sora模型是否会成为自动化对于经济影响的里程碑?下面有将近100条回复,有网友称,起初ChatGPT的发布让用户看到了一切皆有可能,而现在人工智能正在不断进步发展,让用户看到了强大的技术能力。

X平台网友截图

有海外网友评论称,Sora的出现是一项改变世界的产品,但同时也指出,Sora生成的视频或许让人工智能专家也难以分辨真假,这或许是个棘手的问题。

X平台网友截图

外媒援引布法罗大学Media Forensic Lab主任Siwei Lyu的话称,随着像Sora这样的人工智能程序不断出现,除了由图像和音频深度伪造构成的现有挑战之外,视频伪造技术将带来更多挑战。卡内基国际事务伦理委员会研究AI和监控技术的高级研究员Arthur Holland Michel则表示,当像Sora这样的工具落入那些确实想利用新技术迭代造成伤害的老谋深算者手中时,事情会变得更加糟糕,“每当有功能更强大的新产品发布时,其可能被滥用的方式也会越多。”

不过,AI视频或许能给电影制造带来不少惊喜。电影导演和视觉特效专家Michael Gracey说,看看仅仅在图像生成的一年里就取得了如此成就。“一年之后,我们会在哪里?”Gracey预测,不久之后,像Sora这样的人工智能工具将使电影制作者能够仔细控制他们的输出,从头开始制作各种视频。

Gracey认为,以后或许不再需要一个由100-200名艺术家组成的团队来用3年时间完成动画长片,但他也提醒,AI工具是根据现实生活中艺术家的作品进行训练,而不给予他们补偿,这是一个大问题。“当它剥夺了其他人的创造力、工作、想法和执行力,而不给予他们应有的荣誉和经济报酬时,那就不好了。”

需要指出的是,实现AGI的背后需要大量的算力来支持,也就是足够多的GPU(图形处理芯片),目前英伟达是全球生产GPU的霸主,但芯片市场一直面临供不应求的局面。也正是因此大模型的算力需求,OpenAI首席执行官山姆·奥特曼(Sam Altman)正试图筹集万亿美元来重塑全球半导体产业。

就在一周前,据外媒报道,奥特曼正与包括阿联酋政府在内的投资者洽谈,希望筹集到数万亿美元的资金来提高全球芯片制造能力,为其AI研发提供充足动力,有知情人士称,该项目可能需要5-7万亿美元。

7万亿美元是什么概念?

英伟达CEO黄仁勋12日曾在公开场合有些讽刺地回应称,“(7万亿美元)显然能买下所有的GPU……如果你认为计算机无法发展得更快,可能会得出这样的结论:我们需要14颗行星、3个星系和4个太阳来为这一切提供燃料。但是,计算机架构其实在不断地进步。”

外媒援引知情人士的话称,奥特曼正在建议OpenAI、投资者、芯片制造商和能源供应商之间建立合作,将共同出资建造芯片工厂。最近数周时间,奥特曼已经与多位人士进行了会谈,包括软银和台积电等,甚至包括阿联酋的谢赫·塔农·本·扎耶德·阿勒纳哈扬(Sheikh Tahnoun bin Zayed Al Nahyan),他是阿联酋总统的兄弟,也是阿布扎比多个主权财富基金的主席。

按照奥特曼的想法,未来数年内要建立数十家芯片代工工厂,建造所需的资金由中东投资者提供,而台积电来制造和运营这些工厂。

选稿:郑闻文
知识产权、免责声明以及媒体合作联系
继续了解
知识产权声明

【知识产权声明】

除本司(指上海东方网股份有限公司)另行声明外,本司网页及客户端产品(以下简称“本网”),包括但不限于东方新闻、翱翔、东方头条等,所涉及的任何资料(包括但不限于文字、图标、图片、照片、音频、视频、图表、色彩组合、版面设计、商标、商号、域名等)的知识产权均属本司和资料提供者所有。未经本司书面许可,任何人不得复制、转载、摘编、修改、链接、镜像或以其他任何方式非法使用东方网的上述内容。对于有上述行为者,本司将保留追究其法律责任的权利。

东方网、东方新闻、翱翔,以上均为本司享有权利之合法商标,未经本司书面授权,任何单位或个人不得使用上述商标,或将上述商标用作网站、媒体名称等。

【免责声明】

1、凡本网注明来源“东方网”或“东方新闻”或带有东方网LOGO、水印的所有内容,包括但不限于文字、图片、音频视频,版权均属本司所有,任何媒体、网站或其他任何形式的法律实体和个人未经本司书面授权均不得转载、链接或以其他方式复制传播。与我司签订有关协议或已经获得本司书面授权许可的媒体、网站或其他任何形式的法律实体和个人,应在授权范围内使用,且必须注明来源“东方网”。其目的在于传递更多信息,并不意味着本司赞同其观点或认可其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须保留本司注明的“稿件来源”,并自负全部法律责任。如擅自篡改为“稿件来源:东方网”,本司将依法追究责任。

2、擅自使用东方网名义转载不规范来源的信息、版权不明的资讯,或盗用东方网名义发布信息,设立媒体账号等,本司将依法追究其法律责任。

3、鉴于本网发布主体、发布稿件来源广泛,数量较多,如因作者联系方式不详或其他原因未能及时与著作权拥有者取得联系,或著作权人发现本网转载了其拥有著作权的作品时,请主动来函、来电与本司联系,或与本司授权的中国文字著作权协会联系,提供相关证明材料,我方将及时处理。
中国文字著作权协会联系方式:
联系人:赵洪波 唐亚静
地 址:北京西城区珠市口西大街120号太丰惠中大厦1027-1036室
联系电话:010-65978917
邮 箱:wenzhuxie@126.com

4、本网所有声明以及其修改权、更新权及最终解释权均属本司所有。

【媒体合作】

本司为尊重保护著作权,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进互联网良性发展,本着平等互惠、资源共享的原则,诚邀各类媒体、网站、单位、个人与本网建立友好的合作关系。
媒体合作、内容转载请联系
联系人:杨老师
联系电话:021-22899781