一句话就能生成长达1分钟的高清视频,OpenAI实现了。
日前,打造ChatGPT的开放人工智能公司OpenAI发布了首个文生视频模型Sora。
该模型可以根据用户输入的指令,生成长达1分钟的高清视频,也能通过现有的静态图像生成视频,还能对现有视频进行扩展、填充缺失内容。
据介绍,该模型能生成包含多个角色,以及特定类型运动的复杂场景,能精确生成物体和背景的细节。
在官网上已经更新了48个视频实例中,Sora能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。
比如,在一段视频中,镜头从俯视白雪覆盖的东京,慢慢推进到两个行人在街道上手牵手行走,街旁的樱花树和摊位的画面均细致呈现。
当然,目前的Sora模型依然存在缺陷,比如它可能难以精准模拟复杂场景的物理状况,也能无法理解一些特定的因果和时间联系等。
举个例子,视频中的人物可能会咬一口饼干,但饼干上可能看不到明显的咬痕。
在处理空间细节,比如分辨左右时,Sora也可能会出现混淆;在精确描述一段时间内发生的事件,如特定的摄影机移动轨迹时,也可能显得力不从心。
目前,该模型仅向有限数量的创作者提供访问权限。
Sora发布后,不少分析认为,这将对于广告业、电影预告片、短视频行业带来巨大的颠覆,不少视频从业者或将失业。
不过,也有业内人士认为,短期内较难带来颠覆性影响。
据报道,前百度产品委员会主席宋健表示:Sora确实很牛,但如果认为三年后就没人拍视频了,抖音Tiktok会被很快颠覆,那还是为时过早。
360集团创始人周鸿祎也表示,今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但速度不一定那么快。
“AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。很多人谈到Sora对影视工业的打击,我倒不觉得是这样,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意至少需要人给提示词。一个视频或者电影是由无数个60秒组成的。今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。”
周鸿祎认为,大语言模型的厉害之处在于,能完整地理解这个世界的知识。而此前所有的文生图、文生视频都是在2D平面上对图形元素进行操作,并没有适用物理定律。
“这次很多人从技术上、从产品体验上分析Sora,强调它能输出60秒视频,保持多镜头的一致性,模拟自然世界和物理规律,实际这些都比较表象。最重要的是Sora的技术思路完全不一样。Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。”
周鸿祎预测,Sora的出现,或意味着AGI(通用人工智能)实现将从10年缩短到1年。