为了保持领先于行业竞争对手的优势,微软支持的 OpenAI 推出了最新的创新成果——一种名为 Sora 的尖端文本到视频模型。此举标志着 OpenAI 致力于在文本转视频工具日益突出的背景下,在快速发展的人工智能 (AI) 领域保持竞争优势。Sora到底是什么?以及Sora是如何工作的?本文将带您详细了解Sora的功能特点!
什么是Sora ?
OpenAI 最近发布了一款名为 Sora 的新生成式人工智能系统,该系统可以根据文本提示生成短视频。虽然 Sora 尚未向公众开放,但迄今为止发布的高质量样本已经引起了兴奋和担忧的反应。
OpenAI 发布的样本视频(该公司称这些视频是由 Sora 直接制作,未经修改)显示了提示的输出,例如“两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频”和“加利福尼亚州的历史镜头”淘金热期间”。
乍一看,由于视频、纹理、场景动态、摄像机运动的高质量以及良好的一致性,通常很难看出它们是由人工智能生成的。
OpenAI 首席执行官 Sam Altman 还在 X(以前的 Twitter)上发布了一些根据用户建议的提示生成的视频,以展示 Sora 的功能。
Sora 将文本和图像生成工具的功能结合在所谓的“扩散变压器模型”中。
另一方面,扩散模型是许多人工智能图像生成器的基础。他们的工作原理是从随机噪声开始,迭代到适合输入提示的“干净”图像。一系列图像从静态中出现。视频可以由一系列此类图像制成。然而,在视频中,帧之间的连贯性和一致性至关重要。
Sora何时正式发布
我们大多数普通用户都必须等待才能获得对OpenAI新的人工智能模型Sora的访问。尽管该公司于 2 月 15 日宣布了文本转视频模式,但仍处于红队阶段。
红队是一种由专家团队(称为红队)模拟实际使用情况来识别系统中的漏洞和弱点的做法。
该公司表示:“我们还向一些视觉艺术家、设计师和电影制作人提供接触机会,以获取有关如何推进该模型对创意专业人士最有帮助的反馈。”
不过,该公司在博文中分享了多个演示,OpenAI 的首席执行官分享了 X 上用户请求的提示视频。
领先群雄
Sora 并不是第一个文本转视频模型。早期的模型包括 Meta 的 Emu、Runway 的 Gen-2、Stability AI 的 Stable Video Diffusion 以及最近 Google 的 Lumiere。
几周前发布的 Lumiere 声称可以制作比其前身更好的视频。但至少在某些方面,索拉似乎比卢米埃尔更强大。
Sora 可以生成分辨率高达 1920 × 1080 像素和多种宽高比的视频,而 Lumiere 仅限于 512 × 512 像素。Lumiere 的视频长度约为 5 秒,而 Sora 的视频长达 60 秒。
Lumiere 无法制作由多个镜头组成的视频,而 Sora 可以。据报道,与其他模型一样,Sora 也能够执行视频编辑任务,例如从图像或其他视频创建视频、组合不同视频的元素以及及时扩展视频。
这两种模型都会生成大致真实的视频,但可能会产生幻觉。卢米埃尔的视频可能更容易被认为是人工智能生成的。Sora 的视频看起来更有活力,元素之间有更多的互动。
然而,在许多示例视频中,仔细检查后就会发现不一致之处。
Sora的工作原理
Sora 是一种文本到视频模型,可显着推进深度学习、自然语言处理和计算机视觉的集成,将文本提示转换为详细、连贯、栩栩如生的视频内容。
Sora 创新的核心是一种将视觉数据转换为易于理解和操作的格式的技术,类似于基于文本的应用程序将单词分解为用于人工智能处理的标记。
此过程涉及将视频数据压缩为更易于管理的形式并将其分解为补丁或片段。这些片段就像积木一样,Sora 可以重新排列它们来创建新视频。
“Sora 以过去对 DALL·E 和 GPT 模型的研究为基础。它使用了 DALL·E 3 的重述技术,其中涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够遵循用户的文本生成的视频中的说明更加忠实,”该公司在博客文章中表示。
深度学习帮助其理解和生成数据中的复杂模式,自然语言处理解释文本提示以创建视频,计算机视觉使其能够准确理解和生成视觉内容。
通过采用扩散模型(一种特别擅长生成高质量图像和视频的模型),Sora 可以获取嘈杂、不完整的数据,并将其转换为清晰、连贯的视频内容。
Sora 的方法不同于需要大量手动操作的 CGI 角色创建,也不同于通常缺乏道德保障的传统 Deepfake 技术,它提供了一种可扩展且适应性强的方法来生成基于文本输入的视频内容。
Sora官网
OpenAI Sora官网入口:https://openai.com/sora
此为Sora AI的官方介绍界面,其功能界面暂未开放,还请耐心等待吧!