清纯诱惑 爆火 Sora 惊怖威尔・史小姐,真东谈主整活吃意面视频
新智元报谈
裁剪:Aeneas 好困
【新智元导读】威尔・史小姐的这段视频,把全网都骗了!其实 Sora 的本事道路,早已被东谈主预言了。李飞飞客岁就用 Transformer 作念出了传神的视频。但只消 OpenAI 鼎力出名胜,跑在了系数东谈主前边。
作业帮在线拍照解题今天,举座 AI 社区都被威尔・史小姐发出的这段视频惊怖了!
你以为,上头是一年前的 AI 视频,底下是如今的 AI 视频?
错!这个所谓 AI 生成的视频,其实恰是威尔史小姐本东谈主!
威尔・史小姐吃意面这个「图灵测试」,曾让 Runway、Pika 等屡屡翻车。
Runway 生成的,是这么的 ——
但如今,Sora 照旧作念到了传神似真东谈主、毫无舛讹,是以才让威尔史小姐告捷骗过了大家,这太可怕了!
Sora 的出现,其确切本年 1 月就已被东谈主预言1 月 5 日,一位前阿里的 AI 大师示意 ——
我觉得,Transformer 框架和 LLM 道路,将是 AI 视频的一个阻碍口和新范式,它将使 AI 视频愈加连贯、一致,而且时长更长。现时的 Diffusion+Unet 道路(如 Runway、Pika 等),仅仅暂时的惩办决策。
无专有偶,斯坦福学者李飞飞在客岁年底,就用 Transformer 就作念出了传神的视频。
而马毅西宾也示意,我方团队客岁在 NeurIPS 一篇论文中也照旧阐明,用 Transformer 不错杀青 diffusion 和 denoising。
马毅团队忽视:假定数据散播是 mixed Gaussians,那 Transformer blocks 即是在杀青 diffusion / 扩散和 denoising / 压缩
能意想 Sora 本事道路的,细目不啻一个东谈主。然则全天下第一个把 Sora 作念出来的,即是 OpenAI。
OpenAI 为何总能告捷?无他,唯手快尔。
Runway 和 Pika「点歪」的科技树,被 OpenAI 掰正了在此之前,Runway、Pika 等 AI 视频器用眩惑了不少聚光灯。
而 OpenAI 的 Sora,不仅后果愈加信得过,即是把 Transformer 对前后文的贯串和浩繁的一致性,阐述得大书特书。
这个全新的科技树,可真实够轰动的。
不外咱们在开首也不错看到,OpenAI 并不是第一个意想这个的东谈主。Transformer 框架 + LLM 道路这种新范式,其实早已有东谈看法想了。
就如同 AI 大 V「阑夕」所言,OpenAI 用最浅薄的话,把最复杂的本事诠释晰了 ——「图片仅仅单帧的视频。」
科技行业这种任性的大家抒发,真实前所未见,令东谈主忽地醒悟。
「阑夕」指出,「图片仅仅单帧的视频」的妙处就在于,图片的创建不会脱离时代轴而存在,Sora 现实上是提前给视频写了剧本的。
致使不管用户怎样 Prompt,Sora AI 都有我方的构图念念维。而这,即是困住 Runway、Pika 等公司最大的问题。
它们的念念路,基本都是基于一张图片来让 AI 去想象,完成延迟和填补,从而重叠成视频。比拼的是谁家的 AI 更能贯串用户想要的内容。
因此,这些 AI 视频极易发生变形,怎样保抓一致性成了登天般的贫乏。Diffusion Model 这一局,是透彻输给 Transformer 了。
ChatGPT 故事再次重演,Sora 其实站在谷歌的肩膀上让咱们真切扒一扒,Sora 是站在哪些前东谈主的肩膀上。
简而言之,最大转变 Patch 的论文,是谷歌发表的。Diffusion Transformer 的论文,来自 William Peebles 和谢赛宁。此外,Meta 等机构、UC 伯克利等名校齐有孝敬。
William Peebles 和谢赛宁忽视的框架纽约大学蓄意机系助理西宾谢赛宁在分析了 Sora 的本事陈述后示意,Sora 应该是基于我方和 William Peebles 忽视的框架假想而成。
这篇忽视了 Sora 基础架构的论文,客岁被 ICCV 收录。
论文地址:https://arxiv.org/ abs / 2212.09748随后,William Peebles 加入了 OpenAI,勾引了开采 Sora 的本事团队。
图灵三巨头之一、Meta AI 把握 LeCun,也转发了谢赛宁的帖子示意认同。
正好的是,谢赛宁是 LeCun 的前 FAIR 共事、现纽约大学共事,William Peebles 是 LeCun 的前伯克利学生、现任 OpenAI 工程师。AI 竟然是个圈。
最近,谢赛宁对说我方是 Sora 作家的说法进行了辟谣
CVPR「视若无睹」,拒掉 Sora 基础论文
好奇好奇的是,Diffusion Transformer 这篇论文曾因「败落转变性」被 CVPR 2023 拒收,其后才被 ICCV2003 袭取。
谢赛宁示意,他们在 DIT 名堂莫得创造太多的新东西,但是两个方面的问题:浅薄性和可推广性。这可能即是 Sora 为什么要基于 DIT 构建的主要原因。
此前,生成模子的门径包括 GAN、自转头、扩散模子。它们都有各自的上风和局限性。
而 Sora 引入的,是一种全新的范式回荡 —— 新的建摹本事和活泼性,不错处理各式时代、纵横比和分辨率。
Sora 所作念的,是把 Diffusion 和 Transformer 架构衔尾在一谈,创建了 diffusion transformer 模子。
这也即是 OpenAI 的转变之处。
时空 Patch 是谷歌的转变时空 Patch,是 Sora 转变的中枢。
它设立在 Google DeepMind 早期对 NaViT 和 ViT(视觉 Transformer)的究诘之上。
论文地址:https://arxiv.org/ abs / 2307.06304而这项究诘,又是基于一篇 2021 年的论文「An Image is Worth 16x16 Words」。
论文地址:https://arxiv.org/ abs / 2010.11929传统上,关于视觉 Transformer,究诘者都是使用一系列图像 Patch 来磨真金不怕火用于图像识别的 Transformer 模子,而不是用于说话 Transformer 的单词。
这些 Patch,能使咱们简略开脱卷积神经网罗进行图像处理。
谈判词,视觉 Transforemr 对图像磨真金不怕火数据的遗弃是固定的,这些数据的大小和纵横比是固定的,这就遗弃了质地,而且需要无数的图像预处理。
而通过将视频视为 Patch 序列,Sora 保抓了原始的纵横比和分辨率,相同于 NaViT 对图像的处理。
这种保存,关于捕捉视觉数据的真原本色至关蹙迫!
通过这种门径,模子简略从更准确的天下示意中学习,从而赋予 Sora 近乎神奇的准确性。
时空 Patch 的可视化谷歌 Patch 的论文,发表于 2021 年。3 年后,OpenAI 基于这项本事,作念出了 Sora。
这段历史看起来是不是有点眼熟?几乎就像「Attention Is All You Need」的历史重演。
2017 年 6 月 12 日,8 位谷歌究诘东谈主员发表了 Attention is All You Need,大名鼎鼎的 Transformer 横空出世。
它的出现,让 NLP 变了天,成为当然说话限度的主流模子。
论文地址:https://arxiv.org/pdf/1706.03762.pdf它完满扬弃了递归结构,依赖提防力机制,挖掘输入和输出之间的联系,进而杀青了并行蓄意。
在谷歌看来,Transformer 是一种说话贯串的新式神经网罗架构。不外它当初被假想出来,是为了惩办翻译问题。
此其后,Transformer 架构被 OpenAI 拿来踵事增华,成为 ChatGPT 这类 LLM 的中枢。
2022 年,OpenAI 用谷歌 17 年发表的 Transformer 作念出 ChatGPT。
2024 年,OpenAI 用谷歌 21 年发表的 Patch 作念出 Sora。
这也让东谈主不由感叹:诚如《为什么伟大不行被蓄意》一书中所言,伟大的成就与发明,不竭是偏离首先蓄意的结果。
前东谈主的无心插柳,给后东谈主的告捷作念好了奠基石,而一条告捷的谈路是怎样踏出的,完满是出于随机。
Meta 微软 UC 伯克利斯坦福 MIT 亦有孝敬
此外,从 Sora 参考文件中不错看出,多个机构和名校都对 Sora 作念出了孝敬。
比如,用 Transformer 作念扩散模子的去噪主干这个门径,早已被斯坦福学者李飞飞诠释。
在客岁 12 月,李飞飞携斯坦福携手谷歌,用 Transformer 生成了传神视频。
生成的后果可谓忘形 Gen-2 并排 Pika,其时很多东谈主欢乐地感叹 ——2023 年已成 AI 视频元年,谁成想 2024 一开年,OpenAI 新的轰动就来了!
李飞飞团队作念的,是一个在分享潜空间中磨真金不怕火图像和视频生成的,基于 Transformer 的扩散模子。
史上初次,AI 学者诠释了:Transformer 架构不错将图像和视频编码到一个分享的潜空间中!
论文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdfMSRA 和北大辘集团队忽视的合资多模态预磨真金不怕火模子 ——NÜWA(女娲),也为 Sora 作念出了孝敬。
此前的多模态模子要么只可处理图像,要么只可处理视频,而 NÜWA 则不错为各式视觉合成任务,生成新的图像和视频数据。
名堂地址:https://github.com/microsoft/NUWA为了在不同场景下同期秘籍说话、图像和视频,团队假想了一个三维变换器编码器-解码器框架。
它不仅不错处理手脚三维数据的视频,还不错顺应区别手脚一维和二维数据的文本和图像。
在 8 个卑鄙任务中,NÜWA 都获取了新的 SOTA,在文本到图像生成中的阐扬,更是径直卓越了 DALL-E。
NÜWA 模子相沿的 8 种典型视觉生成任务
草蛇灰线,伏脉沉。踩在前东谈主的肩膀上,通过历害的直观和不眠握住的高强度责任,OpenAI 的究诘者就这么点对了科技树。
鼎力出名胜的时候到了,不拿出一百亿好意思金的大厂就会 out诚然,还有少量不得不承认的是:OpenAI 能作念出 Sora,亦然因为背后无数的资金相沿。莫得资金,就没迥殊据和算力。即使点对了科技树也无法考据。不错说,Sora 是另一个设立在 Transformer 上的暴力好意思学。
当今,芯片 + AI 是东谈主类有史以来最大的科技海浪。不拿出 100 亿好意思金的大厂,就要掉队了。
国内这边,方法又会怎样变换?让咱们拭目而待。
参考贵府:
https://weibo.com/1727858283/O1isjz6aw
https://openai.com/research/video-generation-models-as-world-simulators
https://weibo.com/3235040884/O19wnxB9Y
本文来自微信公众号:新智元 (ID:AI_era)
告白声明:文内含有的对外跳转衔接(包括不限于超衔接、二维码、口令等方法),用于传递更多信息,省俭甄选时代,结果仅供参考清纯诱惑,IT之家系数著述均包含本声明。