栏目分类

热点资讯

最专业股票配资申请

你的位置：股票配资申请过程_炒股配资官网_最专业股票配资申请 > 最专业股票配资申请 >

东京街头视频流出，硅谷巨头不淡定了

发布日期：2024-02-26 04:43 点击次数：78

唯物的中国芯片产业深度观察

必须承认，目前这个AI时代只有一位主角，OpenAI。

它的聊天机器人ChatGPT，不上法学院就通过了律师资格考试。现在，它的最新模型Sora，我们大胆想象一下，说不定某一天会拿到奥斯卡。

Sora于2月16日上线，根据文本提示，可创建长达一分钟的逼真视频。这些视频呈现“多个角色，特定类型的动作，以及充满细节的复杂场景”。

现在Sora还没有开放使用，未来会提供给“数量有限的创作者”，售价应该不便宜。

Sora首页/OpenAI

Sora面世后，如ChatGPT一样刷屏全球媒体。

OpenAI首席执行官山姆·奥特曼热情接受网友“点单”，在X上放送多个Sora绘制的精美视频。科技界大佬杨立昆、贾扬清、Jim Fan、谢赛宁、周鸿祎、李志飞等人竞相评论，马斯克直接感慨“人类愿赌服输”。

OpenAI的独角戏时代，对普通人而言是技术平权的好事，对AI从业者来说却是沉重的压迫。

最高兴的是谁呢？造芯片的。

Sora冲击奥斯卡

Sora得名于日语“天空”一词。研究团队成员蒂姆·布鲁克斯和比尔·皮布尔斯介绍，选择这个名字，是因为它能“唤起无限的创造潜力”。

官方网站贴出了Sora创作的东京街头视频。“美丽的、白雪皑皑的东京市，镜头穿过熙熙攘攘的城市街道，跟随几名行人享受美妙的雪天，有人在路边小摊购物。绚丽的樱花与雪花一起在风中飞舞。”

Sora制作的视频

另一个视频根据如下提示词产生，“几只巨大的、毛茸茸的猛犸象，踩着白雪皑皑的地面走近，风吹动它们身上的长长毛发，远处是白雪覆盖的高大树木和雄伟山脉，午后的光线营造出温暖的光芒。”

Sora制作的猛犸象视频/OpenAI

有了提示词，Sora就“知道”如何用镜头语言讲故事。

比尔·皮布尔斯用一个“海洋视频”举例，该视频根据“一个华丽的珊瑚礁世界”等描述创建，画面充斥着五颜六色的鱼类和海洋生物。Sora通过变化摄像机的角度和进程，创造出了“叙事节奏”。

“实际视频里有多个镜头变化——这些变化不是拼接在一起的，而是由模型一次性生成的，”皮布尔斯说。“我们没有告诉它这样做，它自动这样做的。”

Sora制作的视频

Sora最令人吃惊的本事，就是没有经过训练而自行创造的能力。

Sora模型基于Transformer架构，建立在DALL·E 3和GPT模型之上，这是OpenAI综合利用自家前沿技术方面的又一次突破。它有三大核心特点，“60秒超长长度”“单视频多角度镜头”，以及“世界模型”，一举打败所有同类竞品。

在此之前，AI视频生成领域的明星产品Runway和Pika，只能做3或4秒长的模糊视频，角色形象也很扭曲，还得用户输入图片——受技术水平所限。

Sora、Pika、RunwayML和Stable video用相似关键词得出的视频，结果显示Sora的视频更为流畅/@Gabor Cselle

像YouTube火爆的AI视频迷因“威尔·史密斯吃面条”，用网友的话说“完美地用视觉效果传达出洛夫克拉夫特式恐怖”——人物面目狰狞，看了一宿睡不着觉。

网络上流传的“威尔·史密斯吃面条”

而Sora达到了惊人的高清照片级真实感，“运镜”手法更令人难忘——围绕同一主体实现远景、中景、近景、特写等不同镜头的切换。

虽然“东京街头飘雪”视频里，两个角色走着走着就要走进死胡同；“猛犸象”视频里，前头两只猛犸象有点“顺拐”；“戴墨镜的时髦女子”左手拇指比例不对；被咬了一口的饼干没有牙印……但Sora的整体视觉呈现效果依然无可匹敌。

Sora发布的同一天，谷歌DeepMind推出Gemini 1.5 Pro，几乎没抢到什么眼球。去年大火的Stability AI也发布了新视频模型SVD1.1，自觉“技不如人”，又火速删除了该条官方推文。

Stability AI发布了新视频模型SVD1.1后又删除官方推文

大力出奇迹

跟一年多以前横空出世的ChatGPT一样，OpenAI的秘诀一直是屡试不爽的Scaling Law（缩放定律）。只要模型足够“大”，根据特定算法，就会产生智能“涌现”的能力。

当然，一般的机构和公司，也没有能力达到OpenAI的水平。别小看“大力出奇迹”，前提是你得有那么“大力”。

Sora是一种AI模型，使用文本到视频的合成技术，按文本提示生成视频。这种技术将自然语言转换为视觉表示形式——图像或视频。

OpenAI在官网展示Sora的生成逻辑

深度神经网络依然是Sora的基础，它是一个带有Transformer骨架的扩散（Diffusion）模型，AI从数据中学习并执行复杂的任务。Sora就是从“学习”的大型视频数据集里学会了各种风格、主题和流派。

Transformer模型本质是一个编码器-解码器，输入原始语言，生成目标语言。扩散模型的原理是先给数据添加高斯噪声，再反向去除，从中恢复数据本貌。

简单粗暴地理解Sora的原理，就是翻译器+搜索引擎+概率制作（内容）。

首先，拿到提示词后，Sora先分析文本，提取关键字，比如主题、动作、地点、时间和情绪，再从它的数据集里搜索与关键字匹配的、最合适的视频。

Sora制作的视频/OpenAI

其次，Sora将数据集里合适的视频混合在一起，重新创建一个符合要求的视频。在“创造”的过程中，它要“知道”场景中有哪些对象和角色，它们的外形，它们如何运动，对象如何交互，以及受到环境影响后如何表现。

根据用户的喜好，Sora会修改视频的风格。假如用户想要一个35毫米胶片样式的视频，Sora会调整效果，更改图像的亮度、色彩和摄像机角度。这一点和MidJourney等“文生图”应用类似。

Sora可以生成分辨率1920x1080的视频。它也可以基于静止图片创建视频，使用新素材扩展现有素材。比如用户给它一张森林图片，它可以帮你加上鸟、兽、人。给它一张汽车行驶图，它能加上道路、交通灯、沿途建筑物和风景。

Sora将两段视频结合后产生的奇幻景象/OpenAI

“补丁”是新方法，类似于GPT里的Token——较小数据单元的集合。“补丁”叠加在一起，凑成完整内容。

“世界模型”这一核心特点，代表了文本生成视频领域的最高级研究方向：通过对真实物理世界的模拟，世界模型让计算机像人类一样全面、准确地“认知”世界。其最根本意义就是“言出法随”——你说什么，世界就是什么。

世界模型最早由图灵奖得主、Meta首席科学家杨立昆（Yann LeCun）2023年6月提出。2023年12月，Runway宣布建造“通用世界模型”，用生成式AI模拟整个世界。

Runway宣布建造“通用世界模型”，并在官网首页介绍了该模型

然而，“果子”还是让OpenAI摘到了。

Sora面世后，杨立昆的看法值得思考。他发帖说，连接主义是有问题的，符号主义更有前途。意思就是重数据量和网络规模、轻抽象表示和物理结构是不行的；要反过来。

因为模型要学习符号逻辑和物理意义，才能进一步理解因果，理解物理现实，否则长视频上一定“露馅儿”。

“造芯”是硬道理

有Sora的能力，何愁“元宇宙”遥遥无期。

《头号玩家》的世界近在眼前：带上苹果Vision Pro，打开支持8K视频的Sora应用，想象一个美好的场景，生成白日梦，然后成瘾。

苹果Vision Pro宣传片

Sora也让电视剧《黑镜》里《Joan Is Awful》一集变为现实。女主角发现自己的生活与电视剧惊人相似。随着情节推进，她逐渐揭露真相，一个根据观众个性、喜好及生活经历生成的复杂系统，已经渗入普通人的生活。

《黑镜》第六季第一集《Joan Is Awful》展示了流媒体窃取用户信息等问题

随着Sora技术的更新和应用，新的娱乐时代近在眼前。所有的文化产品都不再是单向度的叙述和输出，而是能反应、适应每一位观众独特偏好的互动“游戏”。

当人工智能越发显现出无所不能的力量之时，基于人类作为社群而不仅仅是种群的生命经验、社会经验提出问题，解决问题，仍然是我们“老调重弹”的挽尊之道。

不过，在强调“想象力夺权”之前，最紧张的反而是芯片制造商：视频模型的竞争和语言模型相差不远，先是拼团队的工程化调参能力，最后就是拼算力。

除了文本生成视频外，Sora还支持图片生成视频。图为OpenAI首页展示的Sora“图像生成视频”

就在OpenAI首席执行官奥特曼开口“七万亿美元造芯片”前后，AI芯片赛道人满为患。

AI芯片传统三巨头里，占有98%市场份额的英伟达，凭借近年人工智能的东风，一个星期前市值达到1.78万亿美元，超越亚马逊，成为美股市值第四大公司，距离市值1.8万亿的谷歌一步之遥。AMD和英特尔还在紧追不舍。

Meta于2月公布最新的自研定制芯片计划。2月17日，软银集团创始人孙正义宣布筹措1000亿美元，成立AI芯片企业，以便与前几年收购的芯片设计公司ARM互补。

孙正义

据The Information统计，截至目前，全球有超过18家用于AI大模型训练和推理的芯片设计初创公司，包括Cerebras、Graphcore、壁仞科技、摩尔线程、d-Matrix等，融资总额已超过60亿美元，企业整体估值共计超过250亿美元。背后的投资方包括红杉资本、OpenAI、五源资本、字节跳动等。

各家争先“造芯”，最引人注目的还是OpenAI。

去年，CEO奥特曼就开始为代号Tigris的芯片制造项目筹钱，当时号称要筹集100亿美元，希望生产出类似谷歌TPU、英伟达H100等芯片。2023年9月，OpenAI还招募了搞软硬件协同的著名牛人Andrew Tulloch。

OpenAI

2024年1月，奥特曼到访韩国，会见韩国三星电子和SK海力士高管，寻求芯片领域的合作。2月，奥特曼被曝出与阿联酋政府谈判，计划筹集“7万亿美元”。

AI时代出寡头。

以前做技术，参与者总有身处浪潮之中的感觉。如今，从业者们眼巴巴看着黄仁勋、奥特曼呼风唤雨，也眼巴巴看着投资越来越天文数字，模型数据量也越来越天文数字，无处排遣“浓浓的科技主义阶级压迫感”——找到自己的机会，也变得越来越难。

文中配图部分来源于视觉中国，部分来源于网络

上一篇：清华博士敛财2亿：AI很单纯，复杂的是人

下一篇：南沙三民岛恢复正常供水