行业观点丨Sora诞生-自动驾驶闪电升级

时间：2024-02-29

　　近日，清华汽研院智能网联中心技术总监孙辉接受《中国汽车报》采访时表示：

　　在感知方面，Sora可以高质量生成符合物理世界规律的长达1分钟的连续视频，意味着对视频的理解能力也达到了一个新的水平，这势必将为自动驾驶感知注入新的活力。在自动驾驶场景生成方面，corner case一直很难获得，导致自动驾驶出现了严重的长尾问题，带来安全风险，类似Sora这样的生成模型有望根据提示生成大量的边缘场景，用于自动驾驶算法的训练和测评。

　　清华汽研院技术团队依托AI算法及平台化技术，持续迭代Neptune数据治理平台，重点研发大模型驱动的场景挖掘、合成数据、数据脱敏等产品，语义分割效率提升50%，数据脱敏算法准确率>95%，可为客户提供数据处理工具链部署及数据生产与应用服务。

　　以下《中国汽车报》原文：

　　雨后都市,繁华街道，一位女士从远处缓缓走来......这一长达60秒、一镜到底的视频，一夜之间在全网刷屏，只因其出自AI之手。2月16日，OpenAT推出文生观频大模型——Sora,其可根据文本生成长达60秒的视频，并能保持视频中出现的入物、景色连贯性。即便切换镜头，人物仍然能够保持一致。

　　Sora的到来，给诸多相关行业丢下了新年第一颗“重磅炸弹”。在众人感叹传统影视业、新闻业、游戏业或将被改变的同时，与AI息息相关的自动驾驶领域也备受关注。360创始人周鸿祎便表示，Sora意味着AGI实现可能从10年缩短至一两年，OpenAI在自动驾驶方面将交出一份让众人惊讶的答卷。

　　Sora问世自动驾驶涌新机

　　从去年年初的ChatGPT，到如今的Sora，AI对人类世界的影响已无需多言。如果说ChalGPT更多“轰动”，Sora则让人切实感受到了“重构”之感。就连特斯拉首席执行官埃隆·马斯克也对此表示：gg humans（人类认输）。

　　实际上，Sora并非首个文生视频大模型。据不完全统计,截至去年年底，文生视颜领域发布的相关工具和产品已达20余种，其中不乏Runway、Pika等热度极高的产品。今年1月，谷歌也推出名为Lumiere的文生视频扩散模型，一次可生成80帧视频（16FPS下5秒视频/24FPS下约3.34秒视频）。中国本土企业字节跳动也正在研发名为Boximator的视频模型，预计将在2-3个月内发布测试网站。不过，与平均仅能生成3-4秒视频的“同行们”相比，可生成60秒超长视频的Sora无疑具备碾压之势。

　　除了时长上的优势，Sora可生成带有动态视角变化的视频，人物、场景元素在三维空间中的移动更加自然。此外，Sora不仅能够接受文字的输人提示，还可根据静态图像生成视频，扩展现有视频或填充缺失帧。更为关键的是，OpenAI方面表示，Sora能够深刻理解语言，不仅可以理解用户文本提示，还理解这些事物在物理世界中的存在方式。如在一个演示视频中，人在咬了汉堡后，汉堡上准确出现咬痕，展现了Sora对人与食物互动的准确理解。

　　一位自动驾驶资深从业者表示，Sora展现出了大模型和生成式AI技术的快速发展和巨大潜力，在利用生成虚拟的数据进行自动驾驶模型的训练和自动系统的验证等方面将产生巨大彤响。“训练端到端自动驾驶模型需要海品、丰富的数据，包括图片、视频、驾驶行为或动作等等，如果只使用真实世界收集的数据，整个系统的数据成本、训练成本、开发周期和实际性能可能并不理想。如果有一个了解真实物理世界的自动驾驶世界模型，知道静态、动态的环境元素，理解驾驶行为，就能够快速、低成本地生成逼真数据，提升自动驾驶开发效率。"他说道。而Sora展现出的对真实世界的理解和模拟能力，恰怡证明了，打造这一世界模型的可行性和价值。

　　对此，正在应用这一能力的特斯拉似乎更有发言权。马斯克表示，特斯拉在约一年前便已掌握用精确物理原理制作真实世界视频的能力，可预测到机器准确的物理特性，这对自动驾驶至关重要。据悉，最新版本的特斯拉FSD V12仅通过分析数十亿帧人类如何驾驶汽车的视频便自学了驾驶技能。根据马斯克分享的视频，AI同时生成了7个不同角度的驾驶视频，仅需输人“直行”“变道”之类的指令，便可让7个角度视频同步变化。一位业内人士称，未来自动驾驶可利用Sora之类的大模型进行场量预测，如给定车辆当前出现的画面，让Sora生成未来几秒的视频，进行预测性驾驶。

　　清华大学苏州汽车研究院智能网联中心技术总监孙辉在接受记者采访时表示，Sora的出现将引领自动驾驶在“交通环境理解”和”自动驾驶场景生成”两个方向的发展。首先，在对交通环境及驾驶态势的理解上，目前的自动驾驶系统多以连续接受多摄像头图像数据作为输人，仍有较大的进步空间。而从目前Sora生成视制的时长、连续性、质量上看，其对视频的理解能力已达到新的水平，势必为自动驾驶感知注入新的活力。

　　其次，在自动驾驶场景生成方面，由于Comer Case难以获得,自动驾驶存在严重的长尾问题，如极端天气下的目标识别、高速公路上的动物识别等场量，由此带来较大安全风险。孙辉认为，利用Sora之类的文生视频模型能够通过语言指引，辅助生成大量的边缘场景视频，经人工筛选后，可用于自动驾驶感知算法的训练，测评。

　　缺陷尚存短期应用待评估

　　由于大模型本身具备的自解释性、更强的泛化能力、知识图谱调用能力，去年以来，不少车企、自动驾驶企业便已开始加快大模型在自动驾驶领域的应用，以达到降低数据成本、缩短开发周期、提升系统性能等目的。中国科学院雄安创新印究院认知智能实验室副主任黄武陵认为，随着Sora之类的大模型不断迭代，现有基于视觉的世界模型有望生成真正的三维世界，大模型将进一步赋能自动驾驶。

　　不过，作为新生事物，Sora并非完美。OpenAl指出，Sora当前还存在很多不足，如难以准确模拟复杂场景中的物理现象、可能无法理解具体的因果关系、可能混淆提示的空间细节等。根据已披露的Sore生成视频，不符合物理规律的Bug不在少数，如跑步机上反向跑步、人吹蜡烛但烛火无晃动、右腿连续两次向前迈步、杯子未摔碎红酒便酒满桌面等何题。对此，孙辉表示，从目前的信息来看，Sora的文生视频功能还存在较大的不确定性，有待进一步提升。

　　就Sora存在的生成结果不符合现实真实性的问题，多位业内人士表示，这并非Sore自身问题，而是所有类似大模型均存在的问题。未来，随着训练的加强，这类问题会得到解决。但黄武陵提出，如何解决过程中出现的错误累积也同样是一大难题。此外，现阶段Sora仅能生成1分钟左右的视频，后续随着生成时长的延续，能否保持视频生成质量和一致性还有待观察。

　　针对自动驾驶仿真测试领域的应用，腾讯数字孪生产品部总经理苏奎峰也对当前Sora的生成质量表示质疑。他认为，自动驾驶仿真测试所需的世界模型是三维、真实的，需要带有真值的三维数据。“在此基础上进行场景自动生成，三维环境改造及生成等任务，不仅要求视觉输出，也要求三维点云等虚拟传感输出，因此Sora还需进一步提升。“黄武陵接着说。

　　“目前，自动驾驶算法多采用BEV算法，是通过融合多个（一般6个以上）周视摄像头的数据，将三维环境信息投影到二维平面，以俯视视角来展示环境中的物体和地形。"孙辉称，BEV算法要求输入准确的相机内参及外参（标定关系），使之符合3D世界真实的物理规律。但就目前的演示情况，Sora之类的生成数据无法做到这一点。在他看来，随着技术不断演进，比较理想的状态是，AI大模型可接受多模态信息（文本、语音、视频等）作为参考输人，并通过对这些参考的理解生成内容，这样会有更好的指向性和使用价值。

　　警惕泡沫夯实自身能力

　　自ChatGPT向世后，中国的大模型以前所未有的速度增加。截至去年5月，我国研发的大模型数量便已排名全球第二，10亿参数规模以上的大模型已发布79个。不过，大模型终究并非以量取胜，以质取胜才是关键。近来，不少业内人士认为，国内在大模型发展与国外存在很大差距，华大集团首席执行官、华大基因副董事长尹烨便表示，国内大模型陷人概令炒作的资本套路，大部分都是“多小散乱”,实力存疑。孙辉坦言，Sora的出现，表明国内大模型相关的研发进度仍落后于美国。

　　大模型的发展往往需要高算力AI芯片的支持。OpenAI创始人、首席执行官萨姆·奥尔特曼此前便反复辑调，可用来训练AI大模型的GPU芯片数量十分稀缺，其近日便计划寻求7万亿美元资金建设AI芯片工厂。对于中国大模型企业而言，由于美国相关出口限制，英伟达H200、H100、A100等大模型训练所需的算力芯片均无法获取，客观上限制了国内大模型相关企业的探索，呈现“长于垂域应用，弱于新技术路线探索"的发展态势。此外，限于算力硬件的发展水平，当前大模型在自动驾驶等领域的产业应用会稍滞后于技术发展。

　　目前，社会各方都意识到人工智能生态建设的重要性，力求加速追赶。日前，国务院国资委召开了“Al赋能产业焕新”中央企业人工智能专题推进会，强调要构建一批产业多模态优质数据集，打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。此外，华为、摩尔线程等本土企业正在加快GPU芯片研发，助力AI大模型发展。“随着华为昇腾910、摩尔线程S4000等国产替代产品的上市，预计2024年下半年起，国内大模型会迎来加速追赶的时期。"孙辉表示。

　　在加快大模型技术探索的同时，孙辉强调，汽车产业拥有巨大的大模型应用市场空间，将对技术迭代起到重要的促进作用。因此，汽车产业企业必须加大对AI大模型的投入力度，聚焦某类应用的大模型微调，如座舱交互大模型、客服大模型、维修大模型等。今年以来，小鹏汽车、理想汽车、吉利汽车、比亚迪等车企均提出要聚焦AI技术发展。其中，吉利汽车集团首席执行官淦家阅提出，AI将成为智能汽车的分水岭，没有AI的汽车只是出行工具，具备AI的才是智能伙伴。1月初，吉利正式发布汽车行业全栈自研全场景AI大模型——吉利星睿AI大模型。比亚迪则计划投入千亿元资金入局AI智能化，并于前不久首次公布了自研璇玑AI大模型。

　　“包括Sora在内的这一轮大模型，尤其是多模态大模型的发展，必然会对自动驾驶行业产生颠覆性影响，全无人智驶的可行性将在近几年内得到论证。"孙辉称。

关于我们

科技成果

服务平台

行业交流

最新资讯

加入我们

行业观点丨Sora诞生-自动驾驶闪电升级

友情链接