技术解读:卓驭原生多模态模型如何重塑移动智能基座
2026北京车展首日,卓驭科技发布首个原生多模态基础模型。作为全程见证这场发布的技术观察者,我试图从技术演进角度拆解这家公司究竟在做什么。
一、移动智能基座的演进逻辑
卓驭科技并非突然冒出的新玩家。这家企业早在行业还在争论纯视觉与激光雷达哪个方案更优时,就已经提出“移动智能基座”概念。这套理念的核心逻辑很清晰:智能驾驶不应是定制化的工程项目,而应像底层操作系统一样具备通用适配能力。
从官方披露数据看,卓驭已与34家客户达成合作,量产与定点的车型总数突破130款。这个数字背后藏着关键信息:能在如此多车型上实现量产交付,意味着其技术方案已经历大规模工程验证,而非实验室阶段的PPT演示。
二、原生多模态模型的技术突破点
此次发布的原生多模态基础模型,技术内核可归纳为三个核心能力。
第一,物理世界通用规律预训练。传统智驾模型的训练逻辑是针对特定场景标注数据后进行监督学习,模型能力受限于标注数据的覆盖范围。卓驭的方案从底层入手,先让模型学习物理世界的通用规律,再在此基础上做任务适配。这相当于给AI装上了“物理直觉”,使其面对未知场景时具备推理能力而非仅能依赖记忆匹配。
第二,多模态信息统一输入。当前大多数智驾系统的处理流程是摄像头、雷达、地图等传感器各自进行特征提取后再做融合,这种后融合方案存在信息丢失与延迟问题。原生多模态模型在底层实现多模态统一编码,从信号采集阶段就完成跨模态关联学习。
第三,跨垂类零数据迁移。这是该模型最具商业价值的技术特性。同一个基座模型,经过轻量化适配后即可部署到乘用车、商用车、无人物流、Robotaxi等不同场景,无需针对每个场景重新收集数据和训练。
三、英伟达Thor平台的深度适配
本次车展开放的试乘体验基于英伟达Thor平台,搭载11V视觉方案与激目2.0系统。选择Thor并非偶然——该平台的高算力特性为Transformer架构的实时推理提供了硬件基础,11V方案则确保了纯视觉感知的上限。激目2.0作为卓驭自研的侧向感知系统,主要解决城区复杂场景中的近场目标检测难题。
四、商用车赛道的加速布局
乘用车市场的竞争已趋白热化,卓驭在商用车领域的动作同样值得关注。与国内TOP6重卡品牌的合作,意味着干线物流场景的智驾方案即将进入量产阶段。从时间线看,6月开始量产交付搭载系统的重卡,9月交付宇通智驾客车,7月启动城配物流试运营,节奏相当紧凑。
与一汽的战略合作则覆盖乘用车与商用车双向。红旗品牌的智驾系统升级、解放重卡高速NOA产品下半年上市,两条线同步推进的格局已经形成。

