近日,我院郭景华副教授团队与中国工程院院士、清华大学李克强教授团队合作在智能交通与网联自动驾驶领域取得关键突破。研究团创新性地提出通信延迟下知识引导型自学习混合车辆队列控制框架,该框架为网联自动驾驶系统的发展和推广提供了一种可扩展、通用的解决方案。国际顶级综合期刊《Nature Communications》 于2025年8月19日报道了这项研究成果《Knowledge-guided self-learning control strategy for mixed vehicle platoons with delays》。

01 研究背景
随着自动驾驶的快速发展,现代交通系统即将迎来不同等级的自动驾驶汽车与传统人类驾驶汽车长期共存的混合交通发展阶段。然而,传统人类驾驶汽车受人类驾驶行为影响,其行为具有高度不可预测性,直接影响混合交通流的稳定性与运行效率。此外,C-V2X无线通信固有的随机时延和数据丢包等特征会显著降低智能网联汽车的控制精度,导致车速匹配偏差或车距失控。这些问题叠加导致混合车辆队列的道路通行能力、能耗效率与行驶安全性难以协同提升,成为制约网联自动驾驶系统从技术研发走向实际落地的瓶颈。
02研究内容
(1)“CV-HVs-CV”结构分解与云控架构设计
针对混合交通场景的复杂性,研究团队将整体队列分解为多个通用的 “CV-HVs-CV”结构,适用于自动驾驶车辆与传统人类驾驶员车辆混行的真实场景,且可作为混合车辆队列的通用单元。同时,引入云计算平台作为核心处理节点:路侧单元收集交通波速、拥堵密度等宏观交通信息,通过无线通信传输至云端;云平台提供高性能计算资源,支持复杂控制算法的实时决策,同时通过弹性存储空间存储多个神经网络模型,实现模型快速加载与调用。网联自动驾驶汽车通过无线通信与车载雷达传感器,实现与其他车辆、云平台及路侧单元的实时数据交互。

图1. 所提出的车-路-云混合车辆队列控制框架
(2)时延下知识引导型自学习混合车辆队列控制
创新性地构建知识-机器学习集成形式,利用运动波模型与Newell跟驰模型的物理模型知识,将提取的交通特征融入混合车辆队列的自学习控制过程,提升了模型的泛化能力、可解释性和可信度。针对通信时延难题,团队扩展SAC的状态表征维度,将历史时刻的控制指令纳入SAC算法的状态表示中,补偿时延对当前状态的影响;并建立动态控制模型切换机制,通过时间戳实时检测时延,将时延划分为多个区间并匹配对应控制模型,实现随机通信时延下混合车辆队列的强鲁棒、高可靠控制。

图2.知识引导型自学习控制框架的算法流程
(3)核心指标性能验证
围绕交通波动抑制、驾驶舒适性、能源消耗、交通流稳定性四大关键维度,提出的策略实现协同提升:交通波动较PPO降低32.06%、AC降低26.44%,有效缓解传统车辆引发的交通波传播;驾驶舒适性较PPO提升53.84%、CVDS-IDM提升29.70%,避免急加速/急减速导致的不适;能耗较AC降低25.94%、CVDS-IDM降低16.54%,通过平滑控制输入减少能源浪费;交通流稳定性较AC提升22.27%、CVDS-IDM 提升19.23%,确保队列行驶的一致性。四项指标的性能提升百分比最高达53.84%,充分验证策略的综合优势。
(4)通信时延下鲁棒性分析
受网络条件波动与环境干扰影响,各阶段通信时延具有随机性,这种随机性会显著影响控制模型性能。为解决这一问题,提出控制模型切换机制。在状态维度相同的前提下,优先选择与检测到的时延值最匹配的模型,确保控制模型在随机时延环境下仍能保持最优性能,实现对随机干扰的鲁棒性。此外,在随机时延下进行 100 次实验,所有评价指标均仅存在小幅波动,且 6号网联自动驾驶车辆的指标中位数优于其前方传统车辆(3~5号车),验证了所提方法对随机时延的鲁棒性。




图3. 随机通信时延下混合车辆队列性能指标
(5)车辆汇入/汇出场景验证
在传统车辆汇入/汇出的高危场景中,策略实现“零碰撞率”—所有车辆轨迹平稳上升,相对位置保持一致。而CVDS-IDM、DDPG 等方法因决策延迟或策略不稳定,出现轨迹交叉,存在碰撞隐患。

图4. CVDS-IDM、DDPG、PPO及所提策略下,存在人类驾驶车辆换道行为时混合车队的位置曲线(a–c 为CVDS-IDM对应的曲线;d–f 为DDPG对应的曲线;g–i 为PPO对应的曲线;j–l 为所提知识引导自学习策略对应的曲线。)
03 总结
本研究围绕混合交通场景难题,从架构构建、算法设计到性能验证,开展系统研究。提出“CV-HVs-CV”结构分解方案,结合“车-路-云” 协同架构,通过路侧单元采集宏观交通数据、云平台提供高性能计算资源与弹性存储空间、CV实现多主体数据交互,突破传统分布式控制的资源限制,为混合车辆队列控制提供高效的硬件与通信支撑;构建“知识-机器学习”集成形式,一方面通过综合运动波模型与Newell跟驰模型,解决传统人类驾驶车辆行为预测难题;另一方面扩展SAC算法状态表征维度,将历史时刻的控制指令纳入SAC的状态表征中、建立动态控制模型切换机制,实现随机时延下的强鲁棒、高可靠控制;从时延波动、CV渗透率变化、车辆换道、汇入/汇出等复杂工况的全方面验证,结果显示策略全面优于现有方法,且实现车辆汇入/驶出场景零碰撞,为网联自动驾驶技术规模化落地提供充分的性能支撑。
论文以厦门大学萨本栋微米纳米科学技术研究院、清华大学车辆与运载学院为通讯单位,我院郭景华副教授与清华大学李克强教授为论文的共同通讯作者,该研究工作得到了国家自然科学基金委、科技部、清华大学智能绿色车辆与交通全国重点实验室等的支持。
论文链接
https://www.nature.com/articles/s41467-025-62597-x