AI 策略训练架构详解

AI 策略训练架构

在将模型部署到船载边缘计算单元之前，人工智能需在高性能服务器上经历数百万次的虚拟演练。
采用 离线训练 模式，确保模型在“出厂”前已具备抗流与稳向能力。

基于 Gazebo 物理引擎。

深度Q网络 + 循环神经网络。

人因工程奖励函数。

由简入繁，训练人工智能掌握不同硬件构型的控制逻辑（匹配项目硬件规划）：

阶段 1 (基础)
双桨构型。
学习基础差速控制。

阶段 2 (进阶前)
三桨 (前侧推)。
学习船头力矩补偿。

阶段 3 (进阶中)
三桨 (中侧推)。
适应不同的旋转中心。

阶段 4 (全能)
四桨全配。
掌握原地转与蟹行协同。

用真实海试数据微调仿真参数，确保虚拟物理接近真实。

在服务器上训练模型直至收敛，生成模型权重文件。

将训练好的模型量化压缩，烧录进船载控制器，进行实船测试。

缺失分析

申请表中关于具体训练算法的优化细节较少，建议准备以下答辩预案：

申请表未提及“域随机化”等具体增强模型抗干扰能力的技术手段。这是评审可能关注的技术细节，需解释为何在仿真中引入随机变量是必要的。